版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Machine
Learning
with
Python神經(jīng)網(wǎng)絡(luò)從神經(jīng)元到深度學(xué)習(xí)11目錄11.111.311.2神經(jīng)元與感知機(jī)前饋神經(jīng)網(wǎng)絡(luò)深度網(wǎng)絡(luò)11.4本章小結(jié)神經(jīng)元與感知機(jī)本節(jié)介紹神經(jīng)元與感知機(jī)的原理及實(shí)現(xiàn)11.14
11.1神經(jīng)元與感知機(jī)11.1.1生物神經(jīng)元
圖11-1
生物神經(jīng)元的基本結(jié)構(gòu)和功能示意圖在生物學(xué)中,神經(jīng)元是一種特殊的神經(jīng)細(xì)胞,負(fù)責(zé)在體內(nèi)傳遞信號(hào),從而控制和協(xié)調(diào)身體的各種功能。圖11-1顯示的是一個(gè)基本的神經(jīng)元結(jié)構(gòu)。神經(jīng)元通過(guò)其樹(shù)突接收來(lái)自其他神經(jīng)元的信號(hào),然后在細(xì)胞體內(nèi)整合這些信號(hào)。如果整合后的信號(hào)足夠強(qiáng),神經(jīng)元會(huì)產(chǎn)生一個(gè)動(dòng)作電位,它會(huì)沿著軸突傳播。當(dāng)動(dòng)作電位到達(dá)軸突末梢時(shí),會(huì)引發(fā)神經(jīng)遞質(zhì)的釋放,這些神經(jīng)遞質(zhì)隨后與下一個(gè)神經(jīng)元的受體結(jié)合,從而實(shí)現(xiàn)神經(jīng)元之間的通信。大量的神經(jīng)元通過(guò)突觸相互連接,形成了復(fù)雜的神經(jīng)網(wǎng)絡(luò),這些網(wǎng)絡(luò)負(fù)責(zé)處理和傳遞信息,實(shí)現(xiàn)感知、思考、記憶和運(yùn)動(dòng)等復(fù)雜的生理功能。5
11.1神經(jīng)元與感知機(jī)11.1.2人工神經(jīng)元
數(shù)學(xué)模型(M-P模型)
在M-P模型中包含多個(gè)輸入節(jié)點(diǎn)
和一個(gè)輸出節(jié)點(diǎn)y。所有的輸入通過(guò)一定的權(quán)重進(jìn)行加權(quán)求和。這個(gè)加權(quán)和如果超過(guò)了閾值
,則輸出y=1,否則y=0。此過(guò)程用數(shù)學(xué)函數(shù)表達(dá)為:
(11-1)
其中H()是Heaviside階躍函數(shù),即,
(11-2)11-2M-P模型圖M-P模型可以實(shí)現(xiàn)邏輯與和或運(yùn)算M-P模型不能實(shí)現(xiàn)邏輯異或運(yùn)算M-P模型中的權(quán)重是通過(guò)人工設(shè)定的,其不具備學(xué)習(xí)能力6
注:(1)Heaviside階躍函數(shù)是一種激活函數(shù),顯然它把神經(jīng)元的輸出限制為0或者1,通常1和0分別代表神經(jīng)元處于興奮和抑制狀態(tài);(2)其他激活函數(shù)符號(hào)函數(shù):Sigmoid函數(shù):tanh函數(shù):
(3)Heaviside階躍函數(shù)和符號(hào)函數(shù)在零點(diǎn)處都是不連續(xù)不可導(dǎo)的。Sigmoid函數(shù)和tanh函數(shù)可以無(wú)限次求導(dǎo)。7
11.1.3單層感知機(jī)基本結(jié)構(gòu):數(shù)學(xué)表達(dá)(以單個(gè)輸出為例):8
11.1神經(jīng)元與感知機(jī)學(xué)習(xí)方式(以二分類(lèi)為例):數(shù)據(jù)集:目標(biāo):用一個(gè)超平面來(lái)將此數(shù)據(jù)集二分類(lèi)損失函數(shù):
其中M是分類(lèi)錯(cuò)誤點(diǎn)的集合優(yōu)化問(wèn)題及求解方法:(1)首先求出損失函數(shù)的梯度:
11.1.3單層感知機(jī)9
(2)隨機(jī)取一個(gè)錯(cuò)誤分類(lèi)點(diǎn)
按照如下的方式進(jìn)行更新參數(shù):
單層感知機(jī)的詳細(xì)訓(xùn)練過(guò)程:
11.1.3單層感知機(jī)10
python實(shí)現(xiàn)及參數(shù)說(shuō)明:構(gòu)造函數(shù)的聲明如下:sklearn.linear_model.Perceptron(*,penalty=None,alpha=0.0001,fit_intercept=True,max_iter=1000,tol=1e-4,random_state=None,eta0=1.0,n_jobs=None,shuffle=False,verbose=0,warm_start=False)主要參數(shù):1)penalty:正則化類(lèi)型。數(shù)據(jù)類(lèi)型為字符串,可選參數(shù)包括'l1'、'l2'、'elasticnet'和None。默認(rèn)值為None,即不使用正則化;2)alpha:正則化強(qiáng)度,即正則化項(xiàng)前的系數(shù),越大的alpha表示更強(qiáng)的正則化。數(shù)據(jù)類(lèi)型為浮點(diǎn)型,默認(rèn)值為0.0001;3)fit_intercept:是否計(jì)算截距。數(shù)據(jù)類(lèi)型為布爾型,默認(rèn)值為T(mén)rue,即計(jì)算截距。如果設(shè)置為False,則不會(huì)添加截距項(xiàng),即假設(shè)數(shù)據(jù)已經(jīng)中心化。
11.1.3單層感知機(jī)11
主要參數(shù):4)max_iter:迭代的最大次數(shù)。在訓(xùn)練過(guò)程中,如果超過(guò)最大迭代次數(shù)則停止。數(shù)據(jù)類(lèi)型為整數(shù),默認(rèn)值為1000。5)tol:收斂閾值,控制算法的停止標(biāo)準(zhǔn)。當(dāng)損失函數(shù)的變化小于該閾值時(shí),算法停止。數(shù)據(jù)類(lèi)型為浮點(diǎn)型,默認(rèn)值為0.0001。6)random_state:隨機(jī)數(shù)生成器的種子,用于初始化權(quán)重的隨機(jī)性。數(shù)據(jù)類(lèi)型為整數(shù)或RandomState實(shí)例,默認(rèn)值為None。7)eta0:初始學(xué)習(xí)率。對(duì)于某些更新規(guī)則,如SGD,該參數(shù)控制每次權(quán)重更新的步伐大小。數(shù)據(jù)類(lèi)型為浮點(diǎn)型,默認(rèn)值為1.0。8)n_jobs:用于并行計(jì)算的線(xiàn)程數(shù)。數(shù)據(jù)類(lèi)型為整數(shù),默認(rèn)值為None,即不并行。9)shuffle:是否在每輪迭代之前打亂訓(xùn)練數(shù)據(jù)。打亂數(shù)據(jù)有助于提高模型的泛化能力。數(shù)據(jù)類(lèi)型為布爾型,默認(rèn)值為False。10)verbose:控制日志的詳細(xì)程度。數(shù)據(jù)類(lèi)型為整數(shù),默認(rèn)值為0,即不輸出日志。11)warm_start:是否使用上一次訓(xùn)練的模型參數(shù)作為新的初始參數(shù)。數(shù)據(jù)類(lèi)型為布爾型,默認(rèn)值為False。12
【例11-1】感知機(jī)在鳶尾花數(shù)據(jù)集上的實(shí)現(xiàn)creat_thread.c【解】13
11.1.3單層感知機(jī)用python編譯并運(yùn)行程序?qū)⒌玫绞褂酶兄獧C(jī)模型對(duì)鳶尾花數(shù)據(jù)集進(jìn)行二分類(lèi)的準(zhǔn)確率為0.96前饋神經(jīng)網(wǎng)絡(luò)本節(jié)介紹前饋神經(jīng)網(wǎng)絡(luò)的原理與訓(xùn)練及實(shí)現(xiàn)11.211.2.1動(dòng)機(jī):?jiǎn)螌痈兄獧C(jī)無(wú)法實(shí)現(xiàn)非線(xiàn)性問(wèn)題15
11.2多層感知機(jī)(前饋神經(jīng)網(wǎng)絡(luò))11.2.2算法原理:前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)11.2前饋神經(jīng)網(wǎng)絡(luò)16
11.2.2算法原理輸入到輸出的計(jì)算過(guò)程網(wǎng)絡(luò)的權(quán)重和閾值參數(shù)分別是11.2前饋神經(jīng)網(wǎng)絡(luò)17
11.2.2算法原理誤差向后傳播算法(errorBackPropagation,BP):
對(duì)于單個(gè)樣本數(shù)據(jù)
是其真實(shí)標(biāo)簽,假設(shè)其經(jīng)過(guò)多層感知機(jī)處理后的輸出值為,即:
這里可以使用連續(xù)可導(dǎo)的Sigmoid函數(shù)作為激活函數(shù):
且
。則此數(shù)據(jù)上的均方誤差為:11.2前饋神經(jīng)網(wǎng)絡(luò)18
11.2.2算法原理誤差向后傳播算法(errorBackPropagation,BP):誤差反向傳播算法就是求解下面的優(yōu)化問(wèn)題:
上述最小化問(wèn)題可以用經(jīng)典的梯度下降流方法求解,得各個(gè)參數(shù)的更新式為:
11.2前饋神經(jīng)網(wǎng)絡(luò)19
11.2.2算法原理
誤差向后傳播算法(errorBackPropagation,BP):
下面我們將用鏈?zhǔn)椒▌t求解相關(guān)梯度。
首先,距離輸出層最近的是隱藏層,所以我們先來(lái)更新隱藏層的參數(shù)。結(jié)合公式(11-15)、(11-16)可得:
其次,求得輸入層到隱藏層的梯度如下:11.2前饋神經(jīng)網(wǎng)絡(luò)20
11.2.2算法原理
基于單個(gè)樣本的前饋神經(jīng)網(wǎng)絡(luò)的完整的訓(xùn)練過(guò)程:
注:1)α?(0,1)稱(chēng)為學(xué)習(xí)率或者步長(zhǎng),其大小直接影響模型的收斂速度和穩(wěn)定性;
2)每次僅利用一個(gè)訓(xùn)練數(shù)據(jù)更新網(wǎng)絡(luò)參數(shù)的誤差反向傳播算法被稱(chēng)為標(biāo)準(zhǔn)的BP算法;
3)標(biāo)準(zhǔn)BP算法的局限:參數(shù)更新頻繁、算法收斂較慢、坑出現(xiàn)“抵消”現(xiàn)象
;
改進(jìn)方法:累計(jì)BP算法。
11.2前饋神經(jīng)網(wǎng)絡(luò)21
11.2.2算法原理BP算法的潛在問(wèn)題:陷入局部最小值
解決辦法:
隨機(jī)初始化法
自適應(yīng)學(xué)習(xí)率法
動(dòng)量法過(guò)擬合:在訓(xùn)練集上的誤差不斷下降而測(cè)試集上的誤差反而上升
緩解方法:
降低模型復(fù)雜度
增強(qiáng)數(shù)據(jù)集
早停
正則化11.2前饋神經(jīng)網(wǎng)絡(luò)22
11.2.3python實(shí)現(xiàn)調(diào)用Keras庫(kù)的示例11.2前饋神經(jīng)網(wǎng)絡(luò)23
11.2.3python實(shí)現(xiàn)各參數(shù)含義如下:1)Sequential:這是一個(gè)線(xiàn)性堆疊的神經(jīng)網(wǎng)絡(luò)層的容器。2)Dense:這是一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)層,即多層感知機(jī)中的神經(jīng)元。其中,units是該層的神經(jīng)元數(shù)量,也就是該層的輸出維度。3)activation是激活函數(shù),用于引入非線(xiàn)性。常見(jiàn)的激活函數(shù)包括'relu'、'sigmoid'、'tanh'等。4)input_dim是輸入數(shù)據(jù)的維度,只在第一個(gè)`Dense`層中使用,表示輸入數(shù)據(jù)的特征數(shù)量。5)compile:編譯模型,準(zhǔn)備訓(xùn)練。6)optimizer:優(yōu)化器,用于更新網(wǎng)絡(luò)權(quán)重的算法。常用的優(yōu)化器包括'sgd'、'adam'、'rmsprop'等。7)loss:損失函數(shù),用于評(píng)估模型的預(yù)測(cè)值和真實(shí)值之間的差異。對(duì)于二分類(lèi)問(wèn)題,可以使用'binary_crossentropy';對(duì)于多分類(lèi)問(wèn)題,可以使用'categorical_crossentropy';對(duì)于回歸問(wèn)題,可以使用'mse'(均方誤差)。8)metrics:評(píng)估指標(biāo),用于評(píng)估模型性能。常用的評(píng)估指標(biāo)包括'accuracy'(準(zhǔn)確率)。11.2前饋神經(jīng)網(wǎng)絡(luò)24
11.2.3python實(shí)現(xiàn)具體例子【例11-2】多層感知機(jī)在手寫(xiě)體數(shù)字集MNIST上的實(shí)現(xiàn)?!窘狻?1.2前饋神經(jīng)網(wǎng)絡(luò)25
11.2.3python實(shí)現(xiàn)具體例子11.2前饋神經(jīng)網(wǎng)絡(luò)26
深度神經(jīng)網(wǎng)絡(luò)本節(jié)介紹經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)及其原理與實(shí)現(xiàn)13.311.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的基本思想人類(lèi)視覺(jué)系統(tǒng)的特點(diǎn):層次化和局部感受野CNN的特點(diǎn):層級(jí)結(jié)構(gòu)、局部特征提取11.3深度神經(jīng)網(wǎng)絡(luò)28
圖11.8人類(lèi)視覺(jué)系統(tǒng)處理信息圖11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)(1)卷積層:提取輸入數(shù)據(jù)的局部特征;局部連接和權(quán)值共享11.3深度神經(jīng)網(wǎng)絡(luò)29
11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)(2)池化層:在卷積層之后,通過(guò)對(duì)特征圖進(jìn)行降采樣,減少數(shù)據(jù)維度的同事并保留重要信息11.3深度神經(jīng)網(wǎng)絡(luò)30
11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)(3)激活函數(shù):引入非線(xiàn)性變換能力,增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力常用的激活函數(shù):Sigmoid函數(shù)Tanh函數(shù)(雙曲正切函數(shù))ReLU函數(shù)(修正線(xiàn)性單元)LeakyReLU函數(shù)ParametricReLU(PReLU)函數(shù)......11.3深度神經(jīng)網(wǎng)絡(luò)31
圖11-12
常用激活
函數(shù)11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)(3)全連接層(FullyConnectedLayer,F(xiàn)C層):通常位于網(wǎng)絡(luò)的末尾,負(fù)責(zé)將卷積層和池化層提取的特征進(jìn)行綜合和分類(lèi)。全連接層的每個(gè)神經(jīng)元都與前一層的每個(gè)神經(jīng)元相連,因此被稱(chēng)為“全連接”。
假設(shè)全連接層的輸入是一個(gè)一維向量
,
全連接層的輸出
可以表示為:
其中
是全連接層的權(quán)重矩陣,
是全連接層的偏置向量。11.3深度神經(jīng)網(wǎng)絡(luò)32
LeNet-5的網(wǎng)絡(luò)結(jié)構(gòu)11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)(1)回歸任務(wù):均方誤差損失(MeanSquaredError,MSE)、絕對(duì)損失(MeanAbsoluteError,MAE)等(2)分類(lèi)任務(wù):交叉熵?fù)p失(Cross-EntropyLoss)11.3深度神經(jīng)網(wǎng)絡(luò)33
11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法(1)隨機(jī)梯度下降法(SGD)(2)動(dòng)量法(3)自適應(yīng)梯度法(AdaGrad)(4)自適應(yīng)動(dòng)量估計(jì)法(Adam)11.3深度神經(jīng)網(wǎng)絡(luò)34
11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)及參數(shù)(1)導(dǎo)入了必要的Keras模塊,然后定義了模型的輸入形狀和類(lèi)別數(shù)11.3深度神經(jīng)網(wǎng)絡(luò)35
11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)及參數(shù)(2)創(chuàng)建了一個(gè)Sequential模型,并逐層添加了卷積層、激活層、池化層、展平層、全連接層以及輸出層11.3深度神經(jīng)網(wǎng)絡(luò)36
11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)及參數(shù)(3)編譯了模型,并打印出了模型的結(jié)構(gòu)11.3深度神經(jīng)網(wǎng)絡(luò)37
11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)及參數(shù)【例11-3】CNN在手寫(xiě)數(shù)字識(shí)別的實(shí)現(xiàn)?!窘狻?1.3深度神經(jīng)網(wǎng)絡(luò)38
39
運(yùn)行代碼,結(jié)果如下圖:圖11-13CNN實(shí)現(xiàn)手寫(xiě)體識(shí)別任務(wù)的結(jié)果圖40
11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的基本結(jié)構(gòu):
假設(shè)U,W,V分別代表輸入層到隱藏層的權(quán)值矩陣、隱層到隱層的權(quán)值矩陣和隱層到輸出層的權(quán)值矩陣,那么隱含層ht的值,不僅取決于當(dāng)前的輸入,還依賴(lài)與上一次隱含層的反饋值ht?1,
11.3深度神經(jīng)網(wǎng)絡(luò)41
11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的常用模式:
(1)序列到類(lèi)別模式:將一串輸入序列數(shù)據(jù)映射為一個(gè)固定長(zhǎng)度的輸出向量,這個(gè)輸出向量通常用于分類(lèi)任務(wù)。
11.3深度神經(jīng)網(wǎng)絡(luò)42
11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的常用模式:
(2)同步的序列到序列模式:主要用于序列標(biāo)注任務(wù),即每一時(shí)刻都有輸入和輸出,輸入序列和輸出序列的長(zhǎng)度相同。
11.3深度神經(jīng)網(wǎng)絡(luò)43
11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的常用模式:
(3)異步的序列到序列模式:輸入序列和輸出序列不需要有嚴(yán)格的對(duì)應(yīng)關(guān)系,也不需要保持相同的長(zhǎng)度
11.3深度神經(jīng)網(wǎng)絡(luò)44
11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的訓(xùn)練算法:時(shí)間反向傳播算法(BackPropagationThroughTime,簡(jiǎn)稱(chēng)BPTT)給定輸入時(shí)間序列數(shù)據(jù)訓(xùn)練樣本
,BPTT算法包含下面三個(gè)步驟:
11.3深度神經(jīng)網(wǎng)絡(luò)45
11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的實(shí)現(xiàn)及參數(shù)Pytorch中的RNN聲明函數(shù)
11.3深度神經(jīng)網(wǎng)絡(luò)46
11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的實(shí)現(xiàn)及參數(shù)主要參數(shù)
input_size:每個(gè)時(shí)間步輸入數(shù)據(jù)的特征維度。
hidden_size:RNN隱藏層的維度,定義了每個(gè)時(shí)間步中RNN網(wǎng)絡(luò)的隱藏狀態(tài)的大小。此參數(shù)控制模型的表示能力。
output_size:輸出類(lèi)別的數(shù)量。
num_layers:RNN的層數(shù)。多層RNN能夠捕捉更復(fù)雜的序列模式,但也會(huì)增加計(jì)算量。
dropout:Dropout概率,用于防止過(guò)擬合。當(dāng)num_layers>1時(shí),可以在RNN層之間使用dropout。
11.3深度神經(jīng)網(wǎng)絡(luò)47
11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的實(shí)現(xiàn)及參數(shù)【例11-4】RNN在手寫(xiě)數(shù)字識(shí)別MNIST數(shù)據(jù)集的實(shí)現(xiàn)?!窘狻?1.3深度神經(jīng)網(wǎng)絡(luò)48
49
50
51
11.3.3自編碼器(AE)算法原理11.3深度神經(jīng)網(wǎng)絡(luò)52
為構(gòu)建自編碼器,我們需要:編碼方法、解碼方法、將輸出與目標(biāo)進(jìn)行比較的損失函數(shù)。編碼器:通常由一系列降維操作組成,例如全連接層或卷積層,并使用非線(xiàn)性激活函數(shù)來(lái)捕捉數(shù)據(jù)的非線(xiàn)性關(guān)系。解碼器通:常由一系列升維操作組成,例如全連接層或反卷積層,并使用與編碼器相對(duì)應(yīng)的激活函數(shù)。損失函數(shù):用于計(jì)算重構(gòu)數(shù)據(jù)與原始數(shù)據(jù)之間的差異,例如使用均方誤差(MSE)或交叉熵。11.3.3自編碼器(AE)實(shí)現(xiàn)及參數(shù)11.3深度神經(jīng)網(wǎng)絡(luò)53
11.3.3自編碼器(AE)實(shí)現(xiàn)及參數(shù)11.3深度神經(jīng)網(wǎng)絡(luò)54
11.3.3自編碼器(AE)實(shí)現(xiàn)及參數(shù)【例11-5】AE在手寫(xiě)數(shù)字識(shí)別MNIST數(shù)據(jù)集的實(shí)現(xiàn)?!窘狻?1.3深度神經(jīng)網(wǎng)絡(luò)55
56
57
58
11.3.4深度學(xué)習(xí)新技術(shù)對(duì)抗生成網(wǎng)絡(luò)(GAN)11.3深度神經(jīng)網(wǎng)絡(luò)59
11.3.4深度學(xué)習(xí)新技術(shù)殘差網(wǎng)絡(luò)(ResNet)11.3深度神經(jīng)網(wǎng)絡(luò)60
11.3.4深度學(xué)習(xí)新技術(shù)注意力機(jī)制11.3深度神經(jīng)網(wǎng)絡(luò)61
“編碼-解碼”框架是目前大部分注意力模型的基礎(chǔ)。注意力模型涉及到查詢(xún)(Query)、鍵(Key)和值(Value)的三個(gè)基本概念。查詢(xún)(Query,簡(jiǎn)寫(xiě)為Q)指的是自主性提示,代表當(dāng)前詞想要關(guān)注的信息(即:我應(yīng)該關(guān)注什么信息)。鍵(Key,簡(jiǎn)寫(xiě)為K)K指的是非自主性提示,代表其他詞可以關(guān)注的信息(即:我這里有什么可以被關(guān)注)。值(Value,簡(jiǎn)寫(xiě)為V)指的是感官輸入,代表了關(guān)注后當(dāng)前詞和其他詞的信息(即:關(guān)注之后能得到的信息)。注意力模型的關(guān)鍵組件是注意力匯聚,其將查詢(xún)和鍵相結(jié)合,實(shí)現(xiàn)對(duì)值的選擇性輸出。11.3.4深度學(xué)習(xí)新技術(shù)注意力機(jī)制11.3深度神經(jīng)網(wǎng)絡(luò)62
常用的注意力機(jī)制:(1)自注意力機(jī)制(Self-AttentionMechanism)11.3.4深度學(xué)習(xí)新技術(shù)注意力機(jī)制11.3深度神經(jīng)網(wǎng)絡(luò)63
常用的注意力機(jī)制:(2)多頭自注意力(Multi-HeadAttention)11.3.4深度學(xué)習(xí)新技術(shù)注意力機(jī)制11.3深度神經(jīng)網(wǎng)絡(luò)64
常用的注意力機(jī)制:(3)Transformer
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園中班教案我們的商店開(kāi)張了(2025-2026學(xué)年)
- 幼兒園小班婦女節(jié)教案《感恩三八》含反思(2025-2026學(xué)年)
- 2026年智慧城市解決方案架構(gòu)師面試題及答案
- 2026年旅游公司導(dǎo)游部面試題及答案解析
- 游戲項(xiàng)目合作開(kāi)發(fā)協(xié)議書(shū)
- 2026年軟件測(cè)試專(zhuān)業(yè)崗位技能要求及常見(jiàn)問(wèn)題解析
- 連鎖協(xié)議書(shū)開(kāi)頭怎么寫(xiě)
- 世界保護(hù)動(dòng)物協(xié)議書(shū)組織
- 倉(cāng)配服務(wù)協(xié)議書(shū)
- 2025年嬰幼兒發(fā)展引導(dǎo)員培訓(xùn)試卷A卷及答案
- 老年人失智癥護(hù)理與照護(hù)
- 2025重慶市勘規(guī)數(shù)智科技有限公司招聘3人考試題庫(kù)必考題
- 2025貴州錦麟化工有限責(zé)任公司第三次招聘7人參考筆試題庫(kù)及答案解析
- 村監(jiān)委會(huì)職責(zé)課件
- 歷史試卷答案四川省達(dá)州市普通高中2026屆高三第一次診斷性測(cè)試(達(dá)州一診)(12.15-12.17)
- 平津戰(zhàn)役講解課件
- 農(nóng)村房屋安全排查培訓(xùn)
- 2026-2031年中國(guó)文化旅游行業(yè)市場(chǎng)未來(lái)發(fā)展趨勢(shì)研究報(bào)告
- (16)普通高中體育與健康課程標(biāo)準(zhǔn)日常修訂版(2017年版2025年修訂)
- 個(gè)人與團(tuán)隊(duì)管理-008-國(guó)開(kāi)機(jī)考復(fù)習(xí)資料
- 卓越績(jī)效管理手冊(cè)(含質(zhì)量環(huán)境職業(yè)健康安全四合一手冊(cè))
評(píng)論
0/150
提交評(píng)論