Python機(jī)器學(xué)習(xí) 第2版 課件 第11章 神經(jīng)網(wǎng)絡(luò)_第1頁(yè)
Python機(jī)器學(xué)習(xí) 第2版 課件 第11章 神經(jīng)網(wǎng)絡(luò)_第2頁(yè)
Python機(jī)器學(xué)習(xí) 第2版 課件 第11章 神經(jīng)網(wǎng)絡(luò)_第3頁(yè)
Python機(jī)器學(xué)習(xí) 第2版 課件 第11章 神經(jīng)網(wǎng)絡(luò)_第4頁(yè)
Python機(jī)器學(xué)習(xí) 第2版 課件 第11章 神經(jīng)網(wǎng)絡(luò)_第5頁(yè)
已閱讀5頁(yè),還剩65頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Machine

Learning

with

Python神經(jīng)網(wǎng)絡(luò)從神經(jīng)元到深度學(xué)習(xí)11目錄11.111.311.2神經(jīng)元與感知機(jī)前饋神經(jīng)網(wǎng)絡(luò)深度網(wǎng)絡(luò)11.4本章小結(jié)神經(jīng)元與感知機(jī)本節(jié)介紹神經(jīng)元與感知機(jī)的原理及實(shí)現(xiàn)11.14

11.1神經(jīng)元與感知機(jī)11.1.1生物神經(jīng)元

圖11-1

生物神經(jīng)元的基本結(jié)構(gòu)和功能示意圖在生物學(xué)中,神經(jīng)元是一種特殊的神經(jīng)細(xì)胞,負(fù)責(zé)在體內(nèi)傳遞信號(hào),從而控制和協(xié)調(diào)身體的各種功能。圖11-1顯示的是一個(gè)基本的神經(jīng)元結(jié)構(gòu)。神經(jīng)元通過(guò)其樹(shù)突接收來(lái)自其他神經(jīng)元的信號(hào),然后在細(xì)胞體內(nèi)整合這些信號(hào)。如果整合后的信號(hào)足夠強(qiáng),神經(jīng)元會(huì)產(chǎn)生一個(gè)動(dòng)作電位,它會(huì)沿著軸突傳播。當(dāng)動(dòng)作電位到達(dá)軸突末梢時(shí),會(huì)引發(fā)神經(jīng)遞質(zhì)的釋放,這些神經(jīng)遞質(zhì)隨后與下一個(gè)神經(jīng)元的受體結(jié)合,從而實(shí)現(xiàn)神經(jīng)元之間的通信。大量的神經(jīng)元通過(guò)突觸相互連接,形成了復(fù)雜的神經(jīng)網(wǎng)絡(luò),這些網(wǎng)絡(luò)負(fù)責(zé)處理和傳遞信息,實(shí)現(xiàn)感知、思考、記憶和運(yùn)動(dòng)等復(fù)雜的生理功能。5

11.1神經(jīng)元與感知機(jī)11.1.2人工神經(jīng)元

數(shù)學(xué)模型(M-P模型)

在M-P模型中包含多個(gè)輸入節(jié)點(diǎn)

和一個(gè)輸出節(jié)點(diǎn)y。所有的輸入通過(guò)一定的權(quán)重進(jìn)行加權(quán)求和。這個(gè)加權(quán)和如果超過(guò)了閾值

,則輸出y=1,否則y=0。此過(guò)程用數(shù)學(xué)函數(shù)表達(dá)為:

(11-1)

其中H()是Heaviside階躍函數(shù),即,

(11-2)11-2M-P模型圖M-P模型可以實(shí)現(xiàn)邏輯與和或運(yùn)算M-P模型不能實(shí)現(xiàn)邏輯異或運(yùn)算M-P模型中的權(quán)重是通過(guò)人工設(shè)定的,其不具備學(xué)習(xí)能力6

注:(1)Heaviside階躍函數(shù)是一種激活函數(shù),顯然它把神經(jīng)元的輸出限制為0或者1,通常1和0分別代表神經(jīng)元處于興奮和抑制狀態(tài);(2)其他激活函數(shù)符號(hào)函數(shù):Sigmoid函數(shù):tanh函數(shù):

(3)Heaviside階躍函數(shù)和符號(hào)函數(shù)在零點(diǎn)處都是不連續(xù)不可導(dǎo)的。Sigmoid函數(shù)和tanh函數(shù)可以無(wú)限次求導(dǎo)。7

11.1.3單層感知機(jī)基本結(jié)構(gòu):數(shù)學(xué)表達(dá)(以單個(gè)輸出為例):8

11.1神經(jīng)元與感知機(jī)學(xué)習(xí)方式(以二分類(lèi)為例):數(shù)據(jù)集:目標(biāo):用一個(gè)超平面來(lái)將此數(shù)據(jù)集二分類(lèi)損失函數(shù):

其中M是分類(lèi)錯(cuò)誤點(diǎn)的集合優(yōu)化問(wèn)題及求解方法:(1)首先求出損失函數(shù)的梯度:

11.1.3單層感知機(jī)9

(2)隨機(jī)取一個(gè)錯(cuò)誤分類(lèi)點(diǎn)

按照如下的方式進(jìn)行更新參數(shù):

單層感知機(jī)的詳細(xì)訓(xùn)練過(guò)程:

11.1.3單層感知機(jī)10

python實(shí)現(xiàn)及參數(shù)說(shuō)明:構(gòu)造函數(shù)的聲明如下:sklearn.linear_model.Perceptron(*,penalty=None,alpha=0.0001,fit_intercept=True,max_iter=1000,tol=1e-4,random_state=None,eta0=1.0,n_jobs=None,shuffle=False,verbose=0,warm_start=False)主要參數(shù):1)penalty:正則化類(lèi)型。數(shù)據(jù)類(lèi)型為字符串,可選參數(shù)包括'l1'、'l2'、'elasticnet'和None。默認(rèn)值為None,即不使用正則化;2)alpha:正則化強(qiáng)度,即正則化項(xiàng)前的系數(shù),越大的alpha表示更強(qiáng)的正則化。數(shù)據(jù)類(lèi)型為浮點(diǎn)型,默認(rèn)值為0.0001;3)fit_intercept:是否計(jì)算截距。數(shù)據(jù)類(lèi)型為布爾型,默認(rèn)值為T(mén)rue,即計(jì)算截距。如果設(shè)置為False,則不會(huì)添加截距項(xiàng),即假設(shè)數(shù)據(jù)已經(jīng)中心化。

11.1.3單層感知機(jī)11

主要參數(shù):4)max_iter:迭代的最大次數(shù)。在訓(xùn)練過(guò)程中,如果超過(guò)最大迭代次數(shù)則停止。數(shù)據(jù)類(lèi)型為整數(shù),默認(rèn)值為1000。5)tol:收斂閾值,控制算法的停止標(biāo)準(zhǔn)。當(dāng)損失函數(shù)的變化小于該閾值時(shí),算法停止。數(shù)據(jù)類(lèi)型為浮點(diǎn)型,默認(rèn)值為0.0001。6)random_state:隨機(jī)數(shù)生成器的種子,用于初始化權(quán)重的隨機(jī)性。數(shù)據(jù)類(lèi)型為整數(shù)或RandomState實(shí)例,默認(rèn)值為None。7)eta0:初始學(xué)習(xí)率。對(duì)于某些更新規(guī)則,如SGD,該參數(shù)控制每次權(quán)重更新的步伐大小。數(shù)據(jù)類(lèi)型為浮點(diǎn)型,默認(rèn)值為1.0。8)n_jobs:用于并行計(jì)算的線(xiàn)程數(shù)。數(shù)據(jù)類(lèi)型為整數(shù),默認(rèn)值為None,即不并行。9)shuffle:是否在每輪迭代之前打亂訓(xùn)練數(shù)據(jù)。打亂數(shù)據(jù)有助于提高模型的泛化能力。數(shù)據(jù)類(lèi)型為布爾型,默認(rèn)值為False。10)verbose:控制日志的詳細(xì)程度。數(shù)據(jù)類(lèi)型為整數(shù),默認(rèn)值為0,即不輸出日志。11)warm_start:是否使用上一次訓(xùn)練的模型參數(shù)作為新的初始參數(shù)。數(shù)據(jù)類(lèi)型為布爾型,默認(rèn)值為False。12

【例11-1】感知機(jī)在鳶尾花數(shù)據(jù)集上的實(shí)現(xiàn)creat_thread.c【解】13

11.1.3單層感知機(jī)用python編譯并運(yùn)行程序?qū)⒌玫绞褂酶兄獧C(jī)模型對(duì)鳶尾花數(shù)據(jù)集進(jìn)行二分類(lèi)的準(zhǔn)確率為0.96前饋神經(jīng)網(wǎng)絡(luò)本節(jié)介紹前饋神經(jīng)網(wǎng)絡(luò)的原理與訓(xùn)練及實(shí)現(xiàn)11.211.2.1動(dòng)機(jī):?jiǎn)螌痈兄獧C(jī)無(wú)法實(shí)現(xiàn)非線(xiàn)性問(wèn)題15

11.2多層感知機(jī)(前饋神經(jīng)網(wǎng)絡(luò))11.2.2算法原理:前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)11.2前饋神經(jīng)網(wǎng)絡(luò)16

11.2.2算法原理輸入到輸出的計(jì)算過(guò)程網(wǎng)絡(luò)的權(quán)重和閾值參數(shù)分別是11.2前饋神經(jīng)網(wǎng)絡(luò)17

11.2.2算法原理誤差向后傳播算法(errorBackPropagation,BP):

對(duì)于單個(gè)樣本數(shù)據(jù)

是其真實(shí)標(biāo)簽,假設(shè)其經(jīng)過(guò)多層感知機(jī)處理后的輸出值為,即:

這里可以使用連續(xù)可導(dǎo)的Sigmoid函數(shù)作為激活函數(shù):

。則此數(shù)據(jù)上的均方誤差為:11.2前饋神經(jīng)網(wǎng)絡(luò)18

11.2.2算法原理誤差向后傳播算法(errorBackPropagation,BP):誤差反向傳播算法就是求解下面的優(yōu)化問(wèn)題:

上述最小化問(wèn)題可以用經(jīng)典的梯度下降流方法求解,得各個(gè)參數(shù)的更新式為:

11.2前饋神經(jīng)網(wǎng)絡(luò)19

11.2.2算法原理

誤差向后傳播算法(errorBackPropagation,BP):

下面我們將用鏈?zhǔn)椒▌t求解相關(guān)梯度。

首先,距離輸出層最近的是隱藏層,所以我們先來(lái)更新隱藏層的參數(shù)。結(jié)合公式(11-15)、(11-16)可得:

其次,求得輸入層到隱藏層的梯度如下:11.2前饋神經(jīng)網(wǎng)絡(luò)20

11.2.2算法原理

基于單個(gè)樣本的前饋神經(jīng)網(wǎng)絡(luò)的完整的訓(xùn)練過(guò)程:

注:1)α?(0,1)稱(chēng)為學(xué)習(xí)率或者步長(zhǎng),其大小直接影響模型的收斂速度和穩(wěn)定性;

2)每次僅利用一個(gè)訓(xùn)練數(shù)據(jù)更新網(wǎng)絡(luò)參數(shù)的誤差反向傳播算法被稱(chēng)為標(biāo)準(zhǔn)的BP算法;

3)標(biāo)準(zhǔn)BP算法的局限:參數(shù)更新頻繁、算法收斂較慢、坑出現(xiàn)“抵消”現(xiàn)象

改進(jìn)方法:累計(jì)BP算法。

11.2前饋神經(jīng)網(wǎng)絡(luò)21

11.2.2算法原理BP算法的潛在問(wèn)題:陷入局部最小值

解決辦法:

隨機(jī)初始化法

自適應(yīng)學(xué)習(xí)率法

動(dòng)量法過(guò)擬合:在訓(xùn)練集上的誤差不斷下降而測(cè)試集上的誤差反而上升

緩解方法:

降低模型復(fù)雜度

增強(qiáng)數(shù)據(jù)集

早停

正則化11.2前饋神經(jīng)網(wǎng)絡(luò)22

11.2.3python實(shí)現(xiàn)調(diào)用Keras庫(kù)的示例11.2前饋神經(jīng)網(wǎng)絡(luò)23

11.2.3python實(shí)現(xiàn)各參數(shù)含義如下:1)Sequential:這是一個(gè)線(xiàn)性堆疊的神經(jīng)網(wǎng)絡(luò)層的容器。2)Dense:這是一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)層,即多層感知機(jī)中的神經(jīng)元。其中,units是該層的神經(jīng)元數(shù)量,也就是該層的輸出維度。3)activation是激活函數(shù),用于引入非線(xiàn)性。常見(jiàn)的激活函數(shù)包括'relu'、'sigmoid'、'tanh'等。4)input_dim是輸入數(shù)據(jù)的維度,只在第一個(gè)`Dense`層中使用,表示輸入數(shù)據(jù)的特征數(shù)量。5)compile:編譯模型,準(zhǔn)備訓(xùn)練。6)optimizer:優(yōu)化器,用于更新網(wǎng)絡(luò)權(quán)重的算法。常用的優(yōu)化器包括'sgd'、'adam'、'rmsprop'等。7)loss:損失函數(shù),用于評(píng)估模型的預(yù)測(cè)值和真實(shí)值之間的差異。對(duì)于二分類(lèi)問(wèn)題,可以使用'binary_crossentropy';對(duì)于多分類(lèi)問(wèn)題,可以使用'categorical_crossentropy';對(duì)于回歸問(wèn)題,可以使用'mse'(均方誤差)。8)metrics:評(píng)估指標(biāo),用于評(píng)估模型性能。常用的評(píng)估指標(biāo)包括'accuracy'(準(zhǔn)確率)。11.2前饋神經(jīng)網(wǎng)絡(luò)24

11.2.3python實(shí)現(xiàn)具體例子【例11-2】多層感知機(jī)在手寫(xiě)體數(shù)字集MNIST上的實(shí)現(xiàn)?!窘狻?1.2前饋神經(jīng)網(wǎng)絡(luò)25

11.2.3python實(shí)現(xiàn)具體例子11.2前饋神經(jīng)網(wǎng)絡(luò)26

深度神經(jīng)網(wǎng)絡(luò)本節(jié)介紹經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)及其原理與實(shí)現(xiàn)13.311.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的基本思想人類(lèi)視覺(jué)系統(tǒng)的特點(diǎn):層次化和局部感受野CNN的特點(diǎn):層級(jí)結(jié)構(gòu)、局部特征提取11.3深度神經(jīng)網(wǎng)絡(luò)28

圖11.8人類(lèi)視覺(jué)系統(tǒng)處理信息圖11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)(1)卷積層:提取輸入數(shù)據(jù)的局部特征;局部連接和權(quán)值共享11.3深度神經(jīng)網(wǎng)絡(luò)29

11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)(2)池化層:在卷積層之后,通過(guò)對(duì)特征圖進(jìn)行降采樣,減少數(shù)據(jù)維度的同事并保留重要信息11.3深度神經(jīng)網(wǎng)絡(luò)30

11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)(3)激活函數(shù):引入非線(xiàn)性變換能力,增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力常用的激活函數(shù):Sigmoid函數(shù)Tanh函數(shù)(雙曲正切函數(shù))ReLU函數(shù)(修正線(xiàn)性單元)LeakyReLU函數(shù)ParametricReLU(PReLU)函數(shù)......11.3深度神經(jīng)網(wǎng)絡(luò)31

圖11-12

常用激活

函數(shù)11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)(3)全連接層(FullyConnectedLayer,F(xiàn)C層):通常位于網(wǎng)絡(luò)的末尾,負(fù)責(zé)將卷積層和池化層提取的特征進(jìn)行綜合和分類(lèi)。全連接層的每個(gè)神經(jīng)元都與前一層的每個(gè)神經(jīng)元相連,因此被稱(chēng)為“全連接”。

假設(shè)全連接層的輸入是一個(gè)一維向量

,

全連接層的輸出

可以表示為:

其中

是全連接層的權(quán)重矩陣,

是全連接層的偏置向量。11.3深度神經(jīng)網(wǎng)絡(luò)32

LeNet-5的網(wǎng)絡(luò)結(jié)構(gòu)11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的損失函數(shù)(1)回歸任務(wù):均方誤差損失(MeanSquaredError,MSE)、絕對(duì)損失(MeanAbsoluteError,MAE)等(2)分類(lèi)任務(wù):交叉熵?fù)p失(Cross-EntropyLoss)11.3深度神經(jīng)網(wǎng)絡(luò)33

11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法(1)隨機(jī)梯度下降法(SGD)(2)動(dòng)量法(3)自適應(yīng)梯度法(AdaGrad)(4)自適應(yīng)動(dòng)量估計(jì)法(Adam)11.3深度神經(jīng)網(wǎng)絡(luò)34

11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)及參數(shù)(1)導(dǎo)入了必要的Keras模塊,然后定義了模型的輸入形狀和類(lèi)別數(shù)11.3深度神經(jīng)網(wǎng)絡(luò)35

11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)及參數(shù)(2)創(chuàng)建了一個(gè)Sequential模型,并逐層添加了卷積層、激活層、池化層、展平層、全連接層以及輸出層11.3深度神經(jīng)網(wǎng)絡(luò)36

11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)及參數(shù)(3)編譯了模型,并打印出了模型的結(jié)構(gòu)11.3深度神經(jīng)網(wǎng)絡(luò)37

11.3.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)及參數(shù)【例11-3】CNN在手寫(xiě)數(shù)字識(shí)別的實(shí)現(xiàn)?!窘狻?1.3深度神經(jīng)網(wǎng)絡(luò)38

39

運(yùn)行代碼,結(jié)果如下圖:圖11-13CNN實(shí)現(xiàn)手寫(xiě)體識(shí)別任務(wù)的結(jié)果圖40

11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的基本結(jié)構(gòu):

假設(shè)U,W,V分別代表輸入層到隱藏層的權(quán)值矩陣、隱層到隱層的權(quán)值矩陣和隱層到輸出層的權(quán)值矩陣,那么隱含層ht的值,不僅取決于當(dāng)前的輸入,還依賴(lài)與上一次隱含層的反饋值ht?1,

11.3深度神經(jīng)網(wǎng)絡(luò)41

11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的常用模式:

(1)序列到類(lèi)別模式:將一串輸入序列數(shù)據(jù)映射為一個(gè)固定長(zhǎng)度的輸出向量,這個(gè)輸出向量通常用于分類(lèi)任務(wù)。

11.3深度神經(jīng)網(wǎng)絡(luò)42

11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的常用模式:

(2)同步的序列到序列模式:主要用于序列標(biāo)注任務(wù),即每一時(shí)刻都有輸入和輸出,輸入序列和輸出序列的長(zhǎng)度相同。

11.3深度神經(jīng)網(wǎng)絡(luò)43

11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的常用模式:

(3)異步的序列到序列模式:輸入序列和輸出序列不需要有嚴(yán)格的對(duì)應(yīng)關(guān)系,也不需要保持相同的長(zhǎng)度

11.3深度神經(jīng)網(wǎng)絡(luò)44

11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的訓(xùn)練算法:時(shí)間反向傳播算法(BackPropagationThroughTime,簡(jiǎn)稱(chēng)BPTT)給定輸入時(shí)間序列數(shù)據(jù)訓(xùn)練樣本

,BPTT算法包含下面三個(gè)步驟:

11.3深度神經(jīng)網(wǎng)絡(luò)45

11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的實(shí)現(xiàn)及參數(shù)Pytorch中的RNN聲明函數(shù)

11.3深度神經(jīng)網(wǎng)絡(luò)46

11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的實(shí)現(xiàn)及參數(shù)主要參數(shù)

input_size:每個(gè)時(shí)間步輸入數(shù)據(jù)的特征維度。

hidden_size:RNN隱藏層的維度,定義了每個(gè)時(shí)間步中RNN網(wǎng)絡(luò)的隱藏狀態(tài)的大小。此參數(shù)控制模型的表示能力。

output_size:輸出類(lèi)別的數(shù)量。

num_layers:RNN的層數(shù)。多層RNN能夠捕捉更復(fù)雜的序列模式,但也會(huì)增加計(jì)算量。

dropout:Dropout概率,用于防止過(guò)擬合。當(dāng)num_layers>1時(shí),可以在RNN層之間使用dropout。

11.3深度神經(jīng)網(wǎng)絡(luò)47

11.3.2循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN的實(shí)現(xiàn)及參數(shù)【例11-4】RNN在手寫(xiě)數(shù)字識(shí)別MNIST數(shù)據(jù)集的實(shí)現(xiàn)?!窘狻?1.3深度神經(jīng)網(wǎng)絡(luò)48

49

50

51

11.3.3自編碼器(AE)算法原理11.3深度神經(jīng)網(wǎng)絡(luò)52

為構(gòu)建自編碼器,我們需要:編碼方法、解碼方法、將輸出與目標(biāo)進(jìn)行比較的損失函數(shù)。編碼器:通常由一系列降維操作組成,例如全連接層或卷積層,并使用非線(xiàn)性激活函數(shù)來(lái)捕捉數(shù)據(jù)的非線(xiàn)性關(guān)系。解碼器通:常由一系列升維操作組成,例如全連接層或反卷積層,并使用與編碼器相對(duì)應(yīng)的激活函數(shù)。損失函數(shù):用于計(jì)算重構(gòu)數(shù)據(jù)與原始數(shù)據(jù)之間的差異,例如使用均方誤差(MSE)或交叉熵。11.3.3自編碼器(AE)實(shí)現(xiàn)及參數(shù)11.3深度神經(jīng)網(wǎng)絡(luò)53

11.3.3自編碼器(AE)實(shí)現(xiàn)及參數(shù)11.3深度神經(jīng)網(wǎng)絡(luò)54

11.3.3自編碼器(AE)實(shí)現(xiàn)及參數(shù)【例11-5】AE在手寫(xiě)數(shù)字識(shí)別MNIST數(shù)據(jù)集的實(shí)現(xiàn)?!窘狻?1.3深度神經(jīng)網(wǎng)絡(luò)55

56

57

58

11.3.4深度學(xué)習(xí)新技術(shù)對(duì)抗生成網(wǎng)絡(luò)(GAN)11.3深度神經(jīng)網(wǎng)絡(luò)59

11.3.4深度學(xué)習(xí)新技術(shù)殘差網(wǎng)絡(luò)(ResNet)11.3深度神經(jīng)網(wǎng)絡(luò)60

11.3.4深度學(xué)習(xí)新技術(shù)注意力機(jī)制11.3深度神經(jīng)網(wǎng)絡(luò)61

“編碼-解碼”框架是目前大部分注意力模型的基礎(chǔ)。注意力模型涉及到查詢(xún)(Query)、鍵(Key)和值(Value)的三個(gè)基本概念。查詢(xún)(Query,簡(jiǎn)寫(xiě)為Q)指的是自主性提示,代表當(dāng)前詞想要關(guān)注的信息(即:我應(yīng)該關(guān)注什么信息)。鍵(Key,簡(jiǎn)寫(xiě)為K)K指的是非自主性提示,代表其他詞可以關(guān)注的信息(即:我這里有什么可以被關(guān)注)。值(Value,簡(jiǎn)寫(xiě)為V)指的是感官輸入,代表了關(guān)注后當(dāng)前詞和其他詞的信息(即:關(guān)注之后能得到的信息)。注意力模型的關(guān)鍵組件是注意力匯聚,其將查詢(xún)和鍵相結(jié)合,實(shí)現(xiàn)對(duì)值的選擇性輸出。11.3.4深度學(xué)習(xí)新技術(shù)注意力機(jī)制11.3深度神經(jīng)網(wǎng)絡(luò)62

常用的注意力機(jī)制:(1)自注意力機(jī)制(Self-AttentionMechanism)11.3.4深度學(xué)習(xí)新技術(shù)注意力機(jī)制11.3深度神經(jīng)網(wǎng)絡(luò)63

常用的注意力機(jī)制:(2)多頭自注意力(Multi-HeadAttention)11.3.4深度學(xué)習(xí)新技術(shù)注意力機(jī)制11.3深度神經(jīng)網(wǎng)絡(luò)64

常用的注意力機(jī)制:(3)Transformer

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論