版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
深度學(xué)習(xí)模型綜述在對(duì)深度學(xué)習(xí)進(jìn)行詳細(xì)介紹之前,有必要對(duì)人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)這幾個(gè)相關(guān)的概念進(jìn)行區(qū)分。人工智能是一類非常廣泛的問(wèn)題,它旨在通過(guò)計(jì)算機(jī)實(shí)現(xiàn)類似人類的智能。機(jī)器學(xué)習(xí)是解決人工智能問(wèn)題的一個(gè)重要方法。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,它在很多領(lǐng)域突破了傳統(tǒng)機(jī)器學(xué)習(xí)的瓶頸,將人工智能推向了個(gè)新的高潮。神經(jīng)網(wǎng)絡(luò)也稱人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)是深度學(xué)習(xí)的具體實(shí)現(xiàn)算法和技術(shù),在本研究中提到的“深度學(xué)習(xí)算法或模型”指的就是各種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。圖3-2機(jī)器學(xué)習(xí)與深度學(xué)習(xí)流程圖3-2展示了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法在解決預(yù)測(cè)問(wèn)題上的一般流程。可以看出相比于機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)算法擺脫了對(duì)人工抽取特征的依賴,使得模型可以自動(dòng)地從簡(jiǎn)單特征中抽取更加復(fù)雜的特征,并學(xué)習(xí)這些特征和目標(biāo)任務(wù)之間的關(guān)系。深度學(xué)習(xí)正是通過(guò)深層神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)的“多層非線性變換”實(shí)現(xiàn)了數(shù)據(jù)從輸入到輸出的映射。深度學(xué)習(xí)發(fā)展至今,產(chǎn)生了3類最為經(jīng)典、應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):全連接神經(jīng)網(wǎng)絡(luò)(FullConnectedNeuralNetwork,FC)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)以及卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)。所謂的不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)指的是神經(jīng)元之間不同的連接方式。如今在不同的應(yīng)用領(lǐng)域和具體問(wèn)題上的一些經(jīng)典模型如LeNet-5、Inception-v3、Transformer、Bert等均是在這3種基本結(jié)構(gòu)的基礎(chǔ)上開(kāi)發(fā)的,接下來(lái)將一一介紹上述3種經(jīng)典結(jié)構(gòu),由于全連接網(wǎng)絡(luò)結(jié)構(gòu)相較于另外兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)說(shuō),較為簡(jiǎn)單且不同神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法是相同的,因此以下將以全連接網(wǎng)絡(luò)結(jié)構(gòu)為例詳細(xì)介紹深度學(xué)習(xí)模型的訓(xùn)練方法。本文中所涉及的模型學(xué)習(xí)問(wèn)題均為監(jiān)督學(xué)習(xí)范疇,監(jiān)督學(xué)習(xí)利用訓(xùn)練數(shù)據(jù)集學(xué)習(xí)一個(gè)模型,再用訓(xùn)練好的模型對(duì)測(cè)試樣本集進(jìn)行預(yù)測(cè)。由于在這個(gè)過(guò)程中用到的訓(xùn)練數(shù)據(jù)樣本標(biāo)簽是已知的,所以稱為監(jiān)督學(xué)習(xí)(SupervisedLearning)。全連接神經(jīng)網(wǎng)絡(luò)全連接神經(jīng)網(wǎng)絡(luò)(FullConnectedNeuralNetwork)也是狹義上的深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN),其結(jié)構(gòu)如圖3-3所示,可分為輸入層、隱藏層和輸出層三個(gè)部分,由于網(wǎng)絡(luò)結(jié)構(gòu)中每一層的所有神經(jīng)元節(jié)點(diǎn)都與上一層和下一層中的所有神經(jīng)元節(jié)點(diǎn)相連接,因此被稱為是“全連接神經(jīng)網(wǎng)絡(luò)”。圖3-3全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)前向傳播全連接網(wǎng)絡(luò)從輸入到輸出的計(jì)算過(guò)程也稱作前向傳播過(guò)程,如公式(3-1)至(3-2)描述,輸入層是由特征組成的向量或矩陣,記為a0,其中xi為特征值或特征向量,為了描述方便起見(jiàn),我們這里以a(3-1)第l層隱藏層的輸出即為第l+1層的輸入,記為al+1al+1(3-2)其中Wl為第l層的權(quán)重參數(shù)矩陣,bl為第l層的偏置項(xiàng)參數(shù),如圖3-3所示,l層的任一神經(jīng)元節(jié)點(diǎn)i都與前一層所有神經(jīng)元節(jié)點(diǎn)相連接,在經(jīng)過(guò)(Wila圖3-4激活單元結(jié)構(gòu)與用激活函數(shù)圖像最終,全連接網(wǎng)絡(luò)的輸出為y,H為隱藏層的層數(shù)。y(3-3)對(duì)于分類任務(wù)而言,神經(jīng)網(wǎng)絡(luò)的輸出層為n個(gè)輸出節(jié)點(diǎn),n為類別數(shù)。為了使得每個(gè)節(jié)點(diǎn)的值代表樣本屬于該類別的概率,會(huì)采用softmax函數(shù)對(duì)原始輸出層的值進(jìn)行歸一化,使得模型輸出滿足概率分布的要求。softmax(3-4)反向傳播從前向傳播的過(guò)程中可以看出,神經(jīng)網(wǎng)絡(luò)從輸入到輸出的映射質(zhì)量是由網(wǎng)絡(luò)結(jié)構(gòu)以及參數(shù)決定的。網(wǎng)絡(luò)結(jié)構(gòu)指的是神經(jīng)元之間的連接方式和神經(jīng)元處的計(jì)算方法。在網(wǎng)絡(luò)結(jié)構(gòu)確定的情況下,神經(jīng)網(wǎng)絡(luò)的參數(shù)質(zhì)量決定了模型的預(yù)測(cè)效果??梢詫⒗蒙窠?jīng)網(wǎng)絡(luò)求解目標(biāo)任務(wù)的過(guò)程看作為尋找一組參數(shù),使得樣本輸入數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)計(jì)算后的輸出值可以無(wú)限接近樣本真實(shí)值。最初,神經(jīng)網(wǎng)絡(luò)的參數(shù)通過(guò)隨機(jī)函數(shù)生成,然后通過(guò)反向傳播算法不斷迭代和更新實(shí)現(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化,使得模型的輸出值無(wú)限逼近樣本真實(shí)值,這一過(guò)程稱為是模型的訓(xùn)練過(guò)程。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是通過(guò)損失函數(shù)來(lái)定義的,因此在訓(xùn)練開(kāi)始之前首先要為模型指定損失函數(shù),衡量模型輸出值與樣本真實(shí)值之間的差異。交叉熵(Cross-entropy)是分類任務(wù)常用的損失函數(shù),定義如公式(3-5):Loss(3-5)其中N為訓(xùn)練樣本量,n為分類任務(wù)的類別數(shù)量。交叉熵是信息論中概念,對(duì)于同一個(gè)隨機(jī)變量X,用于衡量?jī)蓚€(gè)概率分布p(X)和q(X)之間的距離,p(X)表示樣本真實(shí)的概率分布,q(X)表示的是模型預(yù)測(cè)的概率分布情況。因此神經(jīng)網(wǎng)絡(luò)的目標(biāo)函數(shù)J(θ)即為最小化損失函數(shù),θ代表了模型的一組參數(shù)。J(3-6)從式3-6可以看出,模型訓(xùn)練的整個(gè)過(guò)程可以描述為尋找一組最優(yōu)參數(shù)θ,使得J(θ)最小。目前沒(méi)有通用方法可以對(duì)任一損失函數(shù)直接求解得到最佳的參數(shù)取值,在實(shí)踐中,最常用的神經(jīng)網(wǎng)絡(luò)優(yōu)化算法是梯度下降(GradientDescent)算法,計(jì)算過(guò)程如下:算法3-1:梯度下降算法輸入:模型初始化參數(shù)θ,模型停止更新的條件輸出:優(yōu)化后的模型參數(shù)θStep1:前向傳播完成后計(jì)算損失函數(shù)Loss(Step2:對(duì)任意一個(gè)參數(shù)wi∈θ,計(jì)算其對(duì)參數(shù)wiStep3:沿著梯度(偏導(dǎo)數(shù))的反方向更新參數(shù)得到wiStep4:重復(fù)step1~step3,直到滿足模型停止更新的條件,輸出優(yōu)化后的模型參數(shù)θ'由于更新模型的過(guò)程正好與模型預(yù)測(cè)(前向傳播)過(guò)程的計(jì)算路徑相反,因此模型的訓(xùn)練優(yōu)化過(guò)程也被稱作是反向傳播。深度學(xué)習(xí)模型的訓(xùn)練過(guò)程可描述為圖3-5所示。圖3-5深度學(xué)習(xí)模型訓(xùn)練過(guò)程需要注意的是,梯度下降算法并不能保證一定可以找到模型的全局最優(yōu)解,這與損失函數(shù)是否為凸函數(shù)、模型是否得到充分訓(xùn)練以及樣本量是否充足等有很大關(guān)系。循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)最早起源于1982年SarathaSathasivam提出的霍普菲爾德網(wǎng)絡(luò)。但因?yàn)樵诋?dāng)時(shí)該算法實(shí)現(xiàn)起來(lái)非常困難,在提出時(shí)并沒(méi)有被廣泛地應(yīng)用。隨后隨著全連接神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)機(jī)器學(xué)習(xí)算法的流行而逐漸被人遺忘了。然而傳統(tǒng)機(jī)器學(xué)習(xí)算法非常依賴人工提取的特征,并且基于全連接神經(jīng)網(wǎng)絡(luò)的方法也存在參數(shù)量過(guò)多、無(wú)法利用數(shù)據(jù)中的時(shí)間序列信息等問(wèn)題而成為了應(yīng)用中的瓶頸,隨著更有效的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的不斷提出,循環(huán)神經(jīng)網(wǎng)絡(luò)才重新被重視起來(lái),它在挖掘數(shù)據(jù)中的時(shí)序特征方面的能力以及對(duì)語(yǔ)義信息的深度表達(dá)能力被充分地利用,并在語(yǔ)音識(shí)別、時(shí)間序列分析、機(jī)器翻譯等多個(gè)領(lǐng)域?qū)崿F(xiàn)了重大的突破。在3.2.1中介紹全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)時(shí),可以看到同一層的神經(jīng)元之間是沒(méi)有連接的,這在處理序列依賴的任務(wù)時(shí)會(huì)遇到問(wèn)題。舉例來(lái)說(shuō),在序列數(shù)據(jù)中,在預(yù)測(cè)序列下一個(gè)時(shí)間節(jié)點(diǎn)的值的時(shí)候是需要參考該時(shí)間節(jié)點(diǎn)之前時(shí)間節(jié)點(diǎn)的序列數(shù)據(jù)。而在全連接神經(jīng)網(wǎng)絡(luò)中,這些序列信息屬于同一層的不同神經(jīng)元中,它們之間無(wú)法建立起有效聯(lián)系。循環(huán)神經(jīng)網(wǎng)絡(luò)就是為了刻畫一個(gè)序列當(dāng)前的輸出與之前信息的關(guān)系而設(shè)計(jì)的。圖3-6(a)展示了RNN神經(jīng)元的基本計(jì)算結(jié)構(gòu),可以看出循環(huán)神經(jīng)網(wǎng)絡(luò)中當(dāng)前時(shí)間節(jié)點(diǎn)的輸出ot不僅和當(dāng)前時(shí)間節(jié)點(diǎn)的輸入xt有關(guān),還與前一時(shí)間節(jié)點(diǎn)的隱藏狀態(tài)ht?1h(3-7)o(3-8)其中,xt是當(dāng)前時(shí)間節(jié)點(diǎn)的輸入,tanh是非線性激活函數(shù),Wx,Wh,Wo圖3-6循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程與全連接類似,也是通過(guò)反向傳播及梯度下降算法實(shí)現(xiàn)的。循環(huán)神經(jīng)網(wǎng)絡(luò)展開(kāi)后可以看作是含有多個(gè)隱藏層的前饋神經(jīng)網(wǎng)絡(luò),不同的是在每個(gè)神經(jīng)元處的前向計(jì)算公式不同,這種訓(xùn)練方法也稱為是“沿時(shí)間反向傳播”(Back-PropagationThroughTime)。從循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特征可以看出它非常擅長(zhǎng)解決與時(shí)間序列相關(guān)的問(wèn)題,但是當(dāng)輸入序列過(guò)長(zhǎng)時(shí),在反向傳播的過(guò)程中,尤其是輸入序列的初始位置,容易出現(xiàn)梯度消失問(wèn)題。為了解決這個(gè)問(wèn)題,另外兩種循環(huán)神經(jīng)網(wǎng)絡(luò)的變體長(zhǎng)短期記憶(LongShort-TermMemory,LSTM)神經(jīng)網(wǎng)絡(luò)以及門控循環(huán)單元網(wǎng)絡(luò)(GatedRecurrentUnit,GRU)被提了出來(lái),它們同RNN處理序列數(shù)據(jù)的思路相同,只是在神經(jīng)元處的具體計(jì)算方式不同,4.3.4部分將對(duì)詳細(xì)介紹LSTM與GRU的前向傳播過(guò)程。卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)相比于全連接網(wǎng)絡(luò),是一種更適合處理圖像和語(yǔ)音識(shí)別任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)。其最早起源于日本學(xué)者福島邦彥(KunihikoFukushima)1979年提出的neocognitron模型,其部分實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)中的卷積(convolution)和池化(pooling)的功能,被認(rèn)為是啟發(fā)了卷積神經(jīng)網(wǎng)絡(luò)的開(kāi)創(chuàng)性研究。但是受限于當(dāng)時(shí)計(jì)算機(jī)的算力問(wèn)題,這一網(wǎng)絡(luò)在很長(zhǎng)一段時(shí)間內(nèi)并沒(méi)有得到很好地應(yīng)用。直到1998年YannLeCun及其合作者構(gòu)建了經(jīng)典的LeNet-5卷積神經(jīng)網(wǎng)絡(luò)并在手寫數(shù)字的識(shí)別問(wèn)題中取得了巨大的成功[110],才使得卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用得到關(guān)注。隨著2006年深度學(xué)習(xí)理論的提出[111]以計(jì)算力的提升,越來(lái)越多的基于卷積神經(jīng)網(wǎng)絡(luò)的算法如AlexNet[112]、ZFNet[113]、VGGNet、GoogLeNet[114]和ResNet[115]等成為視覺(jué)識(shí)別領(lǐng)域的優(yōu)勝算法。圖像由有限個(gè)像素點(diǎn)組成,可以轉(zhuǎn)換成由紅綠藍(lán)三種顏色通道構(gòu)成3維矩陣,在圖像識(shí)別任務(wù)中往往是需要識(shí)別某些標(biāo)志性的圖案。組成圖案的像素點(diǎn)相互之間的位置關(guān)系存在一定規(guī)律,而與和其他像素點(diǎn)無(wú)關(guān)。如果采用全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像識(shí)別任務(wù),一個(gè)神經(jīng)元和上一層所有神經(jīng)元相連,這就相當(dāng)于把圖像中所有像素點(diǎn)都等同看待,顯然會(huì)帶來(lái)許多冗余的權(quán)重參數(shù)。卷積神經(jīng)網(wǎng)絡(luò)的提出可有效解決了上述問(wèn)題,卷積神經(jīng)網(wǎng)絡(luò)主要由兩個(gè)特別的組件:卷積層和池化層組成,其結(jié)構(gòu)如圖3-7所示:卷積層卷積神經(jīng)網(wǎng)絡(luò)對(duì)關(guān)鍵點(diǎn)的識(shí)別主要是由卷積層實(shí)現(xiàn)的,如圖3-7所示,卷積層的輸入是模型3維矩陣,其長(zhǎng)、寬、高方向上的維度分別記為L(zhǎng),W,H,卷積層的輸出為由多個(gè)特征圖(FeatureMap)構(gòu)成的三維矩陣,任一特征圖上圖3-7卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的元素ai,ja(3-9)其中wd,m,n為卷積核上的元素,D,M,N分別為卷積核的長(zhǎng)、寬、高方向上的維度,在圖像識(shí)別任務(wù)中,卷積核的大小一般為5×5×H或3×3×H,H池化層池化層主要的作用是下采樣,通過(guò)去掉特征圖中不重要的成分,進(jìn)一步減少參數(shù)數(shù)量。池化的方法很多,最常用的是最大化池化和平均值池化,即對(duì)池化窗口中的數(shù)據(jù)取最大值或平均值。卷積神經(jīng)網(wǎng)絡(luò)正是通過(guò)以上的計(jì)算方式實(shí)現(xiàn)的對(duì)輸入數(shù)據(jù)的高階特征抽取。由于對(duì)輸入數(shù)據(jù)的不同位置進(jìn)行卷積和池化操作時(shí),所采用的卷積核參數(shù)是共享的,因此檢測(cè)目標(biāo)無(wú)論處于輸入矩陣的什么位置,卷積神經(jīng)網(wǎng)絡(luò)都可以無(wú)差別的識(shí)別
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中歷史課堂時(shí)空觀念培養(yǎng)與跨學(xué)科融合創(chuàng)新實(shí)踐研究教學(xué)研究課題報(bào)告
- 豆豉異黃酮生物活性-洞察及研究
- 能源高效利用技術(shù)-洞察及研究
- 2026年保潔領(lǐng)班面試題集及答案解析
- 基于神經(jīng)網(wǎng)絡(luò)的視頻譯碼器運(yùn)動(dòng)補(bǔ)償模型-洞察及研究
- 漢字部首演變與古代釀酒發(fā)酵技術(shù)的關(guān)聯(lián)性課題報(bào)告教學(xué)研究課題報(bào)告
- 國(guó)家智慧教育云平臺(tái)助力社區(qū)教育服務(wù)創(chuàng)新模式創(chuàng)新研究教學(xué)研究課題報(bào)告
- 多線程環(huán)境下的最大子數(shù)組問(wèn)題求解-洞察及研究
- 銀行AI系統(tǒng)的實(shí)時(shí)決策能力提升
- 鎳鈷冶煉過(guò)程的副產(chǎn)品綜合利用研究-洞察及研究
- 2023年魯迅美術(shù)學(xué)院附屬中學(xué)(魯美附中)中考招生語(yǔ)文試卷
- 室內(nèi)消火栓的檢查內(nèi)容、標(biāo)準(zhǔn)及檢驗(yàn)程序
- DB35T 2136-2023 茶樹(shù)病害測(cè)報(bào)與綠色防控技術(shù)規(guī)程
- 日文常用漢字表
- 舞臺(tái)機(jī)械的維護(hù)與保養(yǎng)
- 運(yùn)輸工具服務(wù)企業(yè)備案表
- 醫(yī)院藥房醫(yī)療廢物處置方案
- 高血壓達(dá)標(biāo)中心標(biāo)準(zhǔn)要點(diǎn)解讀及中心工作進(jìn)展-課件
- 金屬眼鏡架拋光等工藝【省一等獎(jiǎng)】
- 《藥品經(jīng)營(yíng)質(zhì)量管理規(guī)范》的五個(gè)附錄
- 試論如何提高小學(xué)音樂(lè)課堂合唱教學(xué)的有效性(論文)
評(píng)論
0/150
提交評(píng)論