【《卷積神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)概述》3100字】_第1頁(yè)
【《卷積神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)概述》3100字】_第2頁(yè)
【《卷積神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)概述》3100字】_第3頁(yè)
【《卷積神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)概述》3100字】_第4頁(yè)
【《卷積神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)概述》3100字】_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

卷積神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)概述目錄TOC\o"1-3"\h\u27365卷積神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)概述 1326391.1卷積層 1254261.2激活函數(shù)層 2286431.3池化層 528861.4全連接層及Softmax函數(shù) 6313071.5網(wǎng)絡(luò)訓(xùn)練及優(yōu)化算法 7卷積神經(jīng)網(wǎng)絡(luò)在很多領(lǐng)域取得了重大突破,它是深度學(xué)習(xí)方法的代表性網(wǎng)絡(luò)。CNN的結(jié)構(gòu)由YannLeCun首次提出,之后在其網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上出現(xiàn)了各種CNN結(jié)構(gòu)并且被廣泛應(yīng)用于圖像識(shí)別等領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)得益于卷積(Convolution)運(yùn)算,使得其能夠更好地提取圖像和二維信號(hào)中的重要特征,卷積神經(jīng)網(wǎng)絡(luò)也由此得名。CNN具備較強(qiáng)的表征學(xué)習(xí)能力,能夠從輸入信息中提取高階特征,即具有高度的非線性抽象和擬合功能。池化運(yùn)算作為CNN中另一個(gè)典型的運(yùn)算,主要用于降低特征維度,防止過(guò)擬合,從而使得CNN能夠更加關(guān)注于區(qū)域中的重要特征。目前有很多表現(xiàn)優(yōu)秀的CNN結(jié)構(gòu),比如ResNet、VGG、AlexNet等,除了在機(jī)器視覺(jué)和圖片識(shí)別等領(lǐng)域取得重大成就,也逐漸應(yīng)用在設(shè)備故障診斷領(lǐng)域。1.1卷積層卷積層是對(duì)其輸入進(jìn)行卷積運(yùn)算,每個(gè)卷積層中存在多個(gè)卷積核獲取數(shù)據(jù)特征,卷積核類(lèi)似于濾波器對(duì)輸入至神經(jīng)網(wǎng)絡(luò)中的特征進(jìn)行濾波。下式表示卷積核對(duì)輸入信號(hào)局部區(qū)域進(jìn)行的卷積運(yùn)算:(2-1)式中表示卷積層的特征圖輸入,而權(quán)重矩陣可以表示為,偏置項(xiàng)為,表示的是卷積運(yùn)算函數(shù),表示這一層卷積運(yùn)算的輸出。CNN具有局部感知和參數(shù)共享的特點(diǎn),這也促使CNN可以用較小的計(jì)算量對(duì)特征進(jìn)行學(xué)習(xí):1)局部感知CNN可以通過(guò)對(duì)多個(gè)局部信息整合得到全部信息,即卷積層的神經(jīng)節(jié)點(diǎn)僅僅與上一層的部分節(jié)點(diǎn)連接,其單個(gè)神經(jīng)元捕獲的都是輸入的局部特征,而后接的一組神經(jīng)元將各個(gè)節(jié)點(diǎn)的局部信息進(jìn)行整合,最終得到全局特征。局部感知圖如圖2-1所示:

圖2-1局部感知示意圖2)參數(shù)共享全連接網(wǎng)絡(luò)計(jì)算輸出時(shí),其權(quán)值參數(shù)矩陣中每個(gè)元素都有一個(gè)輸入對(duì)應(yīng)。而不同于全連接網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)的卷積核將每個(gè)元素作用于所有局部輸入的位置上,權(quán)值共享使得提取得到的圖像特征不受圖像位置的影響,即卷積層具有平移等變性。權(quán)值共享結(jié)構(gòu)如圖2-2所示:圖2-2參數(shù)共享示意圖1.2激活函數(shù)層由于大多數(shù)情況下線性函數(shù)不能很好地表示,具有線性激活函數(shù)的很多層與單層感知機(jī)效果相同。因此將非線性函數(shù)作為CNN的激活函數(shù),使得模型可以逼近任何函數(shù),一般激活函數(shù)層位于卷積層和池化層之間,常見(jiàn)的包括Sigmoid函數(shù)、Tanh函數(shù)、Relu函數(shù)、LeakyReLU等。Sigmoid函數(shù)及其反函數(shù)具有單調(diào)遞增的特點(diǎn),可以將變量映射到(0,1)之間。其公式如下:(2-2)其中表示的是前一層的輸出值。Tanh函數(shù)的函數(shù)圖像為雙曲正切函數(shù),公式可以表示為:(2-3)上述兩個(gè)激活函數(shù)存在一定的關(guān)系,從圖2-3和2-4中觀察可以發(fā)現(xiàn)兩者只是函數(shù)范圍與陡峭程度有些區(qū)別。正因?yàn)閮蓚€(gè)激活函數(shù)的圖形與神經(jīng)元之間傳遞的真實(shí)信號(hào)類(lèi)似,Sigmoid激活函數(shù)和Tanh激活函數(shù)是主流的激活函數(shù),直到ReLU函數(shù)出現(xiàn)。圖2-3Sigmoid函數(shù)圖2-4Tanh函數(shù)雖然Sigmoid函數(shù)和Tanh函數(shù)可以將輸入的連續(xù)實(shí)值變換為0和1之間的輸出,然而在網(wǎng)絡(luò)中梯度反向傳遞時(shí),容易產(chǎn)生梯度爆炸和梯度消失的問(wèn)題。于是出現(xiàn)了ReLU激活函數(shù),函數(shù)的定義如下:(2-4)相比于前兩種激活函數(shù),ReLU提高了神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中的效率,同時(shí)由于ReLU函數(shù)不存在函數(shù)值飽和的問(wèn)題,因此也緩解了梯度消失和梯度爆炸的問(wèn)題,函數(shù)圖像如圖2-5所示:圖2-5ReLU函數(shù)盡管ReLU函數(shù)有很多優(yōu)點(diǎn),但是仍然存在一些問(wèn)題,例如在小于零時(shí)函數(shù)值為零,這會(huì)導(dǎo)致其丟失一些信息。因此在此基礎(chǔ)上出現(xiàn)了LeakyReLU激活函數(shù),公式表示為:(2-5)`通過(guò)上面式子可以發(fā)現(xiàn),LeakyReLU激活函數(shù)使得小于零的部分不是一定為零,而是通過(guò)參數(shù)來(lái)進(jìn)行調(diào)節(jié)。在后面新模型的生成器和判別器的結(jié)構(gòu)中,主要使用LeakyReLU函數(shù)來(lái)進(jìn)行非線性變換。1.3池化層池化操作在CNN中必不可少,一般在卷積層輸出經(jīng)過(guò)激活函數(shù)層后實(shí)現(xiàn)池化操作,針對(duì)某個(gè)區(qū)域?qū)崿F(xiàn)特征降維是池化層的主要作用。最常用的池化操作是最大池化(maxpooling)和平均池化(averagepooling),兩者分別輸出該區(qū)域的最大值和平均值。圖2-6最大池化圖2-7平均池化池化層通過(guò)池化操作來(lái)綜合小部分區(qū)域的特征來(lái)得到新的特征,同時(shí)保證最后輸出的結(jié)構(gòu)近似不變。當(dāng)需要獲取局部中最強(qiáng)的信號(hào)時(shí),可以采用最大池化進(jìn)行提取,而平均池化則可以消除區(qū)域中的噪聲,從而提高特征的魯棒性。由于一般采集到的故障數(shù)據(jù)信號(hào)都包含很多噪聲,因此需要通過(guò)池化層來(lái)提高網(wǎng)絡(luò)的特征提取能力。最大池化及平均池化的示意圖如圖2-6和2-7所示,通過(guò)池化過(guò)程可以減少特征表達(dá)的大小和維數(shù),減小后面層的運(yùn)算壓力。一般主要有兩種情況下會(huì)產(chǎn)生特征提取的誤差,其中一種情況是領(lǐng)域大小受限,另一種情況是卷積層參數(shù)產(chǎn)生的偏差。平均池化和最大池化可以分別解決上述的兩種問(wèn)題,從而減少其帶來(lái)的誤差。本文中判別器主要采用最大池化來(lái)進(jìn)行降維操作,提高了模型的特征提取能力。1.4全連接層及Softmax函數(shù)雖然相比卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)全連接網(wǎng)絡(luò)特征提取能力較差,但是全連接層仍然是其中不可或缺的重要結(jié)構(gòu),一般在最后一個(gè)池化層后放置全連接層。經(jīng)過(guò)卷積和池化操作后輸出的特征需要經(jīng)過(guò)全連接層進(jìn)一步整合,然后輸入到Softmax層,經(jīng)過(guò)回歸之后進(jìn)行最終的分類(lèi)。圖2-8表示的是卷積神經(jīng)網(wǎng)絡(luò)示意圖,其中紅框部分是全連接層,如圖所示,通過(guò)全連接層可以將上一層的輸出整合之后輸入Softmax層來(lái)輸出最終相應(yīng)的結(jié)果。圖2-8卷積神經(jīng)網(wǎng)絡(luò)示意圖Softmax函數(shù)一般應(yīng)用于多分類(lèi)的過(guò)程中,通過(guò)Softmax函數(shù)可以將多個(gè)神經(jīng)元的輸出映射到(0,1)區(qū)間內(nèi),轉(zhuǎn)移成為出現(xiàn)某個(gè)類(lèi)別的概率,從而最終實(shí)現(xiàn)多分類(lèi)。Softmax層一般位于CNN的最后一層,經(jīng)過(guò)Softmax層后對(duì)應(yīng)的CNN輸出可以表示為:(2-6)其中表示CNN的輸出,和則分別表示對(duì)應(yīng)的權(quán)值矩陣和偏移量。CNN輸出的是每個(gè)類(lèi)別對(duì)應(yīng)的概率,最終需要選擇概率最大的類(lèi)別作為最后的分類(lèi)結(jié)果。1.5網(wǎng)絡(luò)訓(xùn)練及優(yōu)化算法整個(gè)過(guò)程中網(wǎng)絡(luò)的訓(xùn)練是重中之重,通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練來(lái)減小誤差函數(shù),提高模型診斷分類(lèi)的準(zhǔn)確率。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過(guò)程中,需要不斷調(diào)整網(wǎng)絡(luò)中權(quán)值參數(shù)的大小,直到最終損失函數(shù)在訓(xùn)練集上的值達(dá)到最小,即得到一個(gè)局部最優(yōu)解,最終通過(guò)訓(xùn)練模型可以達(dá)到一個(gè)較高的準(zhǔn)確率,具有更高的可靠性。反向傳播算法是訓(xùn)練神經(jīng)網(wǎng)絡(luò)最重要的一個(gè)算法,目前最常用的反向傳播算法有梯度下降法(GradientDescent,GD)、隨機(jī)梯度下降法(StochasticGradientDescent,SGD)等。梯度下降法利用整個(gè)訓(xùn)練集的數(shù)據(jù)來(lái)減小損失函數(shù)的值,但是使用梯度下降法時(shí)可能存在學(xué)習(xí)時(shí)間太長(zhǎng)、內(nèi)存消耗過(guò)大的問(wèn)題。相比于傳統(tǒng)的梯度下降法,隨機(jī)梯度下降法每次只隨機(jī)選取一條數(shù)據(jù)進(jìn)行迭代訓(xùn)練,很大程度上降低了學(xué)習(xí)速度,但是該方法的問(wèn)題是難以保證更新的方向是正確的,容易進(jìn)入局部最優(yōu)解,同時(shí)損失函數(shù)更新不穩(wěn)定。針對(duì)上面的問(wèn)題,又提出了小批量梯度下降法(Mini-BatchGradientDescent,MBGD),每次選取小批量的數(shù)據(jù)訓(xùn)練。如圖2-9所示,圖中表示的是隨機(jī)梯度下降的示意圖,經(jīng)過(guò)迭代訓(xùn)練,誤差函數(shù)的值不斷減小?;谔荻认陆捣ㄓ殖霈F(xiàn)了一些對(duì)其進(jìn)一步改進(jìn)的算法,這些改進(jìn)的算法進(jìn)一步使得目標(biāo)函數(shù)收斂更快。根據(jù)之前改進(jìn)算法的思想,Adam方法被提出作為神經(jīng)網(wǎng)絡(luò)的優(yōu)化方法,對(duì)于每個(gè)參數(shù)都有自己的學(xué)習(xí)率和動(dòng)量,也就是說(shuō)在訓(xùn)練的過(guò)程中,每個(gè)網(wǎng)絡(luò)權(quán)重從梯度的一階矩估計(jì)和二階矩估計(jì)中計(jì)算不同的自適應(yīng)學(xué)習(xí)率,使得Adam算法相比其他優(yōu)化算法具有更好的表現(xiàn)。圖2-9隨機(jī)梯度下降A(chǔ)dam算法首先需要計(jì)算梯度估計(jì),公式表示為:(2-7)其中表示的是網(wǎng)絡(luò)的初始參數(shù),表示隨機(jī)選出樣本的數(shù)量,其中包含訓(xùn)練數(shù)據(jù)和標(biāo)簽。之后需要對(duì)一階矩估計(jì)和二階矩估計(jì)進(jìn)行更新,Adam算法更新一階矩估計(jì)和二階矩估計(jì)的公式如下:(2-8)(2-9)其中和表示一階矩和二階矩的指數(shù)衰減系數(shù),默認(rèn)取值為0.9和0.999,表示梯度估計(jì)。更新之后需要對(duì)一階矩和二階矩進(jìn)行修正:(2-10)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論