【卷積神絡(luò)理論基礎(chǔ)知識(shí)4400字】_第1頁
【卷積神絡(luò)理論基礎(chǔ)知識(shí)4400字】_第2頁
【卷積神絡(luò)理論基礎(chǔ)知識(shí)4400字】_第3頁
【卷積神絡(luò)理論基礎(chǔ)知識(shí)4400字】_第4頁
【卷積神絡(luò)理論基礎(chǔ)知識(shí)4400字】_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1 1 3 6 7 8神經(jīng)網(wǎng)絡(luò)被人們學(xué)習(xí)是開始于上個(gè)世紀(jì)的八九十年代[25,只是后因?yàn)橛布O(shè)施的限制,人們的學(xué)習(xí)研究越來越少。AlexNet得獎(jiǎng)以后,人們又開始神經(jīng)網(wǎng)絡(luò)的運(yùn)行機(jī)制模擬生物神經(jīng)元細(xì)胞的運(yùn)行機(jī)制I261,通過信息在神經(jīng)兩個(gè)層(細(xì)胞)被連接,每層提取圖像中特定信息并將得到的信息經(jīng)過處理以后1.1卷積神經(jīng)網(wǎng)絡(luò)CNN在圖像處理上模擬了人類的視覺功能,神經(jīng)元之間的聯(lián)系類似于人類視覺皮層281。在CNN中,一個(gè)單一的過濾器掃描圖像的一部分,就像視覺細(xì)胞只關(guān)注我們視覺的一部分281。原始圖像經(jīng)過多層不同濾波器處理,池化層池化加全連接輸出,形成最后的特征組成,即原始數(shù)據(jù)通過模型學(xué)習(xí)到的信息。與傳統(tǒng)的人工設(shè)計(jì)不同,CNN可以根據(jù)具體任務(wù)通過反向傳播自動(dòng)學(xué)習(xí)權(quán)重。真實(shí)數(shù)據(jù),類似于圖像和聲音,包含非常冗余的結(jié)構(gòu),并且具有低秩屬性。因此當(dāng)CNN連接時(shí),采用權(quán)值共享策略,有效減少參數(shù)個(gè)數(shù)、降低網(wǎng)絡(luò)過擬合圖像是多維數(shù)據(jù),可以是1,2,3,4維的。因輸入到卷積神經(jīng)網(wǎng)絡(luò)的圖片大小是固定的,因此要將圖片裁剪成網(wǎng)絡(luò)輸入的固定大小,我們還要對圖像進(jìn)行標(biāo)準(zhǔn)提取特征被用來作為卷積層的功能,其過程是多個(gè)卷積核共同掃描圖像[30]。卷積層的參數(shù)為卷積核大小、步長、填充31]。其中卷積核的大小要小于圖像大小,步長是卷積核移動(dòng)的像素值,填充是將被卷積的圖像人為的擴(kuò)充其尺寸,這樣做的目的是為了減小尺寸收縮影響方法32]。卷積層的運(yùn)行原理是,設(shè)置一個(gè)卷積核大小,在一張N*N的圖像上用M*M(M<N)的濾波器對圖像掃描,通過定義的步長進(jìn)行從左到右、從上到下的移動(dòng),在這過程中可對圖像進(jìn)行填充。下圖中,輸入是input,卷積核大小為3*3,通過卷積核進(jìn)卷積操作,將9個(gè)像素值通過運(yùn)算成一個(gè)像素值。下圖1.1為卷積核卷積過程圖。在上一節(jié)中講到,池化層一般依附在卷積層上,被視為一層結(jié)構(gòu)。所以池化層接收來自卷積層特征提取之后的數(shù)據(jù)。這池化層中接受上一層輸入的信息,其作用是信息選擇和數(shù)據(jù)優(yōu)化。池化層中根據(jù)預(yù)設(shè)的池化函數(shù)不同,池化層也被分為幾類,常見的有(1)一般池化(GeneralPooling),一般池化又被分為平均池化(AveragePooling):在一定范圍內(nèi),選擇總和除以個(gè)數(shù)值作為區(qū)域池化值[33;最大池化(maxpooling):挑選卷積層輸出后的最大值作為區(qū)域池化后的值134);(2)重疊池化(OverlappingPooling):顧名思義兩個(gè)池化又交疊的部分;(3)空金字塔池化(SpatialPyramidPooling):上層的卷積特征被幾個(gè)大小不一的池化層池化。全連接層則是最后一層。在全連接層中也可以說是卷積層的變體35,全連接層相當(dāng)于是1*1的卷積,但不進(jìn)行特征學(xué)習(xí),而是將特征輸出,供人們實(shí)驗(yàn)。最后是輸出層,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的功能不同,輸出的值也不同。即卷積神經(jīng)網(wǎng)絡(luò)被用于訓(xùn)練分類,則最后輸出的是數(shù)據(jù)集的標(biāo)簽136]。卷積神經(jīng)網(wǎng)絡(luò)被訓(xùn)練與物體識(shí)別,則最后的輸出是坐標(biāo)1371。卷積神經(jīng)網(wǎng)絡(luò)被用于訓(xùn)練圖像語義分割上,最后輸出的是每個(gè)像素的分類結(jié)果381。1.2激活函數(shù)的選擇激活函數(shù)解決非線性問題。被輸入的數(shù)據(jù)進(jìn)行一些列操作后,還被作用激活函數(shù)[391??上攵倭思せ詈瘮?shù)的神經(jīng)網(wǎng)絡(luò),就是一層層矩陣的相乘,不論加深深度還是增寬寬度到最后還是矩陣。本文的實(shí)驗(yàn)實(shí)質(zhì)是一個(gè)多分類問題,因此需要學(xué)習(xí)了解掌握什么是激活函數(shù),下面是幾個(gè)常用的激活函數(shù)。>X上圖1.2為Sigmoid函數(shù)的曲線圖,函數(shù)曲線增長緩慢、平滑。通過上圖我們知道函數(shù)的取值范圍在【0,1】之間,易于取導(dǎo)數(shù)。通過1.1式可知,因?yàn)閑×指數(shù)函數(shù),其函數(shù)值始終大于0,所以Sigmoid函數(shù)值始終大于0,這導(dǎo)致梯度在被回傳的時(shí)候,所有的梯度都是正的,在更新的過程當(dāng)中,所有的權(quán)重也都是正的,且因?yàn)閷?dǎo)數(shù)好求,導(dǎo)致Sigmoid函數(shù)會(huì)發(fā)現(xiàn)網(wǎng)絡(luò)爆炸,過擬合情況。因此Sigmoid函數(shù)只能進(jìn)行二分類問題。一一0.5中通過圖1.3,發(fā)現(xiàn)Tanh函數(shù)曲線圖和Sigmoid函數(shù)曲線圖都是曲線平滑,易重有正有負(fù)。通過式子1.2可知,當(dāng)x=0或無窮大時(shí),激活函數(shù)等于1或者0,因此使用優(yōu)化器時(shí),其網(wǎng)絡(luò)更模型呢,其重要原因在于能夠解決‘梯度消失’問題,就比如Relu函數(shù)對于初始化比較敏感,在Relu中是沒有負(fù)值的,因?yàn)槎急籖elu賦值為零。其圖為1.4通過上圖1.3,Relu函數(shù)左邊曲線直接為0,即矩陣中如果有負(fù)數(shù)直接取0,層全連接層后,其作用是會(huì)計(jì)算出每個(gè)當(dāng)前樣本屬于本類的概率。通過分析下式,softmax函數(shù)做指數(shù)運(yùn)算,所以保證了softmax結(jié)果保證了非負(fù)性,這也是為什么,被用作多分類的原因,其函數(shù)表達(dá)見式(1.5),學(xué)習(xí)激活函數(shù)的基本,了解激活函數(shù)性能,分析激活函數(shù)的優(yōu)缺點(diǎn)。通過對比分析本文選擇Relu具有穩(wěn)定性,較快收斂性、稀疏表達(dá)性,因此Relu激活函數(shù)作為本實(shí)驗(yàn)卷積層和池化層的激活函數(shù)。1.3LeNet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí)LeNet-5模型發(fā)表,是YannLeCun教授在1998年論文《Gradient-basedLeNet-5是一個(gè)入門級的神經(jīng)網(wǎng)絡(luò)模型,被用來做手寫體識(shí)別,是在LeNet的基礎(chǔ)上加入池化層對輸入特征進(jìn)行篩選,其構(gòu)筑中交替出現(xiàn)的卷積層-池化層被認(rèn)為有效提取了圖像的平移不變特征[46]。下表1.1為LeNet-5模型的每層參數(shù)。輸入圖像(32*32*3)卷積層C1卷積核5*5,數(shù)量6,步長1激活函數(shù)(Relu)輸出特征圖像大?。?32-5)/1+1=28,即28*28*6池化層S2池化(kernel_size=2,stride=2)輸出特征圖像大小:(28-2)/2+1=14,即14*14*6卷積層C3卷積核5*5,數(shù)量16,步長1激活函數(shù)(Relu)輸出特征圖像大?。?14-5)/1+1=10,即10*10*16池化(kernel_size=2,stride=2)輸出特征圖像大?。?10-2)/2+1=5,即5*5*16卷積層C5卷積核5*5,數(shù)量120,步長1激活函數(shù)(Relu)激活函數(shù)(Relu)全連接層7輸出3765個(gè)類GoogLeNet的推出,其創(chuàng)新之處在于Inception模塊,。在2014年的ImageNetInception被多個(gè)卷積和一個(gè)池化組成,在神經(jīng)網(wǎng)絡(luò)里可以被看作是一個(gè)整體。GoogLeNet區(qū)別于其他網(wǎng)絡(luò),其增加了網(wǎng)絡(luò)的深度和寬度。所以GoogLeNet在增加深度和寬度的同時(shí),為了減少參數(shù),防止過擬合和模型難以優(yōu)化等問題提4下圖1.6為GoogLeNet每層結(jié)構(gòu)圖,其中一個(gè)Inception作為一個(gè)整體。其結(jié)構(gòu)圖有三次分類,其中有兩次分類發(fā)生在過程中,其目的就是為了防止GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu)中間部分的梯度消失過程,并且發(fā)生在過程中的兩次分類僅僅是用于訓(xùn)練的,并非用于預(yù)測過程。ovol2(s)Inceptionv1.5Resnet卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)知識(shí)2015年,Resnet網(wǎng)絡(luò)被提出。在這之前最深的深度網(wǎng)絡(luò)只有二三十層左右,ResNet的問世打破了這種局限,可以根據(jù)個(gè)人意愿將神經(jīng)網(wǎng)絡(luò)深度隨意增加,另外訓(xùn)練也不會(huì)占用太多的時(shí)間,所以ResNet經(jīng)常被用來訓(xùn)練圖像識(shí)別,并且準(zhǔn)確率大幅增加。在ImageNet大賽中,分別獲得圖像分類、圖形定位、圖像檢測三個(gè)項(xiàng)目的冠軍501。其能獲得三項(xiàng)大獎(jiǎng)的原因是因?yàn)楦先?jié)中講到的網(wǎng)絡(luò)不同之處在于其在網(wǎng)絡(luò)結(jié)構(gòu)中加入了殘差結(jié)構(gòu)(residual),在上三節(jié)講到的網(wǎng)絡(luò)中,簡單的增加網(wǎng)絡(luò)的深度,會(huì)發(fā)生梯度彌散或者梯度爆炸等問題,而殘差結(jié)構(gòu)的主要功能在于容易被優(yōu)化,并且是唯一一個(gè)能夠通過增加深度來提高準(zhǔn)確率。34層,層數(shù)較多的是50層、101層、152層。表1.3不同深度的ResNet結(jié)構(gòu)圖參數(shù)18層和34層的時(shí)候,殘差結(jié)構(gòu)由兩個(gè)相同的卷積核組成;在50層、101層、152層的時(shí)候,殘差結(jié)構(gòu)是由兩個(gè)相同的1*1卷積核把3*3的卷積核夾在中間。為什或者34層的ResNet。而右邊的主要被用于50層的ResNet、101層的ResNet和152層的ResNet。我們知道網(wǎng)絡(luò)深度加深,特征的等級就會(huì)變得越高,所以深度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論