Python深度學習及智能車競賽實踐 課件 9-卷積神經(jīng)網(wǎng)絡(luò)及斑馬線識別項目實踐_第1頁
Python深度學習及智能車競賽實踐 課件 9-卷積神經(jīng)網(wǎng)絡(luò)及斑馬線識別項目實踐_第2頁
Python深度學習及智能車競賽實踐 課件 9-卷積神經(jīng)網(wǎng)絡(luò)及斑馬線識別項目實踐_第3頁
Python深度學習及智能車競賽實踐 課件 9-卷積神經(jīng)網(wǎng)絡(luò)及斑馬線識別項目實踐_第4頁
Python深度學習及智能車競賽實踐 課件 9-卷積神經(jīng)網(wǎng)絡(luò)及斑馬線識別項目實踐_第5頁
已閱讀5頁,還剩100頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第九章卷積神經(jīng)網(wǎng)絡(luò)及斑馬線識別項目實踐Python深度學習及智能車競賽實踐目錄第2頁010203全連接神經(jīng)網(wǎng)絡(luò)的問題卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)典型的卷積神經(jīng)網(wǎng)絡(luò)模型

04CNN斑馬線檢測項目目錄第3頁010203全連接神經(jīng)網(wǎng)絡(luò)的問題卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)典型的卷積神經(jīng)網(wǎng)絡(luò)模型

04CNN斑馬線檢測項目思考全連接神經(jīng)網(wǎng)絡(luò)(DNN)模型存在哪些不足?1.全連接神經(jīng)網(wǎng)絡(luò)的問題建立模型損失函數(shù)參數(shù)學習Step1Step2Step3模型不足模型架構(gòu)不夠靈活模型參數(shù)過多1.全連接神經(jīng)網(wǎng)絡(luò)的問題……………………………………y1y2ymx1x2xn…………16x16=256256個神經(jīng)元1000個神經(jīng)元1000個神經(jīng)元10個神經(jīng)元假設(shè)對16x16的圖片進行分類手寫字體識別任務(wù),設(shè)計了如上所示的網(wǎng)絡(luò)。那對100*100的圖片做相同的任務(wù),只有通過增加每層的神經(jīng)元個數(shù)或者增加網(wǎng)絡(luò)的層數(shù)來完成。模型結(jié)構(gòu)不夠靈活網(wǎng)絡(luò)結(jié)構(gòu)不夠靈活1.全連接神經(jīng)網(wǎng)絡(luò)的問題……………………………………y1y2ymx1x2xn…………16x16=256256X103權(quán)重參數(shù)106權(quán)重參數(shù)104權(quán)重參數(shù)256個神經(jīng)元例如:輸入為16x16的圖片,輸入層為256個神經(jīng)元,隱藏層每層1000個神經(jīng)元,輸出層10個神經(jīng)元。假設(shè)共5層,則共需要學習(256*103+106+106+104)個w再加(1000+1000+1000+10)個b。模型參數(shù)太多1000個神經(jīng)元1000個神經(jīng)元10個神經(jīng)元1.全連接神經(jīng)網(wǎng)絡(luò)的問題……………………………………y1y2ymx1x2xn…………16x16=256256X103權(quán)重參數(shù)106權(quán)重參數(shù)104權(quán)重參數(shù)如果輸入為100*100的圖片或者更大的圖片呢?如果網(wǎng)絡(luò)的層數(shù)為十層呢?參數(shù)爆炸?。。?000個神經(jīng)元1000個神經(jīng)元10個神經(jīng)元256個神經(jīng)元例如:輸入為16x16的圖片,輸入層為256個神經(jīng)元,隱藏層每層1000個神經(jīng)元,輸出層10個神經(jīng)元。假設(shè)共5層,則共需要學習(256*103+106+106+104)個w再加(1000+1000+1000+10)個b。模型參數(shù)太多1.全連接神經(jīng)網(wǎng)絡(luò)的問題如何改進?思考1.全連接神經(jīng)網(wǎng)絡(luò)的問題圖像模式的特征一

應(yīng)用一次該方法只能提取一個特征

所以對應(yīng)同一張圖片輸入,應(yīng)該應(yīng)用多次該方法圖像模式的特征第一個發(fā)現(xiàn):汽車僅出現(xiàn)在圖像局部區(qū)域并不是所有具有相似形態(tài)特征的汽車都位于圖像的同一個位置如何應(yīng)用這個發(fā)現(xiàn)?可能的做法:定義一種提取局部的特征的方法,可有效響應(yīng)特定局部模式用這種方法遍歷整張圖片1.全連接神經(jīng)網(wǎng)絡(luò)的問題第二個發(fā)現(xiàn):大小改變,汽車仍然可以有效區(qū)分如何利用這個特征?可能的做法:在神經(jīng)網(wǎng)絡(luò)逐層累加的過程中,可以直接對圖像進行縮放;縮放到適當大小后,可以在特征提取過程中得到有效響應(yīng)。圖像模式的特征二圖像模式的特征1.全連接神經(jīng)網(wǎng)絡(luò)的問題建立模型損失函數(shù)參數(shù)學習如何改進?Step1全連接神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)1.全連接神經(jīng)網(wǎng)絡(luò)的問題目錄第13頁010203全連接神經(jīng)網(wǎng)絡(luò)的問題卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)典型的卷積神經(jīng)網(wǎng)絡(luò)模型

04CNN斑馬線檢測項目02卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)2.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)

2.2卷積層2.3池化層目錄第14頁第一個發(fā)現(xiàn)對應(yīng)的可能的做法:定義一種提取局部的特征的方法,可有效響應(yīng)特定局部模式;用這種方法遍歷整張圖片。第二個發(fā)現(xiàn)對應(yīng)的可能的做法:在神經(jīng)網(wǎng)絡(luò)逐層累加的過程中,可以直接對圖像進行縮放。池化:下采樣被檢測物體不變模式卷積:平移不變模式圖像模式的特征小結(jié)圖像模式的特征2.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)卷積層+激活函數(shù)+池化層+全連接層

CNN應(yīng)用圖像模式的一般框架(以分類為例)在最后出現(xiàn)一次或多次,用于做分類出現(xiàn)多次,用于提取特征2.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)建立模型卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積層Pooling層損失函數(shù)參數(shù)學習CNN模型步驟2.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上的三大特性局部連接權(quán)重共享下采樣減少網(wǎng)絡(luò)參數(shù),加快訓練速度2.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)局部連接全連接神經(jīng)元卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元在進行圖像識別的時候,不需要對整個圖像進行處理,只需要關(guān)注圖像中某些特殊的區(qū)域640x480640x480

輸入為640x480個像素

輸入為16x16個像素16x162.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)權(quán)重共享…………

卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元

只依靠局部連接就足以減少參數(shù)?每個神經(jīng)元起作用的只是局部區(qū)域,為了使各部分都起作用,就需要增加神經(jīng)元的個數(shù)2.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)下采樣下采樣對圖像像素進行下采樣,并不會對物體進行改變。雖然下采樣之后的圖像尺寸變小了,但是并不影響我們對圖像中物體的識別。640x480320x2402.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)全連接神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)相同顏色的箭頭代表相同的權(quán)重參數(shù)卷積核大小:2X1對比示例兩層卷積2.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)02卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)2.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)

2.2卷積層2.3池化層目錄第23頁101010101010101010101010101010101010000000000000000000*=121000-1-2-10卷積核inputimage(輸入圖像)kernel(卷積核)featuremap(特征映射層)

注:*為卷積操作2.2卷積層101010101010101010101010101010101010000000000000000000*=121000-1-2-100卷積核

inputimagekernelfeaturemap注:*為卷積操作2.2卷積層101010101010101010101010101010101010000000000000000000*=121000-1-2-1000卷積核

inputimagekernelfeaturemap注:*為卷積操作2.2卷積層101010101010101010101010101010101010000000000000000000*=121000-1-2-10000卷積核

inputimagekernelfeaturemap注:*為卷積操作2.2卷積層101010101010101010101010101010101010000000000000000000*=121000-1-2-1000040卷積核

注:*為卷積操作inputimagekernelfeaturemap2.2卷積層卷積核*=121000-1-2-1404040404040000101010101010101010101010101010101010000000000000000000

00004040inputimagekernelfeaturemap注:*為卷積操作2.2卷積層101010101010101010101010101010101010000000000000000000*=121000-1-2-1000040404040404040400000卷積核

注:*為卷積操作inputimagekernelfeaturemap2.2卷積層101010101010101010101010101010101010000000000000000000*=121000-1-2-1000040404040404040400000卷積核注:*為卷積操作inputimagekernelfeaturemap

卷積核在網(wǎng)絡(luò)連接里面相當于是神經(jīng)元,里面的9個值是權(quán)重參數(shù)值,卷積核中的參數(shù)需要在訓練的過程學習2.2卷積層*=kernelfeature

mapinputimage456789123123456789

權(quán)重共享局部連接注:*為卷積操作

2.2卷積層卷積和局部連接123456789卷積和局部連接*=456789123

kernelfeature

mapinputimage權(quán)重共享注:*為卷積操作2.2卷積層局部連接123456789*=456789123

kernelfeature

mapinputimage權(quán)重共享注:*為卷積操作局部連接2.2卷積層卷積和局部連接123456789*=456789123權(quán)重共享

kernelfeature

mapinputimage注:*為卷積操作局部連接2.2卷積層卷積和局部連接featuremapinputimage123456789*=456789123全連接output

kernelfeature

mapinputimage權(quán)重共享注:*為卷積操作局部連接2.2卷積層卷積和局部連接123456789*=456789123一次卷積,只需學習kernel

size大小的參數(shù)個數(shù),如上所示的例子,從input

image到feature

map只需要學習4個參數(shù)。全連接

kernelfeature

mapinputimagefeaturemapinputimageoutput卷積大大減少了模型所需學習的參數(shù)量!??!權(quán)重共享注:*為卷積操作,未考慮bias.局部連接2.2卷積層卷積和局部連接123456789*=456789123全連接單個卷積核相當于只能提取單一特征,如何利用卷積核提取更復雜的特征?注:*為卷積操作

kernelfeature

mapinputimagefeaturemapinputimageoutput權(quán)重共享局部連接2.2卷積層卷積和局部連接

123456789*=456789123一個卷積核可以提取圖像的一種特征==多個卷積核提取多種特征。同一kernel權(quán)重共享注:*為卷積操作

3

kernels

3

feature

mapsinputimage

3

featuremapsinputimage全連接

output局部連接2.2卷積層卷積和局部連接

多核卷積123456789*=456789123==同一kernel權(quán)重共享全連接

對于如上size為3*3的image,如需提取3個特征,卷積層需要3個卷積核,假設(shè)卷積核大小為4,則共需4*3=12個參數(shù)。

3

feature

mapsinputimage

3

featuremapsinputimageoutput

3

kernels2.2卷積層多通道卷積*=注:*為卷積操作

kernel

feature

map

feature

maps假設(shè)上一個卷積層已得到3個3x3的feature

maps,可表示為具有三個通道的feature

map,大小為3x3x33個2x2的卷積核,可表示為具有三個通道卷積核立方體,大小為3x2x2生成一個2x2大小的feature

map卷積核通常表示為一個立方體

2.2卷積層多通道卷積*=注:*為卷積操作

kernel

feature

map

feature

maps卷積核通常表示為一個立方體卷積核通常表示為一個立方體輸出為對應(yīng)通道在滑動窗口內(nèi)的卷積的和3個3X3的feature

maps

3個2x2的卷積核生成一個2X2大小的feature

map

2.2卷積層多通道卷積*=注:*為卷積操作

kernel

feature

map

feature

maps卷積核通常表示為一個立方體輸出為對應(yīng)通道在滑動窗口內(nèi)的卷積的和3個3X3的feature

maps3個2x2的卷積核生成一個2X2大小的feature

map

2.2卷積層多通道卷積*=注:*為卷積操作

kernel

feature

map

feature

maps卷積核通常表示為一個立方體輸出為對應(yīng)通道在滑動窗口內(nèi)的卷積的和3個3X3的feature

maps3個2x2的卷積核生成一個2X2大小的feature

map

2.2卷積層多通道卷積*=注:*為卷積操作

kernel

feature

map

feature

maps卷積核通常表示為一個立方體輸出為對應(yīng)通道在滑動窗口內(nèi)的卷積的和3個3X3的feature

maps

3個2x2的卷積核生成一個2X2大小的feature

map

2.2卷積層多通道多核卷積*=注:*為卷積操作

n

kernels

n

feature

maps

feature

mapsn個卷積核立方體生成n個feature

maps==……n個2X2的feature

maps…3個3X3的feature

maps2.2卷積層02卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)2.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)

2.2卷積層2.3池化層目錄第47頁10101081091010101010101010101071000010000001000000000*=121000-1-2-10-2-1540302030403017240102010Poolinginputimagekernelfeaturemap通過下采樣縮減feature

map尺度。常用max

pooling和average

pooling.Max

pooling下采樣后的featuremap下采樣注:*為卷積操作640x480320x240池化層又叫下采樣層,目的是壓縮數(shù)據(jù),降低數(shù)據(jù)維度2.3池化層10101081091010101010101010101071000010000001000000000*=121000-1-2-10-2-1540302030403017240102010Poolinginputimagekernelfeaturemap通過下采樣縮減feature

map尺度。常用max

pooling和average

pooling.Max

pooling40下采樣后的featuremap下采樣注:*為卷積操作640x480320x2402.3池化層10101081091010101010101010101071000010000001000000000*=121000-1-2-10-2-1540302030403017240102010Pooling通過下采樣縮減feature

map尺度。常用max

pooling和average

pooling.Max

pooling4030下采樣注:*為卷積操作inputimagekernelfeaturemap下采樣后的featuremap640x480320x2402.3池化層10101081091010101010101010101071000010000001000000000*=121000-1-2-10-2-1540302030403017240102010Pooling通過下采樣縮減feature

map尺度。常用max

pooling和average

pooling.Max

pooling403040下采樣注:*為卷積操作inputimagekernelfeaturemap下采樣后的featuremap640x480320x2402.3池化層10101081091010101010101010101071000010000001000000000*=121000-1-2-10-2-1540302030403017240102010Pooling通過下采樣縮減feature

map尺度。常用max

pooling和average

pooling.Max

pooling40304024下采樣增大感受野:經(jīng)過pooling后,一個數(shù)字的感受野增大了,前一層每一個數(shù)字感受的信息范圍比較窄,下一層放大數(shù)字的感受范圍,每一層的語義信息的力度都不一樣。注:*為卷積操作inputimagekernelfeaturemap下采樣后的featuremap640x480320x2402.3池化層目錄第53頁010203全連接神經(jīng)網(wǎng)絡(luò)的問題卷積神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)典型的卷積神經(jīng)網(wǎng)絡(luò)模型

04CNN斑馬線檢測項目03典型的卷積神經(jīng)網(wǎng)絡(luò)模型3.1MNIST和ImageNet數(shù)據(jù)集3.2LeNet3.3AlexNet

3.4VGGNet3.5GoogleNet

3.6ResNet目錄第54頁MNIST數(shù)據(jù)集:計算機視覺領(lǐng)域的一個經(jīng)典案例,0~9的手寫數(shù)字識別數(shù)據(jù)集,輸入的原始圖像是28x28x1的灰度圖像,要從中識別出圖片是0~9這10個數(shù)字中哪一個。MNIST一般會被當著深度學習中的基本練習,類似于學習編程時的“HelloWorld”。MNIST數(shù)據(jù)集3.1MNIST和ImageNet數(shù)據(jù)集包括70000個樣本,60000個訓練樣本和10000個測試樣本/1)Totalnumberofnon-emptysynsets:218412)Totalnumberofimages:14,197,122

3)Numberofimageswithboundingboxannotations:1,034,908

4)NumberofsynsetswithSIFTfeatures:1000

5)NumberofimageswithSIFTfeatures:1.2million可供用于圖像分類、目標定位、目標檢測、實例分割等多個計算機視覺任務(wù)。ImageNet國際計算機視覺挑戰(zhàn)賽(ILSVRC)ImageNet數(shù)據(jù)集

ILSVRC:ImageNet大規(guī)模圖像分類任務(wù)訓練集:1,281,167張圖片+標簽

驗證集:50,000張圖片+標簽

測試集:100,000張圖片1000個類別,每個類別1000多張圖像3.1MNIST和ImageNet數(shù)據(jù)集2014ILSVRC冠軍LeNetHubel&Wiesel早期嘗試AlexNet歷史突破DropoutReLUNINGoogLeNetInceptionV3,V4VGG網(wǎng)絡(luò)加深I(lǐng)nceptionV2,BN增加新的功能單元增強卷積模塊功能ResNet跳躍連接發(fā)展和演化MNIST數(shù)據(jù)集最早用于數(shù)字識別的CNN2012ILSVRC遠超第2名ZFNet,基于AlexNet,2013ILSVRC冠軍2014ILSVRC,圖像識別略差于GoogLeNet,但是在很多圖像分析問題(比如objectdetection)上效果好。2015年ILSVRCClassification獲得第一名DenseNet密集連接2017年ILSVRC進一步降低Classification錯誤率3.1MNIST和ImageNet數(shù)據(jù)集3.1MNIST和ImageNet數(shù)據(jù)集03典型的卷積神經(jīng)網(wǎng)絡(luò)模型

3.1Minst和ImageNet數(shù)據(jù)集3.2LeNet3.3AlexNet

3.4VGGNet3.5GoogleNet

3.6ResNet目錄第59頁經(jīng)典模型(LeNet-5)LeNet-5由LeCun等人提出于1998年提出,主要用于手寫數(shù)字識別和英文字母識別的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò),LeNet雖小,各模塊齊全,是學習CNN的基礎(chǔ)。在MNIST上的準確率達到約99%。參考:/exdb/lenet/3.2LeNet經(jīng)典模型(LeNet-5)用字母C代表卷積層(Convolutional

layer),用字母S代表下采樣層(Sub-samplinglayer),整個網(wǎng)絡(luò)中共有C1、S2、C3、S4、C5共5個卷積加池化層構(gòu)成了特征提取的主干部分,因此把該網(wǎng)絡(luò)稱為LeNet-5。3.2LeNetC1層(卷積層):6個卷積核,卷積核大小為5×5,步長為1,featuremap的大小為

32-5+1=28,得到6個大小為32-5+1=28的特征圖,也就是神經(jīng)元的個數(shù)為6×28×28=4704;6個卷積核,卷積核大小為5×5,共有6×25+6=156個參數(shù)(加了6個偏置)。經(jīng)典模型(LeNet-5)3.2LeNetS2層(pooling層):池化核大小選擇2?2,每個下采樣節(jié)點的4個輸入節(jié)點求和后乘上一個權(quán)重參數(shù),再加上一個偏置參數(shù)作為激活函數(shù)的輸入,激活函數(shù)的輸出即是節(jié)點的值,得到6個14×14大小的feature

map;每個feature

map的權(quán)值和偏置值都是一樣的,則共有6×2=12個參數(shù)。經(jīng)典模型(LeNet-5)3.2LeNetC3層(卷積層):C3層有16個10x10的特征圖,

共有60個卷積核,C3跟S2并不是全連接的,具體連接方式如右上表所示,每個卷積核大小為5×5;則共有60×25+16=1516個參數(shù)(加16個偏置)。經(jīng)典模型(LeNet-5)3.2LeNetC3層(卷積層):

C3與S2中前3個圖相連的卷積結(jié)構(gòu)。經(jīng)典模型(LeNet-5)3.2LeNetS4層(下采樣層):對C3的16張10×10特征圖進行最大池化,池化核大小為2×2,得到16張大小為5×5的特征圖,神經(jīng)元個數(shù)已經(jīng)減少為:16×5×5=400;每個下采樣節(jié)點的4個輸入節(jié)點求和后乘上一個權(quán)重參數(shù)加上一個偏置參數(shù)作為sigmoid激活函數(shù)的輸入,激活函數(shù)的輸出即是節(jié)點的值,每個特征圖的權(quán)值和偏置值都是一樣的,則共有16×2=32個參數(shù)。經(jīng)典模型(LeNet-5)3.2LeNetC5層(卷積層):用5×5的卷積核進行卷積,然后我們希望得到120個特征圖,特征圖大小為5-5+1=1,神經(jīng)元個數(shù)為120(這里實際上用卷積實現(xiàn)了全連接);由S4中的16個5×5大小的特征圖變?yōu)?20個1×1的特征圖,S4和C5的所有特征圖之間全部相連,有120×16=1920個卷積核,每個卷積核大小為5×5;則共有1920×25+120=48120個參數(shù)。經(jīng)典模型(LeNet-5)3.2LeNetF6層(全連接層):有84個節(jié)點,該層的訓練參數(shù)和連接數(shù)都(120+1)×84=10164。Output層(輸出層):共有10個節(jié)點,分別代表數(shù)字0到9,該層的訓練參數(shù)和連接數(shù)都(84+1)×10=850。采用的是徑向基函數(shù)(RBF)的網(wǎng)絡(luò)連接方式(現(xiàn)在已經(jīng)變?yōu)閟oftmax)。經(jīng)典模型(LeNet-5)3.2LeNet一般池化操作是沒有參數(shù)的,LeNet-5中在池化層整體增加了權(quán)重參數(shù)和偏置;卷積層的參數(shù)相對較少,大量的參數(shù)都存在于全連接層;隨著神經(jīng)網(wǎng)絡(luò)的加深,激活值尺寸會逐漸變小,但是,如果激活值尺寸下降太快,會影響神經(jīng)網(wǎng)絡(luò)的性能。經(jīng)典模型(LeNet-5)ActivationShapeActivationUnitSizeParameters輸入層(32,32,1)1024C1層(28,28,6)4704(5x5x1+1)x6=156S2層(14,14,6)11762x6=12C3層(10,10,16)1600

60x25+16=1516S4層(5,5,16)4002x16=32C5層(120,1)120(400+1)x120=48120F6層(84,1)84(120+1)x84=10164輸出層(10,1)10(84+1)x10=8503.2LeNet在卷積神經(jīng)網(wǎng)絡(luò)中,卷積核大小、卷積核個數(shù)(特征圖需要多少個)、池化核大小(采樣率多少)這些參數(shù)都是變化的,這就是所謂的CNN調(diào)參,需要學會根據(jù)需要進行不同的選擇。經(jīng)典模型(LeNet-5)ActivationShapeActivationUnitSizeParameters輸入層(32,32,1)1024C1層(28,28,6)4704(5x5x1+1)x6=156S2層(14,14,6)11762x6=12C3層(10,10,16)160016×(6×(5×5)+1)=2416S4層(5,5,16)4002x16=32C5層(120,1)120(400+1)x120=48120F6層(84,1)84(120+1)x84=10164輸出層(10,1)10(84+1)x10=8503.2LeNetLeNet-5網(wǎng)絡(luò)要求的輸入圖像的尺寸是32x32x1,需要對原始尺寸為28x28x1的MNIST數(shù)據(jù)集中的圖像進行一些預處理,比如在原始圖像周邊填充上足量的0,或者對原始圖像使用插值法來調(diào)整尺寸。LeNet-5用于MNIST數(shù)據(jù)集3.2LeNet03典型的卷積神經(jīng)網(wǎng)絡(luò)模型

3.1Minst和ImageNet數(shù)據(jù)集3.2LeNet3.3AlexNet

3.4VGGNet3.5GoogleNet

3.6ResNet目錄第72頁KrizhevskyA,SutskeverI,HintonG.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[C]//NIPS.CurranAssociatesInc.2012.AlexKrizhevsky等提出,以很大優(yōu)勢獲得2012年ImageNet比賽冠軍深度學習方法首次應(yīng)用在ImageNet更深的網(wǎng)絡(luò)結(jié)構(gòu),5層卷積+3層全連接使用分組卷積使用ReLU激活函數(shù)替代Sigmoid使用Dropout抑制過擬合使用數(shù)據(jù)增強方法(DataAugmentation):圖像翻轉(zhuǎn)、裁剪、顏色變化等3.3AlexNet3.3AlexNet3.3AlexNet3.3AlexNet3.3AlexNetLayerOutputParametersInput227*227*3Conv155*55*96(11*11*3+1)*96=34944MaxPool127*27*960Norm1Conv227*27*256(5*5*48+1)*128*2MaxPool213*13*2560Norm2Conv313*13*384(3*3*256+1)*384Conv413*13*384(3*3*192+1)*192*2Conv513*13*256(3*3*192+1)*128*2MaxPool36*6*2560Fc6+Dropout4096(6*6*128*2+1)*4096Fc7+Dropout4096(4096+1)*4096Fc81000(4096+1)*1000Details:

分組卷積

第一次使用ReLU data

augmentation dropout=0.5

batch-size=128 SGDmomentum=0.9 learning-rate=1e-2 L2weight-decay=5e-4 參數(shù)數(shù)量總數(shù):60.9MB

卷積層參數(shù):2.3MB,占總參數(shù)的3.8%

全連接層參數(shù):58.6MB,占總參數(shù)量的96.2%3.3AlexNetDataAugmentation:

擬合自然界中常見的噪聲

主要用于數(shù)據(jù)集較小的時候,可以豐富圖像訓練集、防止過擬合常用的數(shù)據(jù)增強方式有:

對顏色的數(shù)據(jù)增強

色彩的飽和度、亮度、對比度

加噪聲(高斯噪聲)

水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)

隨機旋轉(zhuǎn)、隨機裁剪(crop)https:///aleju/imgaugNOOPCROP(上、下、左、右)FLIPlrFLIPudRotateShear3.3AlexNet03典型的卷積神經(jīng)網(wǎng)絡(luò)模型

3.1Minst和ImageNet數(shù)據(jù)集3.2LeNet3.3AlexNet

3.4VGGNet3.5GoogleNet

3.6ResNet目錄第80頁Simonyan等2014年提出VGG模型,是最流行的CNN之一:VGG名字來源于論文作者所在的實驗室VisualeometryGroup(牛津大學視覺幾何計算組)主要思想:通過重復使用簡單的基礎(chǔ)塊來構(gòu)建深度模型,為深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建提供了方向。

SimonyanK,ZissermanA.VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition[J].ComputerScience,2014.3.4VGGNet整個網(wǎng)絡(luò)結(jié)構(gòu)可以分為5個VGG塊,再加上全連接層每個VGG塊包含多層3x3的卷積層+2x2最大池化層

卷積層層全部使用3x3大小的卷積核,經(jīng)過池化之后輸出特征圖會減小,進入下一層級的時候?qū)⒃黾泳矸e輸出通道數(shù)翻倍。輸入尺寸224→112

→56

→28

→28,輸出通道數(shù)64

→128

→256

→512

→5123.4VGGNetSmallConvolutionfilter:AlexNet用到一些非常大的卷積核,比如11*11、5*5。Intuition:感受野越大、看到的圖片信息就越多,獲得的特征會越好

參數(shù)和計算量的增加,如何衡量該使用多大的卷積核?Methods:使用2個3*3的卷積核的組合比用1個5*5的卷積核

效果更佳 && 參數(shù)量降低參數(shù)量的評估:

以256通道的隱層數(shù)據(jù)為例: 2個3*3的卷積核 == 1個5*5的卷積核 2*3*3*256params 5*5*256params 3個3*3的卷積核 == 1個7*7的卷積核 3*3*3*256params 7*7*256params3.4VGGNet深度:AlexNet8層VGG最深19層3.4VGGNetVGG-16的結(jié)構(gòu)和參數(shù)量內(nèi)存消耗(部分):結(jié)構(gòu)部分:93MB參數(shù)部分:138MB*4B=526MB卷積層與全連接層全連接層之間3.4VGGNetDetails: 3*3conv-filter conv-stride=1 pad=1, 2*2pool-filter pool-stride=2LayerOutputParametersInput224*224*3Note:未計算偏置Conv3-64224*224*64(3*3*3)*64=1728Conv3-64224*224*64(3*3*64)*64=36864Pool2112*112*640Conv3-128112*112*128(3*3*64)*128=73728Conv3-128112*112*128(3*3*128)*128=147456Pool256*56*1280Conv3-25656*56*256(3*3*128)*256=294912Conv3-25656*56*256(3*3*256)*256=589824Conv3-25656*56*256(3*3*256)*256=589824Pool228*28*2560Conv3-51228*28*512(3*3*256)*512=1179648Conv3-51228*28*512(3*3*512)*512=2359296Conv3-51228*28*512(3*3*512)*512=2359296Pool214*14*5120Conv3-51214*14*512(3*3*512)*512=2359296Conv3-51214*14*512(3*3*512)*512=2359296Conv3-51214*14*512(3*3*512)*512=2359296Pool27*7*5120Fc1*1*4096(7*7*512)*4096Fc1*1*40964096*4096Fc1*1*10004096*10003.4VGGNetVGG-19的結(jié)構(gòu)和參數(shù)量03典型的卷積神經(jīng)網(wǎng)絡(luò)模型

3.1Minst和ImageNet數(shù)據(jù)集3.2LeNet3.3AlexNet

3.4VGGNet3.5GoogleNet

3.6ResNet目錄第87頁

Google提出的神經(jīng)網(wǎng)絡(luò),一共有V1-V4共4個不同的模型使用了Inception模塊可以并行執(zhí)行多個具有不同尺度的卷積運算或池化操作將多個卷積核卷積的結(jié)果拼接成一個非常深的特征圖使用了大量的trick提高網(wǎng)絡(luò)性能Bottleneck(瓶頸):1*1的卷積核,借鑒NIN使用全局平均池化GAP代替全連接在v2中,采用BatchNormalization(批歸一化)在v3中,采用非對稱卷積降低運算量在v4中,結(jié)合了ResNet中的思想,發(fā)現(xiàn)ResidualConnections貌似只能加快網(wǎng)絡(luò)收斂速度,是更大的網(wǎng)絡(luò)規(guī)模提高了精度SzegedyC,LiuW,JiaY,etal.GoingDeeperwithConvolutions[J].2014.3.5GoogleNetMulti-sizefiltersinonelayer(InceptionBlock):最早出現(xiàn)于Inception-v1/GoogleNet傳統(tǒng)的堆疊式網(wǎng)絡(luò),每層僅用一個尺寸的卷積核,如VGG每層只使用3*3的卷積核。Intuition:信息位置的巨大差異,使得不同尺度的特征結(jié)合起來可以得到更好的特征表示。Methods:卷積核設(shè)為1,3,5,stride設(shè)為1,可以使用pad=0,1,2很方便的對齊結(jié)合的方式:在depth維度上Concatenation(拼接)。多通道卷積設(shè)計使得網(wǎng)絡(luò)不僅有深度,還有寬度。3.5GoogleNetBottleneck:在同一層使用多個不同尺寸的卷積核會導致參數(shù)過多,

在Inception結(jié)構(gòu)中加入1*1的卷積核。Bottleneck參數(shù)量評估:

Inputchannel=256,Outputchannel=256卷積核=3*3*256參數(shù)量:256*3*3*256=589,824加入1x1卷積核后參數(shù)量:卷積核:1*1*32,3*3*256參數(shù)量:256*1*1*32+32*3*3*256=81,920Output256dInput256dOutput256dInput256d3*3*256filter1*1*32filter3*3*256filter3.5GoogleNet使用全局平均池化GAP代替全連接:多個全連接層可以提升神經(jīng)網(wǎng)絡(luò)的分類性能,全連接層一度成為標配Intuition:全連接層參數(shù)量巨大,特別是與最后一個卷積層相連接的全連接層Methods:全局平均池化GlobalAveragePooling代替全連接Advantage:可以實現(xiàn)任意圖像大小的輸入3.5GoogleNetFCOutput100ConvOutput7*7*512FCOutput40967*7*512*4096params4096*100paramsFCOutput100ConvOutput7*7*512GAPOutput1*1*5120params51

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論