機器學(xué)習(xí)簡明教程-基于Python語言實現(xiàn) 課件 第9章卷積神經(jīng)網(wǎng)絡(luò)_第1頁
機器學(xué)習(xí)簡明教程-基于Python語言實現(xiàn) 課件 第9章卷積神經(jīng)網(wǎng)絡(luò)_第2頁
機器學(xué)習(xí)簡明教程-基于Python語言實現(xiàn) 課件 第9章卷積神經(jīng)網(wǎng)絡(luò)_第3頁
機器學(xué)習(xí)簡明教程-基于Python語言實現(xiàn) 課件 第9章卷積神經(jīng)網(wǎng)絡(luò)_第4頁
機器學(xué)習(xí)簡明教程-基于Python語言實現(xiàn) 課件 第9章卷積神經(jīng)網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

卷積神經(jīng)網(wǎng)絡(luò)《機器學(xué)習(xí)簡明教程》高延增侯躍恩羅志堅機械工業(yè)出版社09本章目標(biāo)?了解人類視覺系統(tǒng)對CNN的啟發(fā)?理解CNN算法原理?了解LeNet5、AlexNet、GoogleNet等幾種經(jīng)典的CNN框架上一章使用普通的多層神經(jīng)網(wǎng)絡(luò)識別手寫數(shù)字圖像的例子有很多不合理的地方:(1)把圖像直接展開成一維向量,會使圖像在空間上的關(guān)聯(lián)信息丟失,難以保存圖像原有特征;(2)直接展開使得輸入層節(jié)點過多,導(dǎo)致后續(xù)層級的權(quán)值過多,這樣必然帶來學(xué)習(xí)效率的低下;(3)大量的權(quán)值參數(shù)使得過擬合風(fēng)險增加。而卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)的出現(xiàn),極大地緩解了這些問題。CNN的處理方式更接近生物神經(jīng)網(wǎng)絡(luò),它是特殊設(shè)計的多層神經(jīng)網(wǎng)絡(luò),將卷積、池化運算與神經(jīng)網(wǎng)絡(luò)結(jié)合,可以充分利用待處理特征的內(nèi)部關(guān)聯(lián)信息。再加上CNN算法實現(xiàn)中將涉及到的大量矩陣運算可以交給GPU處理,大大提高了運算速度,CNN的這些特性使得它在計算機視覺領(lǐng)域得到廣泛應(yīng)用?;綜NN結(jié)構(gòu)包括輸入層、卷積層、池化層、全連接層及輸出層。本章首先詳細(xì)介紹一般CNN算法框架及其各層級實現(xiàn)原理,然后給出幾種較常用的CNN模型,最后通過一個案例演示CNN如何用于解決實際問題。目錄/Contents9.19.2人類視覺系統(tǒng)的啟發(fā)CNN算法原理9.3CNN應(yīng)用9.1人類視覺系統(tǒng)的啟發(fā)增加神經(jīng)網(wǎng)絡(luò)的層數(shù)和節(jié)點數(shù)可以擬合更加復(fù)雜的函數(shù),含多個隱藏層的神經(jīng)網(wǎng)絡(luò)被稱為深度神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)就是在深度神經(jīng)網(wǎng)絡(luò)上發(fā)展而來的。而卷積神經(jīng)網(wǎng)絡(luò)又屬于深度學(xué)習(xí)算法中的一種,卷積神經(jīng)網(wǎng)絡(luò)在實際應(yīng)用中又有多種具體的類型。深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)在人工智能中的地位如下圖:CNN與人工智能的關(guān)系相對于普通的多層網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)在將待識別目標(biāo)給到全連接網(wǎng)絡(luò)之前先經(jīng)過了卷積層和池化層的處理,而這個設(shè)計模擬了生物大腦皮層對視覺信號的處理過程。9.1人類視覺系統(tǒng)的啟發(fā)——人類視覺系統(tǒng)1962年,DavidHubel和TorstenWiesel就通過對貓的視覺皮層細(xì)胞的研究發(fā)現(xiàn)了視覺系統(tǒng)的分層級信息處理機制,并因此獲得了1981年的諾貝爾醫(yī)學(xué)獎。而靈長類動物(包括人類)的視覺系統(tǒng)更為復(fù)雜,其多層級、遞進(jìn)的視覺信號處理機制對卷積神經(jīng)網(wǎng)絡(luò)的發(fā)明有重要啟發(fā)作用。人的視覺系統(tǒng)主要包括眼睛(主要指視網(wǎng)膜retina)、外側(cè)膝狀體(簡稱外膝體LateralGeniculateNucleus,LGN)以及視皮層(cortex,包括初級視皮層以及紋外皮層)三部分。視網(wǎng)膜是人類視覺系統(tǒng)獲取外部光學(xué)信號的第一站,主要負(fù)責(zé)將光信號轉(zhuǎn)換成電信號并進(jìn)行簡單預(yù)處理后傳遞給后方的腦區(qū)。外膝體是中轉(zhuǎn)站,將視網(wǎng)膜傳過來的信號分門別類后傳遞給后面的視皮層(視覺系統(tǒng)的中央處理器)。視皮層主要包括初級視皮層(又稱作紋狀皮層或視覺第一區(qū)域,即V1)和紋外皮層(例如視覺第二、第三、第四、第五區(qū)域等,即V2、V3、V4、V5),各個區(qū)域提取視覺信息的側(cè)重點不同,如方向、方位、顏色、空間頻率等信息分別由不同的視皮層區(qū)域重點處理。人類視覺系統(tǒng)進(jìn)行信息識別提取的流程概括為下圖:9.1人類視覺系統(tǒng)的啟發(fā)——人類視覺系統(tǒng)把視網(wǎng)膜上的細(xì)胞看作像素,外界的視覺刺激首先組成視網(wǎng)膜色譜圖,經(jīng)過LGN以后依次來到大腦皮層的V1、V2、V4、IT區(qū)域;然后每個區(qū)域與視網(wǎng)膜形成不同的區(qū)域?qū)?yīng)特性,對輸入信號的表征空間也逐步發(fā)生變化,人們也就是由此進(jìn)行的劃分,從而可以把視覺系統(tǒng)看作是一個深度分層網(wǎng)絡(luò)。另外,從V1層開始的視覺層都具有前饋和反饋功能。9.1人類視覺系統(tǒng)的啟發(fā)——卷積(9.1)

(9.2)9.1人類視覺系統(tǒng)的啟發(fā)——卷積卷積運算是對生活、科研中一些現(xiàn)象的符號化抽象以記英語單詞為例,假設(shè)一個學(xué)生每隔一段時間可以記住一個單詞,隨時間推移記住的單詞會越來越多;但是,時間長了,單詞也會逐漸忘記。那一段時間內(nèi),這個學(xué)生總共能記住多少單詞呢?

沒有遺忘的記憶曲線

(9.3)9.1人類視覺系統(tǒng)的啟發(fā)——卷積以記英語單詞為例,假設(shè)一個學(xué)生每隔一段時間可以記住一個單詞,隨時間推移記住的單詞會越來越多;但是,時間長了,單詞也會逐漸忘記。那一段時間內(nèi),這個學(xué)生總共能記住多少單詞呢?

遺忘曲線

9.1人類視覺系統(tǒng)的啟發(fā)——卷積以記英語單詞為例,假設(shè)一個學(xué)生每隔一段時間可以記住一個單詞,隨時間推移記住的單詞會越來越多;但是,時間長了,單詞也會逐漸忘記。那一段時間內(nèi),這個學(xué)生總共能記住多少單詞呢?下圖為卷積運算示意,從圖中可以看成,如果學(xué)生不復(fù)習(xí),那他再怎么努力能記住的單詞總數(shù)也是有限的卷積是瞬時行為的持續(xù)性后果。而兩個函數(shù)的卷積運算,計算方法就是先將一個函數(shù)翻轉(zhuǎn),然后進(jìn)行滑動疊加。

也可以將卷積運算理解為把兩個函數(shù)變成一個函數(shù)的運算形式,實際上就是將兩維轉(zhuǎn)為一維,實現(xiàn)了實質(zhì)上的降維。CNN在卷積層對圖像的處理借鑒了卷積運算的原理但有區(qū)別,具體將在本章第2節(jié)介紹。目錄/Contents9.19.2人類視覺系統(tǒng)的啟發(fā)CNN算法原理9.3CNN應(yīng)用9.2CNN算法原理——CNN框架受生物視覺系統(tǒng)實現(xiàn)機理啟發(fā),科學(xué)家通過模擬生物大腦皮層對視覺信號的處理過程設(shè)計開發(fā)出CNN。CNN分成輸入層、卷積層、池化層、全連接層等,又通過局部感受野、權(quán)重共享和降采樣等策略降低網(wǎng)絡(luò)模型的復(fù)雜度。上圖為一個圖形識別的CNN模型案例,模型最左邊圖像就是輸入的待識別圖像,常用的RGB、HSV、YUV圖像格式都是三通道的,在模型看來就是輸入了三個矩陣。9.2CNN算法原理——CNN框架

(9.5)9.2CNN算法原理——CNN框架陸上交通工具圖像CNN識別過程的簡單示意相對于普通多層神經(jīng)網(wǎng)絡(luò),CNN的主要特點是增加了卷積層和池化層。因此,學(xué)習(xí)CNN原理的關(guān)鍵是對卷積層、池化層原理的掌握。9.2CNN算法原理——卷積層

9.2CNN算法原理——卷積層上頁圖中所示的卷積運算,從圖像矩陣的左上角選擇和卷積核同樣大小的矩陣將它們對應(yīng)位置上相乘后求和,求和結(jié)果作為卷積結(jié)果矩陣上的第一個點;結(jié)果矩陣上第二個點求解類似,如式(9.6)、(9.7)所示。(9.6)(9.7)從卷積算式可以看出,只要合理選擇卷積核,就可以強化或弱化某個方向上的像素點差別,如下圖所示。圖中的卷積核是豎向敏感的,就是圖像中豎向的邊界點會被增強,而橫向的邊界點會被變?nèi)酢D中,6×6的圖像矩陣的第3列和第4列是邊界,與豎向敏感的卷積核求卷積運算得到的結(jié)果矩陣在這個位置上像素值增加了。9.2CNN算法原理——卷積層豎向敏感的卷積核替換為橫向敏感的卷積核,那經(jīng)過卷積運算后圖像矩陣的豎向邊界就消失了9.2CNN算法原理——卷積層與之類似,還可以是對角線上敏感的卷積核,這類{-1,0,1}三個數(shù)按照一定方向構(gòu)成的矩陣,被稱為Prewitt核。常用的還有Sobel核,它由Prewitt核的基礎(chǔ)上改進(jìn)而來,在中心系數(shù)上使用一個權(quán)值2,相比較Prewitt算子,Sobel模板能夠較好的抑制(平滑)噪聲。Prewitt核、Sobel核可以用來增強圖像中的線形邊界。9.2CNN算法原理——卷積層若想增強圖像中的點,可以使用Laplace核對圖像上的邊界突變檢測實際上可以通過對圖像求微分實現(xiàn),如前面的Prewitt、Sobel核又稱為一階微分算子,但一階微分算子對噪聲較敏感,所以有時會使用二階微分核,如Laplace、LoG、DoG等。卷積運算后,一些像素點的值變成了負(fù)數(shù),所以一般在卷積層后面會加入ReLU激活函數(shù)。9.2CNN算法原理——卷積層例:分別使用Sobel垂直、水平、對角線核對下圖進(jìn)行卷積處理分別使用水平、垂直、對角線卷積核對原始圖像進(jìn)行卷積運算

通過Sobel算子對圖像進(jìn)行卷積運算后,相應(yīng)方向上的邊緣得到增強,可以實現(xiàn)輪廓提取的效果。經(jīng)過卷積處理后的圖像增強了輪廓特征,有利于后續(xù)層對圖像進(jìn)行分類。實際應(yīng)用中,圖像在多個方向上的輪廓都對最后的識別有意義,經(jīng)常使用多個卷積核,每個卷積核代表一種圖像模式,把本卷積層得到的所有卷積結(jié)果都給后續(xù)的層處理。此外,實用中CNN卷積核每個分量的具體值不是固定的,最優(yōu)參數(shù)是根據(jù)樣本集訓(xùn)練而得。卷積操作會使原始圖像變小,可以根據(jù)卷積核大小對原始圖像外圍填充數(shù)據(jù)(如0)使卷積結(jié)果矩陣維度不變。9.2CNN算法原理——卷積層卷積核對圖像平移卷積運算時,每次移動的像素間隔數(shù)(稱為步幅)也是可調(diào)的,顯然步幅越大卷積結(jié)果矩陣維度就越小。綜上,卷積層的任務(wù)就是通過卷積核的過濾提取圖片的局部特征,類似于人類視覺的特征提取。但是,經(jīng)過卷積操作后,圖像的像素值并沒有減少,CNN模仿人類視覺系統(tǒng)在卷積層后加入池化層對圖像進(jìn)行降維和抽象。9.2CNN算法原理——池化層池化(Pooling)層通過去掉卷積層輸出的特征結(jié)果矩陣(FeatureMap)中不重要的樣本,減少后續(xù)層級需要處理的特征數(shù)量,池化層還可以在一定程度上防止過擬合。如果輸入是圖像的話,那么池化層的最主要作用就是壓縮圖像,池化操作屬于降采樣的一種特殊形式,且是一種比較簡單的降采樣算法。圖像降采樣核心思想是,卷積后的圖像矩陣維度依然太大,我們想辦法使用一種算法讓這個圖像矩陣的維度降低又不損失圖像的重要信息,CNN中采用池化層來實現(xiàn)這一目標(biāo)。一般的池化運算如下圖,池化濾波器的長寬需要事先指定(常用2×2),從被池化矩陣的左上角開始選擇一個和池化濾波器形狀相同的子集,選中的子集通過一定的規(guī)則轉(zhuǎn)變成池化結(jié)果矩陣上的一個元素值,緊接著池化濾波器向右平移步長個單位進(jìn)行下一輪,直到池化完成。步長可以小于池化濾波器的寬,這時候相鄰兩次池化會有重疊。9.2CNN算法原理——池化層常用的池化運算規(guī)則有三種:(1)最大池化(maxpooling),取池化子區(qū)域的最大值作為結(jié)果元素;(2)均值池化(averagepooling),取平均值作為結(jié)果;(3)全局池化(globalpooling),這里的全局是針對卷積層輸出的特征結(jié)果矩陣(featuremap)的,多個卷積核可以產(chǎn)生多個卷積結(jié)果矩陣,將每個結(jié)果矩陣池化為一個值,就稱為全局池化,又分成全局最大池化、全局均值池化等。9.2CNN算法原理——池化層例9.2.2:對例9.2.1中的豎向Sobel核卷積結(jié)果進(jìn)行池化操作。

池化層的本質(zhì)是一個特征選擇、降維的過程,這樣可以提高整個CNN網(wǎng)絡(luò)的運算效率,但池化操作也會損失一部分原圖信息,是兼顧識別效果和算力的一種折衷方案。9.2CNN算法原理——全連接層全連接層(FullyConnectedLayer,FC)是CNN的最后一層,本層的輸出結(jié)果就是CNN的輸出結(jié)果,也就是圖像識別的最終結(jié)果。全連接層的結(jié)構(gòu)如下圖,全連接層首先將前面經(jīng)過卷積、池化后的特征進(jìn)行一維化(flatten)處理,然后將這些特征最終識別為一組可能的分類值。此處的全連接層,就是上一章多層神經(jīng)網(wǎng)絡(luò)。CNN前半部分的卷積+ReLU激活+池化等一系列處理的結(jié)果,然后將這些結(jié)果一維化(flatten)后作為全連接層的輸入,全連接層起到一個分類器的作用。9.2CNN算法原理——全連接層整個CNN可以分成兩部分:由卷積、池化等組成的特征預(yù)處理,由全連接層充當(dāng)?shù)姆诸惼鳌G懊鎯蓚€小節(jié)介紹可知,多個卷積核對圖像進(jìn)行卷積運算可以將圖像按照感興趣的紋理特征對圖像進(jìn)行濾波,而對應(yīng)的池化操作可以一定程度防止過擬合并對卷積結(jié)果進(jìn)行壓縮,但每一個卷積核都只是提取圖像的局部特征;而在全連接層相當(dāng)于將前面的這些強化、壓縮后的局部特征又重新組合在一起了。因為此處的輸入層用到了前面得到的所有局部特征,所以叫做全連接層。而最后的Softmax處理得到概率值向量,使得CNN的輸出結(jié)果有較好的可解釋性,也讓后續(xù)取閾值等操作順理成章。如下圖所示為一個訓(xùn)練好的寵物分類CNN對一張小狗的圖片進(jìn)行分類的過程示意,CNN先對待識別圖像進(jìn)行卷積、池化等操作,最后將圖像處理后的特征交由全連接層進(jìn)行分類識別,識別的結(jié)果在代表狗的那個分量上的概率最高,所以CNN識別的結(jié)果是“這個圖像80%的可能是一張小狗的圖像”。CNN卷積核的權(quán)值、全連接層各神經(jīng)元的權(quán)值等都是通過訓(xùn)練得到的,訓(xùn)練算法與上一章多層神經(jīng)網(wǎng)絡(luò)類似。目錄/Contents9.19.2人類視覺系統(tǒng)的啟發(fā)CNN算法原理9.3CNN應(yīng)用9.3CNN應(yīng)用——LeNet5模型知道了CNN的原理后,針對具體的應(yīng)用場景可以根據(jù)需要靈活設(shè)計具體的CNN架構(gòu),較出名的有LeNet、AlexNet、GoogleNet等。LeNet是最早的卷積神經(jīng)網(wǎng)絡(luò)之一,它的出現(xiàn)直接推動了深度學(xué)習(xí)領(lǐng)域的發(fā)展,因為前面經(jīng)過多次迭代優(yōu)化,又被稱為LeNet5,它主要被用于手寫圖像的識別。LeNet-5共有七層,每一層都有可訓(xùn)練參數(shù),架構(gòu)如下:9.3CNN應(yīng)用——LeNet5模型C1是卷積層,有6個5×5的卷積核,輸入圖像和每個卷積核做卷積運算都可以得到一個卷積結(jié)果,共6個卷積結(jié)果,又因為沒對輸入圖像做填充,所以每個卷積后的結(jié)果大小為28×28,28=32-5+1。卷積核的每個分量都是需要訓(xùn)練的參數(shù),此外每個卷積核都有一個偏置(bias),所以C1層總共有5×5+1×6=156需要訓(xùn)練的參數(shù)。連接數(shù)的個數(shù)為28×28×6×5×5+1=122304,因為卷積層的輸出的每個像素點都對應(yīng)26個連接,總共有28×28×6個像素點。P2是池化層,采用一個2×2的池化濾波器。池化方法是將池化矩陣中的分量相加再乘以可訓(xùn)練系數(shù)(權(quán)重),然后加上可訓(xùn)練偏差(bias),再將得到的結(jié)果通過S形函數(shù)傳遞。池化過程中感受域不重疊,所以P2中的特征圖大小為C1中的特征圖的一半。C1中的每個特征圖對應(yīng)P2中的2個池化參數(shù),所以P2的總池化參數(shù)為2×6=12。P2中特征圖的每個像素點都對應(yīng)有2×2個連接,所以P2總的連接數(shù)為2×2×14×14=4704。C3是卷積層,卷積核個數(shù)為16,包括6個5×5×3、9個5×5×4、1個5×5×6的卷積核。C3各個(0~15)特征圖是對P2層6個(0~5)池化輸出進(jìn)行卷積運算的結(jié)果,卷積關(guān)系見下頁表格。例如:C3的第0個特征圖是使用一個5×5×3的卷積核對P2的第0~2個輸出進(jìn)行卷積運算的結(jié)果,C3第0個特征圖的每個像素都是5×5×3個乘積再加一個偏置的運算結(jié)果。所以,C3層的訓(xùn)練參數(shù)共有5×5×3+1×6+5×5×4+1×9+5×5×6+1=1516,而每個卷積參數(shù)都參與了10×10次(C3輸出特征圖的大?。┻\算,因此C3層的連接數(shù)為10×10×1516=151600。9.3CNN應(yīng)用——LeNet5模型C3P201234567891011121314150×

×××

××××

××1××

×××

××××

×2×××

×××

×

×××3

×××

××××

×

××4

×××

××××

××

×5

×××

××××

×××9.3CNN應(yīng)用——LeNet5模型

9.3CNN應(yīng)用——AlexLeNetAlexNet在2012年的ImageNet競賽中取得冠軍,從此卷積神經(jīng)網(wǎng)絡(luò)開始吸引更多人的注意,因為第一作者是AlexKrizhevsky所以被稱為AlexNet,AlexNet掀起了神經(jīng)網(wǎng)絡(luò)研究的又一次高潮,確立了深度學(xué)習(xí)(深度卷積網(wǎng)絡(luò))在機器視覺領(lǐng)域的統(tǒng)治地位,同時將深度學(xué)習(xí)拓展到了語音識別、自然語言處理等多個領(lǐng)域。AlexNet架構(gòu)如下圖。AlexNet包含了6億3000萬個連接,6000萬個參數(shù)和65萬個神經(jīng)元,擁有5個卷積層,其中3個卷積層后面連接了池化層,最后還有3個全連接層。9.3CNN應(yīng)用——AlexLeNetAlexNet的輸入是227×227的圖像,共有8個層級具有可訓(xùn)練參數(shù)。第一層卷積層,是可訓(xùn)練層。該層使用96個11×11的卷積核,滑動步長(stride)為4,輸出為96個55×55的特征圖。第二層使用5×5卷積核,卷積產(chǎn)生256個特征圖,并進(jìn)行最大池化;第三、第四層均使用3×3卷積核,輸出384個特征圖;第五層使用3×3卷積層,輸出256個特征圖,并進(jìn)行池化;第六、七層為全連接層,各包含4096個神經(jīng)元,從輸入的227×227的圖像到全連接層后只剩4096個特征值;第八層是有1000個輸出的全連接+Softmax,得到最終的分類結(jié)果。相對于LeNet5,AlexNet更深、更寬。AlexNet有幾個特點:(1)使用ReLU作為CNN的激活函數(shù),經(jīng)驗證其效果在較深的網(wǎng)絡(luò)中優(yōu)于Sigmoid。(2)訓(xùn)練過程中使用Dropout機制,隨機忽略一部分神經(jīng)元,按照一定的概率將其暫時從網(wǎng)絡(luò)中丟棄,對于隨機梯度下降來說,由于是隨機丟棄,故而每一個mini-batch都在訓(xùn)練不同的網(wǎng)絡(luò)。(3)池化層中使用重疊的最大池化,避免平均池化的模糊化效果,池化移動步長(stride)比池化核的尺寸小,這樣池化層的輸出之間會有重疊和覆蓋,提升了特征的豐富性。(4)提出了LRN層,對局部神經(jīng)元的活動創(chuàng)建競爭機制,使得其中響應(yīng)比較大的值變得相對更大,并抑制其他反饋較小的神經(jīng)元,增強了模型的泛化能力。9.3CNN應(yīng)用——GoogleNetGoogLeNet的第一個版本在2014年由Google團(tuán)隊提出,是一種全新的深度學(xué)習(xí)架構(gòu)。相對于LeNet5和AlexNet,GoogLeNet使用更多層級的同時采用稀疏連接,因此更深層的它參數(shù)反而比AlexNet更少,可訓(xùn)練參數(shù)的數(shù)量只有500萬,是2012年AlexNet的十二分之一。GoogLeNet引入Inception模塊構(gòu)建網(wǎng)絡(luò),Inception模塊將串行處理改為并行處理,如下圖。通過控制各種卷積、池化操作的填充(padding)和步長(stride)使得結(jié)果特征圖的長、寬不變,然后再從深度上將特征圖進(jìn)行拼接。9.3CNN應(yīng)用——GoogleNet為了減少計算量,在進(jìn)行3×3卷積、5×5卷積之前先對多通道的特征圖進(jìn)行1×1卷積運算降維,對3×3最大池化后的結(jié)果也進(jìn)行1×1卷積操作降維。1×1卷積運算降維的效果是將n通道的輸入變成了1通道,最后Inception的輸出就是4種并行運算之后的4通道特征圖。在不同尺寸的卷積或池化操作上串聯(lián)1×1卷積可以有效減少訓(xùn)練參數(shù),改進(jìn)后的Inception如下圖:9.3CNN應(yīng)用——GoogleNetGoogLeNet就是由常規(guī)的卷積、池化層和若干Inception模塊組成的。輸入是224×224×3的圖像;前幾層是普通的卷積、池化層;后面第5層開始是若干個Inception串聯(lián),中間幾處偶爾穿插最大池化;再后面通過平均池化(替代全連接層)、Dropout抽象圖像的全局特征,相對于其它CNN在最后使用全連接層,這樣做在降維的同時可以防止過擬合。關(guān)于GoogLeNet更具體的整體架構(gòu)可以查看原論文。GoogLeNet在2014年的ImageNet競賽的分類任務(wù)中獲得第一名,后來又經(jīng)過幾次改進(jìn),在圖像識別、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論