人工智能之深度學(xué)習(xí) 第五章 卷積神經(jīng)網(wǎng)絡(luò)_第1頁
人工智能之深度學(xué)習(xí) 第五章 卷積神經(jīng)網(wǎng)絡(luò)_第2頁
人工智能之深度學(xué)習(xí) 第五章 卷積神經(jīng)網(wǎng)絡(luò)_第3頁
人工智能之深度學(xué)習(xí) 第五章 卷積神經(jīng)網(wǎng)絡(luò)_第4頁
人工智能之深度學(xué)習(xí) 第五章 卷積神經(jīng)網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)概述第一節(jié) 卷積層第二節(jié) 池化層第三節(jié)目錄 content第四節(jié) 全連接層第五節(jié) 經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)概述第一節(jié)引例圖像邊界檢測假設(shè)我們有這樣的一張圖片,大小88,圖的中間兩個(gè)顏色的分界線就是要檢測的邊界。怎么檢測這個(gè)邊界呢?設(shè)計(jì)一個(gè)濾波器(filter,也稱為kernel),大小33:圖片中的數(shù)字代表該位置的像素值,像素值越大,顏色越亮,所以為了示意,我們把右邊小像素的地方畫成深色。引例圖像邊界檢測 “卷積”過程:用filter,往原圖片上覆蓋,對應(yīng)元素相乘,然后求和。計(jì)算一個(gè)區(qū)域之后,就向其他區(qū)域挪動,接著計(jì)算,直到把原圖片的每一個(gè)角落都覆蓋到了為止。引例圖像邊

2、界檢測CNN(convolutional neural network),主要就是通過一個(gè)個(gè)的filter,不斷地提取特征,從局部的特征到總體的特征,從而進(jìn)行圖像識別等等功能;每個(gè)filter中的各個(gè)數(shù)字就是參數(shù),可以通過大量的數(shù)據(jù),來讓機(jī)器自己去“學(xué)習(xí)”這些參數(shù)。這就是CNN的基本原理。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network) 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是近年來在多層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來的針對圖像分類和識別而特別設(shè)計(jì)的一種深度學(xué)習(xí)方法。卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍

3、內(nèi)的周圍單元,對于大型圖像處理有出色表現(xiàn)。 卷積神經(jīng)網(wǎng)絡(luò)在本質(zhì)上是一種輸入到輸出的映射,它能夠?qū)W習(xí)大量的輸入與輸出之間的映射關(guān)系,而不需要任何輸入和輸出之間的精確的數(shù)學(xué)表達(dá)式,只要用已知的模式對卷積網(wǎng)絡(luò)加以訓(xùn)練,網(wǎng)絡(luò)就具有輸入輸出對之間的映射能力。 現(xiàn)在,CNN已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一,特別是在模式分類領(lǐng)域,由于該網(wǎng)絡(luò)避免了對圖像的復(fù)雜前期預(yù)處理,可以直接輸入原始圖像,因而得到了更為廣泛的應(yīng)用。在近些年的機(jī)器視覺領(lǐng)域和其他很多問題上,它是最具影響力的創(chuàng)新結(jié)果,卷積神經(jīng)網(wǎng)絡(luò)取得了當(dāng)前最好的效果。CNN發(fā)展歷史1960s1980s1990s 201201030204上世紀(jì)60年代, Hu

4、bel 和 Wiesel通過對 貓視覺皮層細(xì)胞 的研究,提出了 感受野 這個(gè)概念。20世紀(jì) 90 年代, Yann LeCun 等人發(fā)表論文,確立了 CNN的現(xiàn)代結(jié)構(gòu),后來又對其進(jìn)行完善。上世紀(jì)80年代,Kunihiko Fukushima在 感受野 概念的基礎(chǔ)之上提出了 神經(jīng)認(rèn)知機(jī) (neocognitron)的概念,可以看作是卷積神經(jīng)網(wǎng)絡(luò)的第一個(gè)實(shí)現(xiàn)網(wǎng)絡(luò)。2012年更深層次的 AlexNet網(wǎng)絡(luò) 取得成功,此后卷積神經(jīng)網(wǎng)絡(luò)蓬勃發(fā)展,被廣泛用于各個(gè)領(lǐng)域,在很多問題上都取得了當(dāng)前最好的性能CNN基本結(jié)構(gòu) 的基本結(jié)構(gòu)由輸入層、隱藏層、輸出層構(gòu)成。其中隱藏層又包括卷積層、池化層 、全連接層。 卷積

5、層和池化層一般會取若干個(gè),采用卷積層和池化層交替設(shè)置,即一個(gè)卷積層連接一個(gè)池化層,池化層后再連接一個(gè)卷積層,依此類推。由于卷積層中輸出特征面的每個(gè)神經(jīng)元與其輸入進(jìn)行局部連接,并通過對應(yīng)的連接權(quán)值與局部輸入進(jìn)行加權(quán)求和再加上偏置值,得到該神經(jīng)元輸入值,該過程等同于卷積過程, 也由此而得名。CNN基本結(jié)構(gòu)1. 局部特征提取2. 訓(xùn)練中進(jìn)行參數(shù)學(xué)習(xí)3. 每個(gè)卷積核提取特定模式的特征卷積層1. 降低數(shù)據(jù)維度,避免過擬合2. 增強(qiáng)局部感受野3. 提高平移不變性池化層1. 特征提取到分類的橋梁全連接層隱藏層CNN應(yīng)用目前卷積神經(jīng)網(wǎng)絡(luò)不僅已經(jīng)成為語音識別、圖像識別及分類、自然語言處理等領(lǐng)域的研究熱點(diǎn),在這些

6、領(lǐng)域有了廣泛且成功的應(yīng)用,而且作為新興技術(shù)已經(jīng)成功應(yīng)用于經(jīng)濟(jì)預(yù)測領(lǐng)域。因此本案例引入卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對股票時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)測。卷積神經(jīng)網(wǎng)絡(luò)因其不同于 BP / RNN/ DBN 等全連 接(Fully Connected)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),可以在各層網(wǎng)絡(luò)的神經(jīng)元之間共享權(quán)重,使得網(wǎng)絡(luò)整體的權(quán)重?cái)?shù)量大為降低,也使得模型避免陷入維度災(zāi)難和局部極小。 語音識別自然語言處理圖像識別機(jī)器視覺經(jīng)濟(jì)預(yù)測人臉識別應(yīng)用etc卷積層第二節(jié)為什么使用卷積SVM分類步驟:人工提取特征,比如說大小,形狀,重量,顏色等;根據(jù)上述特征,把每一張圖片映射到空間中的一個(gè)點(diǎn),空間的維度和特征的數(shù)量相等;相同類別的物體具有類似的特

7、征,所以空間中標(biāo)記為草莓的點(diǎn)肯定是聚在一起的,香蕉和橘子也是同理圖像分類任務(wù)的瓶頸出現(xiàn)在特征選擇上為什么使用卷積如果不人工提取特征,計(jì)算量會非常大,精確度也無法保證。而人工提取特征的方式又會在某些問題下難以進(jìn)行。為什么使用卷積 卷積的兩個(gè)主要優(yōu)勢在于:稀疏連接(sparse connectivity)和參數(shù)共享(parameter sharing);稀疏連接:每一個(gè)神經(jīng)元不需要去感受全局圖像,只需要感受局部的圖像區(qū)域參數(shù)共享:卷積層中的卷積核正是充當(dāng)著共享感受野的角色。一個(gè)卷積核提取一個(gè)特定的圖像特征,想要得到圖像的多個(gè)特征,只需要使用多個(gè)卷積核卷積運(yùn)算 輸入數(shù)據(jù)和對應(yīng)的卷積核卷積運(yùn)算卷積運(yùn)算

8、 彩色圖像的卷積卷積核 卷積核卷積核使用兩個(gè)卷積核進(jìn)行卷積操作填充(padding)填充后的數(shù)據(jù)填充填充多少像素,通常有兩個(gè)選擇:valid和samevalid卷積(valid convolutions):意味著不填充。如果輸入是nn的圖像,用一個(gè)ff的卷積核卷積,那么得到的輸出是(n-f+1)(n-f+1)的特征圖。same卷積(same convolutions):意味著填充后輸出和輸入的大小是相同的。如果輸入是nn的圖像,當(dāng)你填充p個(gè)像素點(diǎn)后,n就變成了n+2p。根據(jù)n+2p-f+1=n便可計(jì)算p的值。填充不使用Padding的缺點(diǎn)經(jīng)過卷積操作后圖像會縮小。如果你注意角落邊的像素,則此像

9、素點(diǎn)只會被卷積核觸碰一次。即只會在第一次卷積操作時(shí)被卷積核掃描。這意味著會丟失圖像邊緣的很多信息。但是對于原始圖像中心的像素點(diǎn),在每次卷積操作時(shí)都會被掃描。卷積核的感受野會掃描此位置多次.使用Padding進(jìn)行維度的填充為了使每次卷積操作后大小不會丟失,使用0填充在原始圖像的外圍。如果需要使經(jīng)過卷積后的特征圖大小保持不變,則卷積核的邊長是奇數(shù),則能保證輸出的特征圖大小與原圖像大小相等。步長步長激活函數(shù)在使用卷積核對輸入進(jìn)行卷積運(yùn)算得到特征圖之后,往往需要使用激活函數(shù)對特征圖進(jìn)行激活,卷積神經(jīng)網(wǎng)絡(luò)激活函數(shù)首選為ReLU。ReLU激活函數(shù)的優(yōu)勢:反向傳播時(shí),可以避免梯度消失Relu會使一部分神經(jīng)元

10、的輸出為0,這樣就造成了網(wǎng)絡(luò)的稀疏性,并且減少了參數(shù)的相互依存關(guān)系,緩解了過擬合問題的發(fā)生相對于sigmoid激活函數(shù),tanh激活函數(shù),求導(dǎo)簡單。采用sigmoid等函數(shù),算激活函數(shù)時(shí)(指數(shù)運(yùn)算),計(jì)算量大,反向傳播求誤差梯度時(shí),求導(dǎo)涉及除法,計(jì)算量相對大,而采用Relu激活函數(shù),整個(gè)過程的計(jì)算量節(jié)省很多池化層第三節(jié)池化層 池化層緊跟在卷積層之后,同樣由多個(gè)特征面組成,它的每一個(gè)特征面唯一對應(yīng)于其上一層的一個(gè)特征面,不會改變特征面的個(gè)數(shù)。卷積層是池化層的輸入層,卷積層的一個(gè)特征面與池化層中的一個(gè)特征面唯一對應(yīng),且池化層的神經(jīng)元也與其輸入層的局部接受域相連,不同神經(jīng)元局部接受域不重疊。池化層旨

11、在通過降低特征面的分辨率來獲得具有空間不變性的特征 。池化層起到二次提取特征的作用,它的每個(gè)神經(jīng)元對局部接受域進(jìn)行池化操作。 上圖顯示,池化就是對特征圖進(jìn)行特征壓縮,池化層也被稱為下采樣層,常用的池化方法有最大池化即取局部接受域中值最大的點(diǎn)、平均值池化即對局部接受域中的所有值求均值、隨機(jī)池化。池化層作用4. 增強(qiáng)網(wǎng)絡(luò)對輸入圖像中的小變形、扭曲、平移的魯棒性1. 減少參數(shù)數(shù)量,提高計(jì)算效率2.提高局部平移不變性,大大提高了圖像分類的準(zhǔn)確性3.降低了數(shù)據(jù)維度,有效地避免了過擬合池化層池化方法為最大值池化(max pooling)和平均值池化(average pooling)使用時(shí)僅需要指定池化方法

12、的類型(max pooling或average pooling等)、池化的核大?。╧ernel size)和池化的步長(stride)等超參數(shù)池化層全連接層第四節(jié)全連接層 全連接層中的每個(gè)神經(jīng)元與其前一層的所有神經(jīng)元進(jìn)行全連接。全連接層可以整合卷積層或者池化層中具有類別區(qū)分性的局部信息 。為了提升 CNN 網(wǎng)絡(luò)性能,全連接層每個(gè)神經(jīng)元的激勵(lì)函數(shù)一般采用 RELU 函數(shù)。最后一層全連接層的輸出值被傳遞給一個(gè)輸出層,可以采用 softmax 邏輯回歸進(jìn)行分類,該層也可稱為 softmax 層。 卷積層和池化層的輸出代表了輸入圖像的高級特性,而全連接層的目的就是類別基于訓(xùn)練集用這些特征進(jìn)行分類, 連

13、接所有的特征,將輸出值送給分類器(如 softmax 分類器)。全連接層經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)第五節(jié)經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)LeNetAlexNetNINVGGNetGoogLeNet(Inception)ResNetInception ResNetILSVRC圖像分類競賽近年結(jié)果。網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)網(wǎng)絡(luò)深度的增加深度卷積神經(jīng)網(wǎng)絡(luò)發(fā)展圖AlexNetAlexNet在LeNet基礎(chǔ)上進(jìn)行了更寬更深的網(wǎng)絡(luò)設(shè)計(jì),首次在CNN中引入了ReLU、Dropout和Local Response Norm (LRN)等技巧。網(wǎng)絡(luò)的技術(shù)特點(diǎn)如下:使用ReLU (Rectified Linear Units)作為CNN的激活函數(shù),并驗(yàn)證其

14、效果在較深的網(wǎng)絡(luò)超過了Sigmoid,成功解決了Sigmoid在網(wǎng)絡(luò)較深時(shí)的梯度彌散問題,提高了網(wǎng)絡(luò)的訓(xùn)練速率。為避免過擬合,訓(xùn)練時(shí)使用Dropout隨機(jī)忽略一部分神經(jīng)元。使用重疊的最大池化(max pooling)。最大池化可以避免平均池化的模糊化效果,而采用重疊技巧可以提升特征的豐富性。提出了LRN層(ReLU后進(jìn)行歸一化處理),對局部神經(jīng)元的活動創(chuàng)建競爭機(jī)制,使得其中響應(yīng)比較大的值變得相對更大,并抑制其他反饋較小的神經(jīng)元,增強(qiáng)了模型的泛化能力。利用GPU強(qiáng)大的并行計(jì)算能力加速網(wǎng)絡(luò)訓(xùn)練過程,并采用GPU分塊訓(xùn)練的方式解決顯存對網(wǎng)絡(luò)規(guī)模的限制。ReLU數(shù)據(jù)增強(qiáng)。利用隨機(jī)裁剪和翻轉(zhuǎn)鏡像操作增加

15、訓(xùn)練數(shù)據(jù)量,降低過擬合。Dropoutmax pooling:池化時(shí)取最大值A(chǔ)lexNet AlexNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖網(wǎng)絡(luò)包含5個(gè)卷積層和3個(gè)全連接層,最后為有1000個(gè)類別輸出的Softmax層。網(wǎng)絡(luò)在兩塊GPU上并行訓(xùn)練AlexNetAlexNet具體參數(shù)AlexNetConv 1111+ReLU/96LRNMax pooling 33Conv 55+ReLU/256LRNMax pooling 33Conv 33+ReLU/384Conv 33+ReLU/384Conv 33+ReLU/256Max pooling 33FC+ReLU/4096FC+ReLU/4096FC+ReLU/1

16、000網(wǎng)絡(luò)結(jié)構(gòu)35K307K884K1.3M442K37M16M4M參數(shù)圖:AlexNet網(wǎng)絡(luò)配置和參數(shù)數(shù)量卷積核大小遞減,依次為1111、55和33。 第一層卷積步長為4,之后保持為1。在前兩層卷積之后使用了LRN層。與全連接層相比,卷積層包含較少的參數(shù)。 因此可通過減少全連接層降低網(wǎng)絡(luò)參數(shù),提高 訓(xùn)練時(shí)間,在Network in Network中利用了這一點(diǎn)。AlexNet在ILSVRC2012圖像分類競賽中將top-5 錯(cuò)誤率降至16.4%,掀起了深度卷積神經(jīng)網(wǎng)絡(luò)在各個(gè)領(lǐng)域的研究熱潮。VGGNet VGG Net于2014年被牛津大學(xué)的Karen Simonyan 和Andrew Zis

17、serman提出,主要特點(diǎn)是“簡潔,深度”。與AlexNet主要有以下不同:* Vgg16有16層網(wǎng)絡(luò),AlexNet只有8層;* 在訓(xùn)練和測試時(shí)使用了多尺度做數(shù)據(jù)增強(qiáng)。VGG Net網(wǎng)絡(luò)模型深度: VGG有19層,遠(yuǎn)遠(yuǎn)超過了它的前輩;簡潔: 在于它的結(jié)構(gòu)上,一律采用stride為1的33filter,以及stride為2的22MaxPooling。VGGNet圖:VGG不同級別的網(wǎng)絡(luò)結(jié)構(gòu)和相應(yīng)的參數(shù)數(shù)量(單位為百萬)網(wǎng)絡(luò)包含5組卷積操作,每組包含14個(gè)連續(xù) 的卷積層,每兩個(gè)卷積層之間為ReLU層。 每組內(nèi)的卷積層具有相同的結(jié)構(gòu)。不同級別的網(wǎng)絡(luò)層數(shù)逐漸加深,網(wǎng)絡(luò)的表達(dá) 能力也逐漸增強(qiáng)。其中,V

18、GGNet-E的網(wǎng)絡(luò) 深度達(dá)到了19層。由于網(wǎng)絡(luò)參數(shù)主要集中在全連接層,因此 不同級別網(wǎng)絡(luò)的參數(shù)數(shù)量相差不大。VGGNetVGGNet訓(xùn)練和測試:多尺度策略:訓(xùn)練階段,將圖像縮放到不同尺寸S,并隨機(jī)裁剪224224的訓(xùn)練樣本測試階段,將圖像縮放到尺寸Q,并對網(wǎng)絡(luò)最后的卷積層使用滑動窗口進(jìn)行分類預(yù)測,對不同窗口的分類結(jié)果取平均。圖9:VGGNet采用多尺度策略的效果提升,來源于文獻(xiàn) 3。上方圖像為單尺度分類結(jié)果,下方為多尺度結(jié)果。多尺度訓(xùn)練在ILSVRC2014圖像分類的top-5錯(cuò)誤率達(dá)到7.5%,通過進(jìn)一步融合單尺度和多尺度網(wǎng)絡(luò),VGGNet將最終結(jié)果提升至7.3%。ResNet RestN

19、et(殘差網(wǎng)絡(luò))于2015年由MSRA何凱明團(tuán)隊(duì)提出了Residual Networks。CNN面臨的一個(gè)問題,隨著層數(shù)的增加,CNN的效果會遇到瓶頸,甚至?xí)辉龇唇?。這往往是梯度爆炸或者梯度消失引起的。 ResNet就是為了解決這個(gè)問題而提出的,因而幫助訓(xùn)練更深的網(wǎng)絡(luò),引入了一個(gè)residual block(殘差塊)。ResNet 這個(gè)做法相當(dāng)于把前面的信息提取出來,加入到當(dāng)前的計(jì)算中,論文作者認(rèn)為,這樣的做法,可以使神經(jīng)網(wǎng)絡(luò)更容易優(yōu)化,事實(shí)上確實(shí)是這樣。 通過這種residual block,成功地搭建了一個(gè)擁有152層的CNN!深不見底!ResNet RestNet(殘差網(wǎng)絡(luò))于2015年由MSRA何凱明團(tuán)隊(duì)提出了Residual Networks。Inception-ResNet-v2內(nèi)部結(jié)構(gòu)YOLOYOLO檢測物體非常快。人類視覺系統(tǒng)快速且精準(zhǔn),只需瞄一眼(You Only Look Once,YOLO)即可識別圖像中物品及

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論