模式識別及Python實現(xiàn) 課件 第8章 深度神經(jīng)網(wǎng)絡(luò)_第1頁
模式識別及Python實現(xiàn) 課件 第8章 深度神經(jīng)網(wǎng)絡(luò)_第2頁
模式識別及Python實現(xiàn) 課件 第8章 深度神經(jīng)網(wǎng)絡(luò)_第3頁
模式識別及Python實現(xiàn) 課件 第8章 深度神經(jīng)網(wǎng)絡(luò)_第4頁
模式識別及Python實現(xiàn) 課件 第8章 深度神經(jīng)網(wǎng)絡(luò)_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

PPT下載/xiazai/第八章:深度神經(jīng)網(wǎng)絡(luò)模式識別及Python實現(xiàn)前言PREFACE深度學習是目前人工智能和機器學習領(lǐng)域最受關(guān)注的研究方向,它通過分層結(jié)構(gòu)的分階段信息處理來探索特征學習和模式分類,其本質(zhì)是計算觀測數(shù)據(jù)的分層表示。研究者們在研究中發(fā)現(xiàn)人類的視覺功能是一個不斷抽象和迭代的過程,是低層到高層的特征抽象過程,通過逐步地提取特征,從而形成不同層次的特征,高層的特征是通過組合低層特征形成的,越高層次的特征,其特征分辨性能越好。受到人類視覺功能不斷抽象和迭代的啟發(fā),深度學習應(yīng)運而生。深度學習的目的是構(gòu)造一個類似人腦的分層結(jié)構(gòu),逐層地提取越來越抽象的特征,建立一種從低層輸入到高層語義的對應(yīng)關(guān)系,它通過模仿人腦的機制來理解數(shù)據(jù)。深度學習的成功在于,它把原始數(shù)據(jù)通過一些簡單非線性的模型轉(zhuǎn)變成為更高級別、更加抽象的表達。這個過程不需要利用人工進行設(shè)計,而是使用一種通用的學習過程,從數(shù)據(jù)中自動地進行學習。123卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)注意力機制目錄

CONTENTPART

1卷積神經(jīng)網(wǎng)絡(luò)PART01??ConvolutionalNeuralNetwork??

在20世紀60年代,Hubel和Wiesel發(fā)現(xiàn),當研究貓腦皮層中局部敏感和方向選擇的神經(jīng)元時,它們獨特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效降低反饋神經(jīng)網(wǎng)絡(luò)的復雜性。在此基礎(chǔ)上,兩人提出了卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)。

現(xiàn)在CNN已經(jīng)成為許多科學領(lǐng)域的熱點之一,特別是圖像處理領(lǐng)域。由于CNN可以直接輸入原始圖像,而不必對圖像進行繁瑣的預處理操作,因而得到了更為廣泛的應(yīng)用。

卷積神經(jīng)網(wǎng)絡(luò)是一類包含卷積運算的深度前饋神經(jīng)網(wǎng)絡(luò),是深度學習代表性網(wǎng)絡(luò)之一。卷積神經(jīng)網(wǎng)絡(luò)擅長處理具有類似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù),比如由像素組成的圖像數(shù)據(jù),因此在計算機視覺領(lǐng)域應(yīng)用得最為廣泛。卷積神經(jīng)網(wǎng)絡(luò)以“卷積”命名,代表至少在網(wǎng)絡(luò)的一層中使用卷積運算來代替一般的矩陣乘法運算。通常來講,卷積神經(jīng)網(wǎng)絡(luò)包括輸入層、卷積層、池化層和輸出層。

在處理圖像數(shù)據(jù)時,卷積核通過滑動窗口的方式,提取圖像中的特征(1)卷積核大小可以是小于輸入圖像尺寸的任意值,卷積核的大小代表了感受野的大小,卷積核越大,可提取的特征越復雜。(2)步長是卷積核在特征圖上每次滑動的距離,步長為1時,卷積核會逐個掃過特征圖中的每個元素。(3)填充是在輸入特征圖周圍填充一定數(shù)量的常數(shù),一般是0和1。隨著卷積層的增多,輸出特征圖會越來越小,通過在輸入特征圖周圍進行填充,可以靈活地控制輸出特征圖的大小。卷積層參數(shù)包括卷積核大小、步長和填充,三者共同決定了卷積層輸出特征圖的尺寸,是卷積層的超參數(shù)。卷積神經(jīng)網(wǎng)絡(luò)中另一個十分重要的網(wǎng)絡(luò)層為池化層,在卷積層完成特征提取后,輸出的特征圖會被送到池化層進行特征選擇和聚合。池化層中常用的池化操作有最大池化和平均池化,最大池化表示對區(qū)域內(nèi)的特征取最大值,平均池化表示對區(qū)域內(nèi)的特征取平均值。2.輸入層普通的多層神經(jīng)網(wǎng)絡(luò),輸入層就是圖像的特征向量。一般圖像經(jīng)過人工提取特征,得到特征向量,并作為該神經(jīng)網(wǎng)絡(luò)的輸入。這種方法表現(xiàn)的好壞很大程度上取決于人工提取的特征是否合理,然而人工提取特征的過程往往都是靠經(jīng)驗,具有很大的盲目性。與之相比,卷積神經(jīng)網(wǎng)絡(luò)的輸入層輸入的則是整張圖像,原始圖像直接作為CNN的輸入,避免了傳統(tǒng)識別算法中繁瑣的特征提取過程,這也是CNN的優(yōu)點之一。雖然圖像可以直接作為CNN的輸入,但是為了能讓識別算法發(fā)揮最佳效果,需要對原始的圖像數(shù)據(jù)進行預處理。圖像預處理操作是圖像識別算法中不可缺少的一個環(huán)節(jié)。但是并不是所有的預處理方法都能取得好的效果,恰當?shù)膱D像預處理方法和參數(shù)設(shè)置能對最終的識別效果起到積極的作用。因此,當我們開始處理數(shù)據(jù)時,首先要做的事是觀察數(shù)據(jù)并獲知其特性,根據(jù)圖像的特點來選取合適的預處理算法,這在圖像處理中起著關(guān)鍵性的作用。在實際應(yīng)用中,常用的圖像預處理算法包括均值減法、歸一化、PCA白化等。3.卷積層在輸入層之后就是卷積層,這也是CNN的核心部分。與普通的神經(jīng)網(wǎng)絡(luò)不同,Conv層每個神經(jīng)元的輸入是與前一層的部分神經(jīng)元相連,并提取該局部的特征,具體的做法是:上一層的特征圖被一個可學習的卷積核進行卷積,然后通過一個非線性激活函數(shù),得到輸出特征圖。卷積運算的優(yōu)點是可以使原信號特征增強、降低噪音。卷積核是一個權(quán)重濾波器,它的權(quán)重就是待學習的參數(shù)。Conv層中有多個不同的卷積核,每個卷積核具有不同的權(quán)重,提取的是上一層圖像多種不同的特征。多個卷積核提取圖像的多種特征,生成多個二維的特征圖,卷積核的數(shù)量與生成的特征圖的數(shù)量相等。在進行特征提取時,同一個特征圖的權(quán)值是共享的,即是使用相同的卷積核卷積上一層圖像得到的。Conv層將圖像不同的局部特征以二維特征圖的形式保存下來,在這個過程中,使得提取出的特征對旋轉(zhuǎn)、平移具有一定的魯棒性。在Conv層上,上一層的特征圖與可學習的卷積核進行卷積,并通過激活函數(shù)形成輸出特征圖。4.池化層

Conv層的后面往往跟著池化層,也叫下采樣層,對上一層提取出來的特征圖像進行降維,同時提取主要特征。Pooling層是產(chǎn)生圖像的下采樣版本,使用下采樣技術(shù)得到新的特征,降低特征圖像的空間尺寸,從而減少網(wǎng)絡(luò)中的參數(shù),達到簡化網(wǎng)絡(luò)的目的,同時也能在一定程度上控制網(wǎng)絡(luò)過擬合。對于Pooling層來說,如果有N個輸入圖像,那么也將輸出N個輸出圖像。在完成卷積特征提取之后,對于每一個隱藏單元,都提取到一張?zhí)卣鲌D,把每一張?zhí)卣鲌D看做一個矩陣,并在這個矩陣上通過滑動窗口方法劃分出多個scale×scale的區(qū)域(這些區(qū)域可以是重疊的,也可以是不重疊的,不重疊的方式在實際操作中更常見),然后對每個區(qū)域進行下采樣操作,最后用這些被下采樣之后的數(shù)據(jù)參與后續(xù)的訓練,這個過程就是池化。Pooling層能有效減少特征數(shù)量、減少參數(shù)數(shù)量,達到簡化網(wǎng)絡(luò)的目的,同時還可以讓提取出來的特征具有一定的平移、伸縮不變性。池化層中的下采樣操作一般有以下幾種方法:1)平均池化(Mean-pooling),即對鄰域內(nèi)的特征點求平均值,對背景保留更好;2)最大池化(Max-pooling),即對鄰域內(nèi)的特征點取最大值,對紋理提取更好;3)隨機池化(Stochastic-pooling),通過對鄰域內(nèi)的特征點按照數(shù)值大小賦予概率,再按照概率進行下采樣。5.典型網(wǎng)絡(luò)結(jié)構(gòu)——LeNet

LeNet誕生于1994年,由卷積神經(jīng)網(wǎng)絡(luò)之父YannLeCun提出,該網(wǎng)絡(luò)主要用來進行手寫字符的識別與分類,可以達到98%的準確率,在銀行和郵局等場所,有著廣泛的應(yīng)用。它是最早發(fā)布的卷積神經(jīng)網(wǎng)絡(luò)之一,因其在計算機視覺任務(wù)中的高效性能而受到廣泛關(guān)注。LeNet5網(wǎng)絡(luò)是一個比較簡單的卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)共有7層,分別是C1卷積層、S2池化層、C3卷積層、S4池化層、C5卷積層、F6全連接層和輸出層。(1)輸入層:輸入一張32×32的圖片。(2)C1卷積層:使用6個5×5大小的卷積核對輸入圖片進行卷積運算,得到6個28×28大小的特征圖。(3)S2池化層:對C1卷積層的輸出進行2×2大小的最大池化操作,得到6個14×14大小的特征圖。(4)C3卷積層:使用16個5×5大小的卷積核對S2池化層的輸出進行卷積運算,得到16個10×10大小的特征圖。(5)S4池化層:對C3卷積層的輸出進行2×2大小的最大池化操作,得到16個5×5大小的特征圖。(6)C5卷積層:使用120個5×5大小的卷積核對S4池化層的輸出進行卷積運算,得到120個1×1大小的特征圖。(7)F6全連接層:使用全連接層對C5卷積層的輸出進行全連接運算,得到長度為84的特征向量。(8)輸出層:使用全連接層對F6全連接層的輸出進行全連接運算,得到長度為10的分類結(jié)果。6.典型網(wǎng)絡(luò)結(jié)構(gòu)——AlexNet2012年,AlexNet橫空出世。它首次證明了學習到的特征可以超越手工設(shè)計的特征。它一舉打破了計算機視覺研究的現(xiàn)狀。AlexNet使用了8層卷積神經(jīng)網(wǎng)絡(luò),并以很大的優(yōu)勢贏得了2012年ImageNet圖像識別挑戰(zhàn)賽。AlexNet秉承LeNet的思想,把CNN的基本原理應(yīng)用到了很深很寬的網(wǎng)絡(luò)中,且首次在CNN中成功應(yīng)用了ReLU激活函數(shù)和Dropout抑制過擬合等技巧,同時AlexNet也使用了GPU運算加速技術(shù)。AlexNet的網(wǎng)絡(luò)由5個卷積層、3個池化層和3個全連接層構(gòu)成。7.典型網(wǎng)絡(luò)結(jié)構(gòu)——ResNet殘差神經(jīng)網(wǎng)絡(luò)的主要貢獻是發(fā)現(xiàn)了“退化現(xiàn)象(Degradation)”,并針對退化現(xiàn)象發(fā)明了“快捷連接(Shortcutconnection)”,極大的緩解了深度過大的神經(jīng)網(wǎng)絡(luò)訓練困難的問題。神經(jīng)網(wǎng)絡(luò)的“深度”首次突破了100層、最大的神經(jīng)網(wǎng)絡(luò)甚至超過了1000層。在2012年的ILSVRC挑戰(zhàn)賽中,AlexNet取得了冠軍,并且大幅度領(lǐng)先于第二名。由此引發(fā)了對AlexNet廣泛研究,并讓大家樹立了一個信念——“越深的網(wǎng)絡(luò),準確率越高”。ResNet的殘差塊的“跳躍連接”結(jié)構(gòu)如左所示,沿用了VGG完整的3×3卷積層設(shè)計。殘差塊里首先有2個輸出通道數(shù)相同的3×3卷積層,每個卷積層后接一個批量規(guī)范化層和ReLU激活函數(shù),然后通過跨層數(shù)據(jù)通路,跳過這2個卷積運算,將輸入直接加在最后的ReLU激活函數(shù)前。這樣的設(shè)計要求2個卷積層的輸出與輸入形狀一樣,從而使它們可以相加。PART

2循環(huán)神經(jīng)網(wǎng)絡(luò)PART02RecurrentNeuralNetwork

循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是一種主要用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)可以提取網(wǎng)格化數(shù)據(jù)中的特征(可以將其看作提取輸入數(shù)據(jù)中的空間特征),類似地,循環(huán)神經(jīng)網(wǎng)絡(luò)可以用于提取序列特征(可以將其看作是提取輸入數(shù)據(jù)中的時間特征)。如果網(wǎng)絡(luò)中沒有全連接層,卷積神經(jīng)網(wǎng)絡(luò)可以處理任意尺寸的圖像輸入;與之類似,循環(huán)神經(jīng)網(wǎng)絡(luò)也可以擴展到更長的序列,大多數(shù)循環(huán)神經(jīng)網(wǎng)絡(luò)也可以處理可變長度的序列。循環(huán)神經(jīng)網(wǎng)絡(luò)是一種節(jié)點定向連接成環(huán)的人工神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的內(nèi)部狀態(tài)可以展示動態(tài)時序行為。由于其結(jié)構(gòu)的特殊性(網(wǎng)路中存在環(huán)狀結(jié)構(gòu)),循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出不僅受到當前時刻輸入信號的影響,同樣也受到之前時刻輸入信號的影響,這使得循環(huán)神經(jīng)網(wǎng)絡(luò)能夠用于處理和預測序列數(shù)據(jù)。

左圖展示了一個簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)點的示例,其中x表

示網(wǎng)絡(luò)當前時刻的輸入,s表示結(jié)點的隱藏狀態(tài),h是結(jié)點的輸出。1.基本原理RNN展開示意圖RNN結(jié)點內(nèi)部結(jié)構(gòu)

2.典型網(wǎng)絡(luò)結(jié)構(gòu)一個輸入對應(yīng)多個輸出的RNN結(jié)構(gòu)多個輸入對應(yīng)一個輸出的RNN結(jié)構(gòu)多個輸入對應(yīng)多個輸出(時間序列預測)的RNN多個輸入對應(yīng)多個輸出(機器翻譯)的RNN

PART

3注意力機制PART03AttentionMechanism??1.認知神經(jīng)學中的注意力注意力是一種人類不可或缺的復雜認知功能,指人可以在關(guān)注一些信息的同時忽略另外一些信息的能力。在日常生活中,我們通過視覺、聽覺、觸覺等方式接收大量的輸入信息,但是人腦還能在這些外界的信息轟炸中有條不紊地工作,是因為人腦可以有意或無意地從這些大量輸入信息中選擇小部分的有用信息來重點處理,并忽略其他信息,這種能力稱為注意力(Attention)。(1)自上而下的有意識的注意力,稱為聚焦式注意力(FocusAttention)。聚焦式注意力是一種有目的地、依賴任務(wù)地并且主動有意識地聚焦于某一對象的注意力。(2)自下而上的無意識的注意力,稱為基于顯著性的注意力(SaliencyBasedAttention)?;陲@著性的注意力是一種由外界刺激驅(qū)動的注意力,不需要主動干預且和任務(wù)無關(guān)。如果一個對象的刺激信息不同于其周圍信息,一種無意識的“贏者通吃”(Winner-Take-All)或者門控(Gating)機制就可以把注意力轉(zhuǎn)向這個對象。不管這些注意力是有意的還是無意的,大部分的人腦活動都需要依賴注意力,比如記憶信息、閱讀或思考等。

3.自注意力

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論