版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第2頁共168頁卷積神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)概述機器視覺技術(shù)作為當今全球人工智能正在迅猛發(fā)展中的一個重要部分。機器綜合視覺技術(shù)是一項專業(yè)性的綜合視覺技術(shù),包括人機圖像信息處理、機械工程綜合技術(shù)、控制/運動傳感器、電子光源綜合照明、光學(xué)與電子成像、模擬與綜合數(shù)字視頻綜合技術(shù)、計算機軟硬件綜合技術(shù)(圖像增強和數(shù)據(jù)分析設(shè)計算法、圖像處理卡、i/o卡等)。一個非常典型的數(shù)字機器學(xué)習(xí)視覺圖像應(yīng)用處理系統(tǒng)主要包括數(shù)字圖像處理捕捉、光源處理系統(tǒng)、圖像處理數(shù)字化系統(tǒng)模塊、數(shù)字圖像處理系統(tǒng)模塊、智能運動判斷中的決策處理模塊和其在機械運動控制中的執(zhí)行處理模塊。簡單地說來,機器圖像視覺是用一種新的機器圖像識別替代舊的人眼觀察處理,用它來對其進行圖像測量和視覺判斷,不僅準確率高、而且識別速度快。機器視覺圖像系統(tǒng)主要功能是通過攝像頭,將被動所攝得到的物體和目標形態(tài)轉(zhuǎn)換為成各種圖像的物理形態(tài)和信號,傳送圖像信息到現(xiàn)場的圖像信號進行處理和控制,得到被攝所在地點的物理和形態(tài)特征信息,根據(jù)被攝物體的寬度和灰度區(qū)域的分布和圖像亮度、顏色等圖象信息,轉(zhuǎn)變?yōu)樾螒B(tài)和數(shù)字化的圖象信號,圖像系統(tǒng)針對這些圖像信號的物理性信息進行不同的信息計算和運算處理方法來從物體中提取出被攝物體和目標的不同物理性質(zhì),進而依靠需要判斷的圖像結(jié)果信息經(jīng)由輔助監(jiān)控現(xiàn)場的一些設(shè)備來執(zhí)行動作。機器視覺監(jiān)督控制系統(tǒng)最基本的技術(shù)特點之一就是能夠提高工業(yè)生產(chǎn)的操作靈活性和生產(chǎn)自動化管理程度。在一些不太適宜于人工操作的危險地帶區(qū)域、地理環(huán)境下進行工作或者一些其他人工操作很難完全達到的場合,常用這機器視覺系統(tǒng)來直接代替人工。同時,在大批量和重復(fù)性高的自動化工業(yè)生產(chǎn)操作過程中,用各種工業(yè)機器人和自動化視覺技術(shù)進行檢測的方法等可以極大地提高企業(yè)生產(chǎn)的工作效率和企業(yè)對自動化管理的程度。卷積神經(jīng)網(wǎng)絡(luò)是機器視覺在眾多領(lǐng)域取得巨大成就的關(guān)鍵因素,卷積神經(jīng)網(wǎng)絡(luò)類似于生物視知覺結(jié)構(gòu),包含卷積計算,是一種具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[1]。相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)需要將一定的特征信息作為輸入,卷積神經(jīng)網(wǎng)絡(luò)可以直接將原始圖像或經(jīng)過預(yù)處理之后的圖像作為網(wǎng)絡(luò)模型的輸入,在訓(xùn)練時自動提取特征,并進行組合分類,相比其他網(wǎng)絡(luò)的優(yōu)勢有準確率高,識別效率快,現(xiàn)在卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛運用到各個領(lǐng)域,可以提高圖像識別分類準確率,做到高效檢測[7]。一個完整的深度學(xué)習(xí)結(jié)構(gòu)包括以下幾個部分,數(shù)據(jù)處理主要包括讀取文件、預(yù)處理等,模型設(shè)計主要包括網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),訓(xùn)練配置主要包括優(yōu)化函數(shù)和資源配置,訓(xùn)練過程主要關(guān)注評價指標,校驗方式,保存模型用于后期的預(yù)測。1.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)由輸入層、多個隱含層和輸出層組成,其結(jié)構(gòu)如圖所示。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2.1所示。圖2.1卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖隱含層中還包括卷積層、激活層、池化層、全連接層[2],一個完整的卷積神經(jīng)網(wǎng)絡(luò)由輸入層,多個卷積池化層和多個全連接層組成,結(jié)構(gòu)如圖2.2所示。圖2.2卷積神經(jīng)網(wǎng)絡(luò)詳細結(jié)構(gòu)圖輸入層:輸入層可以處理多維數(shù)據(jù)。與其它的神經(jīng)網(wǎng)絡(luò)算法相似,由于使用了梯度下降算法來進行計算和學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò)中的輸入層還需要進行標準化的處理。在數(shù)據(jù)輸入網(wǎng)絡(luò)之前,我們要對輸入的圖片數(shù)據(jù)進行一些預(yù)處理,如標準化、濾波去噪等,將輸入數(shù)據(jù)標準化有利于提升系統(tǒng)的性能,可以提高訓(xùn)練速度和準確率。隱含層:隱含層主要由卷積式分層、池化分層和連接性分層3類常見的構(gòu)筑分層組成。在常用的網(wǎng)絡(luò)結(jié)構(gòu)中,卷積層與神經(jīng)池化卷積層分別為卷積層和神經(jīng)網(wǎng)絡(luò)所特有。卷積的分層過程中的卷積層是核確定包含權(quán)重值的系數(shù),而變量池化層并沒有確定包含權(quán)重值的系數(shù),池所以一個變量化的層不被直接確定而成為獨立的變量層。卷積層:卷積層是為了提取上層輸入數(shù)據(jù)的特征,卷積層內(nèi)部包含多個卷積單元。第一層卷積層只能提取到一些低級特性,所以常采用多層網(wǎng)絡(luò)從低級特征中迭代提取更加復(fù)雜的特征。卷積結(jié)構(gòu)參數(shù)主要包括卷積層最核心的尺寸即卷積核大小、和步長以及卷積填充,這三個參數(shù)的共同相互作用決定了每一個卷積層輸出的卷積特征結(jié)構(gòu)圖[3]。卷積核尺寸小于輸入網(wǎng)絡(luò)圖像尺寸,卷積核越大可以提取到的輸入圖像特征就越復(fù)雜。卷積核的步長原理確立了卷積核每個特征元素通過相鄰兩次逐個掃過像素特征點和圖時及其所處不同位置的像素差異點和圖的距離,當卷積核的步長如果設(shè)定為1時,卷疊層積核將可能會逐個逐次掃過每個像素特征點和圖上的每個元素,步長如果設(shè)定為1或n時,卷疊層積核將可能會在接下來的第二次像素掃描中逐個跳過任何n-1個特征像素。通過對卷積基本核的各種自動交叉點和相關(guān)視圖計算方法分析結(jié)果可知,隨著卷積基本核在基層的不斷堆疊,特征核視圖的自動大小也可能會逐漸地自動減少或逐漸增所以我們常常需要對某個特征的構(gòu)圖尺寸進行過度填充化并人為合理地通過增大自己的特征尺寸范圍來從而抵消矢量計算時對特征尺寸的過度收縮抑制作用。常見的二次填充操作方式可分為按0進行一次填充及重復(fù)的填充邊界值之后進行再次填充。圖片中經(jīng)常有一種像素屬性把它叫做圖片局部關(guān)聯(lián)像素屬性,對一張圖片的關(guān)鍵像素和節(jié)點位置影響最大的像素位置其實就是它圖片周邊的一個關(guān)鍵像素點,而且與周邊距離這個關(guān)鍵像素的位點比較遠的像素位置與其他像素點相比二者之間的局部關(guān)系差別并非很大。這個特殊點的性質(zhì)也就就是意味著每一個三維神經(jīng)元我們不用再需要去直接處理一個一張全局的三維圖片了,每一個三維神經(jīng)元只是需要和上一層完整的三維局部圖片連接,相當于每一個三維神經(jīng)元都可以在直接掃描一小塊三維區(qū)域,然后許多三維神經(jīng)元(這些三維神經(jīng)元的所有權(quán)值都可以共享)直接組合在一起來就已經(jīng)可以相當于我們直接掃描了一個一張全局,這樣就已經(jīng)可以直接構(gòu)成一個提取特征點的圖,n個三維神經(jīng)元的三維特征這個圖就可以提取了這張全局圖片的其中n個三維神經(jīng)特征,每個提取特征點的圖都可以是由很多的三維神經(jīng)元特征組合起來完成。圖2.3卷積計算圖片采用了矩陣型的布置,把這些按照矩陣型順序排列的節(jié)點都展成了一個向量。就使我們能夠讓我們更好地看得出來卷積層和輸入層之間的連接,并不是完全互相連接的,上圖中的一個紅色2*2方框叫做filter,可以通過改變他的大小和尺寸,這個方框通常會將一個圖片的矩陣由左上角移動至右下角,每一次都會把矩陣圈起來四個,連接到下一層的一個神經(jīng)元,然后產(chǎn)生四個權(quán)重,這四個權(quán)重(w1、w2、w3、w4)構(gòu)成的矩陣就是卷積核,如圖2.3所示。卷積的結(jié)果是由算法自己通過學(xué)習(xí)而計算得到的,它通常會和上一層進行綜合計算,第二層的數(shù)值就是第一層經(jīng)過局部運算得到的,被圈中的每個節(jié)點的數(shù)值都要乘以其所對應(yīng)的權(quán)重后再進行相加。(1)池化層:整數(shù)池化層的常見操作方法主要包含最大最小值池化,均值池化,隨機池化,中值池化,組合大值池化等。池化系統(tǒng)具有以下的主要功能:池化可以有效降低系統(tǒng)數(shù)據(jù)庫的大量信息冗余;同時提升了該系統(tǒng)模型的精確性和尺度不變性、旋轉(zhuǎn)精確不變性;同時防止了模擬數(shù)混合。在對卷積層中的數(shù)據(jù)庫信息進行了特征提取后,輸出的該層數(shù)據(jù)庫信息特征結(jié)構(gòu)圖將被自動傳送該層到數(shù)據(jù)池化層,用于對其他層進行數(shù)據(jù)特征層的選擇和數(shù)據(jù)信息的特征過濾。池化層中所需要包含的一個預(yù)設(shè)的內(nèi)置池化統(tǒng)計函數(shù),其主要工作功能就是將一張不同特征節(jié)點圖上單個特征節(jié)點的池化結(jié)果直接代替池化成為其節(jié)點所在區(qū)域之間相鄰的多個特征節(jié)點圖片并進行池化統(tǒng)計分析測得。池化層的區(qū)域選擇步驟區(qū)域控制應(yīng)該與卷積圖和核心圖掃描的基層特征結(jié)構(gòu)圖選擇步驟相同,由于對池化層的面積大小、步長及選擇填充層的方法不同來進行控制。全連接層:卷積中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的連接層,這些都是基于傳統(tǒng)的反向前饋卷積神經(jīng)網(wǎng)絡(luò)的一個連接層。特征結(jié)構(gòu)圖設(shè)計在全局的連接層設(shè)計中將可能會直接失去一個基于空間矢量拓撲的基本結(jié)構(gòu),被直接展開后變成一個空間矢量并且它們可以直接通過一個空間激勵函數(shù)。按照目前傳統(tǒng)的數(shù)據(jù)表征模式學(xué)習(xí)系統(tǒng)理論分析看來,卷積池化神經(jīng)網(wǎng)絡(luò)系統(tǒng)中的卷積池化層和數(shù)據(jù)池化層都已經(jīng)能夠針對已經(jīng)輸入的特征數(shù)據(jù)量結(jié)構(gòu)進行特征提取,全新型連接層的提取功能則主要的就是通過對已經(jīng)提取的特征數(shù)據(jù)量和新的特征提取進行非線性的處理組合以達到便于快速得到特征數(shù)據(jù)量的準確輸出。當前面的卷積層被捕獲到了足夠多可以用于識別這張圖片的特點后,接下來要研究的就是怎樣對它進行歸類。連接層之前處理好的數(shù)據(jù)會放到一個更長的向量上,進入全連接層然后與輸出層相連,最后圖像分為幾類,卷積神經(jīng)網(wǎng)絡(luò)就會有幾個神經(jīng)元。輸出層:輸出層的前一層通常是全連接層,所以其結(jié)構(gòu)和傳統(tǒng)網(wǎng)絡(luò)輸出層相同。對于輸出層圖像分類邏輯問題,輸出層分類可以自由選擇直接使用圖像邏輯分類函數(shù)或歸一化邏輯指數(shù),該函數(shù)可用來直接進行圖像輸出層的分類。在送出輸入層的物體位置辨認的設(shè)計問題中,輸出輸入層的物體位置分類可以被精確設(shè)計出來成為根據(jù)每個輸出輸入物體的每個中心點來位置、大小值以及其他的分類。在多層圖像符號語義歸類分割中,輸入數(shù)據(jù)層直接向每個層的像素符號進行語義分類優(yōu)化處理。1.2卷積神經(jīng)網(wǎng)絡(luò)經(jīng)典模型lenet5模型:1994年在當時的計算機還十分落后的條件情況下,lecun創(chuàng)造性地設(shè)計了lenet5模型如圖2.4所示,通過卷積、參數(shù)共享和池化對輸入的手寫數(shù)字圖片信息進行特征提取,對模型進行壓縮,提升了運算速度,最后通過徑向基函數(shù)進行輸出,手寫數(shù)字的分類結(jié)果.lenet5為后來許多的卷積學(xué)和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的基本結(jié)構(gòu)設(shè)計研究提供出了參考。lenet5是最早被數(shù)學(xué)研究者廣泛提出的卷積式動態(tài)神經(jīng)網(wǎng)絡(luò),一共可以設(shè)計為7層,3個卷積優(yōu)化層,2個網(wǎng)絡(luò)池化層,2個完整的網(wǎng)絡(luò)連接層,卷積核大小都是5×5,模型中含有可訓(xùn)練參數(shù)的只有卷積層和全連接層,因此為LeNet-5,LeNet-5的提出是解決手寫數(shù)字識別Mnist的自動識別問題,對MNIST數(shù)據(jù)集的分識別準確度可達99.2%。圖2.4lenet5模型Alexnet模型:Alexnet模型曾經(jīng)在比賽中遙遙領(lǐng)先,準確率高達83.6%,識別的準確率大幅提高。AlexNet網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜、層數(shù)很多,如圖2.5所示,有一定的深度。共有五層卷積層,卷積核大小有11×11、5×5、3×3,有三層全連接網(wǎng)絡(luò),最后的輸出層是1000通道的softmax,有8個可訓(xùn)練參數(shù)的層,利用雙GPU進行運算,提高了運算效率。激活函數(shù)使用ReLU,成功解決了網(wǎng)絡(luò)較深時出現(xiàn)的梯度消失的問題;訓(xùn)練數(shù)據(jù)集時隨機忽略一些神經(jīng)元,可以有效解決過擬合問題;使用最大池化
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年廢紙回收市場發(fā)展報告
- 2025年光伏支架輕量化市場前景分析報告
- 新能源光伏儲能一體化2025年項目建設(shè)可行性分析報告
- 中行合作協(xié)議書
- 稀土廢液回收工安全知識宣貫?zāi)M考核試卷含答案
- 工業(yè)機器人系統(tǒng)操作員招聘面試題及答案
- 纖維調(diào)施膠干燥工班組安全強化考核試卷含答案
- 汽輪機轉(zhuǎn)子裝配調(diào)試工安全意識知識考核試卷含答案
- 化學(xué)水處理工沖突解決能力考核試卷含答案
- 區(qū)塊鏈應(yīng)用操作員崗前基礎(chǔ)操作考核試卷含答案
- 浙江省建設(shè)工程施工現(xiàn)場安全管理臺賬實例
- 社會主義發(fā)展史知到章節(jié)答案智慧樹2023年齊魯師范學(xué)院
- 美國史智慧樹知到答案章節(jié)測試2023年東北師范大學(xué)
- GB/T 15924-2010錫礦石化學(xué)分析方法錫量測定
- GB/T 14525-2010波紋金屬軟管通用技術(shù)條件
- GB/T 11343-2008無損檢測接觸式超聲斜射檢測方法
- GB/T 1040.3-2006塑料拉伸性能的測定第3部分:薄膜和薄片的試驗條件
- 教師晉級專業(yè)知識和能力證明材料
- 申報專業(yè)技術(shù)職稱課件-
- 排隊叫號系統(tǒng)施工技術(shù)方案
- 應(yīng)用3-農(nóng)業(yè)收獲機器人課件
評論
0/150
提交評論