版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于ResNet的紙幣識別方法分析概述目錄TOC\o"1-3"\h\u18388基于ResNet的紙幣識別方法分析概述 157151.1引言 156241.2卷積神經(jīng)網(wǎng)絡(luò) 1293291.2.1卷積層(Convolution) 2131491.2.2池化層(Pool) 6290921.2.3扁平化與全連接 7264881.3Resnet網(wǎng)絡(luò) 771541.3.1layer1 812391.3.2layer2 978371.4本章小結(jié) 101.1引言RESNET于2015年提出,并因其“簡單實(shí)用”而在ImageNet大賽的分類任務(wù)中奪得第一名。此后,許多基于Resnet50或Resnet101的方法被廣泛應(yīng)用于檢測、分割、識別等領(lǐng)域。前面介紹了很多種基于深度學(xué)習(xí)的識別方法,下面著重從深度學(xué)習(xí)基礎(chǔ)網(wǎng)絡(luò)CNN和ResNet網(wǎng)絡(luò)中來介紹本文要研究的圖像識別方法。1.2卷積神經(jīng)網(wǎng)絡(luò)CNN成立于20世紀(jì)80年代和90年代。進(jìn)入21世紀(jì)后,隨著深度學(xué)習(xí)理論的提出和數(shù)值計(jì)算設(shè)備的完善,卷積神經(jīng)網(wǎng)絡(luò)得到了迅速的發(fā)展,并在計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域得到了廣泛的應(yīng)用。它是一種具有深層結(jié)構(gòu)和卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò)。在圖像的識別、分類等操作中,CNN具有高精度、無接觸的特點(diǎn),該特點(diǎn)在活體檢測、識別、分類等過程中體現(xiàn)尤其明顯。至今,圖像識別領(lǐng)域中的每一個重大的突破都有用到CNN,眾多以此衍生出來的網(wǎng)絡(luò)模型,都可以直接將圖像數(shù)據(jù)作為輸入。在圖像處理過程中CNN省去了人工對圖像進(jìn)行預(yù)處理和額外的特征抽取等復(fù)雜操作,并通過特有的細(xì)粒度特征提取方式,使得對圖像的處理達(dá)到了幾近人力的水平。與普通神經(jīng)網(wǎng)絡(luò)相比,CNN的特征抽取器由一個由卷積層和子采樣層構(gòu)成。在CNN的卷積層中,一個神經(jīng)元只與一些相鄰層的神經(jīng)元連接,一個卷積層中一般含多個特征平面,每個特征平面由一些自定義尺寸的矩形排列的神經(jīng)元組成,同一特征平面的神經(jīng)元共享權(quán)值,即卷積核。卷積核一般以隨機(jī)矩陣的形式初始化,通過訓(xùn)練不斷學(xué)習(xí),最終得到合適權(quán)值。共享權(quán)值最大的好處就是減少了網(wǎng)絡(luò)連接數(shù),大大減少了訓(xùn)練參數(shù),從而提高了訓(xùn)練效率,降低了過擬合風(fēng)險。池化通常包含最大值子采樣(maxpooling)和均值子采樣(meanpooling)兩種形式,可視為特殊的卷積過程,同卷積一樣,可以簡化網(wǎng)絡(luò)模型并減少參數(shù)。其中簡單卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如下圖1.1:圖1.1簡單卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖原始圖像經(jīng)過多次卷積、池化,最終扁平化處理后通過全連接神經(jīng)網(wǎng)絡(luò)作用輸出得到最終結(jié)果,下面具體來介紹這一過程。1.2.1卷積層(Convolution)這一層大概由三個部分組成—數(shù)據(jù)輸入、卷積計(jì)算、激勵函數(shù)映射。一、數(shù)據(jù)輸入首先需要預(yù)處理原始的圖像數(shù)據(jù),其中有:1)去均值:這里需要將每一個維度都中心化為0;2)歸一化:這里需要將幅度歸一化到一個同樣的范圍;3)PCA/白化:這里需要將使用PCA進(jìn)行降維,然后白化對數(shù)據(jù)的各個特征軸上幅度的歸一化二、卷積計(jì)算卷積神經(jīng)網(wǎng)絡(luò)中最重要的一個層次是卷積計(jì)算,這也是卷積神經(jīng)網(wǎng)絡(luò)的名稱來源。首先介紹基本理論和概念,假設(shè)原始圖像數(shù)據(jù)經(jīng)過處理后得到的圖像,如下圖1.2:圖1.2原圖像6×6(左),卷積核3×3(右)假設(shè)有一的卷積核,卷積核相當(dāng)于一個濾波器,也即全連接神經(jīng)網(wǎng)絡(luò)中的權(quán)重,只不過限定了區(qū)域。第一次卷積計(jì)算就是核1中所有元素與左邊滑動窗口中對應(yīng)元素相乘,同理,第二次卷積計(jì)算就是與右邊滑動窗口中對應(yīng)元素相乘。若像核1這樣的卷積核有3個,則代表深度為3,與左邊的圖像要進(jìn)行三輪卷積計(jì)算,一次完全卷積后會得到深度為3的圖像。而步長表示一次卷積計(jì)算后進(jìn)行第二次卷積計(jì)算前滑動窗口滑動的距離,如圖步長為1。整個卷積過程詳見下圖1.3:圖1.3卷積過程原始的圖像經(jīng)過的卷積核1進(jìn)行一次運(yùn)算后向右滑動一個步長的距離,向下滑動同理,最終一輪卷積計(jì)算完成后得到右邊的圖像。輸出圖像大小為:(3-1)(3-1)其中代表原始圖像大小,而代表卷積核大小。若通過卷積計(jì)算后想得到與原始圖像大小一致的圖像,可進(jìn)行0填充(padding),即在原始圖像四周填充0像素,這時設(shè)填充寬度為p,可得到另外一種計(jì)算公式:(3-2)(3-2)在滑動窗口滑動后無法與卷積核匹配相乘時可以用0填充值解決,比如針對的圖像,若取滑動窗口為,步長取2,則向右滑動兩次后會差一個像素的距離,如圖1.4:圖1.4原始圖像為了避免該情況發(fā)生,需在原矩陣基礎(chǔ)上增加一層填充值,使其變成的矩陣,此時窗口就可以剛好把所有像素遍歷完,如下圖1.5:圖1.5填充后圖像三、激勵函數(shù)映射如下圖1.6,為的激勵函數(shù)圖解,前面卷積層的輸出結(jié)果被激勵函數(shù)進(jìn)行了特定映射,圖1.6激勵函數(shù)圖解CNN一般采用RELU激勵函數(shù),函數(shù)如下3-3所示:(3-3)(3-3)根據(jù)其圖像如圖1.7的特點(diǎn)可看出,該函數(shù)是分段線性的,所有負(fù)值都設(shè)置為0,而正值保持不變,這被稱為單側(cè)抑制。單側(cè)抑制的特征使得神經(jīng)元具有稀疏激活性,在CNN中,當(dāng)網(wǎng)絡(luò)模型增加了N層后,理論上RELU神經(jīng)元的激活率可降低2的N次方倍。在深度網(wǎng)絡(luò)分類中,通常與訓(xùn)練目標(biāo)有關(guān)的特征很少,通過RELU稀疏后可以更好地提取出相應(yīng)的特征和訓(xùn)練數(shù)據(jù)。它的收斂速度很快,因?yàn)橛叶耸蔷€性函數(shù),所以推導(dǎo)計(jì)算很簡單,但是在訓(xùn)練過程中卻很脆弱。圖1.7RELU激勵函數(shù)圖像可以看出,通過卷積層的卷積作用,使得同一層卷積輸入值都共享權(quán)重,只需一個卷積核對該層進(jìn)行卷積操作,從而大幅度減少了參數(shù)計(jì)算量,提高了效率。1.2.2池化層(Pool)池化即下采樣(Downsampling),一般位于卷積層之間,用來簡化圖像信息,減少參數(shù),同時防止過度擬合。以下是池化圖層作用的簡要描述:1、特征不變性特征不變性即圖像處理中的特征尺度不變性,池化操作就是圖像的大小重構(gòu)。當(dāng)一張狗的圖像縮小兩倍時,由于包含狗的重要特征信息仍保留在圖像中,因此仍然可以識別它,并且在觀察和識別這些特征之后可以區(qū)分狗的圖像。在圖像壓縮過程中丟失的信息只是一些不相關(guān)的信息,而剩下的信息具有尺度不變性的特征,可以最好地表達(dá)圖像的特征。2、特征降維通常一幅圖像包含了大量的信息和許多特征,但有些信息并不是很有用,或者在圖像處理中會重復(fù)出現(xiàn)。我們可以去除這種冗余信息,提取出最重要的特征。這也是池操作的主要功能。3、防止過度擬合,使其更容易優(yōu)化。池化層通常按如下方式運(yùn)行:1)最大池化:它是最常用的池化方法,把特定像素塊中最大值取出。2)均值池化:把特定像素塊的平均值取出。3)高斯池化:它不常用,使用高斯模糊作為參考。。下面來說明最大化池,圖解如下圖1.8:圖1.8最大化池對于每個的窗口,選出四個像素值中最大的像素值輸出,比如輸入矩陣第一個窗口中最大值是6,那么對應(yīng)到輸出矩陣的第一個元素就是6,以此類推得到池化后的圖像如圖1.8右側(cè)。1.2.3扁平化與全連接經(jīng)過多次卷積與池化后得到的圖像在進(jìn)行后續(xù)全連接操作之前,需進(jìn)行扁平化處理,如圖1.9:圖1.9扁平化與全連接上圖以深度為2的圖像數(shù)據(jù)為例,將其展開成一維向量作為后續(xù)全連接層的輸入,此后全連接層的操作與普通神經(jīng)網(wǎng)絡(luò)的操作相同。1.3Resnet網(wǎng)絡(luò)ResNet主要有五種主要形式:Res18,Res34,Res50,Res101,Res152;如下圖1.10所示,每個網(wǎng)絡(luò)都包括三個主要部分:輸入部分、輸出部分和中間卷積部分(中間卷積部分包括如圖所示的Stage1到Stage4共計(jì)四個stage)。盡管ResNet的變種形式豐富,但都遵循上述的結(jié)構(gòu)特點(diǎn),網(wǎng)絡(luò)之間的不同主要在于中間卷積部分的block參數(shù)和個數(shù)存在差異。圖1.10ResNet結(jié)構(gòu)總覽本文采用的是ResNet18網(wǎng)絡(luò)結(jié)構(gòu),這里18指定的是帶有權(quán)重的18層,包含卷積層和全連接層,但是不包含池化層和BN層。下面將詳細(xì)介紹ResNet18網(wǎng)絡(luò)結(jié)構(gòu)。1.3.1layer1如圖1.11所示,layer1的結(jié)構(gòu)比較簡單,沒有downsample。圖中方框內(nèi)便是BasicBlock的主要結(jié)構(gòu)——兩個3×3卷積層。每個layer都由若干Block組成,又因?yàn)閘ayer1的兩個block結(jié)構(gòu)完全相同,所以圖中以“×2”代替。圖1.11ResNet18layer11.3.2layer2layer2和layer1就有所不同了,首先64×56×56的輸入進(jìn)入第1個block的conv1,這個conv1的stride變?yōu)?,和layer1不同(圖1.12劃圈處標(biāo)注),這是為了降低輸入尺寸,減少數(shù)據(jù)量,輸出尺寸為128×28×28。到第1個block的末尾處,需要在output加上residual,但是輸入的尺寸為64×56×56,所以在輸入和輸出之間加一個1×1卷積層,stride=2(圖1.12劃圈處標(biāo)注),作用是使輸入和輸出尺寸統(tǒng)一。(這個部分就是PyTorchResNet代碼中的downsample)由于已經(jīng)降低了尺寸,第2個block的conv1的stride就設(shè)置為1。由于該block沒有降低尺寸,residual和輸出尺寸相同,所以也沒有downsample部分。圖1.12ResNet18layer2layer3和layer4結(jié)構(gòu)和layer2相同,只是是通道數(shù)變多,輸出尺寸變小。1.4本章小結(jié)本章首先簡單介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本概念,從卷積、池化、扁平化與全連接這幾個過程對其進(jìn)行展開講解。其中最核心的部分就是卷積,原圖像
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 護(hù)理學(xué)科前沿動態(tài)與探討
- 醫(yī)學(xué)影像診斷與介入治療技術(shù)培訓(xùn)與解析
- 2026年黑龍江民族職業(yè)學(xué)院單招綜合素質(zhì)考試模擬試題帶答案解析
- 神經(jīng)內(nèi)科護(hù)理操作規(guī)范培訓(xùn)
- 生物醫(yī)療創(chuàng)新項(xiàng)目孵化與投資
- 醫(yī)療器械安全與風(fēng)險管理
- 互聯(lián)網(wǎng)醫(yī)療與醫(yī)療服務(wù)創(chuàng)新
- 2026年廣東江門中醫(yī)藥職業(yè)學(xué)院單招綜合素質(zhì)考試參考題庫帶答案解析
- 2026年海南經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院單招職業(yè)技能筆試模擬試題帶答案解析
- 2026年巴音郭楞職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試模擬試題帶答案解析
- 啟明星籃球培訓(xùn)學(xué)校運(yùn)營管理手冊
- 同位素示蹤技術(shù)與應(yīng)用
- 2022-2023學(xué)年廣東省東莞市九年級(上)期末數(shù)學(xué)試卷(含解析)
- GB/T 9581-2011炭黑原料油乙烯焦油
- GB/T 18991-2003冷熱水系統(tǒng)用熱塑性塑料管材和管件
- GA/T 947.3-2015單警執(zhí)法視音頻記錄系統(tǒng)第3部分:管理平臺
- FZ/T 50047-2019聚酰亞胺纖維耐熱、耐紫外光輻射及耐酸性能試驗(yàn)方法
- 市政道路施工總進(jìn)度計(jì)劃表
- (更新版)國家開放大學(xué)電大《機(jī)械制造基礎(chǔ)》機(jī)考網(wǎng)考題庫和答案
- 2023年新疆文化旅游投資集團(tuán)有限公司招聘筆試模擬試題及答案解析
- aw4.4工作站中文操作指南
評論
0/150
提交評論