版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄TOC\o"1-1"\t"標(biāo)題2,1,標(biāo)題3,1"\h\u10642前言 111334第一章緒論 2225301.1研究背景及意義 2165031.2深度學(xué)習(xí)的發(fā)展現(xiàn)狀 3283051.3字符識(shí)別發(fā)展及研究 4282971.4本文的主要組織結(jié)構(gòu) 619899第二章神經(jīng)網(wǎng)絡(luò)基礎(chǔ)介紹 8227862.1引言 8107602.2神經(jīng)網(wǎng)絡(luò)介紹 8220392.2.1神經(jīng)元基本簡(jiǎn)介 8198282.2.2前向傳播算法(Forwardpropagation) 9107302.2.3反向傳播算法與梯度下降算法 11279852.3手寫(xiě)字符數(shù)據(jù)集簡(jiǎn)介 13305822.4本章小結(jié) 1432750第三章基于卷積神經(jīng)網(wǎng)絡(luò)的手寫(xiě)字符識(shí)別 15179203.1引言 1563473.2卷積 15100043.3權(quán)值共享 16182163.4池化 16105753.5LetNet識(shí)別手寫(xiě)字符 1746433.5.1使用LeNet進(jìn)行訓(xùn)練 17262403.5.2神經(jīng)網(wǎng)絡(luò)模型改進(jìn) 18181233.5.3改進(jìn)模型實(shí)驗(yàn)結(jié)果 19122753.5.4識(shí)別錯(cuò)誤原因分析 20122423.5.5對(duì)影響收斂速度因素的實(shí)驗(yàn)測(cè)試 21127623.6本章小結(jié) 2119396第四章總結(jié)與展望 23284634.1本文工作總結(jié) 23322314.2后續(xù)工作展望 2316777參考文獻(xiàn) 2522323致謝 27摘要深度學(xué)習(xí)(DeepLearning)在機(jī)器學(xué)習(xí)領(lǐng)域中是一種重要的方法,也是在近年來(lái)越來(lái)越受到關(guān)注的一門(mén)機(jī)器學(xué)習(xí)算法。隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,在目標(biāo)檢測(cè)、語(yǔ)義檢測(cè)、情感識(shí)別、圖像分割、圖像分類(lèi)等領(lǐng)域取得了不少突破性的進(jìn)展。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)領(lǐng)域中的一項(xiàng)非常重要的網(wǎng)絡(luò)結(jié)構(gòu),它是一個(gè)前饋神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)元可以響應(yīng)周?chē)纳窠?jīng)單元,具有許多傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)所不具備的優(yōu)異特性。本文針對(duì)手寫(xiě)數(shù)字字符數(shù)據(jù)集,利用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建了LeNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練、識(shí)別,并對(duì)數(shù)據(jù)進(jìn)行了不同的數(shù)據(jù)增強(qiáng)(DataAugmentation),以此來(lái)研究比較最終網(wǎng)絡(luò)結(jié)構(gòu)的識(shí)別準(zhǔn)確率。本文的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)手寫(xiě)字符數(shù)據(jù)集的識(shí)別率達(dá)到了97.65%,并且在測(cè)試其他測(cè)試集時(shí)表現(xiàn)出了良好的適應(yīng)性。關(guān)鍵詞:深度學(xué)習(xí),字符識(shí)別,卷積神經(jīng)網(wǎng)絡(luò),模式識(shí)別,數(shù)據(jù)增強(qiáng)AbstractDeeplearningisasignificantmethodinmachinelearning,anditisalsoamachinelearningalgorithmthathasattractedmoreandmoreattentioninrecentyears.Withtherapiddevelopmentofneuralnetworktechnology,manybreakthroughshavebeenmadeinthefieldsoftargetdetection,semanticdetection,emotionrecognition,imagesegmentation,imageclassificationandsoon.Convolutionneuralnetworkisaveryimportantnetworkstructureinthefieldofdeeplearning.Itisafeedforwardneuralnetwork.Artificialneuronscanrespondtothesurroundingneuralunits,andhavemanyexcellentfeaturesthatmanytraditionalneuralnetworkstructuresdonotpossess.Inthispaper,forhandwrittendigitalcharacterdatasets,theLeNetnetworkistrainedandidentifiedbyusingdeepneuralnetwork,anddifferentDataAugmentationiscarriedouttothedatatocomparetherecognitionaccuracyofthefinalnetworkstructure.Therecognitionrateofthenetworkstructureinthispaperforhandwrittencharacterdatasetreaches97.65%,anditshowsgoodadaptabilityintestingothertestsets.Keywords:Deeplearning,characterrecognition,convolutionneuralnetwork,patternrecognition,machinelearning前言AI,也就是我們所說(shuō)的人工智能,是人類(lèi)所探求了許多年的終極理想。在最近幾年,隨著技術(shù)的飛躍,我們的生活已經(jīng)大大地被人工智能技術(shù)所改變,但是在目前,還沒(méi)有任何一臺(tái)計(jì)算機(jī)可以達(dá)到真正像人類(lèi)一樣擁有自我意識(shí)的階段。圖靈在自己1950年的論文中曾經(jīng)提出過(guò)這樣一個(gè)理論,即被測(cè)試者與測(cè)試的人或機(jī)器分隔在兩個(gè)不同的房間,如果超過(guò)百分之三十的被測(cè)試人無(wú)法區(qū)分開(kāi)與自己交流對(duì)話的是人類(lèi)還是機(jī)器人,那么可以說(shuō)這臺(tái)機(jī)器已經(jīng)通過(guò)了“圖靈測(cè)試”,可以認(rèn)為它一定程度上擁有了人類(lèi)的智能。但是,人工智能的發(fā)展并沒(méi)有人們預(yù)料的那么順利,因?yàn)榧夹g(shù)的發(fā)展并沒(méi)有達(dá)到圖靈測(cè)試的標(biāo)準(zhǔn),許多計(jì)算機(jī)科學(xué)家對(duì)此感到心灰意冷,漸漸開(kāi)始冷落這項(xiàng)技術(shù),還有些技術(shù)員認(rèn)為這完全是一項(xiàng)遙不可及的偽科學(xué)。但是依舊有很多像LeCun這樣的計(jì)算機(jī)科學(xué)家沒(méi)有放棄對(duì)這一技術(shù)的追求,他們引領(lǐng)了深度學(xué)習(xí)的重新崛起,在多個(gè)領(lǐng)域取得了突破性的進(jìn)展。利用深度學(xué)習(xí)的相關(guān)算法,讓計(jì)算機(jī)可以從海量的數(shù)據(jù)集中歸納出相應(yīng)的特征,在用之前歸納得出的結(jié)果模型去匹配其他的樣本數(shù)據(jù)。從網(wǎng)絡(luò)結(jié)構(gòu)和算法的角度來(lái)分類(lèi)的話,我們大致可以把機(jī)器學(xué)習(xí)的發(fā)展分為兩個(gè)階段:淺層學(xué)習(xí)與深度學(xué)習(xí)。階段一:淺層學(xué)習(xí)(shallowlearning)BP算法,即反向傳播算法是三十年前廣受關(guān)注的一種算法,科研人員發(fā)現(xiàn)它可以在人工神經(jīng)網(wǎng)絡(luò)(ANN)中發(fā)揮巨大的作用,并且大大的加快了機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展,在那之后有大量的研究人員投身于機(jī)器學(xué)習(xí)的研究和發(fā)展之中。并且在當(dāng)今學(xué)術(shù)界,仍然有不少的計(jì)算機(jī)科學(xué)家在從事這方面的研究工作。事實(shí)上,在一些問(wèn)題的解決上,BP算法反而有著更加適宜的應(yīng)用場(chǎng)景。因?yàn)樵谥案嗍褂玫氖腔谌斯ひ?guī)則的方式,所以這樣一種基于統(tǒng)計(jì)規(guī)則的機(jī)器學(xué)習(xí)算法在很多地方表現(xiàn)出了更加優(yōu)越的特性。階段二:深度學(xué)習(xí)(DeepLearning)2006年時(shí),多倫多大學(xué)教授GeoffreyHinton發(fā)表了一篇產(chǎn)生了巨大影響的論文,在文中提出了以下兩個(gè)重要的觀點(diǎn):1.當(dāng)需要處理分類(lèi)和圖像問(wèn)題時(shí),使用多層神經(jīng)網(wǎng)絡(luò)可以對(duì)數(shù)據(jù)的特征進(jìn)行更充分的學(xué)習(xí)和表達(dá)。2.如果神經(jīng)網(wǎng)絡(luò)的隱層層數(shù)較多,應(yīng)該使用逐層訓(xùn)練的方式來(lái)解決。本文也主要采用了卷積神經(jīng)網(wǎng)絡(luò)來(lái)解決圖像訓(xùn)練和識(shí)別的相關(guān)問(wèn)題。緒論本章首先介紹了深度學(xué)習(xí)相關(guān)領(lǐng)域的研究背景以及研究意義,并陳述了國(guó)內(nèi)外學(xué)者的研究現(xiàn)狀,主要包括了深度學(xué)習(xí)以及字符識(shí)別的發(fā)展歷程、目前的研究成果。其次介紹了當(dāng)前深度學(xué)習(xí)存在的一些不足,最后簡(jiǎn)述了論文的組織結(jié)構(gòu)和主要工作。1.1研究背景及意義在機(jī)器學(xué)習(xí)領(lǐng)域中,深度學(xué)習(xí)(DeepLearning)是一種很重要的方法,它在語(yǔ)音及圖像識(shí)別領(lǐng)域已經(jīng)進(jìn)行了大規(guī)模的商業(yè)應(yīng)用。在過(guò)去的幾十年中,計(jì)算機(jī)科學(xué)家們一直致力于讓計(jì)算機(jī)變得更加智能,可以像人一樣進(jìn)行思考或用有感情的變化,總而言之,更加近似于人類(lèi)大腦。目前,深度學(xué)習(xí)是一個(gè)正在飛速發(fā)展的領(lǐng)域,許多和我們生活息息相關(guān)的應(yīng)用以及研究方向也隨之誕生。在2016年的3月,Google的DeepMind團(tuán)隊(duì)與圍棋排名世界第一的韓國(guó)選手李世石展開(kāi)了一場(chǎng)舉世矚目的圍棋大賽,最終AlphaGo4:1大勝李世石,為深度學(xué)習(xí)的廣泛傳播和快速發(fā)展提供了一次極佳的機(jī)遇。眾所周知,圍棋在所有棋類(lèi)游戲中是屬于最復(fù)雜的一類(lèi),它擁有許多苦難復(fù)雜的數(shù)學(xué)問(wèn)題,因此不得不說(shuō)深度學(xué)習(xí)的發(fā)展速度之快令所有人感到震驚。在機(jī)器學(xué)習(xí)的早期發(fā)展階段,它研究和處理的主要內(nèi)容是對(duì)于人類(lèi)十分困難而對(duì)于計(jì)算機(jī)卻又比較簡(jiǎn)單的任務(wù)。在1997年,IBM科學(xué)計(jì)算中心研究發(fā)明的AI超級(jí)計(jì)算機(jī)“深藍(lán)”擊敗了國(guó)際象棋世界冠軍加里·卡斯帕羅夫。因?yàn)閲?guó)際象棋的基本規(guī)則相對(duì)圍棋來(lái)說(shuō)更加簡(jiǎn)單,僅僅含有32個(gè)棋子以及64個(gè)位置,并且它們的移動(dòng)方式是限定的,所以使用計(jì)算機(jī)針對(duì)性的建模也更加容易。然而隨著科技的不斷發(fā)展,計(jì)算機(jī)科學(xué)家認(rèn)為機(jī)器學(xué)習(xí)要解決的問(wèn)題并不僅僅是數(shù)學(xué)與公式,而是人類(lèi)平時(shí)需要面對(duì)的問(wèn)題,并且傳統(tǒng)上這些問(wèn)題難以用計(jì)算機(jī)來(lái)解決。如果我們把機(jī)器學(xué)習(xí)的發(fā)展方向定為讓機(jī)器也能像人一樣做到認(rèn)人臉、辨語(yǔ)音,那么首先要解決的是如何讓計(jì)算機(jī)可以像人類(lèi)一樣通過(guò)認(rèn)知,即根據(jù)某些先驗(yàn)知識(shí)來(lái)發(fā)展出自己的認(rèn)知體系,以表達(dá)出事物、工作的相關(guān)特征。最開(kāi)始,計(jì)算機(jī)科學(xué)家們想到的解決方案是盡可能多地來(lái)提取一些特征,以供計(jì)算機(jī)學(xué)習(xí)。但他們面臨的最大挑戰(zhàn)是無(wú)法有效地提取一些事物的特征,比如科學(xué)家想要識(shí)別一幅畫(huà)面中的電腦。電腦都有鍵盤(pán),所以計(jì)算機(jī)科學(xué)家想要把電腦的鍵盤(pán)作為識(shí)別的特征。但是計(jì)算機(jī)面對(duì)圖像與人類(lèi)的思維并不一致,在像素的角度我們很難說(shuō)一塊鍵盤(pán)到底應(yīng)該如何來(lái)組成。即使鍵盤(pán)的按鍵形狀比較規(guī)則和簡(jiǎn)單,在實(shí)際檢測(cè)中它們卻經(jīng)常會(huì)受到各種其他因素的影響,比如光線的照射、屏幕投射下的陰影造成遮蔽、甚至鍵盤(pán)的各種顏色所造成的差異都會(huì)對(duì)識(shí)別造成影響。因?yàn)槲覀儾豢赡馨焰I盤(pán)在所有情況下的圖像數(shù)據(jù)全部收錄到學(xué)習(xí)數(shù)據(jù)中,我們必須根據(jù)電腦的相關(guān)特征來(lái)推斷出一臺(tái)電腦應(yīng)該具有的樣子。為了解決以上的問(wèn)題,深度學(xué)習(xí)為我們提供了一種良好的方案。以上面的計(jì)算機(jī)識(shí)別為例,原始輸入的數(shù)據(jù)是訓(xùn)練集組成的像素矩陣,想要直接創(chuàng)造一個(gè)把它們映射到目標(biāo)的函數(shù)是不太現(xiàn)實(shí)的,因此,神經(jīng)網(wǎng)絡(luò)把這一過(guò)程分解成一個(gè)個(gè)的簡(jiǎn)單的映射,在神經(jīng)網(wǎng)絡(luò)中一個(gè)這種簡(jiǎn)單的映射看作是一層網(wǎng)絡(luò),把最開(kāi)始輸入數(shù)據(jù)的那一層稱之為輸入層,最后輸出結(jié)果的稱之為輸出層,在他們之間的稱之為隱層。在隱層中包含了許多層,每一層都在逐步提取之前輸入層傳遞的特征,最終提取出可以用于分類(lèi)的特征信息。在學(xué)習(xí)結(jié)束后,原始輸入的圖像已經(jīng)被神經(jīng)網(wǎng)絡(luò)重構(gòu)成一個(gè)新的特征。最后,隱層輸出到分類(lèi)器,由分類(lèi)器對(duì)訓(xùn)練樣本進(jìn)行分類(lèi)??偠灾疃葘W(xué)習(xí)是一種將復(fù)雜的數(shù)據(jù)映射到相對(duì)簡(jiǎn)單的特征的很好的方法,它的每一層都只是比較簡(jiǎn)單的輸入和映射,但經(jīng)過(guò)一層層的迭代,可以表達(dá)出符合我們預(yù)期的相對(duì)精確的輸出。1.2深度學(xué)習(xí)的發(fā)展現(xiàn)狀卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種十分重要的深度學(xué)習(xí)算法,在人工神經(jīng)網(wǎng)絡(luò)中已經(jīng)成為了圖像識(shí)別與融合、自然語(yǔ)言處理等最常用的手段之一。與之前比較常見(jiàn)的檢測(cè)分類(lèi)方法相比,它提供了更多的優(yōu)良特性,因?yàn)樗捎昧艘环N比較簡(jiǎn)潔易懂的網(wǎng)絡(luò)模型,使用全新的網(wǎng)絡(luò)結(jié)構(gòu)從而將權(quán)值的數(shù)量減少。我們接下來(lái)測(cè)試的手寫(xiě)字符訓(xùn)練數(shù)據(jù)是多維的,如果采用老式的檢測(cè)方法的話,首先無(wú)法避免的是要檢測(cè)多維數(shù)據(jù)的特征,而這過(guò)于復(fù)雜以至于接下來(lái)重建時(shí)常常遇到無(wú)法預(yù)料的問(wèn)題,而如果使用CNN就可以避免這些問(wèn)題,將圖像數(shù)據(jù)直接輸入,解決了復(fù)雜度帶來(lái)的許多問(wèn)題。LeNet-5[1]是由加拿大多倫多大學(xué)教授LeCun等人于1998年推出的7級(jí)的創(chuàng)新神經(jīng)網(wǎng)絡(luò)模型,這種網(wǎng)絡(luò)模型投入了幾家銀行應(yīng)用,用于識(shí)別32x32像素圖像中的手寫(xiě)數(shù)字(支票)。然而,當(dāng)處理高分辨率圖像的能力需要更大、更復(fù)雜的層次,因此這種技術(shù)明顯受到了當(dāng)時(shí)計(jì)算資源可用性的限制,但它的誕生為后來(lái)更加復(fù)雜的深度卷積神經(jīng)網(wǎng)絡(luò)的研究奠定了基礎(chǔ),是CNN發(fā)展的一座重要里程碑。深度卷積神經(jīng)網(wǎng)絡(luò)通過(guò)疊加卷積特征提取層,把若干個(gè)全連接層加入到卷積層之后。在這一結(jié)構(gòu)被發(fā)明后,在圖像檢測(cè)分類(lèi)識(shí)別領(lǐng)域迅速的投入了使用,并且取得了令人滿意的結(jié)果。在近些年,又有許多優(yōu)秀的神經(jīng)網(wǎng)絡(luò)模型,在識(shí)別和解決復(fù)雜問(wèn)題上實(shí)現(xiàn)了較大的突破。如GianlucaBissacco[2]等學(xué)者提出的HistogramOfGradient輸入深度神經(jīng)網(wǎng)絡(luò)可以在干擾源較多的情況下取得令人滿意的字符識(shí)別精準(zhǔn)度,并且在13年的比賽上達(dá)到了較為理想的性能。Girshick[3]等人提出了鄰域卷積神經(jīng)網(wǎng)絡(luò)(RegionsWithConvolutionalNeuralNetworks),它首先對(duì)目標(biāo)物體的顏色進(jìn)行初步分類(lèi),再用卷積網(wǎng)絡(luò)對(duì)這些特征進(jìn)行進(jìn)一步的學(xué)習(xí),取得了非常理想的結(jié)果。在這些年取得了如此多令人欣喜的進(jìn)步,與這些外在要素是密不可分的①計(jì)算機(jī)性能在近些年的飛速發(fā)展,針對(duì)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)等專(zhuān)用的處理芯片不斷問(wèn)世②神經(jīng)網(wǎng)絡(luò)算法的不斷改進(jìn)和提升,更多有效的方法的問(wèn)世,如ModelRegularization③越來(lái)越多的商業(yè)及學(xué)術(shù)機(jī)構(gòu)對(duì)神經(jīng)網(wǎng)絡(luò)的重視,數(shù)據(jù)的爆發(fā)產(chǎn)生了更多有效的訓(xùn)練數(shù)據(jù)。1.3字符識(shí)別發(fā)展及研究字符識(shí)別是神經(jīng)網(wǎng)絡(luò)領(lǐng)域較早應(yīng)用到實(shí)際商業(yè)場(chǎng)景的應(yīng)用之一,近年來(lái),我們可以看到生活中不斷有各種場(chǎng)景使用到了這一技術(shù)。因?yàn)槊總€(gè)人的寫(xiě)字習(xí)慣不同,筆鋒的角度、筆畫(huà)的力度都有所差異,所以針對(duì)手寫(xiě)字符的識(shí)別一度遇到了較大的困難。在這一技術(shù)發(fā)展的早期階段,計(jì)算機(jī)科學(xué)家們提出了若干個(gè)針對(duì)這一問(wèn)題的解決方法,比如用以提高弱分類(lèi)方法的Boosting提升算法[4]、支持向量機(jī)SVM判別方法[5]、K近鄰分類(lèi)方法[6,7]等等。在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),計(jì)算機(jī)學(xué)者對(duì)手寫(xiě)字符識(shí)別率的提升做出了巨大的貢獻(xiàn),但是當(dāng)面對(duì)一些更加復(fù)雜的文字識(shí)別時(shí),之前所采取的這些方法仍然存在較大的局限性。第一,某些文字種類(lèi)數(shù)量比較大,樣本量等問(wèn)題會(huì)造成將不同的字符識(shí)別為同一種的情況;第二,每個(gè)人的書(shū)寫(xiě)習(xí)慣不同,連筆草書(shū)等情況對(duì)計(jì)算機(jī)的分辨能力造成了巨大的影響,即使是人類(lèi)面對(duì)某些潦草的字體都無(wú)法做到百分百的準(zhǔn)確率,只能依靠上下文的內(nèi)容來(lái)達(dá)成理解,但機(jī)器面對(duì)這樣的情況時(shí)常常顯得無(wú)能為力。當(dāng)我們把目光放到中文漢字的識(shí)別研究上時(shí),可以看到在過(guò)去的幾十年里很多計(jì)算機(jī)科研工作者在這個(gè)領(lǐng)域的研究和努力為面向復(fù)雜程度更高的文字識(shí)別技術(shù)提供了一些值得參考借鑒的方法。比如針對(duì)特定域進(jìn)行相關(guān)處理[8],對(duì)其特征之間的差別提取。還有對(duì)常用的二次判別函數(shù)進(jìn)行修改,它們都可以在相對(duì)復(fù)雜一些的字符識(shí)別上得到比較理想的結(jié)果。在后一類(lèi)方法中,我們常常需要在手寫(xiě)字符圖片的采集、預(yù)處理、特征處理等方面進(jìn)行相關(guān)優(yōu)化,比如使用隨機(jī)裁剪、增加高斯噪聲、隨機(jī)旋轉(zhuǎn)等數(shù)據(jù)增強(qiáng)手段來(lái)擴(kuò)充訓(xùn)練集,比如人工來(lái)進(jìn)行標(biāo)注數(shù)據(jù)的相關(guān)特征,或者使用非線性正則化。以上提到的這些手段在比較早期的中文漢字識(shí)別上取得了不錯(cuò)的結(jié)果,他們主要基于特定域來(lái)進(jìn)行分類(lèi)等工作。在最近數(shù)十年中,深度學(xué)習(xí)獲得了更加飛速的發(fā)展,手寫(xiě)英文字符識(shí)別領(lǐng)域引入了自動(dòng)特征學(xué)習(xí),而基于類(lèi)似深度神經(jīng)網(wǎng)絡(luò)的技術(shù)在識(shí)別手寫(xiě)數(shù)字?jǐn)?shù)據(jù)時(shí)也取得了非常理想的準(zhǔn)確率。對(duì)于中文手寫(xiě)字符庫(kù)CASIA-HWDB[9],這種技術(shù)也得到了較為充分的驗(yàn)證,實(shí)現(xiàn)了較高的精準(zhǔn)度。隨著技術(shù)的進(jìn)一步提升,深度卷積神經(jīng)網(wǎng)絡(luò)在手寫(xiě)字符識(shí)別領(lǐng)域展現(xiàn)出了更加優(yōu)異的性能。最令人矚目的是Ciresan等學(xué)者研究的多列深度神經(jīng)網(wǎng)絡(luò)[10],這種神經(jīng)網(wǎng)絡(luò)模型在不少商業(yè)化的應(yīng)用中取得了令人滿意的結(jié)果,而且可以在手寫(xiě)字符的識(shí)別上取得不亞于人類(lèi)識(shí)別能力的精準(zhǔn)度。隨后,Graham教授將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了一定修改和優(yōu)化,提出了DeepCNet[11]模型,它可以理解成CNN的一種變體,在2013年ICDAR中文漢字手寫(xiě)識(shí)別的比賽上識(shí)別精準(zhǔn)度名列第一。圖1-1多列深度神經(jīng)網(wǎng)絡(luò)圖1-2DeepCNet模型1.4本文的主要組織結(jié)構(gòu)本文主要研究了深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對(duì)手寫(xiě)阿拉伯?dāng)?shù)字識(shí)別的問(wèn)題,首先歸納總結(jié)了卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和理論知識(shí),主要含有向前傳播、向后傳播和梯度下降算法的相關(guān)內(nèi)容,再針對(duì)手寫(xiě)字符的特性進(jìn)行不同的數(shù)據(jù)增強(qiáng),研究比較相關(guān)處理對(duì)訓(xùn)練精準(zhǔn)度的提升效果,最后研究了網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化問(wèn)題。第一章:緒論。首先介紹了過(guò)去數(shù)十年中深度學(xué)習(xí)的發(fā)展歷程和當(dāng)前的研究情況,以及這項(xiàng)技術(shù)對(duì)我們的生活所造成的影響。接著引出了當(dāng)今深度學(xué)習(xí)專(zhuān)家提出的LeNet網(wǎng)絡(luò)結(jié)構(gòu)以及它對(duì)神經(jīng)網(wǎng)絡(luò)后續(xù)發(fā)展所造成的深遠(yuǎn)影響,并列舉了以此為基礎(chǔ)發(fā)展出的部分成果,然后介紹了當(dāng)今字符識(shí)別發(fā)展的歷程已經(jīng)研究狀況,對(duì)手寫(xiě)數(shù)字識(shí)別以及手寫(xiě)中文漢字識(shí)別進(jìn)行了較為詳細(xì)的闡述,最后說(shuō)明了本文主要的工作以及文章結(jié)構(gòu)。第二章:神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)介紹。本章主要介紹了本文所使用技術(shù)的相關(guān)基礎(chǔ)原理。深度學(xué)習(xí)所采用的網(wǎng)絡(luò)構(gòu)成以及其中必須要有所了解的相關(guān)算法,如梯度下降法、前饋傳播以及反向傳播算法。最后對(duì)本文所主要采用的數(shù)據(jù)集MNIST進(jìn)行了基本的介紹。第三章:基于LeNet卷積神經(jīng)網(wǎng)絡(luò)的手寫(xiě)字符識(shí)別。首先使用基本的手寫(xiě)字符數(shù)據(jù)集進(jìn)行訓(xùn)練及測(cè)試,然后使用不同的dataaugmentation對(duì)數(shù)據(jù)集進(jìn)行變換擴(kuò)增,研究比較不同的方法對(duì)測(cè)試精準(zhǔn)度的影響,并研究網(wǎng)絡(luò)結(jié)構(gòu)的改良。第四章:總結(jié)并展望了未來(lái)工作,探討了改進(jìn)路線。神經(jīng)網(wǎng)絡(luò)基礎(chǔ)介紹2.1引言在最近幾年的圖像檢測(cè)和目標(biāo)識(shí)別領(lǐng)域我們主要采用深度學(xué)習(xí)算法來(lái)達(dá)成目標(biāo),本章節(jié)主要對(duì)深度學(xué)習(xí)的基礎(chǔ)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行了簡(jiǎn)單的介紹,并對(duì)其中所含的基本算法進(jìn)行了闡述。在2.2小節(jié)中對(duì)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)、訓(xùn)練時(shí)所用到的相關(guān)算法進(jìn)行了說(shuō)明,比如基本的神經(jīng)元包含哪些結(jié)構(gòu)、梯度下降算法、前饋傳播算法以及后向傳播算法。在2.3小節(jié)中對(duì)數(shù)據(jù)集進(jìn)行了簡(jiǎn)單的介紹。本章主要為后續(xù)章節(jié)的理解進(jìn)行了基礎(chǔ)性的介紹。2.2神經(jīng)網(wǎng)絡(luò)介紹2.2.1神經(jīng)元基本簡(jiǎn)介在監(jiān)督學(xué)習(xí)時(shí),設(shè)樣本集為,我們會(huì)用神經(jīng)網(wǎng)絡(luò)中的一種非線性模型,這個(gè)模型的基本參數(shù)有權(quán)重W,偏置項(xiàng)b,訓(xùn)練的數(shù)據(jù)通常使用該模型來(lái)擬合。神經(jīng)元在這里是最基本的一種神經(jīng)網(wǎng)絡(luò),它是組成通常意義上神經(jīng)網(wǎng)絡(luò)的最基本單元,下面給出它的結(jié)構(gòu)圖[12]。圖2-1“神經(jīng)元”的基本結(jié)構(gòu)圖片2-1給出了神經(jīng)元的圖示,它是神經(jīng)網(wǎng)絡(luò)的基本單元,輸入了,,以及截距b,而 公式(2-1)在神經(jīng)網(wǎng)絡(luò)中起輸出作用的函數(shù)是,我們稱其為激活函數(shù),它主要分為兩種形式,sigmoid函數(shù)是較為傳統(tǒng)的一種,另外還有雙曲正切函數(shù)。前者的公式為: 公式(2-2)后者的公式為: 公式(2-3)sigmoid函數(shù)設(shè)計(jì)的出發(fā)點(diǎn)是生物神經(jīng)學(xué),科學(xué)家主要是為了模擬自然界生物的神經(jīng)元在接受到外界的刺激,并且當(dāng)這種刺激達(dá)到了一定的程度就會(huì)做出相應(yīng)的反應(yīng)。而在sigmoid函數(shù)的基礎(chǔ)上又衍生發(fā)展出了雙曲正切激活函數(shù),如果我們選擇它作為激活函數(shù),其輸出范圍指定為[-1,1],其導(dǎo)數(shù)公式為。而如果我們選擇前者作為激活函數(shù),其輸出范圍是[0,1],導(dǎo)數(shù)公式為。下面兩張圖展示了sigmoid函數(shù)和雙曲正切函數(shù)這兩種激活函數(shù)的圖像[13]。圖2-2兩種激活函數(shù)的示意圖(a)sigmoid函數(shù)(b)雙曲正切函數(shù)從上面的圖片上我們可以看出,在神經(jīng)元的輸出和輸入之間,實(shí)際上構(gòu)成了一個(gè)邏輯回歸。2.2.2前向傳播算法(Forwardpropagation)在上面一節(jié)中我們了解了神經(jīng)元這一基本單元在神經(jīng)網(wǎng)絡(luò)中的結(jié)構(gòu),在這一節(jié)我們將了解神經(jīng)元是如何逐層連接,那些在輸入端附近的神經(jīng)元的輸出數(shù)據(jù)是如何作為靠近輸出端的那些神經(jīng)元的輸入數(shù)據(jù)的過(guò)程,下面給出一個(gè)基本的神經(jīng)網(wǎng)絡(luò)模型[14]。圖2-3基本的神經(jīng)網(wǎng)絡(luò)模型以上這張圖片展示了在一個(gè)基本的神經(jīng)網(wǎng)絡(luò)模型中,最基本的神經(jīng)元是如何連接的。在最左邊的那一排是輸入層,它由若干個(gè)節(jié)點(diǎn)單元所組成。最右邊一排是輸出層,而中間的是一系列節(jié)點(diǎn)組成的隱層。因?yàn)檫@一層夾在輸入輸出層之間,所以我們無(wú)法直接觀測(cè)到它的值。在這張圖中我們畫(huà)了3個(gè)輸入單元,,,3個(gè)隱藏單元所組成的隱層和1個(gè)輸出單元。在隱層和輸入層下面還有兩個(gè)+1符號(hào)的單元,我們稱它為偏置節(jié)點(diǎn),并且一般不會(huì)把它計(jì)算在隱藏或輸入單元上。我們需要表示整個(gè)模型中的總層數(shù),所以引入變量,那么在上圖中為3。接下來(lái)我們把第i層表示為,其表示為輸入層,把輸出層寫(xiě)成,最后我們得到了這個(gè)神經(jīng)網(wǎng)絡(luò)的總參數(shù)。我們?cè)侔训趌層第i節(jié)點(diǎn)的輸出值表示為,當(dāng)在第1層時(shí),表示為,即第i個(gè)輸入特征。只要知道參數(shù)集合W,b,我們就可以依靠上面的公式計(jì)算出神經(jīng)網(wǎng)絡(luò)的輸出值。以上面的神經(jīng)網(wǎng)絡(luò)模型圖為例子,每層的輸出值可以用下面的公式計(jì)算得到[15]。 公式(2-4)在上面的公式中,表示l層j節(jié)點(diǎn)與下一層i節(jié)點(diǎn)間的權(quán)重參數(shù)。另外,偏置節(jié)點(diǎn)并不被其他單元所指向。以上這個(gè)公式我們稱之為前向傳播算法。2.2.3反向傳播算法與梯度下降算法之前一節(jié)中簡(jiǎn)單說(shuō)明了向前傳播算法的基本思想,它可以將神經(jīng)網(wǎng)絡(luò)模型中每層的輸出值,即激活值算出來(lái),也可以由此得到深度神經(jīng)網(wǎng)絡(luò)計(jì)算完成后得到的輸出值,但是到這里我們還沒(méi)有完成全部的工作,整個(gè)網(wǎng)絡(luò)模型還需要進(jìn)一步的迭代優(yōu)化。在這一小節(jié),將要說(shuō)明如何運(yùn)用反向傳播算法[16]以及梯度下降法來(lái)優(yōu)化相關(guān)參數(shù)。第一步要做的是求出代價(jià)函數(shù),我們把數(shù)據(jù)樣本集設(shè)為,已擁有的樣本數(shù)量一共是m組,輸入的變量為,的標(biāo)簽為,表明了屬于哪種類(lèi)別。首先通過(guò)上一節(jié)講的前向傳播算法求出,它是網(wǎng)絡(luò)對(duì)的預(yù)測(cè)值,我們接下來(lái)所做工作都是為了使得更加接近真實(shí)值。為了達(dá)成這個(gè)目標(biāo),需要求出損失代價(jià)函數(shù)。當(dāng)只有一個(gè)樣本時(shí),loss代價(jià)函數(shù)可以用公式來(lái)表達(dá),同樣是一個(gè)方差代價(jià)函數(shù)。如果樣本數(shù)量為m個(gè),即,那么我們可以用公式公式(2-5)在以上公式中,網(wǎng)絡(luò)的層級(jí)數(shù)用l來(lái)表示,l層的單元數(shù)量用符號(hào)sl來(lái)表示。根據(jù)上面的公式所述,代價(jià)函數(shù)由兩部分組成,前面為均方差,后面為權(quán)重衰減項(xiàng),它的作用是讓權(quán)重幅度減小,來(lái)防止過(guò)擬合等情況出現(xiàn)。上式的代價(jià)函數(shù)可以表示真實(shí)值和預(yù)測(cè)值之前的差值,如果神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)能力良好那么代表這個(gè)值越低。我們最終的目的是想要使代價(jià)函數(shù)最小,我們面對(duì)的第一個(gè)問(wèn)題是參數(shù)如何初始化。偏置項(xiàng)和權(quán)重參數(shù)一般是隨機(jī)值,這個(gè)值接近0。接下來(lái)使用梯度下降算法來(lái)優(yōu)化神經(jīng)網(wǎng)絡(luò),權(quán)重以及偏置項(xiàng)使用下面的公式來(lái)更新[17]:公式(2-6)在上面的公式中,α為學(xué)習(xí)速率,我們可以看到求解參數(shù)偏導(dǎo)數(shù)是梯度下降算法的目標(biāo),下面來(lái)介紹如何用反向傳播算法來(lái)解偏導(dǎo)數(shù)。當(dāng)只有一個(gè)樣本時(shí),我們首先要計(jì)算,即損失代價(jià)函數(shù)。下一步計(jì)算整體代價(jià)函數(shù)的偏導(dǎo),下面的公式為詳細(xì)計(jì)算過(guò)程[18]:公式(2-7)下面簡(jiǎn)單介紹一下BP算法的構(gòu)想。第一步,需要使用前向傳播,以計(jì)算出每層網(wǎng)絡(luò)的輸出值和預(yù)測(cè)值hW,b(x)。每一層網(wǎng)絡(luò)的激活節(jié)點(diǎn)的差值也需要計(jì)算出來(lái),這個(gè)值表示這層的輸出對(duì)αi(l)和真實(shí)值的的差,變量δi(l)表示了l層殘差。當(dāng)神經(jīng)網(wǎng)絡(luò)的總層數(shù)為nl時(shí),輸出層即為這一層。它的殘差可以用下面列出的公式來(lái)計(jì)算:公式(2-8)以上的公式表示了最頂層輸出值的殘差,如果想要計(jì)算隱層中某一層的輸出殘差,第i節(jié)點(diǎn)的殘差可以用下面的公式計(jì)算。公式(2-9)在這個(gè)公式中,通過(guò)計(jì)算l+1層節(jié)點(diǎn)殘差的加權(quán)平均數(shù)來(lái)得出δi(l)的值,它們的輸入值是αi(l),當(dāng)計(jì)算得出結(jié)果后,接著計(jì)算偏置項(xiàng)的偏導(dǎo)和loss函數(shù)的偏導(dǎo)[19],以下為詳細(xì)計(jì)算公式:公式(2-10)上面兩個(gè)公式展示了計(jì)算殘差偏導(dǎo)的方法。2.3手寫(xiě)字符數(shù)據(jù)集簡(jiǎn)介本文的數(shù)據(jù)來(lái)源于蘇州大學(xué)機(jī)器學(xué)習(xí)與類(lèi)腦計(jì)算國(guó)際合作聯(lián)合實(shí)驗(yàn)室,其包括了85775個(gè)訓(xùn)練樣本和1440個(gè)測(cè)試樣本,它們都已經(jīng)進(jìn)行了一定的預(yù)處理:二值化和歸一化[20]。下圖是訓(xùn)練集的手寫(xiě)數(shù)字部分示例,很明顯這些字與正常印刷字體有較大差異,因此為了考慮某些變形嚴(yán)重的手寫(xiě)體,在樣本中加入了這部分?jǐn)?shù)據(jù),如最后一行的“4”。圖2-1手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集部分示例由于數(shù)據(jù)集是由許多參與者參與書(shū)寫(xiě),所以即使是同一個(gè)數(shù)字,實(shí)際字體也有較大的差別,如圖2-2所示。圖2-2不同參與者書(shū)寫(xiě)的數(shù)字22.4本章小結(jié)本章首先簡(jiǎn)要介紹了神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及其中比較重要的一些算法,如前向反向傳播和梯度下降算法,接著對(duì)所使用的數(shù)據(jù)集的構(gòu)成和特點(diǎn)進(jìn)行了介紹。基于卷積神經(jīng)網(wǎng)絡(luò)的手寫(xiě)字符識(shí)別3.1引言卷積神經(jīng)網(wǎng)絡(luò)是目前比較熱門(mén)的多層神經(jīng)網(wǎng)絡(luò),它和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)存在著一些不同,主要體現(xiàn)在其中引入了三個(gè)新概念:權(quán)值共享、感受野和池化。其中神經(jīng)網(wǎng)絡(luò)的第一層輸入源是感受野,下采樣把最后提取到的特征的維度進(jìn)行一定的降低,而權(quán)值共享使每一層間的連接參數(shù)數(shù)量進(jìn)行降低。引入這三種處理手段最大的好處是當(dāng)處理一些高分辨率的圖像時(shí)可以更加高效輕松。在傳統(tǒng)的深度學(xué)習(xí)模型中,輸入層和隱層通常采用全連接的方法,需要的參數(shù)數(shù)量龐大,當(dāng)訓(xùn)練分辨率較高的圖片時(shí),用全連接的方式來(lái)計(jì)算特征會(huì)耗費(fèi)大量的時(shí)間。比如有一萬(wàn)個(gè)輸入單元時(shí),想要學(xué)習(xí)一百個(gè)特征,參數(shù)的數(shù)量將會(huì)達(dá)到10^6個(gè),96*96的圖像比28*28的圖像所需要的時(shí)間的100倍。所以卷積大大減少了連接參數(shù)的數(shù)量。下面對(duì)卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)特點(diǎn)進(jìn)行介紹。3.2卷積[21]卷積(Convolution)的過(guò)程即對(duì)圖像做濾波的過(guò)程,濾波器(Filter)的大小取決于感受野,下面的圖片展示了卷積的過(guò)程。圖3-1卷積過(guò)程圖每一個(gè)圖片都具有一定的特征,這些特征不管在哪些區(qū)域都具有相似性,所以我們?cè)趫D片的任意位置都能使用同樣的濾波器。當(dāng)我們有一幅尺寸為的高分辨率圖像,首先提取分辨率為的樣本,計(jì)算,可以得到m個(gè)特征,其中和是可視層及隱層間的權(quán)重和偏置項(xiàng),代表了激活函數(shù)。對(duì)于每一個(gè)樣本,我們接下來(lái)需要算出,對(duì)f卷積后可以計(jì)算出個(gè)卷積后的特征矩陣。3.3權(quán)值共享[22]在卷積網(wǎng)絡(luò)中,卷積層與采樣層一般是成對(duì)出現(xiàn)的。卷積層中的濾波器對(duì)輸入圖的不同區(qū)域進(jìn)行濾波,一張完整的圖片濾波后輸出為特征圖。對(duì)于一個(gè)分辨率為5×5的圖片,F(xiàn)ilter為3×3,感受野大小為3×3,F(xiàn)ilter步長(zhǎng)1,輸出的圖片大小為,3×3。在傳統(tǒng)的不使用權(quán)值共享的方案中,感受野數(shù)量為9個(gè),連接參數(shù)數(shù)量加上偏置項(xiàng)為10,則參數(shù)個(gè)數(shù)共有90個(gè)。若使用權(quán)值共享,這個(gè)數(shù)字則下降為10。很明顯,權(quán)值共享可以使得訓(xùn)練參數(shù)數(shù)量大大減少。3.4池化當(dāng)我們獲得了特征圖像后,需要利用它們進(jìn)行分類(lèi)。雖然我們可以用所有特征去訓(xùn)練分類(lèi)器,但是當(dāng)使用的圖片數(shù)據(jù)分辨率較高時(shí),會(huì)面臨巨大的效率問(wèn)題。所以我們需要池化層,以減少重要性較低的樣本數(shù),從而進(jìn)一步使參數(shù)數(shù)量減少。因?yàn)橐粋€(gè)感受野的特征對(duì)其他區(qū)域也是有效的,我們對(duì)不同位置的特征進(jìn)行統(tǒng)計(jì),其結(jié)果既可以體現(xiàn)特征,又可以防止過(guò)擬合。以下圖片表現(xiàn)了池化的常用方法maxpooling的原理。圖3-2maxpooling原理3.5LetNet識(shí)別手寫(xiě)字符本實(shí)驗(yàn)所使用的網(wǎng)絡(luò)模型由LeNet-5修改而來(lái),其網(wǎng)絡(luò)結(jié)構(gòu)圖如下所示,其中C1、C3、C5為卷積層,而C2、C4為池化層,之后是F6全連接層,最后為十個(gè)節(jié)點(diǎn)組成的輸出層。圖3-3LeNet網(wǎng)絡(luò)結(jié)構(gòu)圖3.5.1使用LeNet進(jìn)行訓(xùn)練圖3-4LeNet訓(xùn)練初始結(jié)果在一般情況下,訓(xùn)練樣本越多,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果就越理想,所以使用各種數(shù)據(jù)增強(qiáng)方法來(lái)擴(kuò)充訓(xùn)練樣本,有很大可能可以提高模型的識(shí)別精度??梢詫?duì)原始訓(xùn)練數(shù)據(jù)進(jìn)行旋轉(zhuǎn),裁剪,平移,加噪聲等手段進(jìn)行數(shù)據(jù)增強(qiáng),擴(kuò)大樣本數(shù)量,提高識(shí)別精度。本文中對(duì)數(shù)據(jù)進(jìn)行如下變換:對(duì)手寫(xiě)數(shù)字圖像進(jìn)行旋轉(zhuǎn)變換,所有圖片分別旋轉(zhuǎn)±5度,±10度,±15度。對(duì)手寫(xiě)數(shù)字圖像進(jìn)行平移變換,所有圖片平移[-6,6],[-4,4]。對(duì)手寫(xiě)數(shù)字圖像進(jìn)行加噪處理,具體為加入0.03、0.06的高斯噪聲。4、對(duì)手寫(xiě)數(shù)字圖像進(jìn)行裁剪處理,以中心為基準(zhǔn)裁剪5%。圖3-5數(shù)據(jù)增強(qiáng)處理對(duì)數(shù)據(jù)進(jìn)行增強(qiáng)后,使用不同組合的形式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)增,最終分類(lèi)準(zhǔn)確率如下表所示:表3-1不同數(shù)據(jù)增強(qiáng)對(duì)準(zhǔn)確率的影響訓(xùn)練集初始集平移加噪裁剪旋轉(zhuǎn)準(zhǔn)確率95.6%96.2%95.9%96.5%97.1%表3-2不同組合對(duì)準(zhǔn)確率的影響訓(xùn)練集平移+加噪平移+裁剪平移+旋轉(zhuǎn)裁剪+旋轉(zhuǎn)平移旋轉(zhuǎn)裁剪整合所有數(shù)據(jù)準(zhǔn)確率96.1%96.3%96.8%96.4%97.2%96.8%3.5.2神經(jīng)網(wǎng)絡(luò)模型改進(jìn)為了進(jìn)一步提高LeNet的識(shí)別精度,嘗試對(duì)其進(jìn)行改進(jìn)。方案一:將C1層卷積核的數(shù)量提升至10,S2池化層的特征圖數(shù)量改為10。將C3層Filter數(shù)量改為35,S4池化層特征圖數(shù)量也改為35。C5卷積層維度提升至300,并將全連接層去掉,輸出層直接與C5相連。方案二:繼續(xù)增加C1的卷積核數(shù)量,提升至20,S2池化層特征圖數(shù)量也改為20。C3的Filter個(gè)數(shù)提升至50,S4特征圖同時(shí)改為50。C5卷積維度提升至500,將全連接層去掉。方案三:C1卷積核減至4,S2特征圖數(shù)減至4。C3的Filter數(shù)減至9個(gè),S3的特征圖數(shù)減至9。C5的卷積核數(shù)減至90,將全連接層去除。3.5.3改進(jìn)模型實(shí)驗(yàn)結(jié)果圖3-5方案一與LeNet對(duì)手寫(xiě)數(shù)字準(zhǔn)確率上圖為方案一改進(jìn)的網(wǎng)絡(luò)與LeNet對(duì)手寫(xiě)數(shù)字分類(lèi)精準(zhǔn)度的對(duì)比,方案一中卷積層加了濾波器,雖然去掉全連接層,但是收斂速度較慢,分類(lèi)準(zhǔn)確率稍有提升,這說(shuō)明卷積核的提升可以一定程度上提高網(wǎng)絡(luò)提取特征的能力,但是復(fù)雜度會(huì)增加。表3-3方案二、三的實(shí)驗(yàn)結(jié)果LeNet方案一方案二方案三準(zhǔn)確率95.60%96.71%98.61%95.20%收斂次數(shù)1000120065001400方案二對(duì)LeNet進(jìn)行了較大變動(dòng),卷積層的Filter數(shù)量大大增加,以提取更多特征。雖然識(shí)別率相比LeNet有提升,但是收斂速度大大降低。方案三的卷積層中少了三個(gè)濾波器,收斂次數(shù)有所降低,但是準(zhǔn)確率也受到了一定的影響。和方案一相比,方案二中卷積層中卷積核的數(shù)量有了一些提高,我們接下來(lái)嘗試調(diào)整方案二中C1層的濾波器數(shù)量,發(fā)現(xiàn)繼續(xù)擴(kuò)大數(shù)量對(duì)網(wǎng)絡(luò)識(shí)別率沒(méi)有太大的幫助,這說(shuō)明精準(zhǔn)度和卷積核數(shù)量之間并無(wú)嚴(yán)格的線性關(guān)系,甚至隨著卷積核數(shù)量的不斷增加,出現(xiàn)了訓(xùn)練次數(shù)大大增加才能使網(wǎng)絡(luò)收斂的情況。表3-4方案二中卷積層卷積核數(shù)量對(duì)網(wǎng)絡(luò)性能的影響卷積核數(shù)量能否收斂Accuracy能否提高20可以√30可以×40可以×50可以×以上實(shí)驗(yàn)可以得出,為了使網(wǎng)絡(luò)對(duì)訓(xùn)練集有更好的特征描述能力,可以適當(dāng)提升卷積層中卷積核數(shù)量,但是不能無(wú)限制的增加,以免收斂性能受到影響。3.5.4識(shí)別錯(cuò)誤原因分析本文中對(duì)手寫(xiě)數(shù)字識(shí)別率最高的網(wǎng)絡(luò)模型是方案二中LeNet的結(jié)構(gòu)修改版本,本小節(jié)將對(duì)識(shí)別錯(cuò)誤的樣本進(jìn)行分析。圖3-6方案二對(duì)手寫(xiě)數(shù)字識(shí)別錯(cuò)誤的樣本上圖是方案二中的網(wǎng)絡(luò)對(duì)測(cè)試樣本分類(lèi)出錯(cuò)的一些數(shù)據(jù),標(biāo)簽左邊為正確分類(lèi),右邊為被錯(cuò)誤分類(lèi)的結(jié)果??梢钥闯?,被錯(cuò)誤分類(lèi)的樣本主要有以下幾種特點(diǎn):字體部分結(jié)構(gòu)缺失,組成字符完整性的筆畫(huà)缺失,如最后一行第一個(gè)“8”就是因?yàn)榻Y(jié)構(gòu)缺失而被錯(cuò)誤分類(lèi)。字體過(guò)于潦草,如第一行第三個(gè)“3”,形變程度過(guò)大,人眼也難以分辨。存在臟數(shù)據(jù),由于對(duì)文字進(jìn)行了涂抹,從而造成分類(lèi)錯(cuò)誤,如第一行第四個(gè)“2”。3.5.5對(duì)影響收斂速度因素的實(shí)驗(yàn)測(cè)試在初始的LeNet中學(xué)習(xí)率被設(shè)定為0.001,這表明了梯度下降更新網(wǎng)絡(luò)權(quán)重的幅度大小。當(dāng)越大,更新的幅度就隨之變大。權(quán)重的更新用以下公式:公式(3-1)在這里我們使用方案一中的網(wǎng)絡(luò)進(jìn)行測(cè)試,只改變其中的學(xué)習(xí)率,將其從0.01開(kāi)始逐步增加,下圖展示了需要多少次訓(xùn)練網(wǎng)絡(luò)能夠收斂??梢钥吹皆O(shè)定為0.022時(shí)需要的迭代次數(shù)是最小的,并且最后輸出的模型分類(lèi)準(zhǔn)確度不會(huì)受到很大的影響,因此我們可以一定程度上增大學(xué)習(xí)率來(lái)優(yōu)化網(wǎng)絡(luò)收斂速度。圖3-7學(xué)習(xí)率與收斂次數(shù)的關(guān)系3.6本章小結(jié)本章主要介紹了卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)內(nèi)容,說(shuō)明了主要的特征并概括了一般訓(xùn)練樣本的過(guò)程。在介紹完理論過(guò)后,使用LeNet卷積網(wǎng)絡(luò)對(duì)字符進(jìn)行了訓(xùn)練,并對(duì)訓(xùn)練集進(jìn)行了dataaugmentation,比較了各種方法對(duì)識(shí)別率的影響。接著對(duì)LeNet進(jìn)行了一定的改進(jìn)并研究它們的性能,最后研究了學(xué)習(xí)率對(duì)網(wǎng)絡(luò)收斂次數(shù)的影響??偨Y(jié)與展望4.1本文工作總結(jié)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中一種比較特殊的學(xué)習(xí)算法,在近十年的圖像檢測(cè)、目標(biāo)分類(lèi)、語(yǔ)音識(shí)別、情感分析、圖像分割等領(lǐng)域均取得了巨大的成果。而卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中一種比較熱門(mén)的領(lǐng)域,其擁有許多優(yōu)異的特性,這是在傳統(tǒng)的分類(lèi)算法上很難實(shí)現(xiàn)的。本文針對(duì)手寫(xiě)阿拉伯?dāng)?shù)字的相關(guān)特點(diǎn),將深度卷積網(wǎng)絡(luò)應(yīng)用在了字符識(shí)別上,主要的工作內(nèi)容如下:使用深度卷積神經(jīng)網(wǎng)絡(luò)LeNet,將手寫(xiě)數(shù)字圖像訓(xùn)練集作為輸入數(shù)據(jù),輸出最終的分類(lèi)結(jié)果。通過(guò)梯度下降算法、前向傳播和反向傳播算法來(lái)更新網(wǎng)絡(luò),逐步優(yōu)化,以確定網(wǎng)絡(luò)模型的參數(shù)。針對(duì)手寫(xiě)數(shù)字的特點(diǎn)進(jìn)行各種數(shù)據(jù)增強(qiáng)手段以擴(kuò)充訓(xùn)練集,研究比較其對(duì)最終訓(xùn)練結(jié)果的影響。對(duì)LeNet進(jìn)行一定的修改優(yōu)化,研究其對(duì)訓(xùn)練的影響和測(cè)試結(jié)果,最后研究了學(xué)習(xí)率對(duì)收斂次數(shù)的影響。4.2后續(xù)工作展望由于我所掌握的理論知識(shí)和實(shí)驗(yàn)環(huán)境所限,本文還存在一些不足之處,具體如下:近年來(lái)隨著神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,出現(xiàn)了許多新的技術(shù)和算法,合理使用這些算法可以加快收斂網(wǎng)絡(luò),提高識(shí)別的準(zhǔn)確度。影響最終識(shí)別準(zhǔn)確率的因素除了訓(xùn)練樣本,還有網(wǎng)絡(luò)深度、卷積核的數(shù)量及size、移動(dòng)步長(zhǎng)等,將來(lái)可以針對(duì)這些因素做進(jìn)一步實(shí)驗(yàn)以研究他們對(duì)訓(xùn)練的影響。接下來(lái)可以討論如何改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),如對(duì)深度和卷積核進(jìn)行一些改進(jìn),進(jìn)一步提高網(wǎng)絡(luò)的可靠性,這將是未來(lái)工作的重中之重。在今后的工作中可以嘗試使用其他的數(shù)據(jù)集,或者可以將不同的訓(xùn)練集融合,使得樣本更加健壯。除了研究手寫(xiě)數(shù)字的識(shí)別,還可以嘗試對(duì)更加復(fù)雜的問(wèn)題,如手寫(xiě)中文甚至某些少數(shù)民族文字的識(shí)別進(jìn)行研究。由于互聯(lián)網(wǎng)用戶數(shù)量的飛速增長(zhǎng),在移動(dòng)終端上也產(chǎn)生了許多應(yīng)用場(chǎng)景對(duì)運(yùn)行卷積網(wǎng)絡(luò)提出了要求。本文中的深度卷積網(wǎng)絡(luò)對(duì)移動(dòng)終端不太友好,移植性也不是很強(qiáng)。希望在未來(lái)的工作中可以找到解決這一問(wèn)題的方案,可以減小網(wǎng)絡(luò)的大小的同時(shí)不對(duì)識(shí)別率造成太大的影響,使其更容易應(yīng)用到相關(guān)產(chǎn)品中。參考文獻(xiàn)[1]LecunY,BoserB,DenkerJS,etal.Backpropagationappliedtohandwrittenzipcoderecognition[J].NeuralComputation,2014,1(4):541-551.[2]BissaccoA,CumminsM,NetzerY,etal.Photoocr:Readingtextinuncontrolledconditions[C]//ComputerVision(ICCV),2013IEEEInternationalConferenceon.IEEE,2013:785-792.[3]SermanetP,EigenD,ZhangX,etal.Overfeat:Integratedrecognition,localizationanddetectionusingconvolutionalnetworks[J].arXivpreprintarXiv:1312.6229,2013.[4]BalázsKégl.Boostingproductsofbaseclassifiers[C]//InternationalConferenceonMachineLearning,ICML2009,Montreal,Quebec,Canada,June.DBLP,2009:497-504.[5]LauerF,SuenCY.Atrainablefeatureextractorforhandwrittendigitrecognition[M].ElsevierScienceInc.2007:1397-1404.[6]KeysersD,DeselaersT,GollanC,etal.DeformationModelsforImageRecognition[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2007,29(8):1422-1435.[7]MizukamiY,TadamuraK,WarrellJ,etal.CUDAimplementationofdeformablepatternrecognitionanditsapplicationtoMNISThandwrittendigitdatabase[C]//PatternRecognition(ICPR),201020thInternationalConferenceon.IEEE,2010:2001-2004.[8]LiuCL,MineR,KogaM.BuildingCompactClassifierforLargeCharacterSetRecognitionUsingDiscriminativeFeatureExtraction[C]//EighthInternationalConferenceonDocumentAnalysisandRecognition.DBLP,2005:846-850.[9]LiuCL,YinF,WangDH,etal.CASIAOnlineandOfflineChineseHandwritingDatabases[J].模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,2011:37-41.[10]SzegedyC,ZarembaW,SutskeverI,etal.Intriguingpropertiesofneuralne
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年畢節(jié)職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試備考試題帶答案解析
- 2026年湖南工商職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試備考試題帶答案解析
- 2026年河北正定師范高等專(zhuān)科學(xué)校單招職業(yè)技能考試參考題庫(kù)帶答案解析
- 2026年河北青年管理干部學(xué)院?jiǎn)握芯C合素質(zhì)筆試參考題庫(kù)帶答案解析
- 2026年安徽郵電職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性考試參考題庫(kù)帶答案解析
- 2026年安徽中澳科技職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)筆試參考題庫(kù)帶答案解析
- 2026年保險(xiǎn)職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試備考題庫(kù)有答案解析
- 2026年廣西英華國(guó)際職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能筆試備考題庫(kù)帶答案解析
- 2026年黑龍江司法警官職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試參考題庫(kù)有答案解析
- 私人舞蹈考級(jí)培訓(xùn)合同協(xié)議2025年
- 2026 年中職機(jī)械基礎(chǔ)(機(jī)械基礎(chǔ))試題及答案
- 2025年昆明市呈貢區(qū)城市投資集團(tuán)有限公司及下屬子公司第二批招聘(11人)考試備考題庫(kù)附答案
- “青苗筑基 浙里建證”浙江省建設(shè)投資集團(tuán)2026屆管培生招聘30人備考核心題庫(kù)及答案解析
- 江蘇百校大聯(lián)考2026屆高三語(yǔ)文第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)試題含解析
- 濃鹽水深度處理及零排放方案
- 黑吉遼2024年高考物理
- 城市照明合同能源管理技術(shù)規(guī)程
- 馬克思主義中國(guó)化理論成果
- 永康房地產(chǎn)調(diào)研報(bào)告課件
- 《赤壁賦》理解性默寫(xiě)匯編(超詳細(xì))
- 貴州省安順市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名明細(xì)及行政區(qū)劃劃分代碼居民村民委員會(huì)
評(píng)論
0/150
提交評(píng)論