付費(fèi)下載
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于深度學(xué)習(xí)的身份證二維碼識(shí)別算法
隨著計(jì)算機(jī)科學(xué)的發(fā)展和多段制應(yīng)用的發(fā)展,身份快速識(shí)別技術(shù)越來(lái)越受到重視。傳統(tǒng)的身份證識(shí)別方法主要有2種:一種是通過(guò)芯片掃描設(shè)備讀取身份證內(nèi)嵌芯片信息,該方法需要專用的芯片識(shí)別裝置,成本較高,且便攜性不足;另一種方法是手動(dòng)登記,效率低下且容易出錯(cuò)。近幾年來(lái),模式識(shí)別理論以及圖像處理技術(shù)的發(fā)展為利用光學(xué)圖像實(shí)現(xiàn)證件識(shí)別奠定了理論基礎(chǔ),具備拍照功能的智能手機(jī)廣泛使用為證件識(shí)別提供了硬件平臺(tái)?;诠鈱W(xué)攝像頭圖像處理及模式識(shí)別理論的光學(xué)字符識(shí)別(opticalcharacterrecognition,OCR)在社會(huì)生活的各個(gè)行業(yè)得到了廣泛的使用,如車牌識(shí)別、掃碼支付等。OCR在文字識(shí)別方面具有高速、高效、低成本的優(yōu)勢(shì)。人工神經(jīng)網(wǎng)絡(luò)是對(duì)動(dòng)物神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)單模仿,依靠系統(tǒng)的復(fù)雜程度,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間的相互連接關(guān)系,從而達(dá)到處理信息的目的,被廣泛應(yīng)用于語(yǔ)音分析、圖像識(shí)別、數(shù)字水印、計(jì)算機(jī)視覺等很多領(lǐng)域,取得了許多突出的成果1編碼編碼的切割在實(shí)際應(yīng)用中,我們可以通過(guò)設(shè)定拍攝窗口的方式獲得身份證的整個(gè)版面信息,如圖1(a)是自然拍攝得到的一個(gè)身份證圖片。為了減少數(shù)據(jù)的處理量和提取身份證號(hào)碼區(qū)域,將拍攝得到的RGB圖片做灰度化處理。Ostu是一種常用的二值化方法,通過(guò)統(tǒng)計(jì)整個(gè)圖像的直方圖特性來(lái)實(shí)現(xiàn)全局閾值的自動(dòng)選取,圖像像素能夠根據(jù)閾值被分成背景和目標(biāo)2部分。圖1(a)是自然拍攝得到的身份證照片,對(duì)其進(jìn)行ostu運(yùn)算后得到二值化圖像如圖1(b)所示。觀察身份證可知號(hào)碼行與其他信息部分之間有明顯的間隔,可以通過(guò)對(duì)圖1(b)進(jìn)行投影統(tǒng)計(jì)法來(lái)提取身份證號(hào)碼行內(nèi)容。遍歷二值化圖片,將其黑色像素點(diǎn)往水平方向投影,統(tǒng)計(jì)每一行黑色像素點(diǎn)數(shù)目如圖2(a)所示。觀察圖2(a)可知,最右側(cè)的波柱對(duì)應(yīng)著身份證號(hào)碼行,可以通過(guò)設(shè)置閾值來(lái)實(shí)現(xiàn)對(duì)號(hào)碼行的切割,最終切割效果如圖2(b)所示。同理,將提取到的身份證號(hào)碼行進(jìn)行垂直方向的投影,統(tǒng)計(jì)每一列黑色像素點(diǎn)的數(shù)目,選取合適閾值即可獲得每個(gè)數(shù)字的字符圖片。一般而言,投影得到的數(shù)字圖片高度是一致的,但是寬度并不一致。為了規(guī)范神經(jīng)網(wǎng)絡(luò)的輸入,我們需要對(duì)其進(jìn)行大小歸一化。數(shù)字圖片的寬高比例大概為3∶4,所以本文統(tǒng)一將圖片歸一化為寬15pix,高20pix(即15×20)大小。圖片大小歸一化的常用方法有雙線性插值法、最近鄰法、面積插值法等。本文使用線性插值法來(lái)歸一化圖片大小,雙線性插值法工作如下:設(shè)原圖高寬為heightX×widthY,原圖像素坐標(biāo)用(x,y)表示,要變換為高寬heightI×widthJ的目標(biāo)圖,目標(biāo)圖像素坐標(biāo)用(i,j)表示,變換公式為對(duì)于目標(biāo)圖中的(i,j)點(diǎn),通過(guò)式(1)可以找到在原圖中對(duì)應(yīng)的一個(gè)點(diǎn)(x,y),取點(diǎn)(x,y)十字方向上的4個(gè)點(diǎn)(x-1,y)、(x+1,y)、(x,y-1)和(x,y+1)的像素值來(lái)確定目標(biāo)圖中的(i,j)點(diǎn)的像素值。式中s2從簡(jiǎn)單特征中提取更復(fù)雜的特征深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,它除了可以學(xué)習(xí)特征和任務(wù)之間的關(guān)聯(lián)之外,還能自動(dòng)從簡(jiǎn)單特征中提取更復(fù)雜的特征。多層神經(jīng)網(wǎng)絡(luò)可以解決異或運(yùn)算。文獻(xiàn)2.1網(wǎng)絡(luò)生成神經(jīng)元的分類搭建神經(jīng)網(wǎng)絡(luò)一般采用分層結(jié)構(gòu),輸入層作為第一層神經(jīng)網(wǎng)絡(luò),該層的每一個(gè)輸入神經(jīng)元對(duì)應(yīng)特征向量中每一個(gè)特征的取值,同層節(jié)點(diǎn)彼此獨(dú)立沒有任何連接,按照傳遞方向每層節(jié)點(diǎn)只與后一層節(jié)點(diǎn)連接直至到輸出層。傳遞是有方向性進(jìn)行的,傳遞路徑不可逆。在輸入層和輸出層之間的神經(jīng)網(wǎng)絡(luò)叫做隱藏層。網(wǎng)絡(luò)中所有的神經(jīng)元具有完全相同的結(jié)構(gòu)。圖片識(shí)別問(wèn)題的本質(zhì)是圖像分類本文通過(guò)自然拍攝687張身份證圖片(包含0~9個(gè)數(shù)字和英文字符X),并對(duì)其做如第1章的切割處理,得到的像素寬高為15pix×20pix的二值化圖片共12366張,將其中8280張圖片作為訓(xùn)練集,其余4086張圖片作為測(cè)試機(jī),訓(xùn)練集和測(cè)試集圖片相互獨(dú)立、沒有重疊。2.2化策略優(yōu)化結(jié)合BP算法和梯度下降法來(lái)優(yōu)化網(wǎng)絡(luò)中參數(shù)的取值。參數(shù)調(diào)優(yōu)是使用神經(jīng)網(wǎng)絡(luò)時(shí)最為關(guān)鍵的步驟之一,優(yōu)化策略的優(yōu)劣直接影響了網(wǎng)絡(luò)最終的識(shí)別性能。梯度下降法能將單個(gè)參數(shù)更新迭代到局部最優(yōu)值,反向傳播算法給出了一個(gè)高效的方式能在所有參數(shù)上使用梯度下降算法用θ表示神經(jīng)網(wǎng)絡(luò)中的參數(shù),J(θ)表示在參數(shù)為θ時(shí)網(wǎng)絡(luò)模型在訓(xùn)練集上損失函數(shù),則優(yōu)化過(guò)程就是尋找一個(gè)參數(shù)θ,使得J(θ)最小。2.2.1過(guò)大的超參數(shù)會(huì)導(dǎo)致極優(yōu)值被重塑學(xué)習(xí)率用來(lái)控制每次參數(shù)更新的幅度,參數(shù)更新公式為式中η表示學(xué)習(xí)率。學(xué)習(xí)率是訓(xùn)練神經(jīng)網(wǎng)絡(luò)最重要的超參數(shù),如果η過(guò)大,則有可能導(dǎo)致參數(shù)在極優(yōu)值的兩側(cè)來(lái)回震蕩移動(dòng),更有甚者會(huì)不收斂;如果η過(guò)小,雖然保證網(wǎng)絡(luò)收斂,但犧牲了優(yōu)化速度。因此η的選取不能過(guò)大也不能過(guò)小,本文使用指數(shù)衰減法來(lái)設(shè)置學(xué)習(xí)率:式中:η是每一輪優(yōu)化時(shí)所使用的學(xué)習(xí)率;η2.2.2網(wǎng)絡(luò)過(guò)擬合問(wèn)題的解決神經(jīng)網(wǎng)絡(luò)的訓(xùn)練并不是為了追求在訓(xùn)練集上有很好的表現(xiàn),而是為了在測(cè)試未知樣例時(shí)能有最好的表現(xiàn)。在訓(xùn)練時(shí)網(wǎng)絡(luò)常會(huì)發(fā)生過(guò)擬合現(xiàn)象,通俗來(lái)講就是網(wǎng)絡(luò)“記住”了訓(xùn)練集中每一個(gè)隨機(jī)噪聲而忽略了根據(jù)趨勢(shì)進(jìn)行合理排除的能力常用正則化(regularization)來(lái)解決網(wǎng)絡(luò)過(guò)擬合問(wèn)題。正則化的思想是每一個(gè)網(wǎng)絡(luò)參數(shù)(權(quán)重和偏置)都能對(duì)預(yù)測(cè)產(chǎn)生一點(diǎn)影響,而不是其中幾個(gè)網(wǎng)絡(luò)參數(shù)起決定作用。具體操作就是在優(yōu)化時(shí)不是直接對(duì)J(θ)進(jìn)行優(yōu)化,而是對(duì)J(θ)+λR(w)進(jìn)行優(yōu)化。λ為參數(shù)懲罰系數(shù),R(w)表示對(duì)網(wǎng)絡(luò)參數(shù)的抑制懲罰。θ為神經(jīng)網(wǎng)絡(luò)參數(shù)集合(所有權(quán)重w和偏置b)。常用的懲罰函數(shù)R(w)有2種方式:L另一種減少過(guò)擬合的方式是dropout方法,dropout是一個(gè)同正則化完全不同的技術(shù),與L通常對(duì)于同一批量訓(xùn)練樣例,用不同神經(jīng)元組合訓(xùn)練之后求輸出的平均值可以減少過(guò)擬合,dropout利用這個(gè)原理在訓(xùn)練過(guò)程中對(duì)網(wǎng)絡(luò)中的神經(jīng)元按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄,這樣就相當(dāng)于在不同的神經(jīng)網(wǎng)絡(luò)上進(jìn)行訓(xùn)練,減少了層與層之間神經(jīng)元的依賴性從而使得神經(jīng)網(wǎng)絡(luò)更加健壯。2.2.3神經(jīng)網(wǎng)絡(luò)的輸出神經(jīng)網(wǎng)絡(luò)應(yīng)用于分類時(shí)一般不直接輸出結(jié)果為哪類,而是輸出一個(gè)一維數(shù)組向量,向量的長(zhǎng)度為類別個(gè)數(shù)。判斷每一個(gè)樣例分類網(wǎng)絡(luò)就輸出一個(gè)數(shù)組,數(shù)組中的每一個(gè)元素對(duì)應(yīng)一個(gè)類別的得分。如果某個(gè)樣本屬于A類,那么此時(shí)網(wǎng)絡(luò)的輸出數(shù)組對(duì)應(yīng)于A的元素應(yīng)該為1,數(shù)組其余元素均為0。但是這樣的輸出在意義上很難直觀理解,可以用softmax來(lái)優(yōu)化分類。神經(jīng)網(wǎng)絡(luò)輸出為y經(jīng)過(guò)式(6)運(yùn)算后,神經(jīng)網(wǎng)絡(luò)的輸出數(shù)組變成了一個(gè)概率分布。能直觀地看到一個(gè)樣例為各個(gè)類別的概率是多大。采用交叉熵(crossentropy)評(píng)判輸出向量和期望向量之間的接近程度式(7)的意義是通過(guò)概率分布q來(lái)表達(dá)概率分布p的困難程度。因?yàn)橄M玫秸_的結(jié)果,所以選取交叉熵作為神經(jīng)網(wǎng)絡(luò)的損失函數(shù)時(shí),用p表示樣例正確的分類標(biāo)注,用q表示網(wǎng)絡(luò)輸出的預(yù)測(cè)值。交叉熵表示p、q越接近(即預(yù)測(cè)得越準(zhǔn)確)。結(jié)合式(6)、(7),可以得到神經(jīng)網(wǎng)絡(luò)的損失函數(shù)為通過(guò)式(8)可以判斷預(yù)測(cè)答案和真實(shí)答案之間的距離越小越好。3確定實(shí)驗(yàn)結(jié)果的比較為了驗(yàn)證本文算法識(shí)別性能,共設(shè)計(jì)3個(gè)實(shí)驗(yàn)進(jìn)行驗(yàn)證。3.1knn模板匹配法識(shí)別結(jié)果根據(jù)我們切割算法及歸一化處理可知。切割所得到的字符在15×20大小區(qū)域中位置相對(duì)固定,可使用模版匹配法來(lái)結(jié)合kNN算法來(lái)進(jìn)行識(shí)別。kNN算法也叫最近鄰法,算法的思想是,每個(gè)字符類各取n個(gè)有代表性的不同相態(tài)字符作為標(biāo)準(zhǔn)模版。待識(shí)別圖片要進(jìn)行識(shí)別時(shí),將圖片與模版里的每一張圖片逐個(gè)像素點(diǎn)做灰度差值計(jì)算,求出2張圖片的像素差值絕對(duì)之和。在所有模版選取出前k張(本文選取k=5)與待識(shí)別圖片像素差值絕對(duì)值之和最小的圖片,統(tǒng)計(jì)這k張圖片屬于哪一個(gè)字符類最多的即判斷圖片為該類,若圖片所屬類別樣例數(shù)一樣,則選排序在前的類別作為判斷類別。如5張圖片分別為(1,6,2,3,6),則判斷圖片為6;若為(2,7,4,X,1),則判斷圖片為2。表1為kNN模板匹配法識(shí)別結(jié)果表。kNN模版匹配法識(shí)別的正確性很大程度上依賴于標(biāo)準(zhǔn)模版的規(guī)模。標(biāo)準(zhǔn)模版規(guī)模越大,識(shí)別正確率越高,但是因?yàn)槊恳淮巫R(shí)別時(shí)圖片都要與模版庫(kù)里面所有的圖片做比較,模版庫(kù)規(guī)模越大,識(shí)別所需時(shí)間越長(zhǎng)。3.2神經(jīng)網(wǎng)絡(luò)的構(gòu)建待識(shí)別圖片大小為15×20=300個(gè)像素點(diǎn),因此輸入層神經(jīng)元為300個(gè),輸出為11類,所以輸出層為11個(gè)神經(jīng)元。搭建一個(gè)3層全連接神經(jīng)網(wǎng)絡(luò)(輸入層+掩藏層+輸出層),采用2.2節(jié)的優(yōu)化策略,隱藏層數(shù)目與正確率的關(guān)系如表2所示。搭建一個(gè)4層全連接神經(jīng)網(wǎng)絡(luò),輸入層和2個(gè)隱藏層神經(jīng)元數(shù)目相同,每層都為300個(gè),輸出層神經(jīng)元為11個(gè),測(cè)試的正確率為99.40%。搭建一個(gè)5層的全連接神經(jīng)網(wǎng)絡(luò)(每層隱藏層神經(jīng)元數(shù)目與輸入層一致),測(cè)試集上測(cè)試正確率為99.38%,由此可判斷多層全連接神經(jīng)網(wǎng)絡(luò)與3層全連接神經(jīng)網(wǎng)絡(luò)識(shí)別性能相當(dāng)。3.3卷積層篩選和正確率分析卷積神經(jīng)網(wǎng)絡(luò)是一種深度前饋人工神經(jīng)網(wǎng)絡(luò)輸入層→(卷積層+→池化層?)+→全連接層+“卷積層+”表示一層或多層卷積層;“池化層?”表示有或者沒有池化層。在經(jīng)過(guò)多輪卷積層和池化層之后,卷積神經(jīng)網(wǎng)絡(luò)在輸出前一般會(huì)經(jīng)過(guò)1~2個(gè)全連接層。實(shí)驗(yàn)所用為7層卷積網(wǎng)絡(luò)(圖6所示,不含輸入層),使用了2個(gè)卷積層+池化層組合。第1層卷積層接收的輸入層大小為15×20×1的原始文字灰度圖片像素,第1個(gè)卷積層過(guò)濾器的尺寸為5×5,深度為32,使用全0填充,步長(zhǎng)為1。第2層池化層,采用最大池化降采樣,選擇尺寸為2×2的過(guò)濾器,使用全0填充且移動(dòng)步長(zhǎng)為2。第3層卷積層,選取邊長(zhǎng)為5,深度為64的過(guò)濾器,移動(dòng)的步長(zhǎng)為1,使用全0填充。第4層池化層結(jié)構(gòu)和第2層池化層結(jié)構(gòu)一致。使用2.1節(jié)優(yōu)化策略訓(xùn)練如圖7。經(jīng)過(guò)1200輪迭代訓(xùn)練,CNN網(wǎng)絡(luò)在測(cè)試集上的識(shí)別正確率能達(dá)到99.96%。實(shí)驗(yàn)看到BP全連接神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別正確率相近,為了進(jìn)一步比較2種網(wǎng)絡(luò)的識(shí)別性能,對(duì)他們分別初始化訓(xùn)練5次,比較2個(gè)網(wǎng)絡(luò)在5次訓(xùn)練中測(cè)試集上的識(shí)別正確率如表3。不使用優(yōu)化策略,CNN連續(xù)進(jìn)行5次的識(shí)別平均正確率為98.926%;采用優(yōu)化算法后的網(wǎng)絡(luò)識(shí)別性能提升了0.7%,健壯性更強(qiáng)。由圖6可以看出隨著訓(xùn)練次數(shù)的增加,網(wǎng)絡(luò)的模型識(shí)別率也在穩(wěn)步提高,沒發(fā)生強(qiáng)過(guò)擬合現(xiàn)象。在識(shí)別用時(shí)上,識(shí)別4086張圖片各模型用時(shí)如表4所示。圖8是識(shí)別時(shí)錯(cuò)誤識(shí)別的樣本,左圖實(shí)際為5,但網(wǎng)絡(luò)識(shí)別為3;右圖實(shí)際為6,被識(shí)別為0。觀察圖片可以發(fā)現(xiàn),誤判很大的原因在于拍攝時(shí)曝光不適導(dǎo)致提取字符時(shí)噪聲過(guò)多,致使網(wǎng)絡(luò)識(shí)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年化學(xué)工程高級(jí)職稱評(píng)審資料與模擬題庫(kù)
- 客服專員培訓(xùn)內(nèi)容
- 2026年北京社會(huì)管理職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)筆試參考題庫(kù)含詳細(xì)答案解析
- 2026年安徽糧食工程職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試備考試題及答案詳細(xì)解析
- 2026年常州工程職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)筆試參考題庫(kù)含詳細(xì)答案解析
- 2026年江西藝術(shù)職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)筆試參考題庫(kù)含詳細(xì)答案解析
- 2026年寧夏建設(shè)職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)筆試模擬試題含詳細(xì)答案解析
- 2026紹興理工學(xué)院招聘32人考試重點(diǎn)題庫(kù)及答案解析
- 2026年安徽醫(yī)學(xué)高等??茖W(xué)校單招職業(yè)技能考試參考題庫(kù)含詳細(xì)答案解析
- 2026年江西應(yīng)用工程職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能考試備考試題含詳細(xì)答案解析
- 床上運(yùn)動(dòng)及轉(zhuǎn)移技術(shù)課件
- 子宮腺肌癥術(shù)后護(hù)理
- 獨(dú)資股東協(xié)議書范本
- 2024-2025蘇教版小學(xué)數(shù)學(xué)二年級(jí)上冊(cè)期末考試測(cè)試卷及答案(共3套)
- 光伏發(fā)電項(xiàng)目風(fēng)險(xiǎn)
- 風(fēng)力發(fā)電項(xiàng)目分包合同施工合同
- GB/T 8607-2024專用小麥粉
- 新版外國(guó)人永久居住身份證考試試題
- 2024年中考數(shù)學(xué)復(fù)習(xí):瓜豆原理講解練習(xí)
- 高一歷史期末試題中國(guó)近現(xiàn)代史
- (高清版)DZT 0210-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 硫鐵礦
評(píng)論
0/150
提交評(píng)論