版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】1/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】1/12【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集精品文檔合集精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】2/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】2/12自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)戴建輝信息科學與工程學院.電子信息工程系指導老師:吳謹摘要:本文論述并大綱實現(xiàn)了一個脫機自由手寫休數(shù)字識別系統(tǒng)。文中首先對待識別數(shù)字的預處理方案進行了 介紹,包括二值化、平滑濾波、規(guī)范化、細化等圖像
2、處理方案方法;其次,探討了如何提取數(shù)字字符的結(jié)構(gòu)特 征和筆劃特征,并詳細地描述了理論知識庫的構(gòu)造方法;最后釆用了以理論知識庫為基礎的模板匹配識別方法,并以 MATLAB作為編程工具實現(xiàn)了具有友好的圖形用戶界面的自由手寫體數(shù)字識別系統(tǒng)。實驗結(jié)果表格模板明,本方法 具有較高的識別率.并具有較好的抗嘆性能。關(guān)鍵詞:手寫體數(shù)字;預處理方案;模式識別:特征提取Abstrct: This paper describes and designs a free handwritten number recognition system. Firstly, the pretreatment of the cha
3、racter to be recognized is intreduced, including binarization, smoothing, norma 1 ization and thinning. Next, how to extract the structural features of the numbers is discussed, and we describe the constructing method of repository. Finally, we use the method of template matching, based on repositor
4、y, to recognize the digital number. Mat lab is used as a program tool to realize this free handwritten digital recognition system with friendly graphical user interface. The experimental results show that the rate of the recognition system is high, and the proposed method is robust to noise.Keywords
5、: handwritten number; pretreatment; pattern recognition: feature extraction精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】2/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】2/121引言OCR ( Optical CharacterRecognition)即光學字符識別技術(shù), 是通過掃描儀把印刷體或手寫體文爲 掃描成圖像,然后識別成相應的計算 機町直接處理方案的字符。OCR是模式識別 的一個分支,按字體分類主要分為印 刷體識別和手寫體識別兩大類。對于 印刷體識別又可以分成單
6、一字體單一 字號和多種字體多種字號兒類。而手 寫體識別又可分為受限手寫體和不受 限手寫體兩類;按識別方式可分為在 線識別和脫機識別兩類。字符識別處理方案的信息可分為兩大 類:一類是文字信息,處理方案的主要是 用各國家、各民族的文字(如:漢字, 英文等)書寫或印刷的文本信息,目 前在印刷體和聯(lián)機手寫方面技術(shù)12趨 向成熟,并推岀了很多.應用系統(tǒng);l/j 類是數(shù)據(jù)信息,主要是由阿拉伯數(shù) 字及少量特殊符號組成的各種編號和 統(tǒng)計數(shù)據(jù),如:郵政編碼、統(tǒng)計報表格模板、 財務報表格模板、銀行票據(jù)等等,處理方案這類精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】3/12精品文檔合集:【精編
7、匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】3/12信息的核心技術(shù)是手寫數(shù)字識別。因 此,手寫數(shù)字的識別研究有著重大的 現(xiàn)實意義,一旦研究成功并投入應用, 將產(chǎn)生巨大的社會和經(jīng)濟效益。在整個OCR領域中,最為困難的 就是脫機自由手寫字符的識別。到目 前為止,.盡管人們在.脫機手淄英文、 漢字識別的研究中已取得很多可喜成 就,但距離實用還有一定距離。而在 手寫數(shù)字識別這個方向上,經(jīng)辻多年 研究,研究工作者已經(jīng)開始把它向各 種實際應用推廣,為手寫數(shù)據(jù)的高速 自動輸入提供了一種解決規(guī)劃方案.本文首先介紹了I由手寫體數(shù)字 識別的基本原理,包括數(shù)字圖像預處 理、特征提取和模式識別的基本原理 和方法;
8、H次介紹了;最后通過基于 MATLAB的實驗結(jié)果,對本系統(tǒng)的性能 進行了分析。2手寫體數(shù)字識別的基本原理本系統(tǒng)上要由手”體數(shù)字俱別的 訓練過程和識別過程組成,訓練過程 和識別過程均包括預處理方案、特征提取 和模式識別三部分。系統(tǒng)構(gòu)成如圖2. 1 所E精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】3/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】3/12圖2.】系統(tǒng)流程圖精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】3/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】3/12下面分別介紹各部分工作的基本
9、原 理.2. 1預處理方案預處理方案主要由一:偵化,平滑去噪, 規(guī)范化,細化等組成.本文采用了基于闞值的二值化算 法,通過最大類間方并法即OTSU方法, 統(tǒng)計圖像的灰度直方圖選取全局閾 值,然后進行二值化處理方案,其次,在二值化后利用均值濾波 的方法消除孤立點、線的噪戸,這樣 圖中就只剩下手寫體數(shù)字。在濾波中 本文采用的是3*3大小的模板,平滑去噪后,對圖像進行規(guī)范化 處理方案。找出圖像中數(shù)字的邊界,然后 提取出數(shù)字把它居中放置在正方形方 框中,再對此正方形圖像進行線性插 偵縮放,使它放為統(tǒng)規(guī)格大小的圖 像,本精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】4/12精品文檔
10、合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】4/12文中歸化圖像的大小是 36*3 飢在提取特征之前,要對手寫體數(shù) 字進行細化。本文是采用的基于數(shù)學 形態(tài)學的細化算法。細化可用兩步腐 蝕來實現(xiàn):第一步是正常的腐蝕,但 它是有條件的,也就是說,那些被標 為可除去的像素點并不立即消去;在 第二步中,只將那些消除后并不破壞 連通性的點消除,否則保留。以上每 一步都是一個3*3鄰域運算。細化是 將一個曲線性數(shù)字細化為一條單像素 寬的線,從而圖形化地顯示出其拓撲 性質(zhì).數(shù)字圖像預處理方案前后效果比較如 下圖所小圖2. 2為數(shù)字“5”的原始 圖像,圖2 3為對圖2.2預處理方案后的 結(jié)果圖
11、。類似地,圖24為數(shù)字“6” 的原始圖像,圖2.5為對圖2.4預處 理后的結(jié)果圖。/*. - : .-. - .圖2. 2原始圖像圖2. 3預處理方案后圖像圖2-4原始圖像圖2一5預處理方案后圖像2.2特征提取特征提取的目的是從原始數(shù)據(jù)中 抽取出用于區(qū)分不同類型的本質(zhì)特 征。無論是識別過程還是學習過程, 都要對研究對象固有的、木質(zhì)的重要 特征或?qū)傩赃M行量測并將結(jié)果數(shù)值 化,形成特征.矢通常能描述對象的元素很多,為 了節(jié)約資源,節(jié)省計算機存儲空間、 姓理時間、特征提取的費用,仃時吏 是為了可行性,在保證滿足分類識別 正確率要求的條件下,按某種準則盡 量選用對正確分類識別作用較大的特 征,使得用較
12、少的特征就能完成分類 識別任務。這項工作表格模板現(xiàn)為減少特征 矢量的維數(shù)或符號字符數(shù)。在本系統(tǒng) 中釆用對待識別數(shù)字圖像謎行行列掃 描與數(shù)字起點結(jié)合的方法提取特征。2. 2.1結(jié)構(gòu)特征的提取首先對經(jīng)預處理方案后的圖像進行分 割,精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】5/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】5/12如圖工6所小。圖圖像分割對圖像分割后,結(jié)陶特征提取的 算法如下:對細化后的數(shù)字圖像取眼直的三 條直線,分別取在 5/12, 1/2, 7/12處,記F這三條 豎直直線與數(shù)字筆段的交點數(shù).再取水平三條直線,分別取在 1/3,
13、 1/2, 2/3處,分別記下這二 條水平直線與數(shù)字筆段的交點 數(shù),再取對角兩條直線,分別記下這 兩條對角直線與數(shù)字筆段的交點 數(shù).2. 2.2筆劃特征的提取經(jīng)細化后的數(shù)字圖像其特征較為 穩(wěn)定,旦筆劃簡単,因此對其抽取的基 本結(jié)構(gòu)組件能反映數(shù)字的本質(zhì)特征, 從而可快速有效地識別數(shù)字符,并達 到較好的分類效果。數(shù)字端點如圖2.7 所示,提取筆劃特征的算法如下:(1)按從上到下,從左到右的順序掃 描預處理方案后圖像并選擇黑像素點 P:計算像素F的8鄰域之利*若N=l,則像素P為端點,端點計 數(shù)器加-;重或步驟-,直到遍歷整個2.2.3數(shù)字的特征向量說明依掘上述特征提取由法,本系統(tǒng)中 的特征矢量山9
14、個分量組成,其排列如 卜所示;D.ATA=.豎仃屮線交成數(shù), .豎直5/12處, 豎直12處, 水平屮線交點數(shù), 水平1/3姓交點數(shù), 水平2/3處交點數(shù), 左對角線交點數(shù), 右對角線交點數(shù),精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/122.3理論知識庫的建立由于本文采岀的是基于模式理論知識庫的識別方法,所以對字符的結(jié)構(gòu)特征的分析以及字符模型的構(gòu)造是個 十分重要的環(huán)節(jié),圖2.8就是對識別 數(shù)字的標準形態(tài)進行具體分析而構(gòu)造 的模板.精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實
15、現(xiàn)合集】6/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/120/235678?圖2M規(guī)范手寫體數(shù)字形態(tài)精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/12DAT啊=2, 2, 2, 2, 2, 2, 2, 2, 0: DATAL = 1, 0, 0, 1, 1, 1, 1, 1, 2: DATA2i=3, 3, 3,1,1,1,1,1,3; DATA3, = 3, 2, 3, 1, 1, 1,2, 2, 3: 1)ATA41= 1, 1, 1,2, 2, 1,3,
16、 2, 4; DATA5i = 3, 3, 3, 1, 1, 1, 2, 2, 4: DATA6, = 3, 3, 2,1,1,2, 3, 2,1;DATA7 =2r2r2r 1, 1, 1, 1, 1,2: 丄幻 2,0:DATA9i= 3. 3. 3. 1, 2, 1. 3. 1. 1。由于本系統(tǒng)是對自由手寫體進行 識別,因而要考慮數(shù)字書寫體的多變 性。通過對圖2.9所示數(shù)字變體的分 析來對知譏犀進仃補充。精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/12。員3次為9圖2.9手寫體數(shù)字變體
17、精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/12lh2h2L1, 1, 1.3,2;I. 1,上3:3, 1.2. 2. 2:1. ;2, 2, 2:DATA0: = 11, 1. 2h 2DATA2: = 3,2DATA3,= 3, 1DATA4:=1.2DATA5: 3.3)ATAfla= 3, 1DATA8: = 4, 4, 4, 2, 1,2, 1,2,2;DATA9l= 3,匕&幻 1, 1, 3, 1, 3.最后得到理論知識庫由上述兩套模板一 * 邛土d = |勤_*|公式(2.
18、1)但在本次大綱中我們計算距離時 對上述公式進行了改進,對于可靠性 較高的端點數(shù)即最后一維特征值加大 了權(quán)重,改進后的距離計算公式如下:精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/12.所組成,2.4本系統(tǒng)的模式識別方法在本次大綱過程中,我們選擇了模板匹 配的識別方法。通過計算歐氏距離來衡量匹 配程度.本系統(tǒng)中的特征矢量有9個分量, 精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】6/12卩;計算
19、距浦公式如E精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】8/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】8/12d= |耳 f+3小_-I_公式(2. 2)在識別過程,分別計算待識別圖 像的特征值與理論知識庫中兩個模板的距 離,與10個數(shù)字逐個比較,距離最小 的対應的數(shù)字就是最后識別結(jié)果,該精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】9/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】9/12圖3.2選擇對圖像的各種操作.算法:H冇特征提取和模板建*.都比較 直觀,時間復雜度低,易于實現(xiàn)等優(yōu) 點
20、。其缺點是在建立理論知識庫時需要進 行大量的訓練,當理論知識庫中的模板増 多時,特征矢量間的距離會減小。3 MATLAB程序大綱圖3. 3圖像取反本次大綱使用MATLAB語言實現(xiàn) 該系統(tǒng),其用戶界面分別介紹如下。讀入圖像,圖3. 1讀入圖像讀入圖像的用廠界而如圖3. 1 所小。圖3.4平滑去噪對圖像進行各種處理方案:圖3”5二值化選擇對圖像的各種操作的用戶 界面如圖3.2所示,對圖像取反的用 戶界面如圖3.3所示,對圖像平滑去 噪的用戸界面如圖3.4所示,對圖像 進仃偵化操作的用戶界面如圖3.5 所示,對圖像進行規(guī)范化處理方案的用戶 界面如圖3.6所示,對圖像進行細化 操作的用戶界面如圖3.
21、7所示,精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】10/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】10/12圖3.6規(guī)范化圖3,7細化數(shù)字圖像的識別:對手寫體數(shù)字 進行識別的結(jié)果顯示界面如圖 3. 8所示,圖3. 8識別結(jié)果顯示在上述界面中,系統(tǒng)可根據(jù)用戶 對識別結(jié)果正誤的選擇,自動計算識 別率,識別率結(jié)果顯示在圖像界面上 方:4實驗結(jié)果及分析在實驗過程中我們以兩組樣本作 為訓練樣本對理論知識庫的參數(shù)進行調(diào) 整,這兩組訓練樣本分別為100個規(guī) 范手寫體樣本和100個自II手寫體樣 本,規(guī)范手寫體樣本訓練結(jié)果如表格模板4. 1 所示,自由手
22、寫體樣本訓練結(jié)果如表格模板 4,2所示。表格模板4.1規(guī)范手寫體訓練結(jié)果數(shù)字類別正識祥本數(shù)誤識樣本數(shù)識別率0100100璃1100100%29190%3990%49190%59190%61007100100璃8100100%99190%合計95595%表格模板4. 2自由手寫體訓練結(jié)果數(shù)宇正識樣誤識識別率類別本數(shù)樣本數(shù)0100100%1100100%28280%39190%49190%58280%6100100%精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】11/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】11/127100100%810010
23、0%99190%93793%在測試實驗屮,我們以200個規(guī) 范手寫體和200個自由手寫體共兩組 樣本作為測試樣本,識別實驗結(jié)果分別 如表格模板4, 3, 4, 4所示。表格模板4. 3規(guī)范手寫體識別實驗結(jié)果數(shù)字類別正識樣本數(shù)誤譏樣本數(shù)溟別率0200100%1200100%217385%31829鵬418290%517385%618290%7200100%819195%918290%合計1851592. 5%由上表格模板可以看出,本系統(tǒng)對規(guī)范的 手伸仃較好的識別效果,沮別率達 到 92.5%:表格模板4. 4自由手寫體識別結(jié)果數(shù)字類別正識樣本數(shù)誤識樣本數(shù)識別率019195%1200100%216
24、480%318290%418290%517385%618290%7200100%819195%917385%合計1821891山丨:表格模板所小,字符2和5的誤識 率較高,常誤識別為對方數(shù)字,對待 識別數(shù)字要求嚴格,這是由于它們的 標準特征向量距離較小,需要通過増 添標準庫或參數(shù)調(diào)整對此情況進行改 進。5結(jié)論本文對自由手寫體數(shù)字識別的基 本原理及方法作了介紹,并用 MATLAB工具實現(xiàn)了自由手寫體數(shù)字 識別系統(tǒng)實驗結(jié)果表格模板明,基于所用 結(jié)構(gòu)模型和理論知識庫的識別方法對規(guī)范 手寫體數(shù)字是可行的,具有較高的識 別率及較好的抗噪性能,也可以識別 一定條件下的自由手寫體數(shù)字。為了 提高識別率和町靠性,除了要增強對 噪聲的濾除能力外,還要增大理論知識庫, 以解決細化中出現(xiàn)的結(jié)構(gòu)畸變問題, 這些都有待我們進步的研究。參考文獻1張平等-matlab基礎與應用簡明精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大綱與實現(xiàn)合集】12/12精品文檔合集:【精編匯總版】自由手寫體數(shù)字識別系統(tǒng)的大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學生生物安全課件圖片
- 好氧有效微生物群反硝化特性、機制及應用研究
- 巡察整改業(yè)務培訓會課件
- 奏響英語教學新樂章:大學英語教學中音樂運用的深度剖析與實踐探索
- 露天煤礦供電培訓課件
- 家庭溝通更順暢主題班會
- 環(huán)保宣傳課件
- 2026年內(nèi)蒙古巴彥淖爾盟單招職業(yè)傾向性考試題庫及參考答案詳解一套
- 內(nèi)鏡室工作制度培訓課件
- 2026年四川長江職業(yè)學院單招職業(yè)適應性測試題庫及參考答案詳解
- 2025年榆林市住房公積金管理中心招聘(19人)筆試考試備考題庫及答案解析
- 2025年常山縣機關(guān)事業(yè)單位公開招聘編外人員43人筆試考試參考試題及答案解析
- 2025年常州信息職業(yè)技術(shù)學院單招職業(yè)傾向性測試題庫附答案
- 2025年云南省人民檢察院聘用制書記員招聘(22人)模擬筆試試題及答案解析
- 2025年黨的基礎知識題庫及答案入黨理論知識考試試題
- 運動員退役協(xié)議書
- GB/T 38082-2025生物降解塑料購物袋
- 2025年10月自考02275計算機基礎與程序設計試題及答案版
- 2026國網(wǎng)寧夏電力有限公司招聘高校畢業(yè)生統(tǒng)一考試(第一批)備考題庫及答案詳解(網(wǎng)校專用)
- 探放水工崗位作業(yè)風險專項培訓講義
- 2025甘肅酒泉市公安局招聘留置看護崗位警務輔助人員30人(第三批)筆試考試備考試題及答案解析
評論
0/150
提交評論