印刷體漢字的分類和識別_第1頁
印刷體漢字的分類和識別_第2頁
印刷體漢字的分類和識別_第3頁
印刷體漢字的分類和識別_第4頁
印刷體漢字的分類和識別_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

印刷體漢字的分類和識別第1頁,課件共47頁,創(chuàng)作于2023年2月要點:印刷體漢字的分類印刷體漢字的識別課堂練習(xí)課后練習(xí)第2頁,課件共47頁,創(chuàng)作于2023年2月印刷體漢字的分類印刷體漢字分類的必要性印刷體漢字分類的基本要求印刷體漢字分類舉例印刷體漢字分類的方法返回第3頁,課件共47頁,創(chuàng)作于2023年2月印刷體漢字分類的必要性由于漢字數(shù)量大,如果不對漢字分類而直接識別,一方面識別效果不會好,另一方面計算量往往會很大。漢字識別通常都要對漢字做一級或多級分類,然后再細分判別,從而大大提高識別效率。返回第4頁,課件共47頁,創(chuàng)作于2023年2月印刷體漢字分類的基本要求粗分類的正確分類率和分類穩(wěn)定性要高。文字識別是先粗分類,然后再細分。粗分類的正確與否會影響到后面的識別。粗分類的速度要快。這要求分類的算法簡單,同時要求分在各個類別中的漢字的數(shù)目比較平均,從而提高分類的效率。返回第5頁,課件共47頁,創(chuàng)作于2023年2月印刷體漢字分類舉例在下圖中,“3”所代表的文字不僅在類別A中,也可能同時在類別C中。在細分判別A和C類中的文字時應(yīng)同時考慮“3”所代表的文字。返回第6頁,課件共47頁,創(chuàng)作于2023年2月印刷體漢字分類的方法采用復(fù)合特征的分類多級分類返回第7頁,課件共47頁,創(chuàng)作于2023年2月采用復(fù)合特征的分類選用N種具有互補特征作為類特征在學(xué)習(xí)階段,對訓(xùn)練樣本進行N次互不相關(guān)的分類,然后組合N次分類結(jié)果,完成特征空間的劃分。分類時,根據(jù)待分字的特征進行N次分類,組合分類結(jié)果求得子類。返回第8頁,課件共47頁,創(chuàng)作于2023年2月多級分類學(xué)習(xí)階段,對訓(xùn)練樣本進行多級分類,每一級分類是在上級分類基礎(chǔ)上進行的;分類時重復(fù)上述多級分類過程。樹分類是一種典型的多級分類,具有效率高的特點,但是漢字字數(shù)多會造成分類樹結(jié)構(gòu)龐大,使得分類不夠穩(wěn)定。返回第9頁,課件共47頁,創(chuàng)作于2023年2月印刷體漢字的識別在選取特征之后,需要選擇或?qū)ふ疫m當(dāng)?shù)呐袆e準(zhǔn)則來判斷待識字的特征與哪一個類別的特征最近。常用準(zhǔn)則有兩類:(1)基于距離的識別準(zhǔn)則(2)基于相似度的識別準(zhǔn)則返回第10頁,課件共47頁,創(chuàng)作于2023年2月基于距離的識別準(zhǔn)則距離的數(shù)學(xué)定義常用距離距離計算舉例:例1,例2

返回第11頁,課件共47頁,創(chuàng)作于2023年2月距離的數(shù)學(xué)定義距離是滿足如下三條公理的二元函數(shù):(1)非負性:d(x,y)0,當(dāng)且僅當(dāng)y=x時,等號成立;(2)對稱性:d(x,y)=d(y,x);(3)三角不等式:

d(x,y)d(x,z)+d(z,y)

返回第12頁,課件共47頁,創(chuàng)作于2023年2月常用距離曼哈頓街區(qū)距離,歐氏距離切比雪夫(Chebychev)距離s階閔可夫斯基(Minkowski)距離馬氏(Mahalanobis)距離,Camberra距離編輯距離和演化距離返回第13頁,課件共47頁,創(chuàng)作于2023年2月曼哈頓街區(qū)距離又稱為分量絕對值求和距離。返回第14頁,課件共47頁,創(chuàng)作于2023年2月歐氏距離返回第15頁,課件共47頁,創(chuàng)作于2023年2月切比雪夫(Chebychev)距離又稱為分量絕對值最大距離。返回第16頁,課件共47頁,創(chuàng)作于2023年2月s階閔可夫斯基距離(Minkowski)距離。返回第17頁,課件共47頁,創(chuàng)作于2023年2月馬氏(Mahalanobis)距離是一個正定矩陣。返回第18頁,課件共47頁,創(chuàng)作于2023年2月Camberra距離返回第19頁,課件共47頁,創(chuàng)作于2023年2月編輯距離和演化距離通過“替換”、“刪除”和“插入”三種操作,把字符串a(chǎn)=a1a2…am變成b=b1b2…bn所需的最小操作次數(shù),稱為a和b的編輯距離。由于“替換”、“刪除”和“插入”可以解釋為基因序列的三種演化操作,因此編輯距離又稱為演化距離。返回第20頁,課件共47頁,創(chuàng)作于2023年2月編輯距離Ed的計算方法a=a1a2…am,b=b1b2…bn

返回xi=a1a2…ai,yj

=b1b2…bj“-”表示刪除或插入,Ed(a,b)=Ed(xm,yn)第21頁,課件共47頁,創(chuàng)作于2023年2月距離計算舉例計算下面“漢”和“字”點陣之間的幾種距離第22頁,課件共47頁,創(chuàng)作于2023年2月距離計算結(jié)果曼哈頓街區(qū)距離=70歐氏距離=8.3666切比雪夫距離=1s階閔可夫斯基距離=Camberra距離=70返回第23頁,課件共47頁,創(chuàng)作于2023年2月距離計算舉例計算下面序列之間的編輯距離:ab和acacb和abac和abcabcc和cbaa第24頁,課件共47頁,創(chuàng)作于2023年2月距離計算結(jié)果ab和ac的編輯距離=1acb和ab的編輯距離=1ac和abc的編輯距離=1abcc和cbaa的編輯距離=3返回第25頁,課件共47頁,創(chuàng)作于2023年2月基于相似度的識別準(zhǔn)則相似度的數(shù)學(xué)定義常用相似度相似度計算舉例返回第26頁,課件共47頁,創(chuàng)作于2023年2月相似度的數(shù)學(xué)定義相似度是滿足如下三個條件的二元函數(shù):1.非負性:2.自大性:3.對稱性:返回

第27頁,課件共47頁,創(chuàng)作于2023年2月常用相似度距離相似度,角度相似系數(shù)相關(guān)系數(shù),指數(shù)相似系數(shù)非負特征相似度,二值特征相似度返回第28頁,課件共47頁,創(chuàng)作于2023年2月距離相似度f是單調(diào)減函數(shù)。返回第29頁,課件共47頁,創(chuàng)作于2023年2月角度相似系數(shù)返回第30頁,課件共47頁,創(chuàng)作于2023年2月相關(guān)系數(shù)返回第31頁,課件共47頁,創(chuàng)作于2023年2月指數(shù)相似系數(shù)返回第32頁,課件共47頁,創(chuàng)作于2023年2月非負特征相似度返回第33頁,課件共47頁,創(chuàng)作于2023年2月二值特征相似度二值特征向量的分量只能取值0或1。二值特征分量有四種基本匹配二值特征向量有四種匹配特征數(shù)二值特征向量有五種常用相似度返回第34頁,課件共47頁,創(chuàng)作于2023年2月四種基本匹配設(shè)二值特征向量x和y的第i個分量為xi和yi,如果xi=1且yi=1,則稱xi和yi(1-1)匹配;如果xi=1且yi=0,則稱xi和yi(1-0)匹配;如果xi=0且yi=1,則稱xi和yi(0-1)匹配;如果xi=0且yi=0,則稱xi和yi(0-0)匹配;返回第35頁,課件共47頁,創(chuàng)作于2023年2月四種匹配特征數(shù)(1-1)匹配特征數(shù):(0-1)匹配特征數(shù):(1-0)匹配特征數(shù):(0-0)匹配特征數(shù):所選特征總數(shù)n=a+b+c+e返回第36頁,課件共47頁,創(chuàng)作于2023年2月五種常用相似度Tanimoto系數(shù)Rao系數(shù)簡單匹配系數(shù)Dice系數(shù)Kulzinsky系數(shù)返回第37頁,課件共47頁,創(chuàng)作于2023年2月Tanimoto系數(shù)表示二值特征向量x和y共同具有的特征總數(shù)和分別具有的特征種類總數(shù)之比。返回第38頁,課件共47頁,創(chuàng)作于2023年2月Rao系數(shù)表示二值特征向量x和y共同具有的特征總數(shù)和所選特征總數(shù)之比。返回第39頁,課件共47頁,創(chuàng)作于2023年2月簡單匹配系數(shù)表示二值特征向量x和y同時具有或不具有的特征總數(shù)和所選特征總數(shù)之比。返回第40頁,課件共47頁,創(chuàng)作于2023年2月Dice系數(shù)返回第41頁,課件共47頁,創(chuàng)作于2023年2月Kulzinsky系數(shù)表示二值特征向量x和y共同具有的特征總數(shù)和單獨具有的特征總數(shù)之比。返回第42頁,課件共47頁,創(chuàng)作于2023年2月相似度計算舉例計算“漢”和“字”點陣向量的角度相似性以及5種二值特征相似度。第43頁,課件共47頁,創(chuàng)作于2023年2月相似度計算結(jié)果角度相似系數(shù)=

0.327165Tanimoto系數(shù)=0.195402Rao系數(shù)=0.066406簡單匹配系數(shù)=0.726563Dice系數(shù)=0.326923Kulzinsky系數(shù)=0.242857返回第44頁,課件共47頁,創(chuàng)作于2023年2月課堂練習(xí)1.計算abc和cacbc之間的編輯距離;2.計算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)之間的曼哈頓街區(qū)距離、切比雪夫距離和3階閔可夫斯基距離;3.計算(1,0,0,1,1,0,1)和(1,1,1,1,1,0,0)的角度相似系數(shù)。返回第45頁,課件共47頁,創(chuàng)作于2023年2月編輯距離的計算返回Ed(0,0)=0Ed(1,0)=1Ed(2,0)=2Ed(3,0)=3Ed(4,0)=4Ed(5,0)=5Ed(0,1)=1Ed(1,1)=1Ed(2,1)=1Ed(3,1)=2Ed(4,1)=3Ed(5,1)=4Ed(0,2)=2Ed(1,2)=2Ed(2,2)=2Ed(3,2)=2Ed(4,2)=2Ed(5,2)=3Ed(0,3)=3Ed(1,3)=2Ed(2,3)=3Ed(3,3)=2Ed(4,3)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論