版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
聯(lián)機藏文手寫識別概述吳健孫嫣中國科學(xué)院軟件研究所基礎(chǔ)軟件國家工程研究中心1/23/20251摘要準(zhǔn)備工作手寫識別過程聯(lián)機藏文手寫識別的預(yù)處理聯(lián)機藏文手寫識別特征提取聚類實驗方法和結(jié)果1/23/20252準(zhǔn)備工作藏文文字的組成藏文的字符集編碼標(biāo)準(zhǔn)GB/T16959-1997《信息技術(shù)藏文編碼字符集基本集》GB/T20542-2006《信息技術(shù)藏文編碼字符集擴充集A》字母→字丁(字符)→音節(jié)→詞→句子1/23/20253藏文字丁的書寫特點基本處理單元的選擇藏文文字的結(jié)構(gòu)特點相關(guān)國家標(biāo)準(zhǔn)識別編碼范圍《基本集》和《擴充集A》在內(nèi)的910多個字丁,剔出掉了不常用的梵文字符準(zhǔn)備工作1/23/20254準(zhǔn)備工作藏文手寫識別難點易混淆字過多印刷體相似字手寫體相似字f41ef37df42af3aef4ebf5e1f327f497f3b4f49c1/23/20256聯(lián)機藏文手寫識別流程識別基本流程預(yù)處理了對手寫輸入的字符在字形上進(jìn)行修正,減少同類字符輸入樣本間字形上的變異。是保證特征提取和識別算法的有效性的前提。特征提取根據(jù)經(jīng)過預(yù)處理后的聯(lián)機手寫字符,提取出相對于位移、大小、旋轉(zhuǎn)、變形等具有不變形的模式特征。預(yù)處理特征提取分割分類后處理語料庫word1/23/20257聯(lián)機藏文手寫識別的預(yù)處理預(yù)處理主要操作線性歸一化,減少字符大小的變異。加入虛擬點,使字的每個筆畫的點密度相同。非線性歸一化,減少筆劃形狀的變異(筆畫太長、太短,筆畫太集中等)。重采樣,減少點的間距的變異以及筆劃上點的數(shù)目的變異。點的平滑,去除筆畫上的噪點。1/23/20258線性歸一化操作的選取公式及寬高比確定進(jìn)一步改進(jìn)聯(lián)機藏文手寫識別的預(yù)處理1/23/20259非線性歸一化方案的選取基于線密度基于交叉距離基于點密度聯(lián)機藏文手寫識別的預(yù)處理方案1:“初始方案”,使用基于點密度的非線性歸一化操作;方案2:基于線密度的非線性歸一化操作。方案3:基于基交叉距離的線密度非線性歸一化操作。方案4:改進(jìn)后的基于點密度的非線性歸一化操作。1/23/202510聯(lián)機藏文手寫識別的預(yù)處理對基于點密度的非線性歸一化方案的改進(jìn)筆畫斷裂、筆畫間不連續(xù)的原因直方圖投影變化劇烈解決方案1/23/202511聯(lián)機藏文手寫識別的預(yù)處理筆畫等距離采樣和平滑基本作用都是為了消除噪音。應(yīng)用在非線性歸一化操作之后,除了能消除手寫字符本身由于抖動帶來的噪音以外,還可以消除由于預(yù)處理階段中前續(xù)處理帶來的附加噪音。等距離采樣 平滑NewOldW和H是經(jīng)過重采樣操作處理后的手寫樣本的寬和高。1/23/202512聯(lián)機藏文手寫識別的特征提取特征提取根據(jù)經(jīng)過預(yù)處理后的聯(lián)機手寫字符,提取出相對于位移、大小、旋轉(zhuǎn)、變形等具有不變形的模式特征。選用了網(wǎng)格方向信息特征提取方案,使最終提取出來的樣本特征盡可能的突出表現(xiàn)這個樣本的筆畫方向信息特征。網(wǎng)格方向特征一種模板相關(guān)的特征提取方法,不針對手寫字符具體的結(jié)構(gòu)。先將預(yù)處理操作后聯(lián)機手寫字符分成n×m的格子,再在每個方格中提取與空間位置相關(guān)的方向特征。使聯(lián)機手寫的筆畫上的點的方向特征與空間相關(guān),而不是與時間相關(guān)。1/23/202513聯(lián)機藏文手寫識別的特征提取方向的確定八方向還是四方向拆分?1/23/202514聯(lián)機藏文手寫識別的特征提取濾波器的選擇網(wǎng)格方向特征提取方法需要對分割后的小網(wǎng)格計算特征值;特征值的取得依賴于小網(wǎng)格內(nèi)點的分布以及一個權(quán)值空間;權(quán)值空間的分配一般都使用某種低通濾波器來計算。使用Gaussian濾波器來計算權(quán)值Gaussian函數(shù)是單值函數(shù),因為邊緣是一種圖像局部特征,靠近切分后小網(wǎng)格的邊緣部分的點一般認(rèn)為是噪音。二維Gaussian函數(shù)具有旋轉(zhuǎn)對稱性,即濾波器在各個方向上的平滑程度是相同的。Gaussian濾波器看以看做是Gabor濾波器的簡化,它的參數(shù)較少,便于設(shè)計和實驗。1/23/202515聯(lián)機藏文手寫識別的特征提取Gaussian濾波器σ是尺度,它決定了濾波器的分布寬度。優(yōu)點濾波器寬度(決定著平滑程度)是由σ決定,σ和平滑程度的關(guān)系是非常簡單的。設(shè)計σ越大對噪聲的抑制效果越好。過大的σ會造成圖像模糊、變暗,造成圖像輪廓界限的消失。r是切分后的小網(wǎng)格邊長。1/23/202516聯(lián)機藏文手寫識別的特征提取圖像分割的粒度彈性網(wǎng)格根據(jù)直方圖投影對圖像進(jìn)行切分彈性網(wǎng)格設(shè)計中的困難Gaussian濾波器切分后采樣中心的確定二值投影到灰度投影聯(lián)機手寫樣本中的交點信息1/23/202517聯(lián)機藏文手寫識別的特征提取原始特征值缺陷特征值在0~200多不等,導(dǎo)致在進(jìn)行聚類的距離計算時,大數(shù)占據(jù)了絕對的地位。個別特征值的巨大差異會削弱其他特征值的影響。改進(jìn)
實驗結(jié)果根據(jù)不同字型可實驗不同的方法,本文采取第二種方法,識別率提高到96.146%,比原始的特征值計方法提高了1個百分點。1/23/202518聚類聚類距離:傳統(tǒng)的歐氏距離
分析比較距離時,不必計算平方根,減少計算量。曼哈頓距離、city-block距離:計算相對應(yīng)的屬性差值絕對值之和,即指數(shù)為1。指數(shù)>2時:增加了大差異的影響力而削弱了小差異的影響力。實驗結(jié)果歐氏距離:96.0646%。不計算平方根:96.0992%,有微小提高。指數(shù)=1:90.3861%,識別率迅速下降,說明減小大差異的影響不利于識別效果。指數(shù)=3:96.8843%,比歐氏距離提高了0.8個百分點。1/23/202519聚類HardClustering每個模式只能屬于一個類FuzzyClustering每個模式可以屬于多個類由HardClustering改為FuzzyClustering,識別率由97.146%提高到97.2151%。1/23/202520實驗方法和結(jié)果實驗數(shù)據(jù)使用自建的藏文手寫字庫。用的樣本集是編碼在0xF300~0xF3FF之間的256個字符,每個字符平均包含80套樣本,共20259個聯(lián)機藏文手寫樣本數(shù)據(jù)。分類學(xué)習(xí)方法聚類:模糊的K均分距離測度:改進(jìn)的歐氏距離1/23/202521實驗方法和結(jié)果實驗結(jié)果Top-N結(jié)果候選集是指與測試集中的字丁最相似的前N個字丁。開放測試中,訓(xùn)練集中包含15094個字,測試集包含5165個字。99.9951%1202581099.9654%720252599.5409%9320166297.2111%565196941識別率錯誤字?jǐn)?shù)正確字?jǐn)?shù)Top-N98.819%61510420
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年青島港灣職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試模擬試題含詳細(xì)答案解析
- 2026年云南工程職業(yè)學(xué)院單招綜合素質(zhì)考試備考題庫含詳細(xì)答案解析
- 2026年天津工藝美術(shù)職業(yè)學(xué)院單招綜合素質(zhì)考試備考試題含詳細(xì)答案解析
- 2026貴州省國有資產(chǎn)監(jiān)督管理研究和服務(wù)中心招聘2人考試重點題庫及答案解析
- 2026吉林延邊州安圖縣面向委培生、定向生招聘員額經(jīng)費管理人員7人參考考試試題及答案解析
- 2026年山西警官職業(yè)學(xué)院單招綜合素質(zhì)筆試模擬試題含詳細(xì)答案解析
- 2026廣東廣州南沙人力資源發(fā)展有限公司招聘編外醫(yī)護(hù)人員3人考試參考試題及答案解析
- 2026年湘潭醫(yī)衛(wèi)職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試備考題庫含詳細(xì)答案解析
- 2026年西安航空職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試模擬試題及答案詳細(xì)解析
- 2026年湖南含色金屬職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試備考試題含詳細(xì)答案解析
- 2026年醫(yī)療行業(yè)患者滿意度改善方案
- GB/T 4605-2025滾動軸承推力滾針和保持架組件及推力墊圈
- 景區(qū)旅游基礎(chǔ)設(shè)施提升項目可行性研究報告
- 老年機構(gòu)養(yǎng)老心理健康評估方案
- 港澳聯(lián)考中文真題及答案
- 統(tǒng)編版語文四年級下冊全冊教案(2025年2月修訂)
- GB 11174-2025液化石油氣
- 肝素鈉工藝流程
- 熱工儀表工試題全集
- 2025-2030老年婚戀市場需求分析與服務(wù)平臺優(yōu)化方向
- 《JJG 875-2019數(shù)字壓力計》解讀
評論
0/150
提交評論