【《漢字草書識別算法探究的國內(nèi)外文獻綜述》2300字】_第1頁
【《漢字草書識別算法探究的國內(nèi)外文獻綜述》2300字】_第2頁
【《漢字草書識別算法探究的國內(nèi)外文獻綜述》2300字】_第3頁
【《漢字草書識別算法探究的國內(nèi)外文獻綜述》2300字】_第4頁
【《漢字草書識別算法探究的國內(nèi)外文獻綜述》2300字】_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

漢字草書識別算法研究的國內(nèi)外文獻綜述談到當(dāng)代漢字草書藝術(shù),不只是草書本身的創(chuàng)作,還有中華民族生活方式的傳承。草書藝術(shù)作為我國特有的藝術(shù),側(cè)面體現(xiàn)了中華民族幾千年的文化精髓,維護著中華民族共同的精神追求。促進其繼承和發(fā)展,發(fā)現(xiàn)其藝術(shù)設(shè)計的特點,將有利于我國優(yōu)秀民族文化的傳承。草書出現(xiàn)在漢代初期,由書寫隸書時有時“草率”書寫產(chǎn)生的,隸書草書稱為“章草”。章草字與字之間相互獨立,接近于行草,但并沒有簡化很多復(fù)雜的文字且文字筆畫并未改變。后來隨著楷書的普及使用,章草演變成“今草”,即楷書草書。常將上下字連在一起,最后一筆與開頭相呼應(yīng),以達到快速寫字的目的。每個字一般都有一個簡化的規(guī)則,但不熟悉的人往往很難認(rèn)出它。王羲之、王獻之所寫的草書,通稱“今草”。人們普遍認(rèn)為,現(xiàn)代草書是在“今草”的基礎(chǔ)上,使用簡單的草書符號代替?zhèn)鹘y(tǒng)楷書的部首以達到快速書寫的目的。通常,為了書寫方便,字符的形狀和結(jié)構(gòu)也會發(fā)生變化。因此,不熟悉的人較難辨認(rèn)。如圖1.1所示,以“利”字為例,不同書法家之間風(fēng)格各異。草書是中華優(yōu)秀文化中重要的一部分,傳承了中華文化,其自身的發(fā)展過程也使當(dāng)今人們側(cè)面了解到中華文明連綿不斷發(fā)展的歷程。圖1.1不同書法家對于“利”字的草書作品Figure11Fourcalligraphersonthecursivewritingof“利”上世紀(jì)40年代末的賓夕法尼亞大學(xué)內(nèi),誕生了世界上首臺通用計算機“ENIAC”,隨后的幾十年計算機取得了巨大的發(fā)展和進步。當(dāng)今利用計算機相關(guān)技術(shù)的研究領(lǐng)域包括智能機器人、智能車輛、深度學(xué)習(xí)等。計算機已經(jīng)深入到人類的衣食住行等重要的領(lǐng)域。目前計算機設(shè)備都能滿足復(fù)雜的計算,許多漢字識別系統(tǒng)也比較成熟,漢字識別準(zhǔn)確率也很高,但是對于書法藝術(shù)中的草書文字識別研究較少,又由于人們對草書字體的認(rèn)識比較少,所以需要進一步對草書文字識別方法進行研究。近年來隨著國學(xué)研究的盛行,書法藝術(shù)的審美得到極大的發(fā)展,本文通過對漢字草書文字識別進行研究,對于我國傳統(tǒng)文化的發(fā)揚光大具有重要作用,更讓“高大上”的書法藝術(shù)從殿堂走到民間,在大眾普及中實現(xiàn)國民藝術(shù)素養(yǎng)的全面提升和傳承。漢字文字識別從上世紀(jì)80年代開始已經(jīng)成為模式識別的一個重要研究領(lǐng)域,學(xué)術(shù)界對此有著廣泛研究和關(guān)注[1-10]。根據(jù)數(shù)據(jù)采集方式的不同,漢字文字識別可分為離線(Offline)和在線(Online)兩種方式。離線漢字識別是對完整二維文本圖像進行識別。在線漢字識別是通過定時采樣的方式將書寫者在線書寫的軌跡輸入計算機程序進行識別處理。漢字文字識別方法目前分為整體分析法和個體分析法。整體分析法是對整個文本進行字體識別。首先將文本行進行單字分割,接著對分割的文字圖像進行偏旁部首分割;個體分析法的對象是單個文字,不需要字體分割。顯然,這種方法避免了圖像分割中的錯誤并且更容易實現(xiàn)。比較兩種方法,個別方法較為靈活且適用的情況更多。在以往的研究過程中,漢字文字識別的方法分為三部分,分別是數(shù)據(jù)預(yù)處理、特征提取和分類識別。詳細介紹見表1.1。文獻[10]在漢字文字?jǐn)?shù)據(jù)集CASIA-OLHWDB和CASIA-HWDB的幾個不同子集為實驗數(shù)據(jù)的基礎(chǔ)上,離線漢字文字識別的最佳識別率為93%左右[11],在線漢字文字識別的最佳識別率為:95%左右。該文中使用判別特征學(xué)習(xí)(DFE)和判別學(xué)習(xí)二次判別函數(shù)(DLQDF)分類器進行文字識別。能夠看出,漢字文字識別在通過研究人員幾十年的持續(xù)研究后取得了十分可觀的進步。近年來,深度學(xué)習(xí)為漢字文字識別帶來了新的思路和非常有效的解決方案。富士通團隊使用改進卷積神經(jīng)網(wǎng)絡(luò)在于2013年ICDAR(InternationalConferenceonDocumentAnalysisandRecognition)漢字文字識別大賽中以接近95%的識別率獲得離線漢字文字識別冠軍[12],在線漢字文字識別比賽中英國華威大學(xué)的Graham利用深度稀疏卷積神經(jīng)網(wǎng)絡(luò)[13]在中拔得頭籌,其識別率高達97.39%。ICDAR漢字文字識別比賽的獲勝者連續(xù)兩屆都是基于深度學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)的方法[12,14]。表1.1傳統(tǒng)漢字文字識別過程Table1.1TraditionalChineseCharacterRecognitionProcess常用方法數(shù)據(jù)預(yù)處理樣本歸一化[15-16]、偽樣本生成[17-19]、整形變換[20]、腐蝕膨脹等。特征提取特征分為統(tǒng)計特征以及結(jié)構(gòu)特征。統(tǒng)計特征中的方向特征[21-23]對于漢字文字識別更適合,Gabor特征[24]及Gradient特征[25]對于離線漢字文字識別是比較好的方向特征提取方法。分類器支持向量機(SVM)[26]、改進的二次判決函數(shù)(MQDF)[9,27]、鑒別學(xué)習(xí)二次判決函數(shù)(DLQDF)[28]等。由于多年來研究學(xué)者的不懈努力,近年來隨著深度學(xué)習(xí)技術(shù)的不斷進步[29-31],尤其以深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)[32-33]、深度置信網(wǎng)絡(luò)(DBN)[31]、深度遞歸神經(jīng)網(wǎng)絡(luò)(DeepDRNN)[34]等深度模型為基礎(chǔ)的大量突破性成果在計算機視覺領(lǐng)域的大量涌現(xiàn)[35-44],相關(guān)的方法被逐漸應(yīng)用到漢字文字識別領(lǐng)域[13,45-55],并取得了長足的發(fā)展。但遺憾的是多數(shù)研究主要針對手寫體漢字(行書、楷書以及日常書寫字體),對漢字草書文字的研究較少。參考文獻[1]SuenCY,BerthodM,MoriS.AutomaticRecognitionofHandprintedCharacters—theStateoftheArt[J].ProceedingsoftheIeee,1980,68(4):469-487.[2]TaiJ.SomeResearchAchievementsonChineseCharacterRecognitioninChina.[J].Int.J.PatternRecognit.Artif.Intell.,1991,5(1):199-206.[3]HildebrandtTH,LiuW.OpticalRecognitionofHandwrittenChineseCharacters:AdvancesSince1980[J].PatternRecognition,1993,26(2):205-225.[4]PlamondonR,SrihariSN.OnlineandOff-lineHandwritingRecognition:aComprehensiveSurvey[J].IeeeTransactionsonPatternAnalysisandMachineIntelligence,2000,22(1):63-84.[5]LiuC,JaegerS,NakagawaM.OnlineRecognitionofChineseCharacters:theState-of-the-art[J].IeeeTransactionsonPatternAnalysisandMachineIntelligence,2004,26(2):198-213.[6]LiuC.HighAccuracyHandwrittenChineseCharacterRecognitionUsingQuadraticClassifierswithDiscriminativeFeatureExtraction[C]//18thInternationalConferenceonPatternRecognition(icpr'06):Ieee,2006:942-945.[7]DaiR,LiuC,XiaoB.ChineseCharacterRecognition:History,StatusandProspects[J].FrontiersofComputerScienceinChina,2007,1(2):126-136.[8]CherietM,KharmaN,LiuC,etal.CharacterRecognitionSystems:aGuideforStudentsandPractitioners[M]:JohnWiley&Sons,2007.[9]LongT,JinL.BuildingCompactMqdfClassifierforLargeCharacterSetRecognitionBySubspaceDistributionSharing[J].PatternRecognition,2008,41(9):2916-2925.[10]LiuC,YinF,WangD,etal.OnlineandOfflineHandwrittenChineseCharacterRecognition:BenchmarkingonNewDatabases[J].PatternRecognition,2013,46(1):155-162.[11]金連文,鐘卓耀,楊釗,等.深度學(xué)習(xí)在手寫漢字識別中的應(yīng)用綜述[J].自動化學(xué)報,2016,42(8):1125-1141.[12]YinF,WangQ,ZhangX,etal.Icdar2013ChineseHandwritingRecognitionCompetition[C]//201312thInternationalConferenceonDocumentAnalysisandRecognition:Ieee,2013:1464-1470.[13]GrahamB.Spatially-sparseConvolutionalNeuralNetworks[J].ArxivPreprintArxiv:1409.6070,2014.[14]LiuC,YinF,WangQ,etal.Icdar2011ChineseHandwritingRecognitionCompetition[C]//2011InternationalConferenceonDocumentAnalysisandRecognition,18:1464-1469.[15]LiuC,SakoH,FujisawaH.HandwrittenChineseCharacterRecognition:AlternativestoNonlinearNormalization.[C]//Icdar:Citeseer,2003:524-528.[16]LiuC,MarukawaK.PseudoTwo-dimensionalShapeNormalizationMethodsforHandwrittenChineseCharacterRecognition[J].PatternRecognition,2005,38(12):2242-2255.[17]ChenG,ZhangH,GuoJ.LearningPatternGenerationforHandwrittenChineseCharacterUsingPatternTransformMethodwithCosineFunction[C]//2006InternationalConferenceonMachineLearningandCybernetics:Ieee,2006:3329-3333.[18]MiyaoH,MaruyamaM.VirtualExampleSynthesisBasedonPcaforOff-lineHandwrittenCharacterRecognition[C]//InternationalWorkshoponDocumentAnalysisSystems:Springer,2006:96-105.[19]LeungKC,LeungCH.RecognitionofHandwrittenChineseCharactersByCombiningRegularization,Fisher'sDiscriminantandDistortedSampleGeneration[C]/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論