下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于深度學(xué)習(xí)的文字定位研究國(guó)內(nèi)外文獻(xiàn)綜述1.1傳統(tǒng)的文字定位方法傳統(tǒng)定位方法的著手點(diǎn)都在于借用圖像呈現(xiàn)的特質(zhì),針對(duì)性的為我所用,通過(guò)一系列的圖像變換手段,將這些不易觀察和直接得到的圖像特質(zhì)提取出來(lái),其間還包括對(duì)整體圖像的去噪聲等額外干擾因素的操作,然后專(zhuān)門(mén)性地,從小區(qū)域出發(fā),進(jìn)而學(xué)習(xí)拓展整體性的特征。目前主流方法如下述所表?;诨瑒?dòng)窗口的算法,其原理普遍是將目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化為區(qū)分文字區(qū)域和非文字區(qū)域的問(wèn)題,即對(duì)圖像進(jìn)行二分類(lèi)。基本流程就是設(shè)置高寬比例不同的窗口和步長(zhǎng),在檢測(cè)圖像上以固定順序挪動(dòng),尋找文本區(qū)域。窗口變化一次,就對(duì)此時(shí)窗口內(nèi)特征進(jìn)行類(lèi)別判斷并估測(cè)分?jǐn)?shù),如果獲得的分?jǐn)?shù)超過(guò)了預(yù)設(shè)的閾值,則被認(rèn)為檢測(cè)到了目標(biāo)文字區(qū)域,該區(qū)域則被保留標(biāo)記?;瑒?dòng)窗口法雖然簡(jiǎn)單便于人們理解,但也存在不少問(wèn)題。首先對(duì)于檢測(cè)文字區(qū)域,我們無(wú)法提前得知文本的大小,所以對(duì)滑動(dòng)窗口的大小和合適的步長(zhǎng)的選取和確定比較困難;其次用滑動(dòng)窗口對(duì)圖像進(jìn)行全局搜索,每個(gè)產(chǎn)生的子區(qū)域都需要經(jīng)過(guò)分類(lèi)器做預(yù)測(cè),該過(guò)程需要大量重復(fù)計(jì)算,直接導(dǎo)致效率非常低下。這些不利因素都導(dǎo)致滑動(dòng)窗口法不利于在圖像復(fù)雜度較高以及檢測(cè)要求實(shí)時(shí)性強(qiáng)的條件下使用。對(duì)于復(fù)雜圖像,即文字密集的圖像,類(lèi)似等高線圖像,密集區(qū)域?qū)⒊尸F(xiàn)明顯的特征信息,這種特性稱(chēng)之為紋理。Tamura等[2]總結(jié)了幾類(lèi)紋理的特質(zhì),來(lái)與人類(lèi)的對(duì)事物的整體特性與明暗和形狀的反映等建立映射關(guān)系,在視覺(jué)效果上比較有優(yōu)勢(shì)。另一種思路是利用紋理特征中的邊緣信息,即定位圖像中臨近像素值的差較大的點(diǎn)。通常是用各類(lèi)邊緣檢測(cè)算子獲得像素躍變的連續(xù)點(diǎn),再在此基礎(chǔ)上提取邊緣區(qū)域,并利用分類(lèi)器進(jìn)行分類(lèi),確定屬于是否為文本區(qū)域。此外,方向梯度直方圖(HistogramofOrientedGradient,HOG)描述子[3]也被改進(jìn)并應(yīng)用到文本檢測(cè)中。該方法先對(duì)邊緣像素求水平和垂直方向的導(dǎo)數(shù),強(qiáng)化并保留有效特征;再用一定長(zhǎng)度的數(shù)組表示圖像中的部分單元,代替原來(lái)特征表示的多維數(shù)組。窗口每移動(dòng)一次就會(huì)計(jì)算該面積內(nèi)的直方圖,合并所有描述子就得到了整張圖像的HOG,最后再利用分類(lèi)器進(jìn)行目標(biāo)檢測(cè)。Minetto等[3]提出的T-HOG基于此進(jìn)行改進(jìn),在區(qū)分文本區(qū)域和背景區(qū)域方面取得了較好的效果。基于連通域的方法。該方法認(rèn)為圖像的文本區(qū)域有像素灰度值近似、字符結(jié)構(gòu)規(guī)律和色彩變化域不大等特征,在利用這些特征二值化分割文字區(qū)和非文字區(qū)后,再對(duì)分割后的圖像中有相同值的四鄰域或八鄰域像素構(gòu)成的集合,分別設(shè)置不同的標(biāo)記值,得到不同的候選文本區(qū)域,再根據(jù)文本的表征特性,選取最終預(yù)測(cè)的文本區(qū)域。基于連通域的方法適用于背景比較單一、光照變化均勻、字體較大和文字顏色近似的圖像文字定位,在上述條件下,該方法檢測(cè)速度較為理想。但面對(duì)背景構(gòu)成要素過(guò)多且字符結(jié)構(gòu)不甚清晰的圖像,該方法表現(xiàn)結(jié)果較差。2004年J.Matas等[4]提出最大穩(wěn)定極值區(qū)域(MaximallyStableExtremalRegions,MSER),即二值化后圖像中灰度變化輕微的區(qū)域。在這些閾值只有細(xì)微改變的區(qū)域,灰度圖像能夠保持線段比例變換不變性,以及在相同閾值集合內(nèi)對(duì)灰度變化的不變性,同時(shí)對(duì)多角度和尺度的結(jié)構(gòu)的檢測(cè),不需要再進(jìn)行模糊處理來(lái)減弱噪聲或者避免圖像失真的情況發(fā)生。還有一種是筆畫(huà)寬度轉(zhuǎn)換算法(StrokeWidthTransform,SWT)[5],對(duì)于存在噪聲的圖像,OCR的檢測(cè)效果一般比較差,而SWT卻能夠通過(guò)提取同等寬度的子區(qū)域來(lái)消除噪聲,這和常見(jiàn)的文本形狀類(lèi)似,所以對(duì)于該類(lèi)圖像,SWT反而能取得較好的文本檢測(cè)結(jié)果。SWT的實(shí)現(xiàn)首先通過(guò)Canny邊緣檢測(cè)算子檢測(cè)到圖像的邊緣特征,并得到圖像總的梯度圖;然后進(jìn)行SWT操作,使得每個(gè)像素取值均為筆劃長(zhǎng);通過(guò)SWT操作得到的多個(gè)連通域,利用一定的規(guī)則篩選過(guò)濾其中不合格的連通域,即得到候選連通域;最后將所有連通域合并得到預(yù)測(cè)的文本行。SWT方法雖然計(jì)算簡(jiǎn)潔快速,但是要通過(guò)計(jì)算圖像中每個(gè)像素的梯度來(lái)得到總梯度圖,然后對(duì)于所有邊緣像素,通過(guò)沿著梯度方向找到同一水平的另一邊緣像素,得到連通域。該過(guò)程計(jì)算比較耗時(shí),嚴(yán)重依賴(lài)邊緣計(jì)算結(jié)果,不適用于文本區(qū)域扭曲變形的復(fù)雜圖像。1.2基于深度學(xué)習(xí)的文字定位方法以前的傳統(tǒng)文本檢測(cè)方法,主要依賴(lài)人工手動(dòng)提取字符特征,這些方法都在不同層面受限于圖像質(zhì)量與文字區(qū)域質(zhì)量,在時(shí)間與效率上難以做到平衡。但Hinton在文獻(xiàn)[7]中所論證的兩個(gè)主要發(fā)現(xiàn)改變了這一情況,隨后基于深度學(xué)習(xí)的方法研究開(kāi)始蓬勃的發(fā)展起來(lái)了?;诖朔椒ǖ膱D像文字定位方法有:基于區(qū)域建議、基于語(yǔ)義分割和基于二者結(jié)合的方法(這里不做討論)[6]?;趨^(qū)域建議的文字定位方法,主要算法是先進(jìn)行圖像進(jìn)行分割,然后將高重疊率的部分吸收為一部分,重復(fù)操作至得到大量的文本候選框,然后再進(jìn)行特征提取,并利用分類(lèi)器分類(lèi)篩選和過(guò)濾得分較低的候選文本框,同時(shí)合并重疊率較高的候選文本框,得到最終預(yù)測(cè)的文本框。該方法多啟發(fā)于目標(biāo)檢測(cè)中的經(jīng)典算法,如RCNN(RegionProposalCNN)[8]、Fast-RCNN[9]、Faster-RCNN[10]、SSD(SingleShotMultiBoxDetector)[11]等。相比于滑動(dòng)窗口方法的暴力搜索,基于區(qū)域建議的文字定位方法要更快速且準(zhǔn)確,它能夠捕捉不同尺度和更多樣化的文本區(qū)域目標(biāo)。2016年,ECCV提出CTPN[12],該算法流程相似于RPN(regionproposalnetwork,區(qū)域建議網(wǎng)絡(luò))。一直以來(lái),對(duì)于Faster-RCNN之類(lèi)的用于目標(biāo)檢測(cè)的算法,在應(yīng)用到文字定位時(shí),往往都選擇忽略了目標(biāo)檢測(cè)中的目標(biāo)對(duì)象與文字定位中的文本區(qū)域的區(qū)別。在目標(biāo)檢測(cè)中,物體一般是封閉的,而在文字定位中,文本區(qū)域通常根據(jù)用語(yǔ)習(xí)慣將字符單元組合排列,并且前后字符存在關(guān)聯(lián)。所以CTPN借助文字字符的特點(diǎn),利用他們之間在位置上的關(guān)聯(lián)信息,并且引入微分的思想,將文本檢測(cè)的任務(wù)分解。先以小分子的方式判斷所有分解部分的從屬類(lèi)別,再對(duì)相同類(lèi)別的分部拼接,拼接結(jié)果即為一個(gè)預(yù)測(cè)文本區(qū)域。2016年,由SSD啟發(fā)改進(jìn)的TextBoxes[13]是一個(gè)全連接卷積網(wǎng)絡(luò)。其中的重要組件文本框?qū)?,用于判斷背景區(qū)和文本區(qū),并對(duì)于每個(gè)特征圖,保存認(rèn)為是文本區(qū)域的估測(cè)概率以及位置信息。相比較于SSD,TextBoxes由原來(lái)的多類(lèi)檢測(cè)轉(zhuǎn)變?yōu)閱晤?lèi)檢測(cè),并將文本檢測(cè)框修改為長(zhǎng)方形,都使其能更適應(yīng)文字定位中文本區(qū)域的特征。雖然這類(lèi)由目標(biāo)檢測(cè)算法啟發(fā)后通過(guò)改進(jìn)在文字定位的精確度上取得了一定效果,但是由于文字本身獨(dú)特的特點(diǎn),即常見(jiàn)的文本形狀的長(zhǎng)寬比例懸殊,而目標(biāo)檢測(cè)中的檢測(cè)物體長(zhǎng)寬比較近似,以及圖像文字區(qū)域通常含有一定間隔,并不是獨(dú)立存在,很容易將間隔出來(lái)的文字當(dāng)作單獨(dú)目標(biāo)檢測(cè),所以將文本區(qū)域看作檢測(cè)目標(biāo)物體并不能很好的達(dá)到預(yù)期效果。基于圖像語(yǔ)義分割的方法普遍思路是通過(guò)分割網(wǎng)絡(luò)將圖像中像素值近似的像素劃分成不同類(lèi)別,再對(duì)像素點(diǎn)根據(jù)預(yù)測(cè)值和原始值的差值確定閾值變化區(qū)域,最終確定字符區(qū)域位置。主要有基于MaskRCNN的文字定位方法和基于FCN的文字定位方法。在基于MaskRCNN的文字定位方法中,MaskTextSpotter[14]提出了一個(gè)可以檢測(cè)各類(lèi)扭曲不規(guī)則文本的框架,它共包括四個(gè)部分:特征提取網(wǎng)絡(luò)、區(qū)域建議網(wǎng)絡(luò)、回歸邊框以及mask分支,MaskTextSpotter改進(jìn)了其中的mask分支,最終輸出得到所有文本區(qū)域的實(shí)例分割圖和字符語(yǔ)義分割圖。在基于FCN的文字定位方法中,文獻(xiàn)[15]提出一種基于多圓盤(pán)覆蓋來(lái)表示文字的方法——TextSnake,該算法提出一種利用不同規(guī)格的矢量圓片將文本區(qū)域覆蓋,同時(shí)用FCN預(yù)測(cè)圓片圓心的位置,該方法可以適應(yīng)各種曲形文本的檢測(cè)。此外還有經(jīng)典算法還有PixelLink[16],該模型基于CNN網(wǎng)絡(luò),除了對(duì)判斷像素的類(lèi)別從屬,還要進(jìn)行類(lèi)內(nèi)區(qū)分。首先判斷像素點(diǎn)歸屬類(lèi)別,以及在8個(gè)方向的相鄰像素中判斷是否存在連接的預(yù)測(cè),然后以計(jì)算像素點(diǎn)的最小外接矩形的方法分割出文本行區(qū)域,此外再進(jìn)行噪聲過(guò)濾,才完成全部預(yù)測(cè)過(guò)程。在對(duì)以上對(duì)傳統(tǒng)文字定位方法的總結(jié)與歸納后,可以看出傳統(tǒng)的文字定位方法都大多針對(duì)文字特有的線性排列,如邊緣特征和筆畫(huà)變換等進(jìn)行特殊處理,且對(duì)圖像各類(lèi)質(zhì)量要求較高,因此不具有普適性。而深度學(xué)習(xí)模仿人類(lèi)大腦階級(jí)分層的邏輯判斷方式,對(duì)下層感受野選擇復(fù)雜度更高,對(duì)上層感受野選擇性更單一且純粹。所以基于此的方法能夠解決許多傳統(tǒng)方法無(wú)法學(xué)習(xí)到的特征,以及更復(fù)雜、更抽象的排列問(wèn)題,而深度學(xué)習(xí)的重點(diǎn)則是在面對(duì)訓(xùn)練數(shù)據(jù)參數(shù)龐大且復(fù)雜的同時(shí),利用其獨(dú)具的天然優(yōu)勢(shì),提高結(jié)果的精準(zhǔn)度、時(shí)效性以及可實(shí)用性。1.3數(shù)據(jù)集在深度學(xué)習(xí)過(guò)程中,無(wú)論是在基礎(chǔ)骨干網(wǎng)絡(luò)的預(yù)訓(xùn)練階段,還是在自定義模型訓(xùn)練和驗(yàn)證評(píng)估階段,都需要用到大批的標(biāo)注數(shù)據(jù)集。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)該類(lèi)標(biāo)準(zhǔn)數(shù)據(jù)的特征提取與學(xué)習(xí),形成適合自定義方法的檢測(cè)網(wǎng)絡(luò)模型,所以在深度學(xué)習(xí)中,龐大的、專(zhuān)門(mén)的數(shù)據(jù)集是不可或缺的。而在深度學(xué)習(xí)不斷地被應(yīng)用到各類(lèi)場(chǎng)景與工業(yè)中時(shí),海量的數(shù)據(jù)集隨之也產(chǎn)生了。為提高文字定位與識(shí)別的技術(shù)的精確性和易應(yīng)用性,特別是在自然場(chǎng)景與視頻等場(chǎng)景的應(yīng)用,ICDAR于2003年設(shè)立特別競(jìng)賽,鼓勵(lì)各國(guó)各參賽隊(duì)伍積極創(chuàng)新,推動(dòng)文字定位與識(shí)別發(fā)展更進(jìn)一步。至今,已超三千余的隊(duì)伍參與到該競(jìng)賽中,并且持續(xù)不斷的在吸引更多的高校與企業(yè)加入到該項(xiàng)工作與研究中來(lái),推出了各具特性的適合特定文字定位目標(biāo)場(chǎng)景的相關(guān)數(shù)據(jù)集。ICDAR曾推出:ICDAR2003、2013、2015、2017數(shù)據(jù)集,包括自然場(chǎng)景中街道、商場(chǎng)、廣告牌、墻面、室內(nèi)、書(shū)籍等多個(gè)不同場(chǎng)景的拍攝圖像,ICDAR2013數(shù)據(jù)集包含的圖像比較簡(jiǎn)單、數(shù)量較少,語(yǔ)言種類(lèi)較少主要是英語(yǔ)與阿拉伯?dāng)?shù)字的組合;在此基礎(chǔ)之上,ICDAR2015增加了許多偶然拍攝,文本檢測(cè)的難度大幅度增加,在文本顏色、排列組合等方面也增加了復(fù)雜度,文字定位的難度有所提升。此外還出現(xiàn)了:CTW(ChineseTextinWild),這是適用于中文文本檢測(cè)的大型自然圖像數(shù)據(jù)集,由清華大學(xué)和騰訊公司聯(lián)合推出。該數(shù)據(jù)集收羅于街道背景,包含三種尺寸比例的平
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年企業(yè)導(dǎo)師能力提升培訓(xùn)課程
- 博士高壓共軌培訓(xùn)
- 拓展培訓(xùn)模板
- 量化投資策略?xún)?yōu)化
- 2026內(nèi)蒙古鄂爾多斯市東勝區(qū)天安職業(yè)培訓(xùn)學(xué)校招聘8人備考題庫(kù)及答案詳解(各地真題)
- 2026年海安市部分事業(yè)單位公開(kāi)選調(diào)工作人員5人備考題庫(kù)附參考答案詳解(滿(mǎn)分必刷)
- 2026廣東韶關(guān)市“百萬(wàn)英才匯南粵”始興縣招聘教師52人備考題庫(kù)及參考答案詳解
- 2026廣東深圳北理莫斯科大學(xué)學(xué)生工作部黨建組織員招聘?jìng)淇碱}庫(kù)及答案詳解(奪冠)
- 控感知識(shí)培訓(xùn)內(nèi)容
- 2026四川自貢市第一人民醫(yī)院招聘兒科工人1人備考題庫(kù)含答案詳解(新)
- 臨床檢驗(yàn)初級(jí)師歷年試題及答案2025版
- 文第19課《井岡翠竹》教學(xué)設(shè)計(jì)+2024-2025學(xué)年統(tǒng)編版語(yǔ)文七年級(jí)下冊(cè)
- 干部教育培訓(xùn)行業(yè)跨境出海戰(zhàn)略研究報(bào)告
- 車(chē)庫(kù)使用協(xié)議合同
- 組件設(shè)計(jì)文檔-MBOM構(gòu)型管理
- 《不在網(wǎng)絡(luò)中迷失》課件
- 山東省泰安市2024-2025學(xué)年高一物理下學(xué)期期末考試試題含解析
- 竹子產(chǎn)業(yè)發(fā)展策略
- 【可行性報(bào)告】2023年硫精砂項(xiàng)目可行性研究分析報(bào)告
- 2024-2025年上海中考英語(yǔ)真題及答案解析
- 2023年內(nèi)蒙古呼倫貝爾市海拉爾區(qū)公開(kāi)招聘公辦幼兒園控制數(shù)人員80名高頻筆試、歷年難易點(diǎn)考題(共500題含答案解析)模擬試卷
評(píng)論
0/150
提交評(píng)論