版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于EAST模型的文字定位方法設計案例目錄TOC\o"1-3"\h\u21047基于EAST模型的文字定位方法設計案例 1293611.1圖像文字定位系統(tǒng)框架 1252351.2深度學習基礎(chǔ)網(wǎng)絡 3109281.2.1殘差網(wǎng)絡 3102401.2.2ResNet_50模型 462131.3EAST網(wǎng)絡模型 549321.4數(shù)據(jù)處理 7290741.4.1數(shù)據(jù)預處理 742841.4.2數(shù)據(jù)增強 8197601.5數(shù)據(jù)標簽 12126501.6文本候選框 14168081.6.1標準非極大值抑制 14320263.6.2局部響應非極大值抑制 15239211.7損失函數(shù) 16160881.7.1分數(shù)圖損失 1692291.7.2幾何圖損失 17261441.7.3總損失 17隨著眾多領(lǐng)域的專家學者對深度學習方法的深入探究與研發(fā),利用該方法來對圖像進行文本定位檢測的新的、高效的、從不同角度的算法也與之大量的提出,該領(lǐng)域的不斷創(chuàng)新大大提高了現(xiàn)如今圖像文本定位的精確度與準確度。本論文將采用EAST模型設計實現(xiàn)文字定位目標。1.1圖像文字定位系統(tǒng)框架基于深度學習的圖像文字定位方法系統(tǒng)分為數(shù)據(jù)處理模塊和文字定位模塊,結(jié)構(gòu)如圖1.1所示。圖1.1圖像文字定位系統(tǒng)結(jié)構(gòu)兩個模塊的說明解釋如下:數(shù)據(jù)處理。數(shù)據(jù)集部分將根據(jù)本論文實現(xiàn)目標以及現(xiàn)有實驗環(huán)境,選擇ICDAR2017數(shù)據(jù)集作為本次實驗數(shù)據(jù)。圖像數(shù)據(jù)作為輸入送到模型前,首先要對圖像集提前處理,在有限的數(shù)據(jù)集內(nèi)放大圖像特征,即數(shù)據(jù)增強,使模型能夠迅速的學習。其中本論文所采用的方法有圖像縮放、隨機裁剪、填充三部分。文字定位。前一模塊進行數(shù)據(jù)處理后,圖像數(shù)據(jù)基本大小規(guī)整、格式統(tǒng)一。通過基于EAST模型對圖像樣本數(shù)據(jù)包含的特征的學習,訓練模型能夠獲得分類文本區(qū)域和背景區(qū)域的能力,結(jié)合圖像數(shù)據(jù)和和記錄圖像文本內(nèi)容的文本文件數(shù)據(jù),可以計算圖像數(shù)據(jù)標簽,即預測的得分圖和幾何圖,并得到預測文本框,并同時計算模型損失。根據(jù)但訓練模型預測得到的文本框往往成百上千,計算量隨之成倍遞增,因此需要用到NMS提前篩選過濾不符合條件的多余的文本框,得到最終預測的文本框。1.2深度學習基礎(chǔ)網(wǎng)絡1.2.1殘差網(wǎng)絡許多CNN的經(jīng)典網(wǎng)絡結(jié)構(gòu)比如VGG,網(wǎng)絡深度達到19層。如圖1.2所示。一般我們把網(wǎng)絡結(jié)構(gòu)中含有訓練所需參數(shù)的層次認為是一層,而不含訓練參數(shù),比如激活函數(shù)的層次不構(gòu)成一層。在2014年,文獻[20]證明在一定程度上,隨著網(wǎng)絡結(jié)構(gòu)深度的增加,深度學習網(wǎng)絡的性能將隨之提高。圖1.2VGG19結(jié)構(gòu)示例雖然網(wǎng)絡深度已成為影響網(wǎng)絡訓練結(jié)果的一大影響因素,但過深的網(wǎng)絡結(jié)構(gòu)也會帶來困擾,比如梯度爆炸與消失,此時網(wǎng)絡將不再收斂。也就是說,單純的增加網(wǎng)絡深度并不能無限的使模型預測的準確率上升,而是會趨向飽和與衰退,訓練誤差也會變得越來越大,這時就需要我們不再把目光放在網(wǎng)絡深度上,而是另辟蹊徑。2015年,KaimingHe等[21]提出的殘差學習的概念,將很好的解決以上問題。對于以上經(jīng)典網(wǎng)絡結(jié)構(gòu)的問題是,較淺層的網(wǎng)絡比深層網(wǎng)絡更能獲得較好的性能,所以在殘差網(wǎng)絡中,借助跳躍結(jié)構(gòu),直接將輸入值鏈接到輸出上,淺層的特征能夠直接在高層學習,并且任何層如果對整體網(wǎng)絡性能產(chǎn)生負影響,那么該層將被忽略跳過??偟膩碚f,殘差網(wǎng)絡能夠在一定程度上解決網(wǎng)絡結(jié)構(gòu)層次增加與網(wǎng)絡測試錯誤率上升之間的矛盾關(guān)系,緩解梯度問題,使得學習到的信息在網(wǎng)絡傳播中能更加準確和順暢。1.2.2ResNet_50模型本文采用的骨干網(wǎng)絡模型是ResNet_50。其基本結(jié)構(gòu)如圖1.3所示。ResNet_50使用恒等映射直接將本層輸入傳到輸出層,即y=x,這種輸出等于輸入的方式保證網(wǎng)絡深度增加的同時,不會導致訓練誤差的增加,這樣我們網(wǎng)絡求解的問題就從H(x)=x轉(zhuǎn)變?yōu)榍缶W(wǎng)絡映射結(jié)果和輸入之和的問題。ResNet_50利用歸一化來加速訓練,使得網(wǎng)絡的前后向傳播更加順利,并且能夠在每一層深入的學習與表征更多模型。從結(jié)構(gòu)圖可以看出該網(wǎng)絡包含兩個部分:一是恒等映射,顧名思義,指向神經(jīng)單元輸入,它的輸入與輸出維度相同,所以同類神經(jīng)元之間可以通過串聯(lián)來增加網(wǎng)絡層次;二是殘差映射,指的是除恒等映射以外的部分,它的作用是改變網(wǎng)絡維度。圖1.3ResNet基本單位示例實際應用中,殘差網(wǎng)絡大多由兩種構(gòu)造組成。如圖1.4所示。其中,左圖針對的是ResNet_34,右圖針對的是ResNet_50、ResNet_101、ResNet_152,在實際應用中為了減少非必要的參數(shù)量,用1×1卷積核代替一個原卷積核,通過降維運算精簡計算過程和計算量,最后又增加了一個1×1卷積核,可以通過映射,保證輸入和輸出規(guī)格相同。圖1.4ResNet兩種基本結(jié)構(gòu)示例1.3EAST網(wǎng)絡模型EAST網(wǎng)絡是一個端到端的文字定位模型,它的預測全過程可以歸納為兩步:FCN(全卷積神經(jīng)網(wǎng)絡)和NMS(非極大值抑制)。EAST網(wǎng)絡結(jié)構(gòu)共有三個層次:一是特征提取層,用于文本和背景兩種特征性信息的提?。欢翘卣魅诤蠈?,將特征圖按層進行依次合并;三是模型輸出層,輸出得分圖、幾何圖以及傾斜角度。如圖1.5所示。特征提取分支將ResNet_50作為網(wǎng)絡的基礎(chǔ)骨干,從該分支共四層,每一層求解特征圖時的卷積核都為上一層的半數(shù),同時數(shù)量依次遞增兩倍,此時特征圖高寬比分別為原始圖像的1/32、1/16、1/8、1/4,分別記為f1、f2、f3、f4。這些不同層次的特征圖,能夠檢測區(qū)域面積差不齊的文本,其中大尺寸特征圖檢測大面積文本區(qū),小尺寸檢測小面積文本區(qū)。特征融合分支先上采樣,再以1/32比例開始的順序,將兩部分操作的結(jié)果合并。具體規(guī)則如下:將上層輸出的特征圖f1送入到上采樣(Unpool)層,使圖像擴大一倍,并使h1=f1;將擴張后的特征圖與前一層的特征圖進行合并,然后在先經(jīng)過1×1卷積減少輸入特征圖數(shù),以降低計算時間。然后再以3×3卷積操作將局部信息合并,輸出記為h2;對剩下的f3,f4特征圖依次重復上述(1)(2)過程,卷積操作后的輸出圖分別記為h3、h4;h4經(jīng)過3×3卷積操作后的合并分支將作為輸入被送入到模型輸出層。對以上步驟公式總結(jié)如下所示:g(1.1)h(1.2)輸出分支分為兩部分:一是得分圖,表示預測文本框的置信度,即判斷每個像素點是否屬于文本區(qū)域;二是幾何圖,通道數(shù)為5。其中4個通道表示預測文本框中像素點到最小外接矩形邊框上、下、左、右邊界的垂直距離,另一通道表示最小外接矩形相對水平位置的旋轉(zhuǎn)角度。圖1.5EAST結(jié)構(gòu)圖示例1.4數(shù)據(jù)處理1.4.1數(shù)據(jù)預處理本文實驗采用的數(shù)據(jù)集是ICDAR2017,共9000張包含多種語言的自然圖像,以及數(shù)量相等的人工標注的文本標簽,分為訓練集和驗證集。文本與圖像一一對應,文本中每行代表一個文本框,每行內(nèi)容分別為真實矩形文本框四個頂點的橫縱坐標、文字語言和文本內(nèi)容三類標簽。其中坐標按從左上角頂點開始的順時針的順序?qū)懭?,文本?nèi)容為“###”代表該文本無法識別。該數(shù)據(jù)集支持的語言種類包括英語、漢語、韓語、拉丁語以及阿拉伯語等,語言種類較為豐富,且擁有大小、形狀和方向等不同文本區(qū)域,有利于模型針對多角度文本特征的學習,此外該數(shù)據(jù)集體量適中,易于學習和訓練。樣本如圖1.6所示。(a)圖像樣例(b)對應標注數(shù)據(jù)樣例圖1.6數(shù)據(jù)樣例1.4.2數(shù)據(jù)增強為了讓模型輸入圖像統(tǒng)一格式和大小,同時在一定的數(shù)據(jù)集上增加訓練特征信息,通常我們會借助數(shù)據(jù)增強來實現(xiàn)。本論文實驗中數(shù)據(jù)增強使用幾何變換法,包括旋轉(zhuǎn)、隨機裁減、統(tǒng)一縮放等操作。變換后的圖像不因位置改變而改變其特征。隨機縮放本文實驗中,通過隨機縮放圖像的高寬來達到數(shù)據(jù)增強的目的,并控制高寬比例,防止過度的縮放導致圖像失真。隨機裁減隨機裁減不僅是增加數(shù)據(jù)的方法之一,也是弱化圖像噪聲和增加訓練模型的穩(wěn)定與泛化能力的方法。在本文實驗中隨機裁減有兩種:一是針對背景圖像的裁減,為了訓練模型對圖像非文字區(qū)域的識別能力,隨機裁減后的圖像只包含非文本也就是背景區(qū)域。二是針對文本區(qū)域的裁減,在隨機裁減后,圖像內(nèi)至少包含一個文本區(qū)域,同時對于裁減后的文本框所帶的信息也要隨之改變與保留,目的是讓模型能夠識別文本區(qū)域。隨機裁減非文本區(qū),如圖1.7所示。(a)裁剪寬度起點(b)選擇裁剪寬度(c)隨機選擇裁剪起點和高度(d)確定裁剪背景框圖1.7背景隨機裁剪過程該部分裁減的思路是:找到圖像中所有文本框的x,y坐標中的最小值;隨機生成截取位置的x方向起點,再由系統(tǒng)隨機生成裁剪寬度;找到所有在截取寬度內(nèi)的文本框;對步驟iii內(nèi)的文本框的縱坐標對應的y軸區(qū)域標記,在隨機從非標記區(qū)內(nèi)選取裁減圖像的y方向起點坐標;在圖像內(nèi)從y方向起點坐標往下尋找未映射區(qū)內(nèi)第一個不連續(xù)坐標,生成裁減目標圖像的高度。隨機裁減文本區(qū)。如圖1.8所示。(a)隨機選取裁剪起點 (b)選擇裁剪寬度(c)選取裁剪高度 (d)文本框裁剪圖1.8文本框裁剪過程該部分裁減的思路是:對圖像內(nèi)所有文本框的橫縱坐標對應取值區(qū)標記,裁減圖像的起始坐標不能在標記區(qū)內(nèi)生成,而只能在非標記區(qū);對于最右下角的文本框,它往右和往下的區(qū)域都不能生成裁減的起始坐標,并進行標記;在未標記區(qū)隨機選取裁減的起始坐標(x,y);在以起始坐標為起點,并往右和往下延伸的方形區(qū)域內(nèi),標記該范圍內(nèi)的所有文本框;對于最左上角的文本框,它往左和往上的區(qū)域都不能生成裁減區(qū)的右下角坐標,并對這些區(qū)域進行標記,然后在未標記區(qū)隨機生成裁減后圖像的高度和寬度;將裁剪圖像中所有文本框頂點坐標的相對位置更新。填充經(jīng)過上一步驟的裁減后,得到的裁減圖像高寬比不同,為了防止圖像在統(tǒng)一大小時的縮放中過度變形,需要先對圖像進行填充,填充大小選取為裁減圖高、寬和模型預定輸入大小三者中的最大值。縮放在批量訓練中,我們往往會指定模型輸入大小,相同大小的輸入圖像保證在網(wǎng)絡卷積層中輸出的特征圖尺寸相同,更方便我們訓練模型。1.5數(shù)據(jù)標簽根據(jù)讀如圖像所對應的標注文本數(shù)據(jù),以及圖像進行裁剪后得到的真實文本框,我們可以計算出文本區(qū)域內(nèi)每個像素的得分圖和幾何圖。得分圖(scoremap)計算規(guī)則如下:對于所有文本框,依次判斷該文本框標簽中文字內(nèi)容是否可識別、文本框是否過小,對于這兩類文本框的標簽進行標記,且不計入計算;對所有未忽略的文本框,為了減弱手動標注記錄的頂點坐標值的偏差帶來的影響,先縮放0.3倍,依照先長邊后短邊的順序縮放。邊長計算規(guī)則如下所示:ri=minD其中,Pi表示矩形文本框的頂點,D為兩點間的歐氏距離。對經(jīng)過上述操作后的文本框中所有像素點都進行標記。流程如圖1.9所示。(a)縮放文本框示例 (b)標記文本框示例圖1.9得分圖求解圖示(2)幾何圖(geometrymap)計算規(guī)則如下:對上述中所有被標記的文本框內(nèi)像素的最小外接矩形;求被標記文本框中像素點到最小外接矩形上、下、左、右邊界的距離,和下邊界相對水平位置的旋轉(zhuǎn)角度,角度取銳角。如圖1.10所示。圖1.10幾何圖示例1.6文本候選框1.6.1標準非極大值抑制NMS(Non-MaximumSuppression)常用于提取有得分高于設定閾值的文本框,而過濾較低的文本框,即被認為是誤檢框的文本框。一般情況下,通過訓練模型預測得到的文本框數(shù)量非常大,而大多數(shù)的預測文本框存在置信度低和重疊率高等問題,需要通過NMS篩選出可靠的、非重復的預選文本框。NMS算法流程如算法1所示:算法1標準NMS算法Input:B={b1,…,bN},S={s1,…,sN},NtB是文本框列表初始值S包含對應的檢測文本框得分Nt是設定的NMS閾值Output:D,SBeginD={}WhileB≠emptydom=argmaxSM=bmD=D∪MB=B-MforbiinBdoforiou(M,bi)≥NtthenB=B-biS=S-siendendReturnD,Send局部響應非極大值抑制在標準NMS中,按照預測文本框的置信度從小到大,分別和其他文本框計算IoU(交并比),但面對模型預測結(jié)果中成百上千的文本框,時間復雜度將隨之成倍增加。局部響應非極大值抑制(Locality-AwareNMS,LANMS)就標準NMS中不合理的計算安排做了相應的改變。流程如下:首先對所有預測文本框中相交面積大于預設定閾值的文本框保留,并以權(quán)重的方式合并,小于閾值的則不合并,保留原文本框;對經(jīng)過上述操作的所有預測文本框進行標準NMS操作。通過前計算預測文本框之間的相交面積大小而減少對重疊率較高的文本框的計算,節(jié)省了大量時間。1.7損失函數(shù)1.7.1分數(shù)圖損失在文獻[17]中,作者采用了類平衡交叉熵來解決目標類別的不均衡分布,以精簡訓練過程并提高網(wǎng)絡整體性能。當一個數(shù)據(jù)集中負樣本占比大,而正樣本占比較少,本實驗中即指純背景圖像占比較大,而包含文本區(qū)域的圖像占比較少時,通過系數(shù)調(diào)整兩類樣本各自的權(quán)重,以達到平衡的目的。計算方法如下所示:L=-βY (1.4)其中,Y代表模型預測值,Y?代表標注數(shù)據(jù)值,β是平衡文本圖像和背景圖像的權(quán)重。β=1?(1.5)但文本方法中實際采用Diceloss代替原論文中的類平衡交叉熵,Diceloss常用于醫(yī)學影像分割,取值范圍為[0,1]。對于模型分類訓練來說,更易于學習,通常情況下,模型預測計算得到的準確率會更高。其計算方式如下所示:d=1?(1.6)其中,|x|表示實際文本框的數(shù)量,即GroundTruth;|y|表示模型預測文本框的數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 磚砌排水溝施工技術(shù)方案詳解
- 2025年全球智能穿戴設備市場物聯(lián)網(wǎng)融合報告
- 2025年全球數(shù)字貨幣支付競爭分析報告
- 護理工作半年總結(jié)與提升方案
- 餐廳食品安全培訓課件
- 新型醫(yī)院污水處理工藝技術(shù)方案
- 小學六年級上冊英語教案設計方案
- 餐廳服務認知培訓課件
- 中藥房藥品分類管理及質(zhì)量控制方案
- 鞍山鋼鐵安全技術(shù)培訓課件
- 核子儀考試題及答案
- DB46-T 481-2019 海南省公共機構(gòu)能耗定額標準
- 勞動合同【2026版-新規(guī)】
- 電子元器件入廠質(zhì)量檢驗規(guī)范標準
- 中藥炮制的目的及對藥物的影響
- 688高考高頻詞拓展+默寫檢測- 高三英語
- 學生公寓物業(yè)管理服務服務方案投標文件(技術(shù)方案)
- 食品檢驗檢測技術(shù)專業(yè)介紹
- 2025年事業(yè)單位筆試-貴州-貴州財務(醫(yī)療招聘)歷年參考題庫含答案解析(5卷套題【單項選擇100題】)
- 二年級數(shù)學上冊100道口算題大全(每日一練共12份)
- 空壓機精益設備管理制度
評論
0/150
提交評論