CN114332893B 表格結(jié)構(gòu)識別方法、裝置、計算機設(shè)備和存儲介質(zhì) (騰訊科技(深圳)有限公司)_第1頁
CN114332893B 表格結(jié)構(gòu)識別方法、裝置、計算機設(shè)備和存儲介質(zhì) (騰訊科技(深圳)有限公司)_第2頁
CN114332893B 表格結(jié)構(gòu)識別方法、裝置、計算機設(shè)備和存儲介質(zhì) (騰訊科技(深圳)有限公司)_第3頁
CN114332893B 表格結(jié)構(gòu)識別方法、裝置、計算機設(shè)備和存儲介質(zhì) (騰訊科技(深圳)有限公司)_第4頁
CN114332893B 表格結(jié)構(gòu)識別方法、裝置、計算機設(shè)備和存儲介質(zhì) (騰訊科技(深圳)有限公司)_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利地址518000廣東省深圳市南山區(qū)高新區(qū)(72)發(fā)明人李鑫劉皓劉銀松姜德強公司44224GO6V30/413(2022.01)GO6V3GO6N3/0499(審查員楊霜雪儲介質(zhì)本申請涉及一種表格結(jié)構(gòu)識別方法、裝置、本區(qū)域,確定各文本區(qū)域的圖像特征和坐標特確定各文本區(qū)域的圖像特征和坐標特征,并分別將圖像特征、坐標特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征根據(jù)文本區(qū)域元素融合特征,確定目標表格圖像區(qū)域中各結(jié)點的鄰接特征基于各文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)2獲取目標表格圖像區(qū)域,識別所述目標表格圖像區(qū)域中的文本區(qū)域;確定各所述文本區(qū)域的圖像特征和坐標特征,并分別將所述圖像特征、坐標特征進行融合,得到與各所述文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征;獲取各所述文本區(qū)域元素融合特征對應(yīng)的結(jié)點,確定各所述結(jié)點的預(yù)設(shè)個數(shù)的鄰近結(jié)點,并將各所述結(jié)點與該結(jié)點對應(yīng)的各所述鄰近結(jié)點的文本區(qū)域元素融合特征進行融合,得到各所述結(jié)點對應(yīng)的鄰近融合特征;整合各所述結(jié)點的鄰近融合特征,得到聚合特征,并對各所述結(jié)點的聚合特征進行降維處理,得到降維后的多頭圖特征;所述降維后的多頭圖特征為與所述文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征;獲取各所述文本區(qū)域元素融合特征對應(yīng)的結(jié)點的全局特征,并基于所述局部特征和所述全局特征進行特征聚合,得到所述目標表格圖像區(qū)域中各結(jié)點的鄰接特征;將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果;基于各所述文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與所述目標表格圖像區(qū)域?qū)?yīng)的表格2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定各所述文本區(qū)域的圖像特征和坐標特征,并分別將所述圖像特征、坐標特征進行融合,得到與各所述文本區(qū)域?qū)?yīng)的文本區(qū)獲取從所述目標表格圖像區(qū)域內(nèi)確定出各所述文本區(qū)域的位置坐標,并對所述文本區(qū)域的位置坐標進行升維,得到升維后的坐標特征;根據(jù)各所述文本區(qū)域的位置坐標,獲取對應(yīng)的文本區(qū)域的圖像內(nèi)容;基于所述文本區(qū)域的圖像內(nèi)容進行圖像特征對齊,得到對齊后的圖像特征,對齊后的所述圖像特征的維度與所述升維后的所述坐標特征的維度相同;對升維后的所述坐標特征、對齊后的所述圖像特征進行融合,得到與各所述文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述獲取從所述目標表格圖像區(qū)域內(nèi)確定出各所述文本區(qū)域的位置坐標,并對所述文本區(qū)域的位置坐標進行升維,得到升維后的計算所述目標表格圖像區(qū)域內(nèi)的各所述文本區(qū)域與預(yù)設(shè)標注文本區(qū)域的交并比;篩選出交并比大于預(yù)設(shè)交并比閾值的文本區(qū)域。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取與所述文本區(qū)域元素融合特征對應(yīng)的根據(jù)多頭注意力機制,對與各所述結(jié)點對應(yīng)的所述文本區(qū)域元素融合特征進行上下文特征聚合,得到與所述文本區(qū)域元素融合特征對應(yīng)的所述結(jié)點的全局特征。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列將任意兩個結(jié)點的鄰接特征進行特征拼接,得到拼接后的鄰接矩陣;3根據(jù)全連接神經(jīng)網(wǎng)絡(luò)對所述拼接后的鄰接矩陣,進行二分類預(yù)測,得到相應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果;其中,所述二分類預(yù)測包括行關(guān)系預(yù)測和列關(guān)系預(yù)測。文本區(qū)域識別模塊,用于獲取目標表格圖像區(qū)域,識別所述目標表格圖像區(qū)域中的文本區(qū)域;文本區(qū)域元素融合特征生成模塊,用于確定各所述文本區(qū)域的圖像特征和坐標特征,并分別將所述圖像特征、坐標特征進行融合,得到與各所述文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征;鄰接特征生成模塊,用于獲取各所述文本區(qū)域元素融合特征對應(yīng)的結(jié)點,確定各所述結(jié)點的預(yù)設(shè)個數(shù)的鄰近結(jié)點,并將各所述結(jié)點與該結(jié)點對應(yīng)的各所述鄰近結(jié)點的文本區(qū)域元素融合特征進行融合,得到各所述結(jié)點對應(yīng)的鄰近融合特征;整合各所述結(jié)點的鄰近融合特征,得到聚合特征,并對各所述結(jié)點的聚合特征進行降維處理,得到降維后的多頭圖特征;所述降維后的多頭圖特征為與所述文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征;獲取各所述文本區(qū)域元素融合特征對應(yīng)的結(jié)點的全局特征,并基于所述局部特征和所述全局特征進行特征聚合,得到所述目標表格圖像區(qū)域中各結(jié)點的鄰接特征;行列關(guān)系預(yù)測結(jié)果生成模塊,用于將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)表格結(jié)構(gòu)確定模塊,用于基于各所述文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與所述目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述文本區(qū)域元素融合特征生成模塊還用獲取從所述目標表格圖像區(qū)域內(nèi)確定出各所述文本區(qū)域的位置坐標,并對所述文本區(qū)域的位置坐標進行升維,得到升維后的坐標特征;根據(jù)各所述文本區(qū)域的位置坐標,獲取對應(yīng)的文本區(qū)域的圖像內(nèi)容;基于所述文本區(qū)域的圖像內(nèi)容進行圖像特征對齊,得到對齊后的圖像特征,對齊后的所述圖像特征的維度與所述升維后的所述坐標特征的維度相同;對升維后的所述坐標特征、對齊后的所述圖像特征進行融合,得到與各所述文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征。8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述文本區(qū)域元素融合特征生成模塊還包交并比計算單元,用于計算所述目標表格圖像區(qū)域內(nèi)的各所述文本區(qū)域與預(yù)設(shè)標注文本區(qū)域的交并比;文本區(qū)域篩選模塊,用于篩選出交并比大于預(yù)設(shè)交并比閾值的文本區(qū)域。9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述鄰接特征生成模塊還包括全局特征生根據(jù)多頭注意力機制,對與各所述結(jié)點對應(yīng)的所述文本區(qū)域元素融合特征進行上下文特征聚合,得到與所述文本區(qū)域元素融合特征對應(yīng)的所述結(jié)點的全局特征。10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述行列關(guān)系預(yù)測結(jié)果生成模塊還用于:將任意兩個結(jié)點的鄰接特征進行特征拼接,得到拼接后的鄰接矩陣;根據(jù)全連接神經(jīng)4網(wǎng)絡(luò)對所述拼接后的鄰接矩陣,進行二分類預(yù)測,得到相應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果;其中,所述二分類預(yù)測包括行關(guān)系預(yù)測和11.一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至5中任一項所述的方法的步驟。12.一種計算機可讀存儲介質(zhì),存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至5中任一項所述的方法的步驟。5表格結(jié)構(gòu)識別方法、裝置、計算機設(shè)備和存儲介質(zhì)技術(shù)領(lǐng)域[0001]本申請涉及人工智能技術(shù)領(lǐng)域,特別是涉及一種表格結(jié)構(gòu)識別方法、裝置、計算機設(shè)備和存儲介質(zhì)。背景技術(shù)[0002]隨著人工智能技術(shù)的發(fā)展,以及對于數(shù)據(jù)信息的提取、整理以及更新的效率和準確度要求日益提升,表格作為結(jié)構(gòu)化數(shù)據(jù)的存儲形式,具有規(guī)范性的特點,更便于用戶對于表格內(nèi)存儲的數(shù)據(jù)進行查詢、提取或更新錄入。但目前通常采用將表格轉(zhuǎn)換成PDF的格式后再進行發(fā)表,導(dǎo)致無法直接對表格內(nèi)的數(shù)據(jù)進行提取或?qū)Ρ砀襁M行更新,因此出現(xiàn)了針對[0003]傳統(tǒng)上的表格識別方法,多采用先針對PDF文件進行文本檢測,得到圖像中的文本區(qū)域,可包括圖像中涉及的不同文本區(qū)域,然后利用圖神經(jīng)網(wǎng)絡(luò)預(yù)測出每兩個文本區(qū)域之間的關(guān)系,根據(jù)每兩個文本區(qū)域間的關(guān)系確定相應(yīng)文本區(qū)域是需要合并還是不需要合并,最后對預(yù)測出的鄰接矩陣做后處理,重現(xiàn)圖像中的表格結(jié)構(gòu),進而識別表格中的內(nèi)容的方[0004]但傳統(tǒng)的表格識別方法,無法直接解決表格中存在空白字段的場景,并且預(yù)測的鄰接矩陣僅能代表文本區(qū)域是否合并,僅考慮了領(lǐng)域結(jié)點的特征,無法覆蓋整體的待識別表格,還需要額外的文本檢測網(wǎng)絡(luò)去定位圖像中的文本位置,再進一步組織成行列信息。因此傳統(tǒng)的表格識別方法無法對待識別表格進行整體、全局的識別,還需額外設(shè)置相應(yīng)的文本檢測網(wǎng)絡(luò),容易出現(xiàn)識別內(nèi)容失誤的問題,導(dǎo)致表格識別效率仍然較為低下。發(fā)明內(nèi)容[0005]基于此,有必要針對上述技術(shù)問題,提供一種能夠?qū)DF表格進行整體、全面的識別,以提高表格識別準確度和識別效率的表格結(jié)構(gòu)識別方法、裝置、計算機設(shè)備和存儲介[0007]獲取目標表格圖像區(qū)域,識別所述目標表格圖像區(qū)域中的文本區(qū)域;[0008]確定各所述文本區(qū)域的圖像特征和坐標特征,并分別將所述圖像特征、坐標特征進行融合,得到與各所述文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征;[0009]根據(jù)所述文本區(qū)域元素融合特征,確定所述目標表格圖像區(qū)域中各結(jié)點的鄰接特[0010]將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果;[0011]基于各所述文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與所述目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。[0012]在一個實施例中,所述基于所述局部特征和所述全局特征進行特征聚合,生成所6述目標表格圖像區(qū)域中各結(jié)點的鄰接特征,包括:[0013]獲取與門機制對應(yīng)的各個門參數(shù);[0014]基于預(yù)設(shè)激活函數(shù)、各所述門參數(shù),對所述局部特征和所述全局特征進行特征聚合,得到與所述目標表格圖像區(qū)域中各結(jié)點的鄰接特征。[0016]文本區(qū)域識別模塊,用于獲取目標表格圖像區(qū)域,識別所述目標表格圖像區(qū)域中的文本區(qū)域;[0017]文本區(qū)域元素融合特征生成模塊,用于確定各所述文本區(qū)域的圖像特征和坐標特征,并分別將所述圖像特征、坐標特征進行融合,得到與各所述文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征;[0018]鄰接特征生成模塊,用于根據(jù)所述文本區(qū)域元素融合特征,確定所述目標表格圖像區(qū)域中各結(jié)點的鄰接特征;[0019]行列關(guān)系預(yù)測結(jié)果生成模塊,用于將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測[0020]表格結(jié)構(gòu)確定模塊,用于基于各所述文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與所述目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。[0021]一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計器執(zhí)行所述計算機程序時實現(xiàn)以下步驟:[0022]獲取目標表格圖像區(qū)域,識別所述目標表格圖像區(qū)域中的文本區(qū)域;[0023]確定各所述文本區(qū)域的圖像特征和坐標特征,并分別將所述圖像特征、坐標特征進行融合,得到與各所述文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征;[0024]根據(jù)所述文本區(qū)域元素融合特征,確定所述目標表格圖像區(qū)域中各結(jié)點的鄰接特[0025]將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果;[0026]基于各所述文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與所述目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。[0027]一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:[0028]獲取目標表格圖像區(qū)域,識別所述目標表格圖像區(qū)域中的文本區(qū)域;[0029]確定各所述文本區(qū)域的圖像特征和坐標特征,并分別將所述圖像特征、坐標特征進行融合,得到與各所述文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征;[0030]根據(jù)所述文本區(qū)域元素融合特征,確定所述目標表格圖像區(qū)域中各結(jié)點的鄰接特[0031]將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果;[0032]基于各所述文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與所述目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。7[0033]上述表格結(jié)構(gòu)識別方法、裝置、計算機設(shè)備和存儲介質(zhì)中,通過獲取目標表格圖像區(qū)域,識別目標表格圖像區(qū)域中的文本區(qū),并確定各文本區(qū)域的圖像特征和坐標特征,分別將圖像特征、坐標特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征,可通過對目標表格圖像區(qū)域內(nèi)的不同文本區(qū)域進行圖像特征、坐標特征的融合,以達到對目標表格圖像區(qū)域的整體識別,而不是針對單個文本區(qū)域的局部識別。進而根據(jù)文本區(qū)域元素融合特征,確定目標表格圖像區(qū)域中各結(jié)點的鄰接特征,并將任意兩個結(jié)點的鄰接特征進行特征拼接,通過對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,進而基于各文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。實現(xiàn)了根據(jù)對各文本區(qū)域的行列關(guān)系的預(yù)測結(jié)果,即可確定得到相應(yīng)的表格結(jié)構(gòu),而無需利用額外的文本檢測網(wǎng)絡(luò)進一步進行識別,可減少不必要繁瑣操作,進而提高了表格識別準確度和識別效率。附圖說明[0034]圖1為一個實施例中表格結(jié)構(gòu)識別方法的應(yīng)用環(huán)境圖;[0035]圖2為一個實施例中表格結(jié)構(gòu)識別方法的流程示意圖;[0036]圖3為一個實施例中表格結(jié)構(gòu)識別方法的目標表格圖像區(qū)域示意圖;[0037]圖4為一個實施例中表格結(jié)構(gòu)識別方法的文本區(qū)域檢測結(jié)果示意圖;[0038]圖5為一個實施例表格結(jié)構(gòu)識別方法的行關(guān)系預(yù)測結(jié)果示意圖;[0039]圖6為一個實施例中表格結(jié)構(gòu)識別方法的列關(guān)系預(yù)測結(jié)果示意圖;[0040]圖7為一個實施例中得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征的流程示意[0041]圖8為一個實施例獲取各文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征的流程示意圖;[0042]圖9為一個實施例中表格結(jié)構(gòu)識別方法的整體流程示意圖;[0043]圖10為一個實施例中用于生成鄰接特征的FLAG網(wǎng)絡(luò)結(jié)構(gòu)示意圖;[0044]圖11為一個實施例中表格結(jié)構(gòu)識別裝置的結(jié)構(gòu)框圖;[0045]圖12為一個實施例中計算機設(shè)備的內(nèi)部結(jié)構(gòu)圖。具體實施方式[0046]為了使本申請的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本申請進行進一步詳細說明。應(yīng)當理解,此處描述的具體實施例僅僅用以解釋本申請,并不用于限定本申請。(ArtificialIntelligence,AI)是利用數(shù)字計算機或者數(shù)字計算機控制的機器模擬、延伸和擴展人的智能,感知環(huán)境、獲取知識并使用知識獲得最佳結(jié)果的理論、方法、技術(shù)及應(yīng)用系統(tǒng)。換句話說,人工智能是計算機科學(xué)的一個綜合技術(shù),它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機器。人工智能也就是研究各種智能機器的設(shè)計原理與實現(xiàn)方法,使機器具有感知、推理與決策的功能。其中,人工智能技術(shù)是一門綜合學(xué)科,涉及領(lǐng)域廣泛,既有硬件層面的技術(shù)也有軟件層面的技術(shù)。人工智能基礎(chǔ)技8術(shù)一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、互系統(tǒng)、機電一體化等技術(shù)。人工智能軟件技術(shù)主要包括計算機視覺技術(shù)、語音處理技術(shù)、自然語言處理技術(shù)以及機器學(xué)習(xí)/深度學(xué)習(xí)等幾大方向。[0048]其中,人工智能軟件技術(shù)中的機器學(xué)習(xí)(MachineLearning,ML)是一門多領(lǐng)域交機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。機器學(xué)習(xí)是人工智能的核心,是使計算機具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域。機器學(xué)習(xí)和深度學(xué)習(xí)通常包括人工神經(jīng)網(wǎng)絡(luò)、置信網(wǎng)絡(luò)、強[0049]而隨著人工智能技術(shù)研究和進步,人工智能技術(shù)在多個領(lǐng)域展開研究和應(yīng)用,例在更多的領(lǐng)域得到應(yīng)用,并發(fā)揮越來越重要的價值。[0050]本申請實施例提供的表格結(jié)構(gòu)識別方法,可以應(yīng)用于如圖1所示的應(yīng)用環(huán)境中。其中,終端102通過網(wǎng)絡(luò)與服務(wù)器104進行通信。其中,服務(wù)器104通過獲取目標表格圖像區(qū)域,識別目標表格圖像區(qū)域中的文本區(qū)域,并確定各文本區(qū)域的圖像特征和坐標特征,分別將圖像特征、坐標特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征。進而服務(wù)器104根據(jù)文本區(qū)域元素融合特征,確定目標表格圖像區(qū)域中各結(jié)點的鄰接特征,通過將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果。進而基于各文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu),將相應(yīng)的表格端102可以但不限于是各種個人計算機、筆記本電腦、智能手機、平板電腦和便攜式可穿戴設(shè)備,服務(wù)器104可以用獨立的服務(wù)器或者是多個服務(wù)器組成的服務(wù)器集群來實現(xiàn)。[0051]在一個實施例中,如圖2所示,提供了一種表格結(jié)構(gòu)識別方法,以該方法應(yīng)用于圖1中的服務(wù)器為例進行說明,包括以下步驟:[0052]步驟S202,獲取目標表格圖像區(qū)域,識別目標表格圖像區(qū)域中的文本區(qū)域。[0053]具體地,通過對待識別圖像進行目標檢測,獲取與待識別圖像對應(yīng)的目標表格圖像區(qū)域,進而對目標表格圖像區(qū)域進行進一步識別,識別得出目標表格圖像區(qū)域中的文本[0054]在一個實施例中,如圖3所示,提供了一種表格結(jié)構(gòu)識別方法的目標表格圖像區(qū)域,通過對待識別圖像進行目標檢測,得到如圖3所示的目標表格圖像區(qū)域,并進一步對目標表格圖像區(qū)域進行識別,可識別得到如圖4所示的表格結(jié)構(gòu)識別方法的文本區(qū)域檢測結(jié)[0055]具體地,通過采用Mask-RCNN網(wǎng)絡(luò)對目標表格區(qū)域進行目標檢測,確定目標表格區(qū)域內(nèi)的文本區(qū)域。其中,文本區(qū)域可由如圖4所示的文本區(qū)域檢測結(jié)果表示,即在目標表格區(qū)域內(nèi),具有如圖4所示的和各文本框?qū)?yīng)的文本區(qū)域,進而通過Mask-RCNN網(wǎng)絡(luò)對目標表格區(qū)域進行目標檢測,可確定不同文本框的位置。[0056]進一步地,Mask-RCNN網(wǎng)絡(luò)表示兼容通用目標檢測以及分割任務(wù)的網(wǎng)絡(luò),包含檢測分支和分割分支。在本實施例中,由于僅需要對文本區(qū)域進行識別,則僅采用Mask-RCNN網(wǎng)9絡(luò)的檢測分支對目標表格區(qū)域進行檢測。塔網(wǎng)絡(luò)(FeaturePyramidNetwork),可利用多尺度的方式提升目標檢測效果的神經(jīng)網(wǎng)絡(luò),Res50網(wǎng)絡(luò)表示層數(shù)為50的深度殘差網(wǎng)絡(luò)(DeepResidualNetwork),屬于卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)網(wǎng)絡(luò)類型。其中,可通過Res50網(wǎng)絡(luò)得到圖片不同階段的特征圖,進而根據(jù)不同階段的特征圖建立特征金字塔,即得到具有FPN的Res50[0058]在一個實施例中,由于通過FPN(特征金字塔網(wǎng)絡(luò))的Res50網(wǎng)絡(luò)(深度殘差網(wǎng)絡(luò))進行目標檢測后得到的RPN(區(qū)域生成網(wǎng)絡(luò))預(yù)測結(jié)果中,仍存在較多冗余的文本區(qū)域,進而采用NMS算法對所有的文本區(qū)域進行過濾,以濾除多余的文本區(qū)域,進而降低計算復(fù)雜度。其中對局部極大值的搜索,可對不滿足極大值要求的數(shù)據(jù)取值起到過濾作用。[0059]步驟S204,確定各文本區(qū)域的圖像特征和坐標特征,并分別將圖像特征、坐標特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征。[0060]具體地,通過獲取從目標表格圖像區(qū)域內(nèi)確定出的各文本區(qū)域的位置坐標,并對各文本區(qū)域的位置坐標進行升維,可得到升維后的坐標特征。進一步可根據(jù)各文本區(qū)域的位置坐標獲取對應(yīng)的文本區(qū)域的圖像內(nèi)容,進而基于文本區(qū)域的圖像內(nèi)容進行圖像特征對齊,得到對齊后的圖像特征。其中,對齊后的圖像特征的維度與升維后的坐標特征的維度相[0061]進一步地,通過對升維后的坐標特征、對齊后的圖像特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征。[0062]步驟S206,根據(jù)文本區(qū)域元素融合特征,確定目標表格圖像區(qū)域中各結(jié)點的鄰接[0063]具體地,通過獲取與各文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征和全局特征,進而基于局部特征和全局特征進行特征聚合,得到目標表格圖像區(qū)域中各結(jié)點的鄰接[0064]其中,通過采用K-鄰近算法(k-NearestNeighboralgorithm),分別確定出各文本區(qū)域元素融合特征對應(yīng)的結(jié)點的K個鄰近結(jié)點,并將K個鄰近結(jié)點和該結(jié)點的文本區(qū)域元素融合特征進行融合,以得到各結(jié)點的鄰近融合特征,通過將各結(jié)點的鄰近融合特征進行經(jīng)網(wǎng)絡(luò))對各結(jié)點的聚合特征進行降維處理,得到降維后的多頭圖特征。其中,降維后的多頭圖特征即為與文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征。[0065]同樣地,根據(jù)多頭注意力機制,對與各結(jié)點對應(yīng)的文本區(qū)域元素融合特征進行上下文特征聚合,得到與文本區(qū)域元素融合特征對應(yīng)的結(jié)點的全局特征。[0066]進一步地,通過獲取預(yù)設(shè)激活函數(shù)以及與門機制對應(yīng)的各個門參數(shù),進而基于預(yù)設(shè)激活函數(shù)、各門參數(shù),對局部特征和全局特征進行特征聚合,得到與目標表格圖像區(qū)域中各結(jié)點的鄰接特征。[0067]在一個實施例中,采用以下公式(1)對局部特征以及全局特征進行聚合,得到與目標表格圖像區(qū)域中各結(jié)點的鄰接特征:[0069]其中,F(xiàn)ag表示聚合后的鄰接特征、Fg?oba表示全局特征、F?ca表示局部特征,Sigmoid為預(yù)設(shè)激活函數(shù),gate表示第i個head上的門參數(shù),head表示多頭注意力機制[0070]步驟S208,將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣行列關(guān)系預(yù)測結(jié)果。結(jié)果可確定出表格中每一行對應(yīng)的文本區(qū)域,在圖5中采用不同深淺程度的灰度對不同行二行包括的文本區(qū)域為“NT”、“adj”、“verb”、“idiom”、“noun”、“other”,第三行包括的文本“785”、“904”、“746”、“165”、“797”,第五行包括的文本區(qū)域為“neu”、“918”、“7569”、“2016”、“12668”、“10214”,第六行包括的文本區(qū)域為“sum”、“2933”、“9207”、“3788”、“13099”、“11653”。"1230”、“785”、“918”、“2933”,第三列包括的文本區(qū)域為“tagg"、“verb”、“734”、“904”、“7569”、“9207”,第四列包括的文本區(qū)域為“ingin”、“idiom”、“1026”、“746”、“2016”、“3788”,第五列包括的文本區(qū)域為“form”、“noun”、“266”、“165”、“12668”、“13099”,第六列[0075]步驟S210,基于各文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。鄰接關(guān)系所占的比例。召回率準確率11表格結(jié)構(gòu)識別[0080]上述表格結(jié)構(gòu)識別方法中,通過獲取目標表格圖像區(qū)域,識別目標表格圖像區(qū)域中的文本區(qū),并確定各文本區(qū)域的圖像特征和坐標特征,分別將圖像特征、坐標特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征,可通過對目標表格圖像區(qū)域內(nèi)的不同文本區(qū)域進行圖像特征、坐標特征的融合,以達到對目標表格圖像區(qū)域的整體識別,而不是針對單個文本區(qū)域的局部識別。進而根據(jù)文本區(qū)域元素融合特征,確定目標表格圖像區(qū)域中各結(jié)點的鄰接特征,并將任意兩個結(jié)點的鄰接特征進行特征拼接,通過對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,進而基于各文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。實現(xiàn)了根據(jù)對各文本區(qū)域的行列關(guān)系的預(yù)測結(jié)果,即可確定得到相應(yīng)的表格結(jié)構(gòu),而無需利用額外的文本檢測網(wǎng)絡(luò)進一步進行識別,可減少不必要繁瑣操作,進而提高了表格識別準確度和識別效率。[0081]在一個實施例中,如圖7所示,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征的步驟,即確定各文本區(qū)域的圖像特征和坐標特征,并分別將圖像特征、坐標特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征的步驟,具體包括:[0082]步驟S702,獲取從目標表格圖像區(qū)域內(nèi)確定出各文本區(qū)域的位置坐標,并對文本區(qū)域的位置坐標進行升維,得到升維后的坐標特征。[0083]具體地,通過從目標表格圖像區(qū)域確定出各文本區(qū)域,并獲取各文本區(qū)域的位置坐標,進而采用FCN網(wǎng)絡(luò)(全連接網(wǎng)絡(luò))分別對各文本區(qū)域的位置坐標進行升維,得到升維后的坐標特征。[0084]其中,各文本區(qū)域的位置坐標為4維,可以是(x,y,w,h)的四維坐標,為用于后續(xù)和圖像特征進行融合,進而采用FCN網(wǎng)絡(luò)將四維的坐標特征升維至和圖像特征的維度一致。[0085]在一個實施例中,在獲取從目標表格圖像區(qū)域內(nèi)確定出各文本區(qū)域的位置坐標,并對文本區(qū)域的位置坐標進行升維,得到升維后的坐標特征之前,還包括:[0086]計算目標表格圖像區(qū)域內(nèi)的各文本區(qū)域與預(yù)設(shè)標注文本區(qū)域的交并比;篩選出交并比大于預(yù)設(shè)交并比閾值的文本區(qū)域。[0087]具體地,通過獲取預(yù)設(shè)標注文本區(qū)域,并計算目標表格圖像區(qū)域內(nèi)各文本區(qū)域和預(yù)設(shè)標注文本區(qū)域的交并比,并獲取預(yù)設(shè)交并比閾值,篩選出交并比大于預(yù)設(shè)交并比閾值的文本區(qū)域。[0088]其中,預(yù)設(shè)標注文本區(qū)域為預(yù)先已進行標注的文本區(qū)域,還攜帶有相應(yīng)已標注文本區(qū)域的行列關(guān)系,即已經(jīng)標注的文本區(qū)域具體和哪些文本區(qū)域?qū)儆谕恍?,或者屬于同一列。在本實施例中,預(yù)設(shè)交并比閾值可以為0.7至0.9中的不同取值,優(yōu)選地,預(yù)設(shè)交并比閾值可以取0.8。[0089]步驟S704,根據(jù)各文本區(qū)域的位置坐標,獲取對應(yīng)的文本區(qū)域的圖像內(nèi)容。[0090]具體地,根據(jù)文本區(qū)域的位置坐標,確定文本區(qū)域在目標表格圖像區(qū)域內(nèi)的具體位置,進而獲取對應(yīng)具體位置上的圖像內(nèi)容,確定為與該文本區(qū)域?qū)?yīng)的圖像內(nèi)容。[0091]步驟S706,基于文本區(qū)域的圖像內(nèi)容進行圖像特征對齊,得到對齊后的圖像特征,對齊后的圖像特征的維度與升維后的坐標特征的維度相同。[0092]具體地,采用RoiAlign算法(即使用雙線性插值固定不同大小感興趣區(qū)域特征輸出的算法),對文本區(qū)域的圖像內(nèi)容進行圖像特征對齊。其中,文本區(qū)域的圖像特征,可在采用Mask-RCNN網(wǎng)絡(luò)對目標表格區(qū)域進行目標檢測,確定目標表格區(qū)域內(nèi)的文本區(qū)域時,進一步根據(jù)FPN網(wǎng)絡(luò)(FeaturePyramidNetwork,即特征金字塔網(wǎng)絡(luò))對文本區(qū)域內(nèi)的圖像內(nèi)容進行識別得到。[0093]其中,采用RoiAlign算法對文本區(qū)域的圖像內(nèi)容進行圖像特征對齊時,得到的對齊后的圖像特征為128維。而由于各文本區(qū)域的位置坐標為4維,可以是(x,y,w,h)的四維坐標,為用于后續(xù)和圖像特征進行融合,進而采用FCN網(wǎng)絡(luò)(全連接網(wǎng)絡(luò))將四維的坐標特征升維至和圖像特征的維度一致,即通過FCN網(wǎng)絡(luò)(全連接網(wǎng)絡(luò))將四維的坐標特征升維至128維,以和對齊后的圖像特征的維度一致。[0094]步驟S708,對升維后的坐標特征、對齊后的圖像特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征。[0095]具體地,通過采用按點諸位相加的方式,將每個文本區(qū)域?qū)?yīng)的升維后的坐標特征、對齊后的圖像特征進行融合,以得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征。[0096]本實施例中,通過獲取從目標表格圖像區(qū)域內(nèi)確定出各文本區(qū)域的位置坐標,并對文本區(qū)域的位置坐標進行升維,得到升維后的坐標特征。而根據(jù)各文本區(qū)域的位置坐標,獲取對應(yīng)的文本區(qū)域的圖像內(nèi)容,并基于文本區(qū)域的圖像內(nèi)容進行圖像特征對齊,得到對齊后的圖像特征,對齊后的圖像特征的維度與升維后的坐標特征的維度相同。通過對升維后的坐標特征、對齊后的圖像特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征,能夠達到對目標表格圖像區(qū)域內(nèi)的所有文本區(qū)域的整體識別,而不是針對單個文本區(qū)域的局部識別,進而提高對目標表格圖像區(qū)域的表格識別準確度。[0097]在一個實施例中,如圖8所示,獲取各文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特[0098]步驟S802,獲取各文本區(qū)域元素融合特征對應(yīng)的結(jié)點,并確定各結(jié)點的預(yù)設(shè)個數(shù)的鄰近結(jié)點。[0099]具體地,通過獲取各文本區(qū)域元素融合特征對應(yīng)的結(jié)點,并采用K-鄰近算法(k-NearestNeighboralgorithm),分別確定出各文本區(qū)域元素融合特征對應(yīng)的結(jié)點的K個鄰近結(jié)點。其中,K-鄰近算法用于確定出與當前結(jié)點最鄰近的K個鄰近結(jié)點。[0100]步驟S804,將各結(jié)點與該結(jié)點對應(yīng)的各鄰近結(jié)點的文本區(qū)域元素融合特征進行融合,得到各結(jié)點對應(yīng)的鄰近融合特征。[0101]具體地,通過將K個鄰近結(jié)點的文本區(qū)域元素特征,和該結(jié)點的文本區(qū)域元素融合特征進行特征融合,以得到各結(jié)點的鄰近融合特征。[0102]其中,由于每個結(jié)點的文本區(qū)域元素特征為128維,通過將K個鄰近結(jié)點的文本區(qū)域元素特征,和該結(jié)點的文本區(qū)域元素融合特征進行特征融合后,得到的結(jié)點的鄰近融合特征則提升至128K維。[0103]步驟S806,整合各結(jié)點的鄰近融合特征,得到聚合特征。[0104]具體地,通過采用FCN網(wǎng)絡(luò)(全連接網(wǎng)絡(luò))整合結(jié)點的鄰近融合特征,得到相應(yīng)的聚的鄰近融合特征聚合至128維的聚合特征。[0105]步驟S808,對各結(jié)點的聚合特征進行降維處理,得到降維后的多頭圖特征,降維后的多頭圖特征為與文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征。[0106]具體地,通過采用預(yù)設(shè)個平行的FCN網(wǎng)絡(luò),對結(jié)點的聚合特征進行降維處理,得到降維后的多頭圖特征。其中,降維后的多頭圖特征即為與文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征。[0107]進一步地,在本實施例中,可以是采用8個平行的FCN網(wǎng)絡(luò),對結(jié)點的聚合特降維處理,將128維的聚合特征轉(zhuǎn)換成8個16維的多頭圖特征。其中,采用平行的FCN網(wǎng)絡(luò)進[0108]本實施例中,通過獲取各文本區(qū)域元素融合特征對應(yīng)的結(jié)點,并確定各結(jié)點的預(yù)設(shè)個數(shù)的鄰近結(jié)點,進而將各結(jié)點與該結(jié)點對應(yīng)的各鄰近結(jié)點的文本區(qū)域元素融合特征進行融合,得到各結(jié)點對應(yīng)的鄰近融合特征。通過整合各結(jié)點的鄰近融合特征,得到聚合特征,并對各結(jié)點的聚合特征進行降維處理,得到降維后的多頭圖特征,得到的降維后的多頭圖特征即為與文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征。實現(xiàn)了對文本區(qū)域元素融合特征的進一步整合以及降維處理,得到降維后的多頭圖特征,便于和后續(xù)通過多頭注意力機制對文本區(qū)域元素融合特征進行上下文特征聚合得到的全局特征,進行進一步融合,以達到對目標表格圖像區(qū)域的整體識別,而不是針對單個文本區(qū)域的局部識別,提升表格識別準確度。[0109]在一個實施例中,如圖9所示,提供了一種表格結(jié)構(gòu)識別方法的整體流程,具體包括P1文本檢測部分、P2特征聚合部分以及P3鄰接關(guān)系預(yù)測部分,其中:[0111]1)采用Mask-RCNN網(wǎng)絡(luò)對目標表格區(qū)域進行目標檢測,得到相應(yīng)的RPN網(wǎng)絡(luò)(區(qū)域生成網(wǎng)絡(luò))識別結(jié)果,并根據(jù)RPN網(wǎng)絡(luò)識別結(jié)果確定目標表格區(qū)域內(nèi)的文本區(qū)域。其中,[0112]2)利用NMS算法(非極大值抑制算法)對識別得到的文本區(qū)域進行過濾,得到過濾后的文本區(qū)域。其中,文本區(qū)域的檢測結(jié)果如圖4所示,在目標表格區(qū)域內(nèi),具有如圖4所示的和各文本框?qū)?yīng)的文本區(qū)域。[0114]1)確定各文本區(qū)域的圖像特征和坐標特征,并分別將圖像特征、坐標特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征。[0115]在一個實施例中,確定各文本區(qū)域的圖像特征和坐標特征,并分別將圖像特征、坐標特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征,包括:[0116]獲取從目標表格圖像區(qū)域內(nèi)確定出各文本區(qū)域的位置坐標,并對文本區(qū)域的位置坐標進行升維,得到升維后的坐標特征;根據(jù)各文本區(qū)域的位置坐標,獲取對應(yīng)的文本區(qū)域的圖像內(nèi)容;基于文本區(qū)域的圖像內(nèi)容進行圖像特征對齊,得到對齊后的圖像特征,對齊后的圖像特征的維度與升維后的坐標特征的維度相同;對升維后的坐標特征、對齊后的圖像特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征。[0117]具體地,通過從目標表格圖像區(qū)域確定出各文本區(qū)域,并獲取各文本區(qū)域的位置坐標,進而采用FCN網(wǎng)絡(luò)(全連接網(wǎng)絡(luò))分別對各文本區(qū)域的位置坐標進行升維,得到升維后的坐標特征。根據(jù)文本區(qū)域的位置坐標,確定文本區(qū)域在目標表格圖像區(qū)域內(nèi)的具體位置,進而獲取對應(yīng)具體位置上的圖像內(nèi)容,確定為與該文本區(qū)域?qū)?yīng)的圖像內(nèi)容,并采用RoiAlign算法(即使用雙線性插值固定不同大小感興趣區(qū)域特征輸出的算法),對文本區(qū)域的圖像內(nèi)容進行圖像特征對齊。通過采用按點諸位相加的方式,將每個文本區(qū)域?qū)?yīng)的升維后的坐標特征、對齊后的圖像特征進行融合,以得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征。[0118]2)根據(jù)文本區(qū)域元素融合特征,確定目標表格圖像區(qū)域中各結(jié)點的鄰接特征。[0119]具體地,根據(jù)文本區(qū)域元素融合特征,確定目標表格圖像區(qū)域中各結(jié)點的鄰接特[0120]獲取各文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征和全局特征;基于局部特征和全局特征進行特征聚合,得到目標表格圖像區(qū)域中各結(jié)點的鄰接特征。[0121]在一個實施例中,獲取各文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征,包括:[0122]獲取各文本區(qū)域元素融合特征對應(yīng)的結(jié)點,并確定各結(jié)點的預(yù)設(shè)個數(shù)的鄰近結(jié)點;將各結(jié)點與該結(jié)點對應(yīng)的各鄰近結(jié)點的文本區(qū)域元素融合特征進行融合,得到各結(jié)點對應(yīng)的鄰近融合特征;整合各結(jié)點的鄰近融合特征,得到聚合特征;對各結(jié)點的聚合特征進行降維處理,得到降維后的多頭圖特征,降維后的多頭圖特征為與文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征。[0123]具體地,采用K-鄰近算法(k-NearestNeighboralgorithm),分別確定出各文本區(qū)域元素融合特征對應(yīng)的結(jié)點的K個鄰近結(jié)點,將K個鄰近結(jié)點的文本區(qū)域元素特征,和該結(jié)點的文本區(qū)域元素融合特征進行特征融合,以得到各結(jié)點的鄰近融合特征,采用FCN網(wǎng)絡(luò)(全連接網(wǎng)絡(luò))整合結(jié)點的鄰近融合特征,得到相應(yīng)的聚合特征。進一步采用預(yù)設(shè)個平行的[0124]在一個實施例中,獲取各文本區(qū)域元素融合特征對[0125]根據(jù)多頭注意力機制,對與各結(jié)點對應(yīng)的文本區(qū)域元素融合特征進行上下文特征聚合,得到與文本區(qū)域元素融合特征對應(yīng)的結(jié)點的全局特征。[0126]其中,通過采用transformer模型(基于自注意力機制的語言模型)的編碼器對文本區(qū)域元素融合特征進行表征,其中transformer模型的隱層大小為128,文本區(qū)域元素融合特征的維度為128維。其中,設(shè)置的多頭注意力機制(Multi-headattention)對應(yīng)的head數(shù)可以為8,根據(jù)多頭注意力機制,對與各結(jié)點對應(yīng)的文本區(qū)域元素融合特征進行上下文特征聚合時,得到的與文本區(qū)域元素融合特征對應(yīng)的結(jié)點的全局特征的維度為16維,而采用8個平行的FCN網(wǎng)絡(luò),對結(jié)點的128維聚合特征進行降維處理,得到降維后的多頭圖特征的維度同樣為16維。[0127]在一個實施例中,基于局部特征和全局特征進行特征聚合,得到目標表格圖像區(qū)[0128]獲取與門機制對應(yīng)的各個門參數(shù);基于預(yù)設(shè)激活函數(shù)、各門參數(shù),對局部特征和全局特征進行特征聚合,得到與目標表格圖像區(qū)域中各結(jié)點的鄰接特征。[0129]在一個實施例中,如圖10所示,提供了一種用于生成鄰接特征的FLAG網(wǎng)絡(luò)結(jié)構(gòu)示結(jié)構(gòu)設(shè)置有用于確定出局部特征的GNN分支(GraphNeuralNetworks,即圖神經(jīng)網(wǎng)絡(luò)),包括GNN?……、GNN,用于確定出全局特征的self-attention(自注意力機制)分支,包括self-attentionhead?、……、self-attentionhead,用于控制不同類型的特征融合的gate機制(門機制),gate機制對應(yīng)的門參數(shù)包括gate1、……gate,以及用于提升模型的表征能力的FFN(Feed-ForwardNetwork,前饋神經(jīng)網(wǎng)絡(luò))。其中,GNN分支數(shù)量、self-attention分支數(shù)量以及gate機制數(shù)量一致。[0130]具體地,self-attention(自注意力機制)分支中是采用transformer模型(基于自注意力機制的語言模型)的編碼器對文本區(qū)域元素融合特征進行表征,參照圖10可知,transformer模型使用的注意力函數(shù)包括:Q(請求(query))、K(主鍵(key))、V(數(shù)值[0131]進一步地,由于self-attention(自注意力機制)分支是多頭注意力機制,則相應(yīng)設(shè)置有多個head,包括head?、head?、……、head,transformer模型使用的注意力函數(shù)針對[0132]具體來說,通過獲取預(yù)設(shè)激活函數(shù),以及gate機制對應(yīng)的門參數(shù),包括,gate?……、gate,并基于預(yù)設(shè)激活函數(shù)、各門參數(shù),對各結(jié)點的局部特征和全局特征進行特征聚合,得到與目標表格圖像區(qū)域中各結(jié)點的鄰接特征。其中,采用FFN(Feed-ForwardNetwork,前饋神經(jīng)網(wǎng)絡(luò))對進行特征聚合得到的鄰接特征進一步識別和分析,提升模型的表征能力。[0133]在本實施例中,設(shè)置有四層FLAG網(wǎng)絡(luò)結(jié)構(gòu),將每層FLAG網(wǎng)絡(luò)結(jié)構(gòu)輸出的鄰接特征進一步進行特征融合,最終確定得到標表格圖像區(qū)域中各結(jié)點的鄰接特征。[0135](1)將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果。[0136]在一個實施例中,將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,包括:[0137]將任意兩個結(jié)點的鄰接特征進行特征拼接,得到拼接后的鄰接矩陣;根據(jù)全連接神經(jīng)網(wǎng)絡(luò)對拼接后的鄰接矩陣,進行二分類預(yù)測,得到相應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)[0138]具體地,根據(jù)全連接網(wǎng)絡(luò)對拼接后的鄰接矩陣進行二分類預(yù)測,確定拼接的鄰接矩陣對應(yīng)的兩個文本區(qū)域是否屬于表格中的同一行,或者判斷拼接的鄰接矩陣對應(yīng)的兩個文本區(qū)域是否屬于表格中的同一列,進而得到相應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果。[0139]進一步的,得到的各文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,可參照圖5所示的表格結(jié)構(gòu)識別方法的行關(guān)系預(yù)測結(jié)果,以及圖6所示的表格結(jié)構(gòu)識別方法的列關(guān)系預(yù)測結(jié)果。[0140](2)基于各文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與目標表格圖像區(qū)域?qū)?yīng)的表格[0141]具體地,根據(jù)對每兩個文本區(qū)域的行列關(guān)系的預(yù)測結(jié)果,可進一步確定出具體哪些文本區(qū)域?qū)儆谕恍校男┪谋緟^(qū)域?qū)儆谕涣?,對不同文本區(qū)域的行列關(guān)系以及位置坐標進行進一步分析和排列,可確定與目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。[0142]上述表格結(jié)構(gòu)識別方法中,通過獲取目標表格圖像區(qū)域,識別目標表格圖像區(qū)域中的文本區(qū),并確定各文本區(qū)域的圖像特征和坐標特征,分別將圖像特征、坐標特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征,可通過對目標表格圖像區(qū)域內(nèi)的不同文本區(qū)域進行圖像特征、坐標特征的融合,以達到對目標表格圖像區(qū)域的整體識別,而不是針對單個文本區(qū)域的局部識別。進而根據(jù)文本區(qū)域元素融合特征,確定目標表格圖像區(qū)域中各結(jié)點的鄰接特征,并將任意兩個結(jié)點的鄰接特征進行特征拼接,通過對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,進而基于各文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。實現(xiàn)了根據(jù)對各文本區(qū)域的行列關(guān)系的預(yù)測結(jié)果,即可確定得到相應(yīng)的表格結(jié)構(gòu),而無需利用額外的文本檢測網(wǎng)絡(luò)進一步進行識別,可減少不必要繁瑣操作,進而提高了表格識別準確度和識別效率。[0143]應(yīng)該理解的是,雖然上述實施例涉及的各流程圖中的各個步驟按照箭頭的指示依次顯示,但是這些步驟并不是必然按照箭頭指示的順序依次執(zhí)行。除非本文中有明確的說明,這些步驟的執(zhí)行并沒有嚴格的順序限制,這些步驟可以以其它的順序執(zhí)行。而且,上述實施例涉及的各流程圖中的至少一部分步驟可以包括多個步驟或者多個階段,這些步驟或者階段并不必然是在同一時刻執(zhí)行完成,而是可以在不同的時刻執(zhí)行,這些步驟或者階段的執(zhí)行順序也不必然是依次進行,而是可以與其它步驟或者其它步驟中的步驟或者階段的至少一部分輪流或者交替地執(zhí)行。[0144]在一個實施例中,如圖11所示,提供了一種表格結(jié)構(gòu)識別裝置,該裝置可以采用軟件模塊或硬件模塊,或者是二者的結(jié)合成為計算機設(shè)備的一部分,該裝置具體包括:文本區(qū)域識別模塊1102、文本區(qū)域元素融合特征生成模塊1104、鄰接特征生成模塊1106、行列關(guān)系預(yù)測結(jié)果生成模塊1108以及表格結(jié)構(gòu)確定模塊1110,其中:[0145]文本區(qū)域識別模塊1102,用于獲取目標表格圖像區(qū)域,識別目標表格圖像區(qū)域中的文本區(qū)域。[0146]文本區(qū)域元素融合特征生成模塊1104,用于確定各文本區(qū)域的圖像特征和坐標特征,并分別將圖像特征、坐標特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特[0147]鄰接特征生成模塊1106,用于根據(jù)文本區(qū)域元素融合特征,確定目標表格圖像區(qū)域中各結(jié)點的鄰接特征。[0148]行列關(guān)系預(yù)測結(jié)果生成模塊1108,用于將任意兩個結(jié)點的鄰接特征進行特征拼接,并對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果。[0149]表格結(jié)構(gòu)確定模塊1110,用于基于各文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。[0150]上述表格結(jié)構(gòu)識別裝置中,通過獲取目標表格圖像區(qū)域,識別目標表格圖像區(qū)域中的文本區(qū),并確定各文本區(qū)域的圖像特征和坐標特征,分別將圖像特征、坐標特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征,可通過對目標表格圖像區(qū)域內(nèi)的不同文本區(qū)域進行圖像特征、坐標特征的融合,以達到對目標表格圖像區(qū)域的整體識別,而不是針對單個文本區(qū)域的局部識別。進而根據(jù)文本區(qū)域元素融合特征,確定目標表格圖像區(qū)域中各結(jié)點的鄰接特征,并將任意兩個結(jié)點的鄰接特征進行特征拼接,通過對拼接得到的鄰接矩陣進行分類預(yù)測,生成與該兩個結(jié)點對應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,進而基于各文本區(qū)域的行列關(guān)系預(yù)測結(jié)果,確定與目標表格圖像區(qū)域?qū)?yīng)的表格結(jié)構(gòu)。實現(xiàn)了根據(jù)對各文本區(qū)域的行列關(guān)系的預(yù)測結(jié)果,即可確定得到相應(yīng)的表格結(jié)構(gòu),而無需利用額外的文本檢測網(wǎng)絡(luò)進一步進行識別,可減少不必要繁瑣操作,進而提高了表格識別準確度和識別效率。[0151]在一個實施例中,文本區(qū)域元素融合特征生成模塊還用于:[0152]獲取從目標表格圖像區(qū)域內(nèi)確定出各文本區(qū)域的位置坐標,并對文本區(qū)域的位置坐標進行升維,得到升維后的坐標特征;根據(jù)各文本區(qū)域的位置坐標,獲取對應(yīng)的文本區(qū)域的圖像內(nèi)容;基于文本區(qū)域的圖像內(nèi)容進行圖像特征對齊,得到對齊后的圖像特征,對齊后的圖像特征的維度與升維后的坐標特征的維度相同;對升維后的坐標特征、對齊后的圖像特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征。[0153]上述文本區(qū)域元素融合特征生成模塊,實現(xiàn)了對升維后的坐標特征、對齊后的圖像特征進行融合,得到與各文本區(qū)域?qū)?yīng)的文本區(qū)域元素融合特征,能夠達到對目標表格圖像區(qū)域內(nèi)的所有文本區(qū)域的整體識別,而不是針對單個文本區(qū)域的局部識別,進而提高對目標表格圖像區(qū)域的表格識別準確度。[0154]在一個實施例中,文本區(qū)域元素融合特征生成模塊還包括:[0155]交并比計算單元,用于計算目標表格圖像區(qū)域內(nèi)的各文本區(qū)域與預(yù)設(shè)標注文本區(qū)域的交并比;[0156]文本區(qū)域篩選模塊,用于篩選出交并比大于預(yù)設(shè)交并比閾值的文本區(qū)域。[0158]獲取各文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征和全局特征;基于局部特征和全局特征進行特征聚合,得到目標表格圖像區(qū)域中各結(jié)點的鄰接特征。[0160]鄰近結(jié)點獲取模塊,用于獲取各文本區(qū)域元素融合特征對應(yīng)的結(jié)點,并確定各結(jié)點的預(yù)設(shè)個數(shù)的鄰近結(jié)點;[0161]鄰近融合特征生成模塊,用于將各結(jié)點與該結(jié)點對應(yīng)的各鄰近結(jié)點的文本區(qū)域元素融合特征進行融合,得到各結(jié)點對應(yīng)的鄰近融合特征;[0162]聚合特征生成模塊,用于整合各結(jié)點的鄰近融合特征,得到聚合特征;[0163]局部特征生成模塊,用于對各結(jié)點的聚合特征進行降維處理,得到降維后的多頭圖特征,降維后的多頭圖特征為與文本區(qū)域元素融合特征對應(yīng)的結(jié)點的局部特征。[0164]上述鄰接特征生成模塊,實現(xiàn)了對文本區(qū)域元素融合特征的進一步整合以及降維處理,得到降維后的多頭圖特征,便于和后續(xù)通過多頭注意力機制對文本區(qū)域元素融合特征進行上下文特征聚合得到的全局特征,進行進一步融合,以達到對目標表格圖像區(qū)域的整體識別,而不是針對單個文本區(qū)域的局部識別,提升表格識別準確度。[0165]在一個實施例中,鄰接特征生成模塊還包括全局特征生成模塊,用于:[0166]根據(jù)多頭注意力機制,對與各結(jié)點對應(yīng)的文本區(qū)域元素融合特征進行上下文特征聚合,得到與文本區(qū)域元素融合特征對應(yīng)的結(jié)點的全局特征。[0167]在一個實施例中,行列關(guān)系預(yù)測結(jié)果生成模塊還用于:[0168]將任意兩個結(jié)點的鄰接特征進行特征拼接,得到拼接后的鄰接矩陣;根據(jù)全連接神經(jīng)網(wǎng)絡(luò)對拼接后的鄰接矩陣,進行二分類預(yù)測,得到相應(yīng)的文本區(qū)域的行列關(guān)系預(yù)測結(jié)[0169]關(guān)于表格結(jié)構(gòu)識別裝置的具體限定可以參見上文中對于表格結(jié)構(gòu)識別方法的限定,在此不再贅述。上述表格結(jié)構(gòu)識別裝置中的各個模塊可全部或部分通過軟件、硬件及其組合來實現(xiàn)。上述各模塊可以硬件形式內(nèi)嵌于或獨立于計算機設(shè)備中的處理器中,也可以以軟件形式存儲于計算機設(shè)備中的存儲器中,以便于處理器調(diào)用執(zhí)行以上各個模塊對應(yīng)的操作。[0170]在一個實施例中,提供了一種計算機設(shè)備,該計算機設(shè)備可以是服務(wù)器,其內(nèi)部結(jié)構(gòu)圖可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論