CN114332519B 一種基于外部三元組和抽象關系的圖像描述生成方法 (杭州電子科技大學)_第1頁
CN114332519B 一種基于外部三元組和抽象關系的圖像描述生成方法 (杭州電子科技大學)_第2頁
CN114332519B 一種基于外部三元組和抽象關系的圖像描述生成方法 (杭州電子科技大學)_第3頁
CN114332519B 一種基于外部三元組和抽象關系的圖像描述生成方法 (杭州電子科技大學)_第4頁
CN114332519B 一種基于外部三元組和抽象關系的圖像描述生成方法 (杭州電子科技大學)_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號CN114332519B(65)同一申請的已公布的文獻號(43)申請公布日2022.04.12(73)專利權(quán)人杭州電子科技大學地址310018浙江省杭州市下沙高教園區(qū)2號大街(72)發(fā)明人姜明陳景翔張旻李鵬飛(74)專利代理機構(gòu)杭州君度專利代理事務所(特殊普通合伙)33240專利代理師朱月芬GO6N3/0464(2023.01)(54)發(fā)明名稱一種基于外部三元組和抽象關系的圖像描述生成方法本發(fā)明公開了一種基于外部三元組和抽象關系的圖像描述生成方法。本發(fā)明首先提取圖像描述文本中的三元組,構(gòu)建外部關系庫并對三元組進行特征編碼。將文本相似度高于閾值的三元組聚類為一類。同時模型對圖像進行目標檢測得得到目標視覺特征集合與目標類別集合;根據(jù)文本相似度在外部關系庫中查詢目標與目標類別相似的三元組。模型利用目標視覺特征對圖像的利用卷積神經(jīng)網(wǎng)絡融合視覺特征與文本特征,對目標、屬性、關系編碼特征與相似關系和抽象關系的編碼特征,輸入到雙層LSTM序列生成視覺模塊視覺模塊視覺特征預割目標構(gòu)建場景圖預測關系編碼模塊外部知識模塊構(gòu)建外部關系庫聚類抽象關系motoreycledownacountmopedonaditroa場景圖端碼融合特征且標檢測解碼模塊2步驟(2)根據(jù)三元組中關系rel的文本相似度,將文本相似度高于設定閾值的三元組聚屬性attr、關系rel的類別詞向量e。,ea,e以及它們對應的視覺特征v。,va,V;4-2為了獲得更好的節(jié)點特征,融合對應類別詞向量與視覺特征,u=ReLU(W?e+W?v)-(W?e-W?v2.根據(jù)權(quán)利要求1所述的一種基于外部三元組和抽象關系的圖像描述生成方法,其特3OpenIE,提取圖像文本描述中的三元組R={subject,predicate,object},構(gòu)建外部關系1-2使用預訓練語言模型BERT對圖像文本描述進行編碼,得到所有圖像文本描述中每個單詞的特征編碼;設圖像文本描述由K個單詞構(gòu)成,則該段圖像文本描述的特征向量為1-3由于提取的三元組是在圖像文本描述中出現(xiàn)過的單詞,假設三個單詞在圖像文本描述中的位置為i,j,k,則三元組的編碼特征d為三元組在描述對應位置的特征編碼的平均3.根據(jù)權(quán)利要求2所述的一種基于外部三元組和抽象關系的圖像描述生成方法,其特元組集合Rabs={ri,r?,r3,…rk?},則該類抽象關系4.根據(jù)權(quán)利要求3所述的一種基于外部三元組和抽象關系的圖像描述生成方法,其特3-1使用在VisualGenome數(shù)據(jù)集上預先訓練的FasterRCNN對圖像進行目標檢測,F(xiàn)asterRCNN能夠獲得目標類別W以及相應目標在圖像中的區(qū)域以及特征;針對圖像I,取FasterRCNN最終輸出并得到的目標類別集合W={w?,W?,…,w},w∈R以合V={v?,V?,…,v},v∈R°,如3-2根據(jù)目標類別集合W,按照公式(2)計算文本相似度,在外部關系庫中查詢與目標類相似關系即三元組集合Rsim={r1,r1,r1,…rK?},則該類相似關系Rs的特征編碼如公45.根據(jù)權(quán)利要求4所述的一種基于外部三元組和抽象關系的圖像描述生成方法,其特征在于步驟(5)所述,具體實現(xiàn)過程如下:5-1將歸納偏置融入到圖像描述生成模型中,模型融合場景圖編碼特征與關系的編碼特征,得到最終的融合特征V^,如公式(10)所示;其中,D是相似關系編碼特征Dsm與抽象關系編碼特征Dabs的拼接,V是場景圖編碼特征Vrxy,Vax,V?的拼接;5-2在MSCOCO數(shù)據(jù)集上進行端到端的訓練,epoch設置為20,學習率為0.00001,batchsize為16,使用Adam優(yōu)化器漸進式的調(diào)整學習率;在推理過程中使用波束搜索,波束大小為5;利用標準的交叉熵損失來訓練模型,公式(11)所示;其中,T為輸入序列的長度,y,為輸入第t個特征后生成的單詞,y1為真實描述的第1至t5-3將測試圖像輸入到模型中,獲得圖像描述。5技術(shù)領域[0001]本文發(fā)明涉及圖像描述生成方法,具體來講是一種基于外部三元組和抽象關系的圖像描述生成方法,屬于圖像描述生成領域。背景技術(shù)[0002]圖像描述生成是計算機視覺和自然語言處理相結(jié)合的綜合性任務,具有極大的挑戰(zhàn)性。受到自然語言處理領域編碼解碼器、注意力機制與基于強化學習的訓練目標啟發(fā),現(xiàn)代圖像描述生成模型取得了驚人的進展,研究者對圖像描述生成領域的關注也日益增長。在一些評價指標上甚至超過了人類。[0003]圖像描述生成方法的技術(shù)不斷發(fā)展,但是存在一個從未解決但是不容忽視的問題,就是現(xiàn)有模型僅是對圖像中顯著目標的簡單描述,生成的效果甚至不如對圖像進行一系列的目標檢測。在上下文推理的過程中,人會利用之前學習到的知識,幫助我們更好完成地完成推理。此外,有研究表明,基于視覺的語言生成并非是端到端的,而是與高層抽象符號有關。如果把視覺場景抽象成符號,生成過程就會變得清晰。受此啟發(fā),本文從圖像描述中提取三元組,構(gòu)建外部關系庫,根據(jù)圖像的目標類別查詢相似關系,為模型提供先驗知發(fā)明內(nèi)容[0004]本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足,提供一種基于外部三元組和抽象關系的圖像描述生成方法,以解決傳統(tǒng)的圖像描述生成方法無法生成的描述過于簡單的問題,并且在原有基礎上提高預測準確性。[0005]本發(fā)明有益效果如下:[0006]本發(fā)明從圖像描述中提取三元組,構(gòu)建外部關系庫,將與圖像相關的相似關系融入模型中,使模型生成描述的表述更加豐富。[0007]本發(fā)明根據(jù)文本相似度將三元組聚類,生成抽象關系并融入模型中,使得模型生成的描述更加準確。附圖說明[0008]圖1是本發(fā)明的整體實施方案流程圖[0009]圖2是本發(fā)明的構(gòu)建外部三元組與抽象關系示意圖[0010]圖3是本發(fā)明的場景圖生成示意圖[0011]圖4是本發(fā)明的圖像描述生成示意圖[0012]圖5是本發(fā)明的整體結(jié)構(gòu)示意圖具體實施方式[0013]下面結(jié)合附圖對本發(fā)明作進一步描述。6[0014]參照圖1和5所示是本發(fā)明的整體實施方案流程圖。[0015]為了解決這些問題,本發(fā)明在構(gòu)建了外部關系庫,根據(jù)圖像目標類別從庫中查詢相似關系與抽象關系,與場景圖特征相融合。具體來說,首先使用開放域知識抽取工具,提取圖像描述文本中的三元組,構(gòu)建外部關系庫,并對三元組進行特征編碼。根據(jù)三元組中關系的文本相似度,將相似度高的三元組聚類為一類,稱之為抽象關系。同時,模型對圖像進行目標檢測,得到目標視覺特征與語義標簽。模型根據(jù)文本相似度,在外部關系庫中查詢主系分別進行預測,生成場景圖,并利用多模態(tài)圖卷積神經(jīng)網(wǎng)絡融合視覺特征與文本特征,對[0016]參照圖1和5所示,一種基于外部三元組和抽象關系的圖像描述生成方法,包括以下步驟:[0017]一種基于外部三元組和抽象關系的圖像描述生成方法,包括以下步驟:[0018]步驟(1)使用開放域知識抽取工具,提取圖像描述文本中的三元組,構(gòu)建外部關系[0019]步驟(2)根據(jù)三元組中關系rel的文本相似度,將文本相似度高于設定閾值的三元[0020]步驟(3)對圖像進行目標檢測,得到目標視覺特征集合V與目標類別集合W;根據(jù)文本相似度,在外部關系庫中查詢主語或賓語(即目標obj)與目標類別相似的三元組,稱之為[0021]步驟(4)利用目標視覺特征V,對圖像的目標obj、屬性attr、關系rel分別進行預[0022]步驟(5)圖像描述生成模型用于融合場景圖編碼特征與關系編碼特征,得到融合特征;所述的關系編碼特征包括相似關系的編碼特征和抽象關系的編碼特征;融合特征輸入到圖像描述生成模型的雙層LSTM解碼器中進行訓練,挑選最優(yōu)訓練模型;將圖像輸入訓練好的圖像描述生成模型,輸出對應的圖像描述。[0023]進一步的,如圖2所示,步驟(1)所述具體實[0024]1-1使用MSCOC0與VisualGenome數(shù)據(jù)集中的圖像文本描述,利用開工具OpenIE,提取圖像文本描述中的三元組R={subject,predicate,object},構(gòu)建外部關系庫;[0025]1-2使用預訓練語言模型BERT對圖像文本描述進行編碼,得到所有圖像文本描述中每個單詞的特征編碼;設圖像文本描述由K個單詞構(gòu)成,則該段圖像文本描述的特征向量為{e?,e?,e?,…,ek,.…,eg},其中e表示第k個單詞的特征編碼,為768維特征向量;[0026]1-3由于提取的三元組是在圖像文本描述中出現(xiàn)過的單詞,假設三個單詞在圖像文本描述中的位置為i,j,k,則三元組的編碼特征d為三元組在描述對應位置的特征編碼的7[0029]2-1計算文本相似度,使用余弦相似度作為計算函數(shù),假設兩個三元組的編碼特征分別為di,,dj,則兩個三元組的相似度如公式(2)所示;[0032]2-2使用無監(jiān)督文本聚類算法,將文本相似度大于設定閾值的三元組聚為一類,稱之為抽象關系Rabs;[0033]2-3對抽象關系Ras進行特征表示,假設抽象關系Rabs存在K?個三元組,則抽象關系即三元組集合Rabs={r1,r?,r3,…rk?},則該類抽象關系Rab的特征編碼如公式(3)所[0037]3-1使用在VisualGenome數(shù)據(jù)集上預先訓練的FasterRCNN對圖像進行目標檢測,F(xiàn)asterRCNN能夠獲得目標類別W以及相應目標在圖像中的區(qū)域以及特征;針對圖像I,取FasterRCNN最終輸出并得到的目標類別集合W={w?,W?,…,w},w∈R‘以及目標視覺特征集合V={v?,V?,…,v},v∈R?,如公式(4)所示;[0038]W,V=Faster[0039]3-2根據(jù)目標類別集合W,按照公式(2)計算文本相似度,在外部關系庫中查詢與目標類別相似的三元組,稱之為相似關系Rs;m;[0040]3-3與抽象關系類似,對相似關系R;m進行特征表示,假設相似關系存在K?個三元組,則相似關系即三元組集合,則該類相似關系Rim的特征編碼如公式(5)所示;[0044]4-1利用目標視覺特征V,對圖像的目標obj、屬性attr、關系rel分別進行預測,生器進行屬性預測;對于關系,利用MOTIFS場景圖生成模型進行關系檢測;最終分別得到目標[0045]4-2為了獲得更好的節(jié)點特征,融合對應類別詞向量與視覺特征,通過公式(6)得[0047]4-3將融合后的融合節(jié)點特征u。,ua,u_輸入到多模態(tài)圖卷積神經(jīng)網(wǎng)絡MGCN中進行80,為其中的主語目標;obj(o)為第x個目標節(jié)點的賓語節(jié)點集合,o為其中的賓語目標;[0053]5-1將歸納偏置融入到圖像描述生成模型中,模型融合場景圖編碼特征與關系的[0056]5-2在MSCOCO數(shù)據(jù)集上進行端到端的訓練,epoch設置為20,學習率為0.00001,[0060]基于本專利發(fā)明的圖像描述生成方法與現(xiàn)有的基準模型和基于先驗知識的圖像模型MRCS本專利9價指標上均與其他模型有較高的提升,說明基于外部三元組和抽象關系的圖像描述生成方法在提高圖像描述生成上發(fā)明有效。開始開始提取三元組構(gòu)建外部關系庫聚類抽象關系將圖像輸入Faster-RCNN進行目標檢測查詢相似關系三元組特征編碼融合特征編碼輸入序列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論