版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號CN117390213B(65)同一申請的已公布的文獻(xiàn)號地址215123江蘇省蘇州市工業(yè)園區(qū)獨(dú)墅湖高等教育區(qū)仁愛路111號(74)專利代理機(jī)構(gòu)蘇州創(chuàng)智高諾知識產(chǎn)權(quán)代理有限公司32843專利代理師葉棟US2023134531A1,2023.(54)發(fā)明名稱基于OSCAR的圖文檢索模型的訓(xùn)練方法和實(shí)現(xiàn)圖文檢索的方法本發(fā)明提供一種基于OSCAR的圖文檢索模型的訓(xùn)練方法和實(shí)現(xiàn)圖文檢索的方法,訓(xùn)練方法包括:獲取訓(xùn)練集;將訓(xùn)練集中的多個(gè)圖像-文本樣本對輸入面向視覺語言任務(wù)的預(yù)訓(xùn)練模型OSCAR中,進(jìn)行特征提取獲得圖像特征表示和文本特征表示;將訓(xùn)練集中的每個(gè)樣本作為錨點(diǎn)樣本,基于圖像特征表示和文本特征表示,生成錨點(diǎn)樣本對應(yīng)的多個(gè)不同難度的負(fù)樣本;計(jì)算正樣本對中圖像與文本的正相似度、負(fù)樣本對和生成的負(fù)樣本對中圖像與文本之間的負(fù)相似度;基于正相似度和負(fù)相似度計(jì)算損失函數(shù),通過損失函數(shù)對預(yù)獲取訓(xùn)練集,該訓(xùn)練集包括多個(gè)圖像-獲取訓(xùn)練集,該訓(xùn)練集包括多個(gè)圖像-文本樣本對將訓(xùn)練集中的多個(gè)圖像-文本樣本對輸入面向視覺語言任務(wù)的預(yù)訓(xùn)練模型QSCAR中,進(jìn)行特征提取獲取圖像特征表示和文本特征表示將訓(xùn)練集中的每個(gè)樣本作為錯(cuò)點(diǎn)樣本,基于圖像特征表示和所述文本特征表示,生成錨點(diǎn)樣本對應(yīng)的多個(gè)不同難度的負(fù)樣本。其中,生成的負(fù)樣本與錨點(diǎn)樣本組成生成的負(fù)樣本計(jì)算正樣本對中圖像與文本的正相似度、負(fù)樣本對和生成的負(fù)樣本對中圖像與文本之間的負(fù)相似度基于正相似度和負(fù)相似度計(jì)算損失函數(shù),通過損失函數(shù)對預(yù)訓(xùn)練模型0SCAR進(jìn)行微調(diào),得到完成訓(xùn)練的OSCAR圖文檢索模型2獲取訓(xùn)練集,所述訓(xùn)練集包括多個(gè)圖像-文本樣本對;將所述訓(xùn)練集中的多個(gè)圖像-文本樣本對輸入面向視覺語言任務(wù)的預(yù)訓(xùn)練模型OSCAR中,進(jìn)行特征提取獲得圖像特征表示和文本特征表示;將所述訓(xùn)練集中的每個(gè)樣本作為錨點(diǎn)樣本,基于所述圖像特征表示和所述文本特征表示,生成所述錨點(diǎn)樣本對應(yīng)的多個(gè)不同難度的負(fù)樣本;生成的負(fù)樣本與所述錨點(diǎn)樣本組成生成的負(fù)樣本對;計(jì)算正樣本對中圖像與文本的正相似度、負(fù)樣本對和所述生成的負(fù)樣本對中圖像與文本之間的負(fù)相似度;基于所述正相似度和負(fù)相似度計(jì)算損失函數(shù),通過所述損失函數(shù)對所述視覺語言預(yù)訓(xùn)所述將所述訓(xùn)練集中的每個(gè)樣本作為錨點(diǎn)樣本,基于所述圖像特征表示和所述文本特征表示,生成所述錨點(diǎn)樣本對應(yīng)的多個(gè)不同難度的負(fù)樣本,包括:選取一個(gè)樣本作為所述錨點(diǎn)樣本q,所述樣本為圖像樣本或文本樣本;基于所述錨點(diǎn)樣本q,對所述訓(xùn)練集中的每個(gè)樣本進(jìn)行全局語義聚類,得到負(fù)樣本聚類集合G={g?,g?,…,g折},其中,g={xi1,xi2,…,xin}表示具有相似語義的N個(gè)負(fù)樣本的負(fù)樣本集合,x:;表示該負(fù)樣本集合g;中第j個(gè)負(fù)樣本,i取1到M中的任意整數(shù),j取1到N中的任意整數(shù);基于核函數(shù)計(jì)算每個(gè)負(fù)樣本與所述錨點(diǎn)樣本q之間的相似度以及對應(yīng)的權(quán)重,進(jìn)行加權(quán)平均獲得多個(gè)不同難度的負(fù)樣本;所述基于核函數(shù)計(jì)算每個(gè)負(fù)樣本與所述錨點(diǎn)樣本q之間的相似度以及對應(yīng)的權(quán)重,進(jìn)行加權(quán)平均獲得多個(gè)不同難度的負(fù)樣本,包括:基于高斯徑向基函數(shù)計(jì)算每個(gè)負(fù)樣本與錨點(diǎn)樣本之間的相似度:根據(jù)以下公式計(jì)算每個(gè)負(fù)樣本與錨點(diǎn)樣本間的相似度對應(yīng)的權(quán)重W:算誤差;通過加權(quán)平均計(jì)算得到生成的負(fù)樣本:其中,qh表示生成的與錨點(diǎn)樣本對應(yīng)的負(fù)樣本;若錨點(diǎn)樣本為圖像樣本v,則生成的負(fù)樣本為文本負(fù)樣本Ch;若錨點(diǎn)樣本為文本樣本c,3度和負(fù)相似度的集合,SC表示錨點(diǎn)樣本為文本樣本時(shí)正相似度和負(fù)相似度的集合;3.根據(jù)權(quán)利要求1所述的訓(xùn)練方法,其特征在于,所述將所述訓(xùn)練集中的多個(gè)圖像-文獲取所述訓(xùn)練集中的圖像樣本,提取所述圖像樣本的區(qū)域視覺特征和區(qū)域位置特征,獲取所述訓(xùn)練集中的文本樣本,采用分詞技術(shù)將所述文本樣本劃分為多個(gè)標(biāo)記,基于基于所述圖像嵌入和所述文本嵌入,采用注意力機(jī)制生成聯(lián)4.一種利用OSCAR圖文檢索模型實(shí)現(xiàn)圖文檢索的方法,所述OS基于所述圖文檢索模型中的文本編碼器對所述目標(biāo)文本進(jìn)行特征提取,得到文本特征基于所述圖文檢索模型中的圖像編碼器對所述目標(biāo)圖像進(jìn)行特征提取,得到圖像特征基于所述文本特征表示及所述圖像特征表示,確定所述目標(biāo)文本在所述目標(biāo)圖像中的5.一種采用如權(quán)利要求1-3任一項(xiàng)所述的基于OSCAR的圖文檢索模型訓(xùn)練方法的訓(xùn)練特征提取模塊,用于將所述訓(xùn)練集中的多個(gè)圖像-文本樣本對輸入面向視覺語言任務(wù)負(fù)樣本合成模塊,用于將所述訓(xùn)練集中的每個(gè)樣本作為錨點(diǎn)樣本,基于所述圖像特征相似度計(jì)算模塊,用于計(jì)算正樣本對中圖像與文本的正相似度、負(fù)樣本對和所述生成4對比損失計(jì)算模塊,用于基于所述正相似度和負(fù)相似度計(jì)算損失函數(shù),通過所述損失6.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括處理器和存儲器;所述存儲器存儲有至少一條指令,所述至少一條指令用于被所述處理器執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至4任一所述的方法。7.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述存儲介質(zhì)存儲有至少一條指令,所述至少一條指令用于被處理器執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至4任一所述的方法。5方法技術(shù)領(lǐng)域[0001]本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,尤其涉及一種基于OSCAR的圖文檢索模型的訓(xùn)練方法和實(shí)現(xiàn)圖文檢索的方法。背景技術(shù)[0002]圖文檢索的目的是將給定的一張圖片與對應(yīng)的文字描述進(jìn)行關(guān)聯(lián),從而實(shí)現(xiàn)圖像和文本之間的匹配。圖文檢索在許多重要的跨模態(tài)任務(wù)中發(fā)揮著關(guān)鍵作用,如語義圖像檢和語義差異,異質(zhì)性差異指的是來自不同模態(tài)的圖像和文本數(shù)據(jù)的特征表示不一致,而語義差異則是指在捕捉圖像和文本之間的跨模態(tài)對應(yīng)關(guān)系時(shí)出現(xiàn)的錯(cuò)位問題。[0003]目前,許多研究通過使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等預(yù)訓(xùn)練模塊來提取圖像和文本特征,以彌合異質(zhì)性差異。然而,這些預(yù)訓(xùn)練模塊中的特征提取器未經(jīng)過專門的圖像-文本對數(shù)據(jù)訓(xùn)練或者網(wǎng)絡(luò)化處理,因此無法達(dá)到較好的圖像或文本嵌入效果。另一種常見的圖文匹配方法是利用三重?fù)p失來鼓勵(lì)模型使得正圖像-文本對的相似性得分高于負(fù)圖像-文本對的相似的得分。然而現(xiàn)有的成本函數(shù)涉及并未充分考慮負(fù)樣本的難度,這是導(dǎo)致模型圖文匹配不準(zhǔn)確的主要原因之一。一些研究表明,增加批次規(guī)模以獲得更多的負(fù)樣本會導(dǎo)致計(jì)算復(fù)雜度的急劇增加,同時(shí)性能提升的回報(bào)也逐漸降低。[0004]目前在面向視覺語言任務(wù)中,OSCAR模型的性能非常強(qiáng)大,其已經(jīng)在幾百萬對圖像-文本對上進(jìn)行了預(yù)訓(xùn)練,將圖像和文本進(jìn)行聯(lián)合處理以獲取有意義的特征表示,能夠捕捉到文本和圖像之間錯(cuò)綜復(fù)雜的關(guān)聯(lián),并學(xué)習(xí)更具有判別性的圖像-文本嵌入。OSCAR模型對圖像和本文的特征表示有著很好的學(xué)習(xí)和理解能力,但模型的泛化能力還較弱。[0005]因此,本申請基于OSCAR模型構(gòu)建一種新的圖文檢索模型,以提升模型的泛化能力,提高模型圖文檢索的準(zhǔn)確性和效率。發(fā)明內(nèi)容[0006]本發(fā)明的目的在于提供一種基于OSCAR的圖文檢索模型的訓(xùn)練方法和實(shí)現(xiàn)圖文檢索的方法,能夠提升模型的泛化能力,并提高模型圖文檢索的準(zhǔn)確性和效率。[0007]為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:[0009]獲取訓(xùn)練集,所述訓(xùn)練集包括多個(gè)圖像-文本樣本對;[0010]將所述訓(xùn)練集中的多個(gè)圖像-文本樣本對輸入面向視覺語言任務(wù)的預(yù)訓(xùn)練模型[0011]將所述訓(xùn)練集中的每個(gè)樣本作為錨點(diǎn)樣本,基于所述圖像特征表示和所述文本特征表示,生成所述錨點(diǎn)樣本對應(yīng)的多個(gè)不同難度的負(fù)樣本;生成的負(fù)樣本與所述錨點(diǎn)樣本組成生成的負(fù)樣本對;6[0012]計(jì)算正樣本對中圖像與文本的正相似度、負(fù)樣本對和所述生成的負(fù)樣本對中圖像與文本之間的負(fù)相似度;[0013]基于所述正相似度和負(fù)相似度計(jì)算損失函數(shù),通過所述損失函數(shù)對所述預(yù)訓(xùn)練模[0014]進(jìn)一步地,所述將所述訓(xùn)練集中的每個(gè)樣本作為錨點(diǎn)樣本,基于所述圖像特征表示和所述文本特征表示,生成所述錨點(diǎn)樣本對應(yīng)的多個(gè)不同難度的負(fù)樣本,包括:[0015]選取一個(gè)樣本作為所述錨點(diǎn)樣本q,所述樣本為圖像樣本或文本樣本;[0016]基于所述錨點(diǎn)樣本q,對所述訓(xùn)練集中的每個(gè)樣本進(jìn)行全局語義聚類,得到負(fù)樣本聚類集合G={g?,g?,…,gM},其中,g={xi?,×i2,…,xi}表示具有相似語義的N個(gè)負(fù)樣本的任意整數(shù);[0017]基于核函數(shù)計(jì)算每個(gè)負(fù)樣本與所述錨點(diǎn)樣本q之間的相似度以及對應(yīng)的權(quán)重,進(jìn)行加權(quán)平均獲得多個(gè)不同難度的負(fù)樣本。[0018]進(jìn)一步地,所述基于核函數(shù)計(jì)算每個(gè)負(fù)樣本與所述錨點(diǎn)樣本q之間的相似度以及對應(yīng)的權(quán)重,進(jìn)行加權(quán)平均獲得多個(gè)不同難度的負(fù)樣本,包括:[0019]基于高斯徑向基函數(shù)計(jì)算每個(gè)負(fù)樣本與錨點(diǎn)樣本之間的相似度:[0022]根據(jù)以下公式計(jì)算每個(gè)負(fù)樣本與錨點(diǎn)樣本間的相似度對應(yīng)的權(quán)重W:[0024]其中,J(W)為最小二乘法中表示誤差的成本函數(shù),W為待優(yōu)化的權(quán)重矩陣;X表示輸示計(jì)算誤差;[0025]通過加權(quán)平均計(jì)算得到生成的負(fù)樣本:[0027]其中,qh表示生成的與錨點(diǎn)樣本對應(yīng)的負(fù)樣本。[0030]其中,v表示圖像特征表示,c表示文本特征表示;sc+表示錨點(diǎn)樣本為圖像樣本時(shí)的正相似度,s+表示錨點(diǎn)樣本為文本樣本時(shí)的正相似度;SY表示錨點(diǎn)樣本為圖像樣本時(shí)正相似度和負(fù)相似度的集合,SC表示錨點(diǎn)樣本為文本樣本時(shí)正相似度和負(fù)相似度的集合;7[0031]進(jìn)一步地,將所述訓(xùn)練集中的多個(gè)圖像-文本樣本對輸入預(yù)訓(xùn)練的OSCAR圖文檢索模型中,進(jìn)行特征提取生成圖像特征表示和文本特征表示,包括:[0032]獲取所述訓(xùn)練集中的圖像樣本,提取所述圖像樣本的區(qū)域視覺特征和區(qū)域位置特征,將所述區(qū)域視覺特征和所述區(qū)域位置特征進(jìn)行線性組合,得到圖像嵌入;所述圖像樣本包含n個(gè)物體區(qū)域;[0033]獲取所述訓(xùn)練集中的文本樣本,采用分詞技術(shù)將所述文本樣本劃分為多個(gè)標(biāo)記,基于OSCAR-base模型獲得每個(gè)標(biāo)記對應(yīng)的文本嵌入;[0034]基于所述圖像嵌入和所述文本嵌入,采用注意力機(jī)制生成聯(lián)合特征表示,通過平均池化生成所述圖像特征表示和所述文本特征表示。[0035]第二方面,本發(fā)明還提供一種利用OSCAR圖文檢索模型實(shí)現(xiàn)圖文檢索的方法,所述[0036]獲取待檢索的目標(biāo)文本和目標(biāo)圖像;[0037]基于所述圖文檢索模型中的文本編碼器對所述目標(biāo)文本進(jìn)行特征提取,得到文本特征表示;[0038]基于所述圖文檢索模型中的圖像編碼器對所述目標(biāo)圖像進(jìn)行特征提取,得到圖像特征表示;[0039]基于所述文本特征表示及所述圖像特征表示,確定所述目標(biāo)文本在所述目標(biāo)圖像中的圖像檢索結(jié)果,和/或,確定所述目標(biāo)圖像在所述目標(biāo)文本中的文本檢索結(jié)果。[0040]第三方面,本發(fā)明還提供一種基于OSCAR的圖文檢索模型訓(xùn)練裝置,所述裝置包[0042]特征提取模塊,用于將所述訓(xùn)練集中的多個(gè)圖像-文本樣本對輸入面向視覺語言任務(wù)的預(yù)訓(xùn)練模型OSCAR中,進(jìn)行特征提取生成圖像特征表示和文本特征[0043]負(fù)樣本合成模塊,用于將所述訓(xùn)練集中的每個(gè)樣本作為錨點(diǎn)樣本,基于所述圖像特征表示和所述文本特征表示,生成所述錨點(diǎn)樣本對應(yīng)的多個(gè)不同難度的負(fù)樣本;生成的負(fù)樣本與所述錨點(diǎn)樣本組成生成的負(fù)樣本對;[0044]相似度計(jì)算模塊,用于計(jì)算正樣本對中圖像與文本的正相似度、負(fù)樣本對和所述生成的負(fù)樣本對中圖像與文本之間的負(fù)相似度;[0045]對比損失計(jì)算模塊,用于基于所述正相似度和負(fù)相似度計(jì)算損失函數(shù),通過所述[0046]第四方面,本發(fā)明還提供一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器和存儲器;所述存儲器存儲有至少一條指令,所述至少一條指令用于被所述處理器執(zhí)行以實(shí)現(xiàn)如上述任一所述的方法。[0047]第五方面,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲介質(zhì),所述存儲介質(zhì)存儲有至少一條指令,所述至少一條指令用于被處理器執(zhí)行以實(shí)現(xiàn)如上述任一所述的方法。[0048]本發(fā)明的有益效果在于:本發(fā)明實(shí)施例提供的一種基于OSCAR的圖文檢索模型的訓(xùn)練方法,利用視覺語言預(yù)訓(xùn)練模型OSCAR對圖像樣本和文本樣本進(jìn)行特征提取,通過負(fù)樣8本合成模塊生成不具有挑戰(zhàn)性的負(fù)樣本,增加了圖像與文本之間的難度,利用正樣本對中圖像與本文的正相似度、負(fù)樣本對和生成的負(fù)樣本對中圖像與文本的負(fù)相似度設(shè)計(jì)損失函數(shù),基于全新的損失函數(shù)訓(xùn)練得到目標(biāo)OSCAR模型,提升了圖文檢索模型的泛化能力,進(jìn)而提高模型進(jìn)行圖文檢索的效率和準(zhǔn)確性。[0049]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說明書的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說明如后。附圖說明[0050]圖1為本發(fā)明實(shí)施例提供的一種基于OSCAR的圖文檢索模型訓(xùn)練方法的流程示意[0051]圖2為本發(fā)明實(shí)施例提供的一種實(shí)現(xiàn)圖文檢索方法的流程示意圖;[0052]圖3為本發(fā)明實(shí)施例提供的一種基于OSCAR的圖文檢索模型訓(xùn)練裝置的結(jié)構(gòu)框圖;[0053]圖4為本發(fā)明實(shí)施例提供的一種計(jì)算機(jī)設(shè)備的結(jié)構(gòu)示意圖。具體實(shí)施方式[0054]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例時(shí)本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的全部其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。[0055]另外,本文中屬于“和/或”,僅僅是一種描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另[0056]本申請實(shí)施例提供一種基于OSCAR的圖文檢索模型訓(xùn)練方法,該訓(xùn)練方法的執(zhí)行主體包括但不限于服務(wù)端、終端等能夠被配置為執(zhí)行本申請實(shí)施例提供的該方法的點(diǎn)子設(shè)備中的一種。[0057]請參閱圖1所示,為本發(fā)明實(shí)施例提供的一種基于OSCAR的圖文檢索模型訓(xùn)練方法[0058]步驟S101,獲取訓(xùn)練集,該訓(xùn)練集包括多個(gè)圖像-文本樣本對。[0059]本發(fā)明實(shí)施例中,可以從指定的開源的自然語言學(xué)習(xí)模型語料庫中獲取數(shù)據(jù)集,也可以利用具有數(shù)據(jù)抓取能力的Python腳本從指定的網(wǎng)站獲取大量的圖文對,本發(fā)明實(shí)施例不對訓(xùn)練集的獲取方式作具體限定。[0060]步驟S102,將訓(xùn)練集中的多個(gè)圖像-文本樣本對輸入預(yù)面向視覺語言任務(wù)的預(yù)訓(xùn)[0061]可以理解的是,預(yù)訓(xùn)練的OSCAR視覺語言模型已經(jīng)對幾百萬對圖像-文本對上進(jìn)行了預(yù)訓(xùn)練,能夠?qū)D像和文本進(jìn)行聯(lián)合處理以獲取有意義的特征表示,以捕捉到文本和圖像之間錯(cuò)綜復(fù)雜的關(guān)聯(lián),并學(xué)習(xí)更具有判別性的圖像-文本嵌入。也就是說,OSCAR模型對圖像和本文的特征表示有著很好的學(xué)習(xí)和理解能力,能夠提取圖像和文本中更豐富的特征信[0062]具體地,基于預(yù)訓(xùn)練的OSCAR模型生成圖像特征表示和文本特征表示的步驟,包9[0063]1)獲取訓(xùn)練集中的圖像樣本,提取圖像樣本的區(qū)域視覺特征和區(qū)域位置特征,將區(qū)域視覺特征和區(qū)域位置特征進(jìn)行線性組合,得到圖像嵌入。[0065]在一個(gè)示例中,利用預(yù)訓(xùn)練于VisualGenome數(shù)據(jù)集上的FasterR-CNN模型提取圖像的區(qū)域視覺特征和區(qū)域位置特征,通過線性投影將區(qū)域視覺特征和區(qū)域位置特征進(jìn)行線性組合,就能夠得到每個(gè)圖像樣本對應(yīng)的圖像嵌入。[0066]2)獲取訓(xùn)練集中的文本樣本,采用分詞技術(shù)將文本樣本劃分為多個(gè)標(biāo)記,基于OSCAR-base模型獲得每個(gè)標(biāo)記對應(yīng)的文本嵌入。[0067]本發(fā)明實(shí)施例中,對于給定的文本樣本c,首先利用分詞技術(shù)將其劃分為z個(gè)標(biāo)記,即c={o?,O?,…,o},再通過0SCAR-base模型獲取每個(gè)標(biāo)記對應(yīng)的文本嵌入Etok,則有:[0069]其中,0表示文本樣本的第i個(gè)標(biāo)記。[0071]3)基于圖像嵌入和文本嵌入,采用注意力機(jī)制生成聯(lián)合特征表示,通過平均池化生成圖像特征表示和文本特征表示。[0072]本實(shí)施例中,將獲取的圖像嵌入和文本嵌入輸入至OSCAR視覺語言模型中的單個(gè)Transformer模型來獲得圖像和文本的聯(lián)合特征表示,再通過平均池化將圖像的局部特征和文本局部特征映射為更小維度的全局特征,并保留特征的平均信息,以生成圖像特征表示和文本特征表示。其中,Transformer模型基于注意力機(jī)制,捕捉圖像和文本元素之間的復(fù)雜關(guān)系,基于圖像和文本的相互關(guān)系獲取圖像-文本對的聯(lián)合特征表示。[0073]步驟S103,將訓(xùn)練集中的每個(gè)樣本作為錨點(diǎn)樣本,基于圖像特征表示和文本特征表示,生成錨點(diǎn)樣本對應(yīng)的多個(gè)不同難度的負(fù)樣本。其中,生成的負(fù)樣本與錨點(diǎn)樣本組成生成的負(fù)樣本。[0074]在本發(fā)明實(shí)施例中,考慮到在對圖文檢索模型的訓(xùn)練過程中,樣本的多樣性會影響模型的檢索效果,通過設(shè)計(jì)負(fù)樣本合成模塊以生成不同難度的負(fù)樣本,以具有挑戰(zhàn)性的負(fù)樣本對模型進(jìn)行訓(xùn)練,能夠提高模型的泛化能力。[0076]1)選取一個(gè)樣本作為錨點(diǎn)樣本q,樣本為圖像樣本或文本樣本。[0077]在本文下述實(shí)施例中,以錨點(diǎn)樣本q為圖像樣本為例進(jìn)行具體說明。[0078]2)基于該錨點(diǎn)樣本q,對訓(xùn)練集中的每個(gè)樣本進(jìn)行全局語義聚類,得到負(fù)樣本聚類集合G={g?,g?,…,g折},其中,g={xi1,xi2,…,xin}表示一組具有相似語義的N個(gè)負(fù)樣本的任意整數(shù)。[0079]具體地,在訓(xùn)練集的小批量中選擇與錨點(diǎn)樣本不匹配的負(fù)樣本,對這些負(fù)樣本執(zhí)行k均值算法,將這些負(fù)樣本按照語義劃分為多個(gè)不同的負(fù)樣本集合,這些負(fù)樣本集合組成最終的負(fù)樣本聚類集合G={g?,g?,…,gw},該聚類集合G中的每個(gè)元素表示一組語義相似的[0080]3)基于核函數(shù)計(jì)算每個(gè)負(fù)樣本與錨點(diǎn)樣本q之間的相似度以及對應(yīng)的權(quán)重,進(jìn)行加權(quán)平均獲得多個(gè)不同難度的負(fù)樣本。[0081]本發(fā)明實(shí)施例中,采用的核函數(shù)為高斯徑向基函數(shù)。具體地,基于核函數(shù)計(jì)算每個(gè)負(fù)樣本與錨點(diǎn)樣本q之間的相似度以及對應(yīng)的權(quán)重,進(jìn)行加權(quán)平均獲得多個(gè)不同難度的負(fù)[0082]1)基于高斯徑向基函數(shù)計(jì)算每個(gè)負(fù)樣本與錨點(diǎn)樣本之間的相似度:[0084]其中,k表示錨點(diǎn)樣本q與負(fù)樣本xn之間的相似度,·|表示范式距離,σ為寬度[0085]2)根據(jù)以下公式計(jì)算每個(gè)負(fù)樣本與錨點(diǎn)樣本間的相似度對應(yīng)的權(quán)重w:[0088]本申請實(shí)施例通過最小二乘法來優(yōu)化權(quán)重矩陣,最小二乘法的目標(biāo)是通過調(diào)整參數(shù)矩陣[0089]3)通過加權(quán)平均計(jì)算得到生成的負(fù)樣本:[0092]可以理解的是,若錨點(diǎn)樣本為圖像樣本v,則生成的負(fù)樣本為文本負(fù)樣本Ch;若錨點(diǎn)樣本為文本樣本c,則生成的負(fù)樣本為圖像樣本vh。[0093]步驟S104,計(jì)算正樣本對中圖像與文本的正相似度、負(fù)樣本對和生成的負(fù)樣本對中圖像與文本之間的負(fù)相似度。[0094]與錨點(diǎn)樣本匹配的為正樣本,正樣本與錨點(diǎn)樣本組成正樣本對,計(jì)算正樣本對中圖像與文本的正相似度。與錨點(diǎn)不匹配的為負(fù)樣本,負(fù)樣本與錨點(diǎn)樣本組成負(fù)樣本對,計(jì)算負(fù)樣本對和生成的都樣本對中圖像與文本的負(fù)相似度。將正相似度和負(fù)相似度結(jié)合起來形成第三相似度。[0095]步驟S105,基于正相似度和負(fù)相似度計(jì)算損失函數(shù),通過損失函數(shù)對預(yù)訓(xùn)練模型OSCAR進(jìn)行微調(diào),得到完成訓(xùn)練的OSCAR圖文檢索模型。[0096]本發(fā)明實(shí)施例基于InfoCMR提出一種全新的損失函數(shù),用于對比不同來源的正負(fù)[0098]其中,v表示圖像特征表示,c表示文本特征表示;sc+表示錨點(diǎn)樣本為圖像樣本時(shí)的正相似度,s+表示錨點(diǎn)樣本為文本樣本時(shí)的正相似度;SY表示錨點(diǎn)樣本為圖像樣本時(shí)正相似度和負(fù)相似度的集合,SC表示錨點(diǎn)樣本為文本樣本時(shí)正相似度和負(fù)相似度的集合;些高斯噪聲向量與批處理中的每個(gè)樣本形成高置信度的負(fù)樣本對,有助于平滑表示空間。[0101]本發(fā)明實(shí)施例提供的一種基于OSCAR的圖文檢索模型的訓(xùn)練方法,利用視覺語言[0102]請參閱圖2,為本發(fā)明實(shí)施例提供的一種采用如上述方法訓(xùn)練得到的圖文檢索模[0104]基于圖文檢索模型中的文本編碼器對目標(biāo)文本進(jìn)行特征提取,得到文本特征表[0105]基于圖文檢索模型中的圖像編碼器對目標(biāo)圖像進(jìn)行特征提取,得到圖像特征表[0106]基于文本特征表示及圖像特征表示,確定目標(biāo)文本在目標(biāo)圖像中的圖像檢索結(jié)[0110]特征提取模塊320,用于將訓(xùn)練集中的多個(gè)圖像-文本樣本對輸入面向視覺語言任[0114]請參閱圖4,為本發(fā)明實(shí)施例提供的計(jì)算機(jī)設(shè)備的結(jié)構(gòu)示意圖,該計(jì)算機(jī)設(shè)備可以包括存儲器20、處理器21和總線,還可以包括存儲在存儲其20中并可在處理器21上運(yùn)行的計(jì)算機(jī)程序。[0115]其中,存儲器20至少包括一種類型的可讀存儲介質(zhì),可讀存儲介質(zhì)包括閃存、移動在一些實(shí)施例中可以是計(jì)算機(jī)設(shè)備的內(nèi)部存儲單元,例如該計(jì)算機(jī)設(shè)備的移動硬盤。存儲器20在另一些實(shí)施例中也可以是電子設(shè)備的外部存儲設(shè)備,例如計(jì)算機(jī)設(shè)備上配備的插接存卡(FlashCard)等。進(jìn)一步地,存儲器20還可以既包括計(jì)算機(jī)設(shè)備的內(nèi)部存儲單元也包括外部存儲設(shè)備。存儲器20不僅可以用于存儲安裝于計(jì)算機(jī)設(shè)備的應(yīng)用軟件及各類數(shù)據(jù),還可以用于暫時(shí)地存儲已經(jīng)輸出或者將要輸出的數(shù)據(jù)。[0116]處理器21在一些實(shí)施例中可以由集成電路組成,例如可以由單個(gè)封裝的集成電路所組成,也可以是由多個(gè)相同功能或不同功能封裝的集成電路所組成,包括一個(gè)或者多個(gè)中央處理器(CentralProcessingunit,CP種控制芯片的組合等。處理器21是計(jì)算機(jī)設(shè)備的控制核心(ControlUnit),利用各種接口和線路連接整個(gè)電子設(shè)備的各個(gè)部件,通過運(yùn)行或執(zhí)行存儲在存儲器20內(nèi)的程序或者模塊,以及調(diào)用存儲在存儲器20內(nèi)的數(shù)據(jù),以執(zhí)行計(jì)算機(jī)設(shè)備的各種功能和處理數(shù)據(jù)。[0117]總線可以是外設(shè)部件互連標(biāo)準(zhǔn)(peripheralcomponentinterconnect,簡稱PC總線或擴(kuò)展工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(extendedindustrystandardarchitecture,簡稱EISA)總線等。該總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。總線被設(shè)置為實(shí)現(xiàn)存儲器20以及至少一個(gè)處理器21等之間的連接通信。[0118]圖4僅示出了具有部件的計(jì)算機(jī)設(shè)備,本領(lǐng)域技術(shù)人員可以理解的是,圖4示出的結(jié)構(gòu)并不構(gòu)成對該計(jì)算機(jī)設(shè)備的限定,可以包括比圖示更少或者更多的部件,或者組合某[0119]例如,盡管未示出,計(jì)算機(jī)設(shè)備還可以包括給各個(gè)部件供電的電源(比如電池),優(yōu)選地,電源可以通過電源管理裝置與至少一個(gè)處理器21邏輯相連,從而通過電源管理裝置實(shí)現(xiàn)充電管理、放電管理、以及功耗管理等功能。電源還可以包括一個(gè)或一個(gè)以上的直流或交流電源、再充電裝置、電源故障檢測電路、電源轉(zhuǎn)換器或者逆變器、電源狀態(tài)指示器等任[0120]進(jìn)一步地,計(jì)算機(jī)設(shè)備還可以包括網(wǎng)絡(luò)接口,可選地,網(wǎng)絡(luò)接口可以包括有線接口和/或無線接口(如WI-FI接口、藍(lán)牙接口等),通常用于在該計(jì)算機(jī)設(shè)備與其他計(jì)算機(jī)設(shè)備之間建立通信連接。[0121]可選地,該計(jì)算機(jī)設(shè)備還可以包括用戶接口,用戶接口可以是顯示器(Display)、輸入單元(比如鍵盤(Keyboard)),可選地,用戶接口還可以是標(biāo)準(zhǔn)的有線接口、無線接口??蛇x地,在一些實(shí)施例中,顯示器可以是LED顯示器、液晶顯示器、觸控式液晶顯示器以及OLED(OrganicLight-EmittingDiode,有機(jī)發(fā)光二當(dāng)?shù)姆Q為顯示屏或顯示單元,用于顯示在計(jì)算機(jī)設(shè)備中處理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)歷史學(xué)(考古學(xué))試題及答案
- 2025年中職(建筑工程施工)砌體結(jié)構(gòu)階段測試題及答案
- 2025年大學(xué)畜牧獸醫(yī)(家禽養(yǎng)殖)試題及答案
- 2025年高職(工程造價(jià))工程索賠綜合測試題及答案
- 2025年中職老年護(hù)理(老年護(hù)理應(yīng)用)試題及答案
- 2025年中職會計(jì)(成本會計(jì)基礎(chǔ))試題及答案
- 2025年高職教育學(xué)(教育管理學(xué))試題及答案
- 2025年中職心理學(xué)(社會心理學(xué)應(yīng)用)試題及答案
- 2025年高職(新能源汽車技術(shù))整車控制系統(tǒng)綜合測試題及答案
- 2025年大學(xué)本科(會計(jì)學(xué))會計(jì)信息系統(tǒng)應(yīng)用階段測試題及答案
- 2025年憲法知識題庫及參考答案綜合卷
- 2026年社區(qū)工作者考試題庫300道(有一套)
- 2026年福建省能源石化集團(tuán)有限責(zé)任公司招聘備考題庫及答案詳解一套
- 2025年家庭投資理財(cái)規(guī)劃:科學(xué)配置與穩(wěn)健增值指南
- 杜氏肌營養(yǎng)不良運(yùn)動功能重建方案
- 2026貴州大數(shù)據(jù)產(chǎn)業(yè)集團(tuán)有限公司第一次招聘155人模擬筆試試題及答案解析
- 呼吸內(nèi)科主任談學(xué)科建設(shè)
- 腫瘤藥物給藥順序課件
- 海南計(jì)算機(jī)與科學(xué)專升本試卷真題及答案
- 企業(yè)安全一把手授課課件
- 學(xué)校中層干部述職報(bào)告會
評論
0/150
提交評論