版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
(19)國家知識產(chǎn)權(quán)局(12)發(fā)明專利(65)同一申請的已公布的文獻(xiàn)號(73)專利權(quán)人蘇州大學(xué)地址215000江蘇省蘇州市吳中區(qū)石湖西路188號(72)發(fā)明人張亞偉王晶晶李壽山(74)專利代理機(jī)構(gòu)蘇州市中南偉業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)32257專利代理師馮瑞GO6N3/082(2023.01)GO6N3/045(2023.01)GO6N3/0495(2023.01)(54)發(fā)明名稱基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法及系統(tǒng)本發(fā)明涉及一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法,包括部署學(xué)生模型、文本教師模型和圖像教師模型,多模態(tài)數(shù)據(jù)包括原始的文本模態(tài)數(shù)據(jù)和圖像模態(tài)數(shù)據(jù),整理得到輸入相同的文本模態(tài)輸入和圖像模態(tài)輸入;將其分別輸入至模態(tài)聯(lián)合表示模塊,得到文本輸出和圖像輸出,將原始的文本模態(tài)數(shù)據(jù)和圖像模態(tài)數(shù)據(jù)輸入至文本教師模型和圖像教師模型,得到文本輸出和圖像輸出;利用變分互信息表征學(xué)生模型和教師模型對應(yīng)的文本輸出和圖像輸出的相關(guān)性,將文本輸出和圖像輸出利用蒸餾損失函數(shù)進(jìn)行聯(lián)合蒸餾訓(xùn)練,使學(xué)生模型獲得匹配教師模型的能力。本發(fā)明提出一種基于變分蒸餾的多模態(tài)聯(lián)合部署學(xué)生模型和教師模型,教師模型包括文本教師模型和圖像部署學(xué)生模型和教師模型,教師模型包括文本教師模型和圖像據(jù)包括原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù),將原始文本模態(tài)輸入和圖像模態(tài)輸入,對文本模態(tài)輸入和圖學(xué)生模型包括模態(tài)聯(lián)合表示模塊,將歸一化輸出,同時將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)分別輸入模型和圖像教師模型,得到教師模型的文本榆出和圖像利用變分互信息表征學(xué)生模型和教師模型對應(yīng)的文本輸出和圖像輸出之間的相關(guān)性,并將文本輸出和圖像輸出利用蒸餾損失函數(shù)進(jìn)行聯(lián)合蒸餾訓(xùn)練21.一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法,其特征在于,包括以下步驟:部署學(xué)生模型和教師模型,所述教師模型包括文本教師模型和圖像教師模型,所述學(xué)生模型包括多模態(tài)數(shù)據(jù)統(tǒng)一模塊,輸入原始多模態(tài)數(shù)據(jù),其中所述原始多模態(tài)數(shù)據(jù)包括原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù),將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)輸入至多模態(tài)數(shù)據(jù)統(tǒng)一模塊,得到輸入形式相同的文本模態(tài)輸入和圖像模態(tài)輸入,并對文本模態(tài)輸入和圖像模態(tài)輸入進(jìn)行歸一化操作;所述學(xué)生模型包括模態(tài)聯(lián)合表示模塊,將歸一化操作后的文本模態(tài)輸入和圖像模態(tài)輸入分別輸入至模態(tài)聯(lián)合表示模塊,得到所述學(xué)生模型的文本輸出和圖像輸出,同時將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)分別輸入至文本教師模型和圖像教師模型,得到教師模型的文本輸出和圖像輸出;利用變分互信息表征所述學(xué)生模型和教師模型對應(yīng)的文本輸出和圖像輸出之間的相關(guān)性,并將所述文本輸出和圖像輸出利用蒸餾損失函數(shù)進(jìn)行聯(lián)合蒸餾訓(xùn)練,以使學(xué)生模型同時獲得匹配所述文本教師模型和圖像教師模型的能力;其中所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊部署于所述模態(tài)聯(lián)合表示模塊的前端,利用所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)整理成相同的輸入形式,得到文本模態(tài)輸入和圖像模態(tài)輸入;將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)整理成相同的輸入形式,得到文本模態(tài)輸入在原始文本模態(tài)數(shù)據(jù)中增加[CLS]符號和[SEP]符號,同時在原始文本模態(tài)數(shù)據(jù)中的句子的末尾增加[DIS]符號,并通過詞向量矩陣得到文本模態(tài)輸入;將原始圖像模態(tài)數(shù)據(jù)分割成若干圖片塊,將每個圖片塊拉伸成一維向量,在一維向量的開始位置和末尾位置增加[CLS]符號和[DIS]符號,并通過維度縮放得到與文本模態(tài)輸入形式相同的圖像模態(tài)輸入。2.根據(jù)權(quán)利要求1所述的基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法,其特征在于:所述模態(tài)聯(lián)合表示模塊包括MobileBERT模型,所述MobileBERT模型包括24層transformer模型,每層transformer模型中加入線性層。3.根據(jù)權(quán)利要求1所述的基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法,其特征在于:所述蒸餾損失函數(shù)為所述文本教師模型的損失函數(shù)和所述圖像教師模型的損失函數(shù)的總和。4.一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)系統(tǒng),其特征在于,包括:學(xué)生模型,所述學(xué)生模型包括多模態(tài)數(shù)據(jù)統(tǒng)一模塊和模態(tài)聯(lián)合表示模塊,輸入原始多模態(tài)數(shù)據(jù),其中所述原始多模態(tài)數(shù)據(jù)包括原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù),將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)輸入至多模態(tài)數(shù)據(jù)統(tǒng)一模塊,得到輸入形式相同的文本模態(tài)輸入和圖像模態(tài)輸入,并對文本模態(tài)輸入和圖像模態(tài)輸入進(jìn)行歸一化操作,將歸一化操作后的文本模態(tài)輸入和圖像模態(tài)輸入分別輸入至模態(tài)聯(lián)合表示模塊,得到所述學(xué)生模型的文本輸出和圖像輸出,且所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊部署于所述模態(tài)聯(lián)合表示模塊的前端,利用所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)整理成相同的輸入形式,得到文本模態(tài)輸入和圖像模態(tài)輸入;將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)整理成相同的輸入形式,得到文本模態(tài)輸入和圖像模態(tài)輸入,包括:在原始文本模態(tài)數(shù)據(jù)中增加[CLS]符號和[SEP]符號,同時在原始文本模態(tài)數(shù)據(jù)中的句子的末尾增加[DIS]符號,并3通過詞向量矩陣得到文本模態(tài)輸入;將原始圖像模態(tài)數(shù)據(jù)分割成若干圖片塊,將每個圖片塊拉伸成一維向量,在一維向量的開始位置和末尾位置增加[CLS]符號和[DIS]符號,并通過維度縮放得到與文本模態(tài)輸入形式相同的圖像模態(tài)輸入;教師模型,所述教師模型包括文本教師模型和圖像教師模型,將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)分別輸入至文本教師模型和圖像教師模型,得到教師模型的文本輸出和圖像輸出;模態(tài)統(tǒng)一蒸餾模塊,所述模態(tài)統(tǒng)一蒸餾模塊用于利用變分互信息表征所述學(xué)生模型和教師模型對應(yīng)的文本輸出和圖像輸出之間的相關(guān)性,并將所述文本輸出和圖像輸出利用蒸餾損失函數(shù)進(jìn)行聯(lián)合蒸餾訓(xùn)練,以使學(xué)生模型同時獲得匹配所述文本教師模型和圖像教師模型的能力。5.一種計算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)權(quán)利要求1至3任一項所述方法的步驟。6.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至3任一項所述方法的步驟。4技術(shù)領(lǐng)域[0001]本發(fā)明涉及多模態(tài)蒸餾技術(shù)領(lǐng)域,尤其是指一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法及系統(tǒng)。背景技術(shù)[0002]大規(guī)模的預(yù)訓(xùn)練模型,例如在文本模態(tài)的BERT,GPT和RoBERTa,又或者在圖像模態(tài)的ResNet,BiT,ViT等等,在不規(guī)模越來越大,在資源匱乏的環(huán)境中部署它們變得越來越具有挑戰(zhàn)性。因此,這些減少預(yù)訓(xùn)練模型的規(guī)模并且保存大部分性能的模型壓縮方法也越來越受到關(guān)注。[0003]在文本模態(tài)領(lǐng)域,PKD是較早的一個探索,非常簡單有效,主要是在微調(diào)階段對損失函數(shù)對BERT模型的中間層信息進(jìn)行任務(wù)無關(guān)的高效知識蒸餾,CoDIR在訓(xùn)練階段基于對比學(xué)習(xí)蒸餾RoBERTa,并且取得了更好的性能。在圖像模態(tài)領(lǐng)域,F(xiàn)itNet在特定任務(wù)數(shù)據(jù)集上擬合教師模型和學(xué)生模型的輸出,ViD使用異方差高斯分布代替樣本分布計算教師和學(xué)生模型輸出特征圖的互信息,DeiT增加了蒸餾符號區(qū)分于分類符號,從兩個不同角度進(jìn)行訓(xùn)練和擬合,CRD使用對比學(xué)習(xí),使用大量負(fù)樣本提高教師模型和學(xué)生模型輸出的互信息上界。[0004]目前單模態(tài)的文本領(lǐng)域和圖像領(lǐng)域的蒸餾較為成熟,但是文本模態(tài)和圖像模態(tài)統(tǒng)一的蒸餾框架較少??紤]傳統(tǒng)的方法通過KL散度擬合教師模型和學(xué)生模型的輸出的概率分布,或者使用L2損失函數(shù)擬合教師模型和學(xué)生模型的表征向量。雖然這些方法也能減少教師模型和學(xué)生模型的輸出差異,但是這些方法存在以下缺陷,例如L2損失函數(shù),首先需要維度變換會損失一些信息,其次只考慮的表征向量對應(yīng)數(shù)值之間的關(guān)系而忽略了整體的信息。目前用的比較多的對比蒸餾,同樣是提高教師模型和學(xué)生模型輸出的互信息上界,對比蒸餾的方法相比其他方法需要大量的負(fù)樣本從而增加了訓(xùn)練的損耗,尤其是在多個模態(tài)上產(chǎn)生成倍的訓(xùn)練成本,不太適合資源受限的情況。另一方面,在多個模態(tài)蒸餾時會出現(xiàn)嚴(yán)重的遺忘性問題,例如先蒸餾文本信息再蒸餾圖像信息可能會導(dǎo)致編碼器損失大部分文本編碼能力。[0005]因此,目前還沒有模態(tài)統(tǒng)一蒸餾方法,無法解決多個模態(tài)聯(lián)合訓(xùn)練產(chǎn)生的遺忘性的問題,并且需要大量額外的負(fù)樣本,大大增加發(fā)明內(nèi)容[0006]為此,本發(fā)明所要解決的技術(shù)問題在于克服現(xiàn)有技術(shù)存在的問題,提出一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法及系統(tǒng),解決了現(xiàn)有技術(shù)缺少模態(tài)統(tǒng)一蒸餾方法的問題,其在不同模態(tài)數(shù)據(jù)集上均超越了現(xiàn)有的基準(zhǔn)模型。[0007]為解決上述技術(shù)問題,本發(fā)明提供一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方5[0008]部署學(xué)生模型和教師模型,所述教師模型包括文本教師模型和圖像教師模型,所述學(xué)生模型包括多模態(tài)數(shù)據(jù)統(tǒng)一模塊,輸入原始多模態(tài)數(shù)據(jù),其中所述原始多模態(tài)數(shù)據(jù)包括原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù),將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)輸入至多模態(tài)數(shù)據(jù)統(tǒng)一模塊,得到輸入形式相同的文本模態(tài)輸入和圖像模態(tài)輸入,并對文本模態(tài)輸入和圖像模態(tài)輸入進(jìn)行歸一化操作;[0009]所述學(xué)生模型包括模態(tài)聯(lián)合表示模塊,將歸一化操作后的文本模態(tài)輸入和圖像模態(tài)輸入分別輸入至模態(tài)聯(lián)合表示模塊,得到所述學(xué)生模型的文本輸出和圖像輸出,同時將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)分別輸入至文本教師模型和圖像教師模型,得到教師模型的文本輸出和圖像輸出;[0010]利用變分互信息表征所述學(xué)生模型和教師模型對應(yīng)的文本輸出和圖像輸出之間的相關(guān)性,并將所述文本輸出和圖像輸出利用蒸餾損失函數(shù)進(jìn)行聯(lián)合蒸餾訓(xùn)練,以使學(xué)生模型同時獲得匹配所述文本教師模型和圖像教師模型的能力。[0011]在本發(fā)明的一個實施例中,所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊部署于所述模態(tài)聯(lián)合表示模塊的前端,利用所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)整理成相同的輸入形式,得到文本模態(tài)輸入和圖像模態(tài)輸入。[0012]在本發(fā)明的一個實施例中,將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)整理成相同[0013]在原始文本模態(tài)數(shù)據(jù)中增加[CLS]符號和[SEP]符號,同時在原始文本模態(tài)數(shù)據(jù)中的句子的末尾增加[DIS]符號,并通過詞向量矩陣得到文本模態(tài)輸入;[0014]將原始圖像模態(tài)數(shù)據(jù)分割成若干圖片塊,將每個圖片塊拉伸成一維向量,在一維向量的開始位置和末尾位置增加[CLS]符號和[DIS]符號,并通過維度縮放得到與文本模態(tài)輸入形式相同的圖像模態(tài)輸入。[0015]在本發(fā)明的一個實施例中,所述模態(tài)聯(lián)合表示模塊包括MobileBERT模型,所述MobileBERT模型包括24層transformer模型,每層transformer模型中加入線性層。[0016]在本發(fā)明的一個實施例中,所述蒸餾損失函數(shù)為所述文本教師模型的損失函數(shù)和所述圖像教師模型的損失函數(shù)的總和。[0018]學(xué)生模型,所述學(xué)生模型包括多模態(tài)數(shù)據(jù)統(tǒng)一模塊和模態(tài)聯(lián)合表示模塊,輸入原始多模態(tài)數(shù)據(jù),其中所述原始多模態(tài)數(shù)據(jù)包括原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù),將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)輸入至多模態(tài)數(shù)據(jù)統(tǒng)一模塊,得到輸入形式相同的文本模態(tài)輸入和圖像模態(tài)輸入,并對文本模態(tài)輸入和圖像模態(tài)輸入進(jìn)行歸一化操作,將歸一化操作后的文本模態(tài)輸入和圖像模態(tài)輸入分別輸入至模態(tài)聯(lián)合表示模塊,得到所述學(xué)生模型的文本輸出和圖像輸出;[0019]教師模型,所述教師模型包括文本教師模型和圖像教師模型,將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)分別輸入至文本教師模型和圖像教師模型,得到教師模型的文本輸出和圖像輸出;[0020]模態(tài)統(tǒng)一蒸餾模塊,所述模態(tài)統(tǒng)一蒸餾模塊用于利用變分互信息表征所述學(xué)生模型和教師模型對應(yīng)的文本輸出和圖像輸出之間的相關(guān)性,并將所述文本輸出和圖像輸出利用蒸餾損失函數(shù)進(jìn)行聯(lián)合蒸餾訓(xùn)練,以使學(xué)生模型同時獲得匹配所述文本教師模型和圖像6教師模型的能力。[0021]在本發(fā)明的一個實施例中,所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊部署于所述模態(tài)聯(lián)合表示模塊的前端,利用所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)整理成相同的輸入形式,得到文本模態(tài)輸入和圖像模態(tài)輸入。[0022]在本發(fā)明的一個實施例中,所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊包括:[0023]文本模態(tài)數(shù)據(jù)整理子模塊,所述文本模態(tài)數(shù)據(jù)整理子模塊用于在文本模態(tài)數(shù)據(jù)中增加[CLS]符號和[SEP]符號,同時在文本模態(tài)數(shù)據(jù)中的句子的末尾增加[DIS]符號,并通過詞向量矩陣得到文本模態(tài)輸入;[0024]圖像模態(tài)數(shù)據(jù)整理子模塊,所述圖像模態(tài)數(shù)據(jù)整理子模塊用于將圖像模態(tài)數(shù)據(jù)分割成若干圖片塊,將每個圖片塊拉伸成一維向量,在一維向量的開始位置和末尾位置增加[CLS]符號和[DIS]符號,并通過維度縮放得到與文本模態(tài)輸入形式相同的圖像模態(tài)輸入。[0025]并且,本發(fā)明還提供一種計算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機(jī)程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述所述方法的步驟。[0026]還有,本發(fā)明還提供一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該程序被處理器執(zhí)行時實現(xiàn)上述所述方法的步驟。[0027]本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點:[0028]1.本發(fā)明針對現(xiàn)有技術(shù)缺少模態(tài)統(tǒng)一蒸餾方法的問題,提出一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法及系統(tǒng),在不同模態(tài)數(shù)據(jù)集上均超越了現(xiàn)有的基準(zhǔn)模型;[0029]2.本發(fā)明采用變分互信息角度蒸餾,不僅大大減少了教師模型的信息損失,同時不需要大量負(fù)樣本參與計算,具有簡易有效性;[0030]3.本發(fā)明采用聯(lián)合蒸餾的方式,解決了多個模態(tài)蒸餾產(chǎn)生的遺忘性問題。附圖說明[0031]為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實施例并結(jié)合附圖,對本發(fā)明作進(jìn)一步詳細(xì)的說明。[0032]圖1是本發(fā)明基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法的流程示意圖。[0033]圖2是本發(fā)明基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)系統(tǒng)中模態(tài)統(tǒng)一蒸餾模塊的框架示意圖。具體實施方式[0034]下面結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步說明,以使本領(lǐng)域的技術(shù)人員可以更好地理解本發(fā)明并能予以實施,但所舉實施例不作為對本發(fā)明的限定。[0035]實施例一[0036]請參閱圖1和2所示,本實施例提供一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方[0037]S1:部署學(xué)生模型和教師模型,所述教師模型包括文本教師模型和圖像教師模型,所述學(xué)生模型包括多模態(tài)數(shù)據(jù)統(tǒng)一模塊,輸入原始多模態(tài)數(shù)據(jù),其中所述原始多模態(tài)數(shù)據(jù)包括原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù),將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)輸入至多模態(tài)數(shù)據(jù)統(tǒng)一模塊,得到輸入形式相同的文本模態(tài)輸入和圖像模態(tài)輸入,并對文本7模態(tài)輸入和圖像模態(tài)輸入進(jìn)行歸一化操作;[0038]S2:所述學(xué)生模型包括模態(tài)聯(lián)合表示模塊,將歸一化操作后的文本模態(tài)輸入和圖像模態(tài)輸入分別輸入至模態(tài)聯(lián)合表示模塊,得到所述學(xué)生模型的文本輸出和圖像輸出,同時將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)分別輸入至文本教師模型和圖像教師模型,得到教師模型的文本輸出和圖像輸出;[0039]S3:利用變分互信息表征所述學(xué)生模型和教師模型對應(yīng)的文本輸出和圖像輸出之間的相關(guān)性,并將所述文本輸出和圖像輸出利用蒸餾損失函數(shù)進(jìn)行聯(lián)合蒸餾訓(xùn)練,以使學(xué)生模型同時獲得匹配所述文本教師模型和圖像教師模型的能力。[0040]在本發(fā)明公開的一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法中,本發(fā)明針對現(xiàn)有技術(shù)缺少模態(tài)統(tǒng)一蒸餾方法的問題,提出一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法及系統(tǒng),在不同模態(tài)數(shù)據(jù)集上均超越了現(xiàn)有的基準(zhǔn)模型。[0041]在本發(fā)明公開的一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法中,對于上述實施方式的S1,所述學(xué)生模型包括多模態(tài)數(shù)據(jù)統(tǒng)一模塊,所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊部署于所述模態(tài)聯(lián)合表示模塊的前端,利用所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)整理成相同的輸入形式,得到文本模態(tài)輸入和圖像模態(tài)輸入。[0042]在本發(fā)明公開的一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法中,對于上述實施方式的S1,將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)整理成相同的輸入形式,得到文本模態(tài)輸入和圖像模態(tài)輸入包括兩個方面,一方面在文本模態(tài)數(shù)據(jù)中增加[CLS]符號和[SEP]符號,同時在文本模態(tài)數(shù)據(jù)中的句子的末尾增加[DIS]符號,并通過詞向量矩陣得到文本模態(tài)輸入;另一方面將圖像模態(tài)數(shù)據(jù)分割成若干圖片塊,將每個圖片塊拉伸成一維向量,在一維向量的開始位置和末尾位置增加[CLS]符號和[DIS]符號,并通過維度縮放得到與文本模態(tài)輸入形式相同的圖像模態(tài)輸入。[0043]具體地,一方面對于長度為L的原始文本模態(tài)數(shù)據(jù)D?,在原始文本模態(tài)數(shù)據(jù)中增加[CLS]符號和[SEP]符號,同時在原始文本模態(tài)數(shù)據(jù)中的句子的末尾增加[DIS]符號用于雙邊蒸餾,提高性能的同時加速擬合;根據(jù)BPE得到對應(yīng)的分詞序號,通過維度為d的詞向量矩陣得到最終的輸入文本詞向量el∈RL×d其中L′=L+3。另一方面由于文本和圖像的表現(xiàn)形式不一樣,難以直接統(tǒng)一文本和圖像。因此本發(fā)明采用將圖像分割成若干圖片塊進(jìn)行處理,以便可以產(chǎn)生和文本詞向量一樣的輸入形式。對于原始圖像輸入數(shù)據(jù)D,首先將大小縮放至256×256×3的尺寸大小,隨后按照16×16×3的圖片塊的大小,將圖像分割成256個圖片塊pt∈R256×(16×16×3),,將每個圖片塊拉伸成一維向量得到Pt∈9R256×768,然后同樣在開始位置和末尾位置加上[CLS]符號和[DIS]符號,并且通過最終的線性層進(jìn)行維度縮放得到和文本輸入一樣的形式:et∈R(256+2)×d。由于文本和圖像數(shù)據(jù)的分布會有一些差異導(dǎo)致數(shù)值的波動較大,因此最后對數(shù)據(jù)進(jìn)行歸一化操作。本發(fā)明統(tǒng)一了文本模態(tài)和圖像模態(tài)的輸入形式以及分布,方便后續(xù)模態(tài)聯(lián)合層的處理。[0044]在本發(fā)明公開的一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法中,對于上述實施方式的S2,所述模態(tài)聯(lián)合表示模塊包括MobileBERT模型,所述MobileBERT模型包括24層8為了方便蒸餾,取[CLS]符號對應(yīng)的特方式的S3,所述蒸餾損失函數(shù)為所述文本教師模型的損失函數(shù)和所述圖像教師模型的損失函數(shù)的總和。紹。=-Ex[LogP(x)]+Ex,[L本發(fā)明使用變分下界來近似地計算互信息I(X,Y)。根據(jù)VID13,它認(rèn)為很難計算分布p(X|9y∈Rd,y∈H×W×C,x?∈Re,xn∈Rd(i∈1,t;j∈[1,2,[0070]蒸餾過程如下:給定一個文本輸出和一個圖像輸出。文本輸出分別經(jīng)過BERTarge和MXBERT,將兩個模型中間層的輸出進(jìn)行擬合,擬合方式為L?(擬合的意思就是盡可能讓兩個變量相等,在本方面中就是讓損失函數(shù)降低,越低表示兩個變量越相似,即讓學(xué)生模型的輸出跟教師模型的輸出越來越相似,從而讓學(xué)生模型獲得匹配教師模型的性能)。對于圖像輸序訓(xùn)練會產(chǎn)生遺忘性問題,所以本發(fā)明進(jìn)行聯(lián)合蒸餾,即Ldis失函數(shù)進(jìn)行優(yōu)化即可。[0073]表1為MXBERT和文本模態(tài)編碼器的性能對比結(jié)果,在表1中,第二行的模型ELMo、GPT和BERT是預(yù)訓(xùn)練模型,第三行MobileBERT等模型均屬于基準(zhǔn)模型,以作公平比較。可以看出,在文本模態(tài)本發(fā)明的方法在GLUE的多個數(shù)據(jù)集上不僅超越了原本的基準(zhǔn)模型MobileBERT,進(jìn)一步的在大部分任務(wù)上超越了預(yù)訓(xùn)練模型BERTbase表2為XBERT和圖像編碼器的性能對比結(jié)果,通過表2可以看出,在圖像模態(tài),模型的性能超越了基準(zhǔn)模型ResNet50,同時遠(yuǎn)遠(yuǎn)超越了ResNet?8。由此可以看出模態(tài)統(tǒng)一不僅不會相互造成影響,反而會具有一定的互補(bǔ)性。與其他單模態(tài)的基準(zhǔn)方法相比,CMDIR具有簡易有效的特點,不需要額外的樣本參加計算,不僅統(tǒng)一了不同模態(tài)蒸餾的方式,其次在蒸餾性能上匹配甚至超越了原本的蒸餾方式。準(zhǔn)確率和的平均值,STS-B采用的是皮爾遜相關(guān)系教。B-TinyBERTaak-MMMMMMMM-------M[0076]表2.MXBERT和圖像編碼器的性能對比,其中CIFAR數(shù)據(jù)集是采用top1的錯誤率,ImageNet采用的是top5的錯誤率。11s0s0st29----tResNet-----80----[0078]在本發(fā)明公開的一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法中,本發(fā)明采用變分互信息角度蒸餾,不僅大大減少了教師模型的信息損失,同時不需要大量負(fù)樣本參與計[0079]在本發(fā)明公開的一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法中,本發(fā)明采用聯(lián)合蒸餾的方式,解決了多個模態(tài)蒸餾產(chǎn)生的遺忘性問題。[0082]處理器,其用于執(zhí)行計算機(jī)程序時實現(xiàn)上述基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法的步驟。[0083]在本發(fā)明實施例中,處理器可以為中央處理器(CentralProcessingUnit,CPU)、特定應(yīng)用集成電路、數(shù)字信號處理器、現(xiàn)場可編程門陣列或者其他可編程邏輯器件等。[0084]處理器可以調(diào)用存儲器中存儲的程序,具體的,處理器可以執(zhí)行基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法的實施例中的操作。[0085]存儲器中用于存放一個或者一個以上程序,程序可以包括程序代碼,程序代碼包括計算機(jī)操作指令。[0086]此外,存儲器可以包括高速隨機(jī)存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件或其他易失性固態(tài)存儲器件。[0087]相應(yīng)于上面的方法實施例,本發(fā)明實施例還提供了一種計算機(jī)可讀存儲介質(zhì),計算機(jī)可讀存儲介質(zhì)上存儲有計算機(jī)程序,計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法的步驟。[0088]實施例二[0089]下面對本發(fā)明實施例二公開的一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)系統(tǒng)進(jìn)行介紹,下文描述的一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)系統(tǒng)與上文描述的一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法可相互對應(yīng)參照。[0090]本發(fā)明實施例二公開了一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)系統(tǒng),包括:[0091]學(xué)生模型,所述學(xué)生模型包括多模態(tài)數(shù)據(jù)統(tǒng)一模塊和模態(tài)聯(lián)合表示模塊,輸入原始多模態(tài)數(shù)據(jù),其中所述原始多模態(tài)數(shù)據(jù)包括原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù),將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)輸入至多模態(tài)數(shù)據(jù)統(tǒng)一模塊,得到輸入形式相同的文本模態(tài)輸入和圖像模態(tài)輸入,并對文本模態(tài)輸入和圖像模態(tài)輸入進(jìn)行歸一化操作,將歸一化操作后的文本模態(tài)輸入和圖像模態(tài)輸入分別輸入至模態(tài)聯(lián)合表示模塊,得到所述學(xué)生模型的文本輸出和圖像輸出;[0092]教師模型,所述教師模型包括文本教師模型和圖像教師模型,將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)分別輸入至文本教師模型和圖像教師模型,得到教師模型的文本輸出和圖像輸出;[0093]模態(tài)統(tǒng)一蒸餾模塊,所述模態(tài)統(tǒng)一蒸餾模塊用于利用變分互信息表征所述學(xué)生模型和教師模型對應(yīng)的文本輸出和圖像輸出之間的相關(guān)性,并將所述文本輸出和圖像輸出利用蒸餾損失函數(shù)進(jìn)行聯(lián)合蒸餾訓(xùn)練,以使學(xué)生模型同時獲得匹配所述文本教師模型和圖像教師模型的能力。[0094]在本發(fā)明公開的一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)系統(tǒng)中,所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊部署于所述模態(tài)聯(lián)合表示模塊的前端,利用所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊將原始文本模態(tài)數(shù)據(jù)和原始圖像模態(tài)數(shù)據(jù)整理成相同的輸入形式,得到文本模態(tài)輸入和圖像模態(tài)輸[0095]在本發(fā)明公開的一種基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)系統(tǒng)中,所述多模態(tài)數(shù)據(jù)統(tǒng)一模塊包括:[0096]文本模態(tài)數(shù)據(jù)整理子模塊,所述文本模態(tài)數(shù)據(jù)整理子模塊用于在文本模態(tài)數(shù)據(jù)中增加[CLS]符號和[SEP]符號,同時在文本模態(tài)數(shù)據(jù)中的句子的末尾增加[DIS]符號,并通過詞向量矩陣得到文本模態(tài)輸入;[0097]圖像模態(tài)數(shù)據(jù)整理子模塊,所述圖像模態(tài)數(shù)據(jù)整理子模塊用于將圖像模態(tài)數(shù)據(jù)分割成若干圖片塊,將每個圖片塊拉伸成一維向量,在一維向量的開始位置和末尾位置增加[CLS]符號和[DIS]符號,并通過維度縮放得到與文本模態(tài)輸入形式相同的圖像模態(tài)輸入。[0098]本實施例的基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)系統(tǒng)用于實現(xiàn)前述的基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法,因此該系統(tǒng)的具體實施方式可見前文中的基于變分蒸餾的多模態(tài)聯(lián)合表示學(xué)習(xí)方法的實施例部分,所以,其具體實施方式可以參照相應(yīng)的各個部
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年水果采摘園游客摔傷應(yīng)急演練方案
- 建筑垃圾回收企業(yè)管理模式方案
- 城市污水處理設(shè)施優(yōu)化方案
- 建筑垃圾堆放場管理標(biāo)準(zhǔn)化方案
- 2025至2030中國零信任網(wǎng)絡(luò)安全架構(gòu)金融行業(yè)部署難點與實施效果評估報告
- 2025至2030中國跨境電商獨立站運營模式與流量獲取策略分析報告
- 六一母嬰活動策劃方案(3篇)
- 啤酒周末活動策劃方案(3篇)
- 嬰兒護(hù)膚活動策劃方案(3篇)
- 施工方案下載需要(3篇)
- 急診PDCA課件教學(xué)課件
- (2021-2025)5年高考1年模擬物理真題分類匯編專題04 機(jī)械能守恒、動量守恒及功能關(guān)系(廣東專用)(解析版)
- 2025-2030手術(shù)機(jī)器人醫(yī)生培訓(xùn)體系構(gòu)建與醫(yī)院采購決策影響因素報告
- 乳糜胸護(hù)理新進(jìn)展
- 社區(qū)護(hù)理中的青少年保健
- 中遠(yuǎn)海運博鰲有限公司東嶼島旅游度假區(qū)招聘筆試題庫2025
- 手術(shù)室膽囊結(jié)石護(hù)理查房
- QGDW10384-2023輸電線路鋼管塔加工技術(shù)規(guī)程
- 《養(yǎng)老機(jī)構(gòu)智慧運營與管理》全套教學(xué)課件
- 2025年本科院校圖書館招聘面試題
- 電子商務(wù)畢業(yè)論文5000
評論
0/150
提交評論