CN119938985B 一種基于人腦情景記憶通路啟發(fā)的文本視頻檢索方法 (南京信息工程大學(xué))_第1頁(yè)
CN119938985B 一種基于人腦情景記憶通路啟發(fā)的文本視頻檢索方法 (南京信息工程大學(xué))_第2頁(yè)
CN119938985B 一種基于人腦情景記憶通路啟發(fā)的文本視頻檢索方法 (南京信息工程大學(xué))_第3頁(yè)
CN119938985B 一種基于人腦情景記憶通路啟發(fā)的文本視頻檢索方法 (南京信息工程大學(xué))_第4頁(yè)
CN119938985B 一種基于人腦情景記憶通路啟發(fā)的文本視頻檢索方法 (南京信息工程大學(xué))_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利69號(hào)公司32224GO6V2一種基于人腦情景記憶通路啟發(fā)的文本視本發(fā)明公開了一種基于人腦情景記憶通路碼組件對(duì)目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)進(jìn)行內(nèi)組件對(duì)目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)進(jìn)行情境標(biāo)令牌輸入至雙曲圖神經(jīng)網(wǎng)絡(luò)獲得目標(biāo)場(chǎng)景表似度對(duì)待檢索文本或視頻進(jìn)行篩選獲得目標(biāo)檢將文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)輸入至第一內(nèi)容編碼組件獲得文本全局表征和視覺全局表征;通過句法分析器將文本訓(xùn)練數(shù)據(jù)獲得短語(yǔ)以及單詞矩陣掩碼;將短語(yǔ)輸入至第二內(nèi)容編碼組件獲得文本語(yǔ)義單元表征:通過K均值算法將視覺全局表征分割為視覺語(yǔ)義單元表征;將文本語(yǔ)義單元表征和視覺語(yǔ)義單元表征輸入至第三內(nèi)容編碼組件后,并與文本全局表征和視覺全局表征相加獲得文本事件表征與視覺事件表征;將視頻訓(xùn)練數(shù)據(jù)以及文本訓(xùn)練數(shù)據(jù)與詞矩陣掩碼分別輸入至情境編碼組件獲得文本令牌表征和視覺令牌表征將文本事件表征、文本語(yǔ)義單元表征、視覺事件表征、視覺語(yǔ)義單元表征、文本令牌表征和視覺令牌表征作為節(jié)點(diǎn)特征映射至雙曲空間構(gòu)建鄰接矩陣;將鄰接矩陣和節(jié)點(diǎn)特征輸入至雙曲圖神經(jīng)網(wǎng)絡(luò),通過雙曲圖卷積操作和池化操作獲得文本場(chǎng)景表征和視覺場(chǎng)景表征;根據(jù)各場(chǎng)景表征計(jì)算訓(xùn)練損失值;根據(jù)訓(xùn)練損失值優(yōu)化文本視頻檢索模型的權(quán)重參數(shù),重復(fù)迭代直至達(dá)到訓(xùn)練終止條件輸出訓(xùn)練后的文本視頻檢索模型;獲得目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)并輸入至文本視頻檢索模型獲得目標(biāo)索引;計(jì)算待檢索文本或視頻的表征與目標(biāo)索引的相似度,根據(jù)相似度對(duì)待檢索文本或視頻進(jìn)行篩選獲得目標(biāo)檢索結(jié)果;21.一種基于人腦情景記憶通路啟發(fā)的文本視頻檢索方法,其特征在于,包括:獲得目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)并輸入至文本視頻檢索模型,所述文本視頻檢索模型包括內(nèi)容編碼組件、情境編碼組件和雙曲圖神經(jīng)網(wǎng)絡(luò);利用內(nèi)容編碼組件對(duì)目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)進(jìn)行內(nèi)容表征提取獲得多尺度目標(biāo)文本表征或多尺度目標(biāo)視覺表征;利用情境編碼組件對(duì)目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)進(jìn)行情境表征提取獲得目標(biāo)文本令牌或目標(biāo)視覺令牌;將多尺度目標(biāo)文本表征和目標(biāo)文本令牌輸入至雙曲圖神經(jīng)網(wǎng)絡(luò)獲得目標(biāo)文本場(chǎng)景表征;或者將多尺度目標(biāo)視覺表征和目標(biāo)視覺令牌輸入至雙曲圖神經(jīng)網(wǎng)絡(luò)獲得目標(biāo)視覺場(chǎng)景表征;將目標(biāo)文本場(chǎng)景表征或目標(biāo)視覺場(chǎng)景表征作為目標(biāo)索引;計(jì)算待檢索文本或視頻的表征與目標(biāo)索引的相似度,根據(jù)相似度對(duì)待檢索文本或視頻進(jìn)行篩選獲得目標(biāo)檢索結(jié)果;所述文本視頻檢索模型的訓(xùn)練過程包括:獲取文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)并輸入至內(nèi)容編碼組件獲得單詞矩陣掩碼、文本事件表征、文本語(yǔ)義單元表征、視覺事件表征和視覺語(yǔ)義單元表征;將視頻訓(xùn)練數(shù)據(jù)以及文本訓(xùn)練數(shù)據(jù)與單詞矩陣掩碼分別輸入至情境編碼組件獲得文本令牌表征和視覺令牌表征;將文本事件表征、文本語(yǔ)義單元表征、視覺事件表征、視覺語(yǔ)義單元表征、文本令牌表征和視覺令牌表征作為節(jié)點(diǎn)特征映射至雙曲空間構(gòu)建鄰接矩陣,將鄰接矩陣和節(jié)點(diǎn)特征輸入至雙曲圖神經(jīng)網(wǎng)絡(luò),通過雙曲圖卷積操作和池化操作獲得文本場(chǎng)景表征和視覺場(chǎng)景表征、視覺令牌表征、文本場(chǎng)景表征和視覺場(chǎng)景表征計(jì)算訓(xùn)練損失值;根據(jù)訓(xùn)練損失值優(yōu)化文本視頻檢索模型的權(quán)重參數(shù),重復(fù)迭代直至達(dá)到訓(xùn)練終止條件輸出訓(xùn)練后的文本視頻檢索模型。2.根據(jù)權(quán)利要求1所述的文本視頻檢索方法,其特征在于,所述內(nèi)容編碼組件包括第一內(nèi)容編碼組件、第二內(nèi)容編碼組件和第三內(nèi)容編碼組件;所述獲取文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)并輸入至內(nèi)容編碼組件獲得單詞矩陣掩碼、文將文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)輸入至第一內(nèi)容編碼組件獲得文本全局表征和視覺全局表征;通過句法分析器將文本訓(xùn)練數(shù)據(jù)獲得短語(yǔ)以及單詞矩陣掩碼;將短語(yǔ)輸入至第二內(nèi)容編碼組件獲得文本語(yǔ)義單元表征;通過K均值算法將視覺全局表征分割為視覺語(yǔ)義單元表征;將文本語(yǔ)義單元表征和視覺語(yǔ)義單元表征輸入至第三內(nèi)容編碼組件后,并與文本全局表征和視覺全局表征相加獲得文本事件表征與視覺事件表征。3.根據(jù)權(quán)利要求2所述的文本視頻檢索方法,其特征在于,所述第一內(nèi)容編碼組件包括卷積神經(jīng)網(wǎng)絡(luò)、全局視覺編碼器和全局文本編碼器;將文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)輸入至第一內(nèi)容編碼組件獲得文本全局表征和視覺3通過卷積神經(jīng)網(wǎng)絡(luò)由視頻訓(xùn)練數(shù)據(jù)中提取圖像塊序列;將圖像塊序列進(jìn)行層歸一化處理后輸入至所述全局視覺編碼器內(nèi)的多頭注意力層獲得全局視覺提取特征,將全局視覺提取特征與圖像塊序列拼接后的全局視覺融合特征,將全局視覺融合特征進(jìn)行層歸一化處理后輸入至所述全局視覺編碼器內(nèi)的多層感知機(jī)獲得全局視覺感知特征;將全局視覺感知特征與全局視覺融合特征拼接獲得視覺全局表征;將文本訓(xùn)練數(shù)據(jù)進(jìn)行層歸一化處理后輸入至所述全局文本編碼器內(nèi)的多頭注意力層獲得全局本文提取特征,將全局本文提取特征與文本訓(xùn)練數(shù)據(jù)拼接后的全局文本融合特征,將全局文本融合特征進(jìn)行層歸一化處理后輸入至所述全局文本編碼器內(nèi)的多層感知機(jī)獲得全局文本感知特征;將全局文本感知特征與全局文本融合特征拼接獲得文本全局表4.根據(jù)權(quán)利要求2所述的文本視頻檢索方法,其特征在于,所述第三內(nèi)容編碼組件包括事件視覺編碼器和事件文本編碼器;將文本語(yǔ)義單元表征和視覺語(yǔ)義單元表征輸入至第三內(nèi)容編碼組件后,并與文本全局表征和視覺全局表征相加獲得文本事件表征與視覺事件表征,具體包括:將視覺語(yǔ)義單元表征進(jìn)行層歸一化處理后輸入至所述事件視覺編碼器內(nèi)的多頭注意力層獲得視覺事件提取特征,對(duì)視覺事件提取特征進(jìn)行層歸一化處理后輸入至所述事件視覺編碼器內(nèi)的多層感知機(jī)獲得視覺事件感知特征;對(duì)視覺全局表征進(jìn)行平均池化處理后,與視覺事件感知特征以及視覺事件提取特征拼接獲得視覺事件表征;將文本語(yǔ)義單元表征進(jìn)行層歸一化處理后輸入至所述事件文本編碼器內(nèi)的多頭注意力層獲得文本事件提取特征,對(duì)文本事件提取特征進(jìn)行層歸一化處理后輸入至所述事件文本編碼器內(nèi)的多層感知機(jī)獲得文本事件感知特征;對(duì)文本全局表征添加分類標(biāo)記后,與文本事件感知特征以及文本事件提取特征拼接獲得文本事件表征。5.根據(jù)權(quán)利要求1所述的文本視頻檢索方法,其特征在于,所述情境編碼組件包括情境視覺編碼器;將視頻訓(xùn)練數(shù)據(jù)輸入至情境編碼組件獲得視覺令牌,具體包括:將視頻訓(xùn)練數(shù)據(jù)輸入至情境視覺編碼器,對(duì)視頻訓(xùn)練數(shù)據(jù)進(jìn)行層歸一化處理后獲得視覺標(biāo)準(zhǔn)數(shù)據(jù),對(duì)視覺標(biāo)準(zhǔn)數(shù)據(jù)添加分類標(biāo)簽獲得視覺初始令牌;將視覺初始令牌順著視頻幀序列的方向前后移動(dòng)捕獲細(xì)粒度的時(shí)序信息,并輸入至情境視覺編碼器內(nèi)的多頭注意力層獲得視覺提取令牌,將視覺提取令牌與視覺初始令牌拼接獲得視覺融合令牌;將視覺融合令牌進(jìn)行層歸一化處理后輸入至情境視覺編碼器內(nèi)的多層感知機(jī)獲得第一視覺感知令牌;將第一視覺感知令牌與視覺融合令牌拼接獲得視覺細(xì)化令將視覺細(xì)化令牌輸入至令牌選擇層內(nèi)的多層感知機(jī),將視覺細(xì)化令牌壓縮至設(shè)定比例獲得第一視覺壓縮令牌;對(duì)第一視覺壓縮令牌添加分類標(biāo)記后再次輸入至令牌選擇層內(nèi)的多層感知機(jī)獲得第二視覺壓縮令牌;對(duì)第二視覺壓縮令牌進(jìn)行Softmax函數(shù)計(jì)算獲得重要性評(píng)分,然后根據(jù)重要性評(píng)分選4擇每個(gè)視頻幀中前K個(gè)視覺細(xì)化令牌作為視覺關(guān)鍵令牌;將視覺關(guān)鍵令牌進(jìn)行層歸一化后,并輸入至情境視覺編碼器內(nèi)的多頭注意力層獲得視覺關(guān)鍵細(xì)化令牌,將視覺關(guān)鍵細(xì)化令牌與視覺關(guān)鍵令牌拼接獲得視覺關(guān)鍵融合令牌;將視覺關(guān)鍵融合令牌進(jìn)行層歸一化處理后輸入至情境視覺編碼器內(nèi)的多層感知機(jī)獲得第二視覺感知令牌,然后將第二視覺感知令牌與視覺關(guān)鍵融合令牌拼接獲得視覺令牌。6.根據(jù)權(quán)利要求1所述的文本視頻檢索方法,其特征在于,所述情境編碼組件包括第一神經(jīng)網(wǎng)絡(luò)架構(gòu)和第二神經(jīng)網(wǎng)絡(luò)架構(gòu);將文本訓(xùn)練數(shù)據(jù)和單詞矩陣掩碼輸入至情境編碼組件獲得文本令牌,具體包括:將文本訓(xùn)練數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡(luò)架構(gòu),對(duì)文本訓(xùn)練數(shù)據(jù)進(jìn)行層歸一化處理后輸入至第一神經(jīng)網(wǎng)絡(luò)架構(gòu)內(nèi)的多頭注意力層獲得第一文本提取令牌,將第一文本提取令牌與文本訓(xùn)練數(shù)據(jù)拼接獲得第一文本融合令牌;將第一文本融合令牌進(jìn)行層歸一化處理后輸入至第一神經(jīng)網(wǎng)絡(luò)架構(gòu)內(nèi)的多層感知機(jī)獲得第一文本感知令牌;將第一文本感知令牌與第一文本融合令牌拼接獲得文本細(xì)化令牌;將文本細(xì)化令牌輸入至第二神經(jīng)網(wǎng)絡(luò)架構(gòu),對(duì)文本細(xì)化令牌進(jìn)行層歸一化處理獲得文本標(biāo)準(zhǔn)化令牌,將文本標(biāo)準(zhǔn)化令牌和單詞矩陣掩碼輸入至第二神經(jīng)網(wǎng)絡(luò)架構(gòu)內(nèi)的多頭注意力層獲得第二文本提取令牌,將第二文本提取令牌與文本細(xì)化令牌拼接獲得第二文本融合令牌;將第二文本融合令牌進(jìn)行層歸一化處理后輸入至第二神經(jīng)網(wǎng)絡(luò)架構(gòu)內(nèi)的多層感知機(jī)獲得第二文本感知令牌,將第二文本感知令牌與第二文本融合令牌拼接獲得文本令牌。7.根據(jù)權(quán)利要求1所述的文本視頻檢索方法,其特征在于,將文本事件表征、文本語(yǔ)義單元表征、視覺事件表征、視覺語(yǔ)義單元表征、文本令牌表征和視覺令牌表征作為節(jié)點(diǎn)特征映射至雙曲空間構(gòu)建鄰接矩陣,具體包括:將視覺事件表征和文本事件表征映射至雙曲空間中第一級(jí)別粒度的節(jié)點(diǎn)特征;將視覺語(yǔ)義單元表征和文本語(yǔ)義單元表征映射至雙曲空間中第二級(jí)別粒度的節(jié)點(diǎn)特征;將視覺令牌表征和文本令牌表征映射至雙曲空間中第三級(jí)別粒度的節(jié)點(diǎn)特征;將相同級(jí)別粒度的節(jié)點(diǎn)相互連接,將第二級(jí)別粒度的各個(gè)節(jié)點(diǎn)特征與所有第一級(jí)別粒度的節(jié)點(diǎn)特征建立連接;根據(jù)語(yǔ)義從屬關(guān)系在第二級(jí)別粒度的節(jié)點(diǎn)特征與第三級(jí)別粒度的節(jié)點(diǎn)特征之間建立連接;當(dāng)?shù)?個(gè)節(jié)點(diǎn)特征與第j個(gè)節(jié)點(diǎn)特征之間存在連接時(shí),連接邊Aij=1;否則,連接邊Aij=0;根據(jù)各節(jié)點(diǎn)特征之間的連接關(guān)系建立鄰接矩陣A。8.根據(jù)權(quán)利要求7所述的文本視頻檢索方法,其特征在于,將鄰接矩陣和節(jié)點(diǎn)特征輸入至雙曲圖神經(jīng)網(wǎng)絡(luò),通過雙曲圖卷積操作和池化操作獲得文本場(chǎng)景表征和視覺場(chǎng)景表征,具體包括:對(duì)節(jié)點(diǎn)特征進(jìn)行特征轉(zhuǎn)變捕獲雙曲空間隱藏表征,計(jì)算公式為:5至雙曲空間的表征映射函數(shù);u!-1,H表示第l-1層的第i個(gè)節(jié)點(diǎn)特征的歐幾里得空間隱藏?cái)?shù),CL-1表示雙曲空間中第l-1層的曲率,x!-1,H為雙曲空間中第l-1層的第i個(gè)節(jié)點(diǎn)其中,y:表示第L層的第i個(gè)節(jié)點(diǎn)特征的雙曲空間聚合表征,AGG+()為節(jié)點(diǎn)信息之間的聚合權(quán)重,[;]表示張量拼接操作,W是可學(xué)習(xí)矩陣特征的雙曲空間隱藏表征;d。(h;",h;")為雙曲空間隱藏表征h;與雙曲空間隱藏表征 其中,z.表示第L層的第i個(gè)節(jié)點(diǎn)的雙曲空間表征;σ()為雙曲圖神經(jīng)網(wǎng)絡(luò)的激活函6根據(jù)文本事件表征、文本語(yǔ)義單元表征、視覺事件表征、視覺語(yǔ)義單元表征、文本令牌表征、視覺令牌表征、文本場(chǎng)景表征和視覺場(chǎng)景表征分別計(jì)算獲得事件檢索損失、單元表征檢索損失、令牌檢索損失以及場(chǎng)景檢索損失;對(duì)各級(jí)別粒度的節(jié)點(diǎn)特征之間添加父子關(guān)系,計(jì)算雙曲空間的層級(jí)結(jié)構(gòu)損失,表達(dá)公式為:親節(jié)點(diǎn)的雙曲表征,表示視覺父親節(jié)點(diǎn)的雙曲表征,為雙曲表征至雙曲表征1之間的距離損失;為雙曲表征1與雙曲表征1之間的距離損失;E表示存在父子關(guān)系的節(jié)點(diǎn)特征集合,N(p)表示與第P個(gè)節(jié)點(diǎn)特征不存在父子關(guān)系的節(jié)點(diǎn)集合;為雙曲表征1至雙曲表征1之間的位置損失;為雙曲表征1與雙曲表征1之間的位子節(jié)點(diǎn)的序號(hào);P為文本父親節(jié)點(diǎn)或視覺父親節(jié)點(diǎn)的序號(hào);距離損失)、位置損失和位置損失計(jì)算訓(xùn)練損失值。7技術(shù)領(lǐng)域[0001]本發(fā)明屬于網(wǎng)絡(luò)模型分析技術(shù)領(lǐng)域,具體涉及多粒度信息融合的文本視頻檢索方背景技術(shù)[0002]隨著互聯(lián)網(wǎng)的快速發(fā)展,多模態(tài)數(shù)據(jù)(如文本、圖像、視頻等)的數(shù)量呈爆炸式增長(zhǎng)。如何從海量的多模態(tài)數(shù)據(jù)中高效、準(zhǔn)確地檢索到用戶所需的信息,成為了一個(gè)重要的研究方向。其中,文本視頻檢索任務(wù)尤為具有挑戰(zhàn)性,因?yàn)樗枰瑫r(shí)處理文本和視頻這兩種高度異構(gòu)的數(shù)據(jù)模態(tài)。[0003]多模態(tài)數(shù)據(jù)檢索是一種涉及多種媒體模態(tài)(如文本、圖像、音頻、視頻等)的信息檢索方法。當(dāng)前的多模態(tài)檢索技術(shù)主要通過深度學(xué)習(xí)模型將數(shù)據(jù)轉(zhuǎn)換為向量表示以及模態(tài)融合提取共同特征,并通過相似度度量排序檢索結(jié)果。然而,現(xiàn)有方法在跨模態(tài)對(duì)齊過程中往往只能處理粗粒度或細(xì)粒度的信息,無法實(shí)現(xiàn)多粒度的對(duì)齊,導(dǎo)致跨模態(tài)對(duì)齊不充分。同時(shí),視頻數(shù)據(jù)具有高維度和高冗余的特點(diǎn),現(xiàn)有方法在處理視頻數(shù)據(jù)時(shí)往往需要大量的計(jì)算資源,無法在保證檢索精度的同時(shí)提高檢索效率。發(fā)明內(nèi)容[0004]本發(fā)明提供了一種基于人腦情景記憶通路啟發(fā)的文本視頻檢索方法,通過多粒度信息融合全面捕捉文本和視頻中的多層次語(yǔ)義特征,通過雙曲圖卷積操作融合多模態(tài)、多粒度的高階信息,能夠更好地捕捉文本和視頻之間的復(fù)雜關(guān)系,顯著提升了文本視頻檢索的精度與效率。[0005]為達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案是:[0006]本發(fā)明第一方面提供了一種基于人腦情景記憶通路啟發(fā)的文本視頻檢索方法,包[0007]獲得目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)并輸入至文本視頻檢索模型,所述文本視頻檢索模型包括內(nèi)容編碼組件、情境編碼組件和雙曲圖神經(jīng)網(wǎng)絡(luò);[0008]利用內(nèi)容編碼組件對(duì)目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)進(jìn)行內(nèi)容表征提取獲得多尺度目標(biāo)文本表征或多尺度目標(biāo)視覺表征;[0009]利用情境編碼組件對(duì)目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)進(jìn)行情境表征提取獲得目標(biāo)文本令牌或目標(biāo)視覺令牌;[0010]將多尺度目標(biāo)文本表征和目標(biāo)文本令牌輸入至雙曲圖神經(jīng)網(wǎng)絡(luò)獲得目標(biāo)文本場(chǎng)景表征;或者將多尺度目標(biāo)視覺表征和目標(biāo)視覺令牌輸入至雙曲圖神經(jīng)網(wǎng)絡(luò)獲得目標(biāo)視覺場(chǎng)景表征;將目標(biāo)文本場(chǎng)景表征或目標(biāo)視覺場(chǎng)景表征作為目標(biāo)索引;[0011]計(jì)算待檢索文本或視頻的表征與目標(biāo)索引的相似度,根據(jù)相似度對(duì)待檢索文本或視頻進(jìn)行篩選獲得目標(biāo)檢索結(jié)果。[0012]進(jìn)一步的,所述文本視頻檢索模型的訓(xùn)練過程包括:8[0013]獲取文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)并輸入至內(nèi)容編碼組件獲得單詞矩陣掩碼、文本事件表征、文本語(yǔ)義單元表征、視覺事件表征和視覺語(yǔ)義單元表征;[0014]將視頻訓(xùn)練數(shù)據(jù)以及文本訓(xùn)練數(shù)據(jù)與單詞矩陣掩碼分別輸入至情境編碼組件獲得文本令牌表征和視覺令牌表征;[0015]將文本事件表征、文本語(yǔ)義單元表征、視覺事件表征、視覺語(yǔ)義單元表征、文本令牌表征和視覺令牌表征作為節(jié)點(diǎn)特征映射至雙曲空間構(gòu)建鄰接矩陣,將鄰接矩陣和節(jié)點(diǎn)特征輸入至雙曲圖神經(jīng)網(wǎng)絡(luò),通過雙曲圖卷積操作和池化操作獲得文本場(chǎng)景表征和視覺場(chǎng)景表征、視覺令牌表征、文本場(chǎng)景表征和視覺場(chǎng)景表征計(jì)算訓(xùn)練損失值;根據(jù)訓(xùn)練損失值優(yōu)化文本視頻檢索模型的權(quán)重參數(shù),重復(fù)迭代直至達(dá)到訓(xùn)練終止條件輸出訓(xùn)練后的文本視頻檢索模型。[0016]進(jìn)一步的,獲取文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)并輸入至內(nèi)容編碼組件獲得單詞矩[0017]所述內(nèi)容編碼組件包括第一內(nèi)容編碼組件、第二內(nèi)容編碼組件和第三內(nèi)容編碼組[0018]將文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)輸入至第一內(nèi)容編碼組件獲得文本全局表征和視覺全局表征;[0019]通過句法分析器將文本訓(xùn)練數(shù)據(jù)獲得短語(yǔ)以及單詞矩陣掩碼;將短語(yǔ)輸入至第二內(nèi)容編碼組件獲得文本語(yǔ)義單元表征;[0020]通過K均值算法將視覺全局表征分割為視覺語(yǔ)義單元表征;[0021]將文本語(yǔ)義單元表征和視覺語(yǔ)義單元表征輸入至第三內(nèi)容編碼組件后,并與文本全局表征和視覺全局表征相加獲得文本事件表征與視覺事件表征。[0022]進(jìn)一步的,將文本語(yǔ)義單元表征和視覺語(yǔ)義單元表征輸入至第三內(nèi)容編碼組件后,并與文本全局表征和視覺全局表征相加獲得文本事件表征與視覺事件表征,具體包括:[0023]所述第三內(nèi)容編碼組件包括事件視覺編碼器和事件文本編碼器;[0024]將視覺語(yǔ)義單元表征進(jìn)行層歸一化處理后輸入至所述事件視覺編碼器內(nèi)的多頭注意力層獲得視覺事件提取特征,對(duì)視覺事件提取特征進(jìn)行層歸一化處理后輸入至所述事件視覺編碼器內(nèi)的多層感知機(jī)獲得視覺事件感知特征;[0025]對(duì)視覺全局表征進(jìn)行平均池化處理后,與視覺事件感知特征以及視覺事件提取特征拼接獲得視覺事件表征;[0026]將文本語(yǔ)義單元表征進(jìn)行層歸一化處理后輸入至所述事件文本編碼器內(nèi)的多頭注意力層獲得文本事件提取特征,對(duì)文本事件提取特征進(jìn)行層歸一化處理后輸入至所述事件文本編碼器內(nèi)的多層感知機(jī)獲得文本事件感知特征;[0027]對(duì)文本全局表征添加分類標(biāo)記后,與文本事件感知特征以及文本事件提取特征拼接獲得文本事件表征。[0029]所述情境編碼組件包括情境視覺編碼器;將視頻訓(xùn)練數(shù)據(jù)輸入至情境視覺編碼器,對(duì)視頻訓(xùn)練數(shù)據(jù)進(jìn)行層歸一化處理后獲得視覺標(biāo)準(zhǔn)數(shù)據(jù),對(duì)視覺標(biāo)準(zhǔn)數(shù)據(jù)添加分類標(biāo)簽獲得視覺初始令牌;9多頭注意力層獲得視覺提取令牌,將視覺提取令牌與視覺初始令牌拼接獲得視覺融合令得視覺關(guān)鍵細(xì)化令牌,將視覺關(guān)鍵細(xì)化令牌與視覺關(guān)鍵令牌拼接獲得視覺關(guān)鍵融合令牌;將視覺關(guān)鍵融合令牌進(jìn)行層歸一化處理后輸入至情境視覺編碼器內(nèi)的多層感知機(jī)獲得第[0033]進(jìn)一步的,通過情境視覺編碼器內(nèi)的令牌選擇層對(duì)視覺細(xì)化令牌進(jìn)行重要性評(píng)[0035]對(duì)第一視覺壓縮令牌添加分類標(biāo)記后再次輸入至令牌選擇層內(nèi)的多層感知機(jī)獲[0036]對(duì)第二視覺壓縮令牌進(jìn)行Softmax函數(shù)計(jì)算獲得重要性評(píng)分,然后根據(jù)重要性評(píng)[0037]進(jìn)一步的,將文本訓(xùn)練數(shù)據(jù)和單詞矩陣掩碼輸入至情境編碼組件獲得文本令牌,融合令牌;將第二文本融合令牌進(jìn)行層歸一化處理知機(jī)獲得第二文本感知令牌,將第二文本感知令牌與第二文本融合令牌拼接獲得文本令空間至雙曲空間的表征映射函數(shù);u!-1,H表示第l-習(xí)參數(shù),CL-1表示雙曲空間中第l-1[0058]對(duì)雙曲空間表征進(jìn)行池化操作獲得文本場(chǎng)景達(dá)公式為:覺孩子節(jié)點(diǎn)的序號(hào);P為文本父親節(jié)點(diǎn)或視覺父親節(jié)點(diǎn)的序號(hào);[0064]根據(jù)事件檢索損失、單元表征檢索損失、令牌檢索損失、場(chǎng)景檢索損失、距離損失[0066]本發(fā)明中利用內(nèi)容編碼組件對(duì)目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)進(jìn)行內(nèi)容表征提取獲得多尺度目標(biāo)文本表征或多尺度目標(biāo)視覺表征;利用情境編碼組件對(duì)目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)進(jìn)行情境表征提取獲得目標(biāo)文本令牌或目標(biāo)視覺令牌;通過多粒度信息融合全面捕捉文本和視頻中的多層次語(yǔ)義特征,顯著提升了文本視頻檢索的精度。[0067]本發(fā)明中將多尺度目標(biāo)文本表征和目標(biāo)文本令牌輸入至雙曲圖神經(jīng)網(wǎng)絡(luò)獲得目標(biāo)文本場(chǎng)景表征;或者將多尺度目標(biāo)視覺表征和目標(biāo)視覺令牌輸入至雙曲圖神經(jīng)網(wǎng)絡(luò)獲得目標(biāo)視覺場(chǎng)景表征;將目標(biāo)文本場(chǎng)景表征或目標(biāo)視覺場(chǎng)景表征作為目標(biāo)索引;通過雙曲圖卷積操作融合多模態(tài)、多粒度的高階信息,能夠更好地捕捉文本和視頻之間的復(fù)雜關(guān)系,增強(qiáng)了模型的魯棒性和泛化能力。附圖說明[0068]圖1是本發(fā)明實(shí)施例1提供的一種基于人腦情景記憶通路啟發(fā)的文本視頻檢索方法的流程圖;[0069]圖2是本發(fā)明實(shí)施例2提供的第一內(nèi)容編碼組件的結(jié)構(gòu)圖;[0070]圖3是本發(fā)明實(shí)施例2提供的第三內(nèi)容編碼組件的結(jié)構(gòu)圖[0071]圖4是本發(fā)明實(shí)施例2提供的情境視覺編碼器的結(jié)構(gòu)圖;[0072]圖5是本發(fā)明實(shí)施例2提供的情境文本編碼器的結(jié)構(gòu)圖;[0073]圖6是本發(fā)明實(shí)施例2提供的雙曲圖卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖;[0074]圖7是本發(fā)明實(shí)施例2提供的龐加萊圓盤的示意圖。具體實(shí)施方式[0075]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步描述。以下實(shí)施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保護(hù)范圍。[0076]類腦計(jì)算是人工智能領(lǐng)域的一個(gè)新興研究方向,核心在于借鑒生物神經(jīng)系統(tǒng)的信息處理模式或結(jié)構(gòu),進(jìn)而構(gòu)建相應(yīng)的計(jì)算理論、芯片體系結(jié)構(gòu)以及應(yīng)用模型與算法。近年來認(rèn)知科學(xué)對(duì)人腦情景記憶通路的研究有客觀的進(jìn)展,人腦情景記憶通路將外部感知信號(hào)分解為多種粒度的信息然后融合成復(fù)雜場(chǎng)景表征,與人工智能領(lǐng)域?qū)ξ谋疽曨l傳統(tǒng)的編碼、對(duì)齊和檢索方式有著一定的區(qū)別,為文本視頻檢索任務(wù)的模型設(shè)計(jì)提供了新的參考。[0077]在基于人腦情景記憶通路啟發(fā)下,本發(fā)明通過多粒度信息融合全面捕捉文本和視頻中的多層次語(yǔ)義特征,通過雙曲圖卷積操作融合多模態(tài)、多粒度的高階信息,能夠更好地捕捉文本和視頻之間的復(fù)雜關(guān)系,顯著提升了文本視頻檢索的精度與效率。[0079]如圖1所示,本實(shí)施提供了一種基于人腦情景記憶通路啟發(fā)的文本視頻檢索方法,[0080]獲得目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)并輸入至文本視頻檢索模型獲得目標(biāo)索引;計(jì)算待檢索文本或視頻的表征與目標(biāo)索引的相似度,根據(jù)相似度對(duì)待檢索文本或視頻進(jìn)行篩[0081]獲得目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)并輸入至文本視頻檢索模型,所述文本視頻檢索模型包括內(nèi)容編碼組件、情境編碼組件和雙曲圖神經(jīng)網(wǎng)絡(luò);[0082]利用內(nèi)容編碼組件對(duì)目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)進(jìn)行內(nèi)容表征提取獲得多尺度目標(biāo)文本表征或多尺度目標(biāo)視覺表征;多尺度目標(biāo)文本表征包括目標(biāo)文本事件表征、目標(biāo)文本全局表征和目標(biāo)文本語(yǔ)義單元表征;多尺度目標(biāo)視覺表征包括目標(biāo)視覺事件表征、目標(biāo)視覺全局表征和目標(biāo)視覺語(yǔ)義單元表征。[0083]利用情境編碼組件對(duì)目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)進(jìn)行情境表征提取獲得目標(biāo)文本令牌或目標(biāo)視覺令牌;[0084]將多尺度目標(biāo)文本表征和目標(biāo)文本令牌輸入至雙曲圖神經(jīng)網(wǎng)絡(luò)獲得目標(biāo)文本場(chǎng)景表征;或者將多尺度目標(biāo)視覺表征和目標(biāo)視覺令牌輸入至雙曲圖神經(jīng)網(wǎng)絡(luò)獲得目標(biāo)視覺場(chǎng)景表征;將目標(biāo)文本場(chǎng)景表征或目標(biāo)視覺場(chǎng)景表征作為目標(biāo)索引;[0085]計(jì)算待檢索文本或視頻的表征與目標(biāo)索引的相似度,根據(jù)相似度對(duì)待檢索文本或視頻進(jìn)行篩選獲得目標(biāo)檢索結(jié)果。所述目標(biāo)檢索結(jié)果包括相關(guān)視頻和相關(guān)文本;即為根據(jù)目標(biāo)文本數(shù)據(jù)進(jìn)行檢索獲得相關(guān)視頻;根據(jù)目標(biāo)視頻數(shù)據(jù)進(jìn)行檢索獲得相關(guān)文本。[0086]所述文本視頻檢索模型包括內(nèi)容編碼組件、情境編碼組件和雙曲圖神經(jīng)網(wǎng)絡(luò);所述文本視頻檢索模型的訓(xùn)練過程包括:[0087]獲取文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)并輸入至內(nèi)容編碼組件獲得單詞矩陣掩碼、文[0088]所述內(nèi)容編碼組件包括第一內(nèi)容編碼組件、第二內(nèi)容編碼組件和第三內(nèi)容編碼組[0089]將文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)輸入至第一內(nèi)容編碼組件獲得文本全局表征和視覺全局表征;[0090]通過句法分析器將文本訓(xùn)練數(shù)據(jù)獲得短語(yǔ)以及單詞矩陣掩碼;將短語(yǔ)輸入至第二內(nèi)容編碼組件獲得文本語(yǔ)義單元表征;[0091]通過K均值算法將視覺全局表征分割為視覺語(yǔ)義單元表征;[0092]將文本語(yǔ)義單元表征和視覺語(yǔ)義單元表征輸入至第三內(nèi)容編碼組件后,并與文本全局表征和視覺全局表征相加獲得文本事件表征與視覺事件表征。[0093]將視頻訓(xùn)練數(shù)據(jù)以及文本訓(xùn)練數(shù)據(jù)與單詞矩陣掩碼分別輸入至情境編碼組件獲得文本令牌表征和視覺令牌表征;[0094]將文本事件表征、文本語(yǔ)義單元表征、視覺事件表征、視覺語(yǔ)義單元表征、文本令牌表征和視覺令牌表征作為節(jié)點(diǎn)特征映射至雙曲空間構(gòu)建鄰接矩陣,將鄰接矩陣和節(jié)點(diǎn)特征輸入至雙曲圖神經(jīng)網(wǎng)絡(luò),通過雙曲圖卷積操作和池化操作獲得文本場(chǎng)景表征和視覺場(chǎng)景表征、視覺令牌表征、文本場(chǎng)景表征和視覺場(chǎng)景表征計(jì)算訓(xùn)練損失值;根據(jù)訓(xùn)練損失值優(yōu)化文本視頻檢索模型的權(quán)重參數(shù),重復(fù)迭代直至達(dá)到訓(xùn)練終止條件輸出訓(xùn)練后的文本視頻檢索模型。[0095]實(shí)施例2[0096]如圖2至圖5所示,本實(shí)施提供了一種基于人腦情景記憶通路啟發(fā)的文本視頻檢索[0097]所述文本視頻檢索模型包括內(nèi)容編碼組件、情境編碼組件和雙曲圖神經(jīng)網(wǎng)絡(luò);所述文本視頻檢索模型的訓(xùn)練過程包括:[0098]獲取文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)并輸入至內(nèi)容編碼組件獲得單詞矩陣掩碼、文本事件表征、文本語(yǔ)義單元表征、視覺事件表征、視覺語(yǔ)義單元表征;所述內(nèi)容編碼組件包括第一內(nèi)容編碼組件、第二內(nèi)容編碼組件和第三內(nèi)容編碼組件;本實(shí)施例中第一內(nèi)容編碼組件、第二內(nèi)容編碼組件和第三內(nèi)容編碼組件為ContentCLIP(內(nèi)容對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練模型);[0099]將文本訓(xùn)練數(shù)據(jù)和視頻訓(xùn)練數(shù)據(jù)輸入至第一內(nèi)容編碼組件獲得文本全局表征和[0100]如圖2所示,所述第一內(nèi)容編碼組件包括卷積神經(jīng)網(wǎng)絡(luò)、全局視覺和全局文本編碼[0101]通過卷積神經(jīng)網(wǎng)絡(luò)由視頻訓(xùn)練數(shù)據(jù)中提取圖像塊序列;將圖像塊序列進(jìn)行層歸一化處理后輸入至所述全局視覺編碼器內(nèi)的多頭注意力層獲得全局視覺提取特征,將全局視覺提取特征與圖像塊序列拼接后的全局視覺融合特征,將全局視覺融合特征進(jìn)行層歸一化處理后輸入至所述全局視覺編碼器內(nèi)的多層感知機(jī)獲得全局視覺感知特征;將全局視覺感知特征與全局視覺融合特征拼接獲得視覺全局表征;[0102]將文本訓(xùn)練數(shù)據(jù)進(jìn)行層歸一化處理后輸入至所述全局文本編碼器內(nèi)的多頭注意力層獲得全局本文提取特征,將全局本文提取特征與文本訓(xùn)練數(shù)據(jù)拼接后的全局文本融合特征,將全局文本融合特征進(jìn)行層歸一化處理后輸入至所述全局文本編碼器內(nèi)的多層感知機(jī)獲得全局文本感知特征;將全局文本感知特征與全局文本融合特征拼接獲得文本全局表[0103]通過K均值算法將視覺全局表征轉(zhuǎn)化為視覺語(yǔ)義單元表征;通過句法分析器將文本訓(xùn)練數(shù)據(jù)獲得短語(yǔ)以及單詞矩陣掩碼;將短語(yǔ)輸入至第二內(nèi)容編碼組件獲得文本語(yǔ)義單元表征;所述第二內(nèi)容編碼組件包括單元文本編碼器;所述單元文本編碼器內(nèi)配置有多層感知機(jī)和多頭注意力層。[0104]將文本語(yǔ)義單元表征和視覺語(yǔ)義單元表征輸入至第三內(nèi)容編碼組件后,并與文本全局表征和視覺全局表征相加獲得文本事件表征與視覺事件表征,具體包括:[0105]所述第三內(nèi)容編碼組件包括事件視覺編碼器和事件文本編碼器;[0106]將視覺語(yǔ)義單元表征進(jìn)行層歸一化處理后輸入至所述事件視覺編碼器內(nèi)的多頭注意力層獲得視覺事件提取特征,對(duì)視覺事件提取特征進(jìn)行層歸一化處理后輸入至所述事件視覺編碼器內(nèi)的多層感知機(jī)獲得視覺事件感知特征;[0107]對(duì)視覺全局表征進(jìn)行平均池化處理后,與視覺事件感知特征以及視覺事件提取特征拼接獲得視覺事件表征;[0108]將文本語(yǔ)義單元表征進(jìn)行層歸一化處理后輸入至所述事件文本編碼器內(nèi)的多頭注意力層獲得文本事件提取特征,對(duì)文本事件提取特征進(jìn)行層歸一化處理后輸入至所述事件文本編碼器內(nèi)的多層感知機(jī)獲得文本事件感知特征;[0109]對(duì)文本全局表征添加分類標(biāo)記后,與文本事件感知特征以及文本事件提取特征拼接獲得文本事件表征。[0110]所述情境編碼組件包括情境視覺編碼器和情境文本編碼器;情境視覺編碼器和情境文本編碼器為ContextCLIP(上下文對(duì)比語(yǔ)言圖像模型)。[0111]將視頻訓(xùn)練數(shù)據(jù)輸入至情境視覺編碼器獲得視覺令牌,具體包括:[0112]將視頻訓(xùn)練數(shù)據(jù)輸入至情境視覺編碼器,對(duì)視頻訓(xùn)練數(shù)據(jù)進(jìn)行層歸一化處理后獲得視覺標(biāo)準(zhǔn)數(shù)據(jù),對(duì)視覺標(biāo)準(zhǔn)數(shù)據(jù)添加分類標(biāo)簽獲得視覺初始令牌;[0113]將視覺初始令牌順著視頻幀序列的方向前后移動(dòng),并輸入至情境視覺編碼器內(nèi)的多頭注意力層獲得視覺提取令牌,將視覺提取令牌與視覺初始令牌拼接獲得視覺融合令牌;將視覺融合令牌進(jìn)行層歸一化處理后輸入至情境視覺編碼器內(nèi)的多層感知機(jī)獲得第一視覺感知令牌;將第一視覺感知令牌與視覺融合令牌拼接獲得視覺細(xì)化令牌;[0114]將視覺細(xì)化令牌輸入至情境視覺編碼器內(nèi)的令牌選擇層,通過令牌選擇層內(nèi)的多層感知機(jī)將視覺細(xì)化令牌壓縮至設(shè)定比例獲得第一視覺壓縮令牌;對(duì)視覺壓縮令牌添加分類標(biāo)記后再次輸入至令牌選擇層內(nèi)的多層感知機(jī)獲得第二視覺壓縮令牌;對(duì)第二視覺壓縮令牌進(jìn)行Softmax函數(shù)計(jì)算獲得重要性評(píng)分,然后根據(jù)重要性評(píng)分選擇每個(gè)視頻幀中前K個(gè)視覺細(xì)化令牌(TopK)作為視覺關(guān)鍵令牌;[0115]將視覺關(guān)鍵令牌進(jìn)行層歸一化后,并輸入至情境視覺編碼器內(nèi)的多頭注意力層獲得視覺關(guān)鍵細(xì)化令牌,將視覺關(guān)鍵細(xì)化令牌與視覺關(guān)鍵令牌拼接獲得視覺關(guān)鍵融合令牌;將視覺關(guān)鍵融合令牌進(jìn)行層歸一化處理后輸入至情境視覺編碼器內(nèi)的多層感知機(jī)獲得第二視覺感知令牌,然后將第二視覺感知令牌與視覺關(guān)鍵融合令牌拼接獲得視覺令牌。[0116]將文本訓(xùn)練數(shù)據(jù)和單詞矩陣掩碼輸入至情境文本編碼器獲得文本令牌,具體包[0117]所述情境文本編碼器包括第一神經(jīng)網(wǎng)絡(luò)架構(gòu)和第二神經(jīng)網(wǎng)絡(luò)架構(gòu);第一神經(jīng)網(wǎng)絡(luò)架構(gòu)和第二神經(jīng)網(wǎng)絡(luò)架構(gòu)為Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu);[0118]將文本訓(xùn)練數(shù)據(jù)輸入至第一神經(jīng)網(wǎng)絡(luò)架構(gòu),對(duì)文本訓(xùn)練數(shù)據(jù)進(jìn)行層歸一化處理后輸入至第一神經(jīng)網(wǎng)絡(luò)架構(gòu)內(nèi)的多頭注意力層獲得第一文本提取令牌,將第一文本提取令牌與文本訓(xùn)練數(shù)據(jù)拼接獲得第一文本融合令牌;將第一文本融合令牌進(jìn)行層歸一化處理后輸入至第一神經(jīng)網(wǎng)絡(luò)架構(gòu)內(nèi)的多層感知機(jī)獲得第一文本感知令牌;將第一文本感知令牌與第一文本融合令牌拼接獲得文本細(xì)化令牌;[0119]將文本細(xì)化令牌輸入至第二神經(jīng)網(wǎng)絡(luò)架構(gòu),對(duì)文本細(xì)化令牌進(jìn)行層歸一化處理獲得文本標(biāo)準(zhǔn)化令牌,將文本標(biāo)準(zhǔn)化令牌和單詞矩陣掩碼輸入至第二神經(jīng)網(wǎng)絡(luò)架構(gòu)內(nèi)的多頭注意力層獲得第二文本提取令牌,將第二文本提取令牌與文本細(xì)化令牌拼接獲得第二文本融合令牌;將第二文本融合令牌進(jìn)行層歸一化處理后輸入至第二神經(jīng)網(wǎng)絡(luò)架構(gòu)內(nèi)的多層感知機(jī)獲得第二文本感知令牌,將第二文本感知令牌與第二文本融合令牌拼接獲得文本令[0120]將文本事件表征、文本語(yǔ)義單元表征、視覺事件表征、視覺語(yǔ)義單元表征、文本令牌表征和視覺令牌表征作為節(jié)點(diǎn)特征映射至雙曲空間構(gòu)建鄰接矩陣,具體包括:[0121]如圖7所示,本實(shí)施例中雙曲空間利用龐加萊圓盤表示,空間以原點(diǎn)為中心,向外空間容量呈指數(shù)級(jí)增長(zhǎng)。[0122]將視覺事件表征和文本事件表征映射至雙曲空間中第一級(jí)別粒度的節(jié)點(diǎn)特征;將[0129]其中,h;表示第L層的第i個(gè)節(jié)點(diǎn)特征的雙曲空間至雙曲空間的表征映射函數(shù);u!-1,H表示第l-1層的第i個(gè)節(jié)點(diǎn)特征的歐幾里得空間習(xí)參數(shù),CL-1表示雙曲空間中第l-1信息聚合函數(shù);Ni表示第i個(gè)節(jié)點(diǎn)特征的鄰居節(jié)點(diǎn)特征之間的聚合權(quán)重,[;]表示張量拼接操作,W是可學(xué)習(xí)矩陣;表示第l層的第j個(gè)與雙曲空間隱藏表[0137]其中,z;表示第L層的第i個(gè)節(jié)點(diǎn)的雙曲空間表征;σ()為雙曲圖神經(jīng)網(wǎng)絡(luò)的激件表征至視覺事件表征的檢索損失;為視覺事件表征至文本事件表征的檢索損失;Sgis為文本事件表征和視覺事件表征的正樣本相似度;,為由文本事件表征檢索視覺單元至視覺語(yǔ)義單元的檢索損失;為文本語(yǔ)義單元與視覺語(yǔ)義單元的正樣本相似單元檢索文本語(yǔ)義單元的負(fù)樣本相似度。[0147]公式中,為文本令牌至視覺令牌的檢索損失;為視覺令牌至文本令牌的檢索損失;為文本令牌和視覺令牌的正樣本相似度;為由文本令牌檢索視覺至文本場(chǎng)景表征的檢索損失;為視覺場(chǎng)景表征和文本場(chǎng)景表征的的正樣本相似度;本父親節(jié)點(diǎn)的雙曲表征,表示視覺父親節(jié)點(diǎn)的雙曲表征,為雙曲表征1至雙曲表子關(guān)系的節(jié)點(diǎn)特征集合,N(p)表示與第P個(gè)節(jié)點(diǎn)特征不存在父子關(guān)系的節(jié)點(diǎn)集合;為雙曲表征至雙曲表征之間的位置損失;為雙曲表征1與雙曲表征:覺孩子節(jié)點(diǎn)的序號(hào);P為文本父親節(jié)點(diǎn)或視覺父親節(jié)點(diǎn)的序號(hào);[0154]根據(jù)事件檢索損失、語(yǔ)義單元檢索損失、令牌檢索損失、場(chǎng)景檢索損失、距離損失[0155]根據(jù)訓(xùn)練損失值優(yōu)化文本視頻檢索模型的權(quán)重參數(shù),重復(fù)迭代直至達(dá)到訓(xùn)練終止條件輸出訓(xùn)練后的文本視頻檢索模型。[0156]在推理階段,本實(shí)施例采用了二階段檢索策略。首先,僅啟動(dòng)內(nèi)容編碼組件,將目標(biāo)文本數(shù)據(jù)或目標(biāo)視頻數(shù)據(jù)輸入至內(nèi)容編碼組件提取語(yǔ)義單元表征與事件表征;將語(yǔ)義單元表征與事件表征作為目標(biāo)索引,在視頻數(shù)據(jù)庫(kù)中快速篩選出候選集;[0157]將候選集中待檢索文本或視頻送入再次文本視頻檢索模型,計(jì)算候選集中的待檢索文本或視頻與目標(biāo)索引的相似度,根據(jù)相似度對(duì)候選集中待檢索文本或視頻進(jìn)行篩選獲得目標(biāo)檢索結(jié)果并重新排序;本實(shí)施例不僅保證了檢索精度又保證了模型效率。[0158]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論