CN113821687B 一種內(nèi)容檢索方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(騰訊科技(深圳)有限公司)_第1頁(yè)
CN113821687B 一種內(nèi)容檢索方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(騰訊科技(深圳)有限公司)_第2頁(yè)
CN113821687B 一種內(nèi)容檢索方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(騰訊科技(深圳)有限公司)_第3頁(yè)
CN113821687B 一種內(nèi)容檢索方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(騰訊科技(深圳)有限公司)_第4頁(yè)
CN113821687B 一種內(nèi)容檢索方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)(騰訊科技(深圳)有限公司)_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利科技中一路騰訊大廈35層所(普通合伙)44300專利代理師李漢亮介質(zhì)獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容當(dāng)待檢索內(nèi)容為視頻內(nèi)容時(shí),對(duì)視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到多個(gè)模態(tài)對(duì)應(yīng)的模態(tài)特征↓分別對(duì)每一模態(tài)對(duì)應(yīng)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)對(duì)應(yīng)的模態(tài)內(nèi)容特征將模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻內(nèi)容的視頻特征,并根據(jù)視頻特征,在預(yù)設(shè)內(nèi)容集合中檢索出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容2獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容;當(dāng)所述待檢索內(nèi)容為視頻內(nèi)容時(shí),對(duì)所述視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的模態(tài)特征,所述模態(tài)特征為所述視頻內(nèi)容中每一模態(tài)對(duì)應(yīng)的特征信息,所述視頻內(nèi)容分別對(duì)每一模態(tài)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)的模態(tài)內(nèi)容特征,所述模態(tài)內(nèi)容特征為每一模態(tài)內(nèi)容的總體特征,用于指示每一模態(tài)下的內(nèi)容特征;將所述模態(tài)內(nèi)容特征進(jìn)行融合,得到所述視頻內(nèi)容的視頻特征,并根據(jù)所述視頻特征,在預(yù)設(shè)內(nèi)容集合中檢索出所述視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容;采用訓(xùn)練后內(nèi)容檢索模型對(duì)所述視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到所述視頻內(nèi)容中每一模態(tài)的初始模態(tài)特征;在所述視頻內(nèi)容中提取出視頻幀,并采用所述訓(xùn)練后內(nèi)容檢索模型對(duì)所述視頻幀進(jìn)行多模態(tài)特征提取,得到每一視頻幀的基礎(chǔ)模態(tài)特征;在所述基礎(chǔ)模態(tài)特征中篩選出每一模態(tài)對(duì)應(yīng)的目標(biāo)模態(tài)特征,并將所述目標(biāo)模態(tài)特征和對(duì)應(yīng)的初始模態(tài)特征進(jìn)行融合,得到每一模態(tài)的視頻內(nèi)容對(duì)應(yīng)的模態(tài)特征。2.根據(jù)權(quán)利要求1所述的內(nèi)容檢索方法,其特征在于,所述分別對(duì)每一模態(tài)的模態(tài)特征在所述訓(xùn)練后內(nèi)容檢索模型的視頻特征提取網(wǎng)絡(luò)中識(shí)別出每一模態(tài)對(duì)應(yīng)的目標(biāo)視頻特征提取網(wǎng)絡(luò);采用所述目標(biāo)視頻特征提取網(wǎng)絡(luò)對(duì)所述模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)的模態(tài)視頻特征。3.根據(jù)權(quán)利要求1所述的內(nèi)容檢索方法,其特征在于,所述采用訓(xùn)練后內(nèi)容檢索模型對(duì)所述視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到所述視頻內(nèi)容中每一模態(tài)的初始模特特征之前,還包括:獲取內(nèi)容樣本集合,所述內(nèi)容樣本集合包括視頻樣本和文本樣本,所述文本樣本包括至少一個(gè)文本詞;采用預(yù)設(shè)內(nèi)容檢索模型對(duì)所述視頻樣本進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的樣本模態(tài)特征;分別對(duì)每一模態(tài)的樣本模態(tài)特征進(jìn)行特征提取,得到所述視頻樣本的樣本模態(tài)內(nèi)容特征,并將所述樣本模態(tài)內(nèi)容特征進(jìn)行融合,得到所述視頻樣本的樣本視頻特征;對(duì)所述文本樣本進(jìn)行特征提取,得到樣本文本特征和每一文本詞對(duì)應(yīng)的文本詞特征,并根據(jù)所述樣本模態(tài)內(nèi)容特征、樣本視頻特征、樣本文本特征和文本詞特征,對(duì)所述預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到所述訓(xùn)練后內(nèi)容檢索模型。4.根據(jù)權(quán)利要求3所述的內(nèi)容檢索方法,其特征在于,所述根據(jù)所述樣本模態(tài)內(nèi)容特征、樣本視頻特征、樣本文本特征和文本詞特征,對(duì)所述預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到根據(jù)所述樣本模態(tài)內(nèi)容特征和文本詞特征,確定所述內(nèi)容樣本集合的特征損失信息;基于所述樣本視頻特征和樣本文本特征,確定所述內(nèi)容樣本集合的內(nèi)容損失信息;3將所述特征損失信息和內(nèi)容損失信息進(jìn)行融合,并基于融合后損失信息,對(duì)預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到訓(xùn)練后內(nèi)容檢索模型。5.根據(jù)權(quán)利要求4所述的內(nèi)容檢索方法,其特征在于,所述根據(jù)所述樣本模態(tài)內(nèi)容特征和文本詞特征,確定所述內(nèi)容樣本集合的特征損失信息,包括:計(jì)算所述樣本模態(tài)內(nèi)容特征和文本詞特征之間的特征相似度,得到第一特征相似度;根據(jù)所述第一特征相似度,確定所述視頻樣本和文本樣本之間的樣本相似度;基于所述樣本相似度,計(jì)算所述視頻樣本與文本樣本之間的特征距離,以得到所述內(nèi)容樣本集合的特征損失信息。6.根據(jù)權(quán)利要求5所述的內(nèi)容檢索方法,其特征在于,所述根據(jù)所述第一特征相似度,確定所述視頻樣本和文本樣本之間的樣本相似度,包括:根據(jù)所述第一特征相似度,將所述樣本模態(tài)內(nèi)容特征與文本詞特征進(jìn)行特征交互,得到交互后視頻特征和交互后文本詞特征;計(jì)算所述交互后視頻特征與交互后文本詞特征之間的特征相似度,得到第二特征相似將所述第二特征相似度進(jìn)行融合,得到所述視頻樣本和文本樣本之間的樣本相似度。7.根據(jù)權(quán)利要求6所述的內(nèi)容檢索方法,其特征在于,所述根據(jù)所述第一特征相似度,將所述樣本模態(tài)內(nèi)容特征與文本詞特征進(jìn)行特征交互,得到交互后視頻特征和交互后文本對(duì)所述第一特征相似度進(jìn)行標(biāo)準(zhǔn)化處理,得到目標(biāo)特征相似度;根據(jù)所述目標(biāo)特征相似度,確定所述樣本模態(tài)內(nèi)容特征的關(guān)聯(lián)權(quán)重,所述關(guān)聯(lián)權(quán)重用于指示所述樣本模態(tài)內(nèi)容特征與文本詞特征之間的關(guān)聯(lián)關(guān)系;基于所述關(guān)聯(lián)權(quán)重,對(duì)所述樣本模態(tài)內(nèi)容特征進(jìn)行加權(quán),并基于加權(quán)后樣本模態(tài)內(nèi)容特征對(duì)所述文本詞特征進(jìn)行更新,以得到所述交互后視頻特征和交互后文本詞特征。8.根據(jù)權(quán)利要求7所述的內(nèi)容檢索方法,其特征在于,所述基于加權(quán)后樣本模態(tài)內(nèi)容特征對(duì)所述文本詞特征進(jìn)行更新,以得到所述交互后視頻特征和交互后文本詞特征,包括:將所述加權(quán)后樣本模態(tài)內(nèi)容特征作為初始交互后視頻特征,并基于所述初始交互后視頻特征對(duì)所述文本詞特征進(jìn)行更新,得到初始交互后文本詞特征;計(jì)算所述初始交互后視頻特征與初始交互后文本詞特征的特征相似度,得到第三特征相似度;根據(jù)所述第三特征相似度,對(duì)所述初始交互后視頻特征和初始交互后文本詞特征進(jìn)行更新,得到所述交互后視頻特征和交互后文本詞特征。9.根據(jù)權(quán)利要求8所述的內(nèi)容檢索方法,其特征在于,所述根據(jù)所述第三特征相似度,對(duì)所述初始交互后視頻特征和初始交互后文本詞特征進(jìn)行更新,得到所述交互后視頻特征根據(jù)所述第三特征相似度,將所述初始交互后視頻特征和初始交互后文本詞特征進(jìn)行特征交互,以得到目標(biāo)交互后視頻特征和目標(biāo)交互后文本詞特征;將所述目標(biāo)交互后視頻特征作為初始交互后視頻特征,并將所述目標(biāo)交互后文本詞特征作為初始交互后文本詞特征;返回執(zhí)行所述計(jì)算所述初始交互后視頻特征與初始交互后文本詞特征的特征相似度4的步驟,直至所述初始交互后視頻特征和初始交互后文本詞特征的特征交互次數(shù)達(dá)到預(yù)設(shè)次數(shù)為止,得到所述交互后視頻特征和交互后文本詞特征。10.根據(jù)權(quán)利要求5所述的內(nèi)容檢索方法,其特征在于,所述基于所述樣本相似度,計(jì)算所述視頻樣本與文本樣本之間的特征距離,以得到所述內(nèi)容樣本集合的特征損失信息,包獲取所述內(nèi)容樣本集合對(duì)應(yīng)的預(yù)設(shè)特征邊界值;根據(jù)所述樣本相似度,在所述內(nèi)容樣本集合中篩選出視頻樣本與文本樣本匹配的第一內(nèi)容樣本對(duì)、以及視頻樣本與文本樣本不匹配的第二內(nèi)容樣本對(duì);基于所述預(yù)設(shè)特征邊界值,計(jì)算所述第一內(nèi)容樣本對(duì)與第二內(nèi)容樣本對(duì)之間的特征距離,得到所述內(nèi)容樣本集合的特征損失信息。11.根據(jù)權(quán)利要求10所述的內(nèi)容檢索方法,其特征在于,所述基于所述預(yù)設(shè)特征邊界值,計(jì)算所述第一內(nèi)容樣本對(duì)于第二內(nèi)容樣本對(duì)之間的特征距離,得到所述內(nèi)容樣本集合在所述第二內(nèi)容樣本對(duì)中篩選出樣本相似度最大的內(nèi)容樣本對(duì),得到目標(biāo)內(nèi)容樣本計(jì)算所述第一內(nèi)容樣本對(duì)的樣本相似度與目標(biāo)內(nèi)容樣本對(duì)的樣本相似度之間的相似將所述預(yù)設(shè)特征邊界值與第一相似度差值進(jìn)行融合,以得到所述內(nèi)容樣本集合的特征損失信息。12.根據(jù)權(quán)利要求4所述的內(nèi)容檢索方法,其特征在于,所述基于所述樣本視頻特征和樣本文本特征,確定所述內(nèi)容樣本集合的內(nèi)容損失信息,包括:計(jì)算所述樣本視頻特征和文本特征之間的特征相似度,得到所述視頻樣本與文本樣本之間的內(nèi)容相似度;根據(jù)所述內(nèi)容相似度,在所述內(nèi)容樣本集合中篩選出視頻樣本與文本樣本匹配的第三內(nèi)容樣本對(duì)、以及視頻樣本與內(nèi)容樣本不匹配的第四內(nèi)容樣本對(duì);獲取所述內(nèi)容樣本集合對(duì)應(yīng)的預(yù)設(shè)內(nèi)容邊界值,并根據(jù)所述預(yù)設(shè)內(nèi)容邊界值,計(jì)算所述第三內(nèi)容樣本對(duì)與第四內(nèi)容樣本對(duì)之間的內(nèi)容差值,以得到所述內(nèi)容樣本集合的內(nèi)容損失信息。13.根據(jù)權(quán)利要求12所述的內(nèi)容檢索方法,其特征在于,所述根據(jù)所述預(yù)設(shè)內(nèi)容邊界值,計(jì)算所述第三內(nèi)容樣本對(duì)于第四內(nèi)容樣本對(duì)之間的內(nèi)容差值,以得到所述內(nèi)容樣本集計(jì)算所述第三內(nèi)容樣本對(duì)的內(nèi)容相似度與第四內(nèi)容樣本對(duì)的內(nèi)容相似度之間的相似將所述第二相似度差值與預(yù)設(shè)內(nèi)容邊界值進(jìn)行融合,得到所述第三內(nèi)容樣本對(duì)與第四內(nèi)容樣本對(duì)之間的內(nèi)容差值;對(duì)所述內(nèi)容差值進(jìn)行標(biāo)準(zhǔn)化處理,得到所述內(nèi)容樣本集合的內(nèi)容損失信息。14.根據(jù)權(quán)利要求1所述的內(nèi)容檢索方法,其特征當(dāng)所述待檢索內(nèi)容為文本內(nèi)容時(shí),對(duì)所述文本內(nèi)容進(jìn)行特征提取,得到所述文本內(nèi)容的文本特征;5根據(jù)所述文本特征,在所述預(yù)設(shè)內(nèi)容集合中檢索出所述文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)15.一種內(nèi)容檢索裝置,其特征在于,包括:獲取單元,用于獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容;第一提取單元,用于當(dāng)所述待檢索內(nèi)容為視頻內(nèi)容時(shí),對(duì)所述視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的模態(tài)特征,所述模態(tài)特征為所述視頻內(nèi)容中每一模態(tài)對(duì)應(yīng)的特征信息,所述視頻內(nèi)容中包含多個(gè)模態(tài),所述多個(gè)模態(tài)包括描述動(dòng)作、音頻、場(chǎng)景、人臉和/或?qū)嶓w;第二提取單元,用于分別對(duì)每一模態(tài)的模態(tài)特征進(jìn)行特征提文本檢索單元,用于將所述模態(tài)內(nèi)容特征進(jìn)行融合,得到所述視頻內(nèi)容的視頻特征,并根據(jù)所述視頻特征,在預(yù)設(shè)內(nèi)容集合中檢索出所述視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容;其中,所述對(duì)所述視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的模態(tài)特征,包括:采用訓(xùn)練后內(nèi)容檢索模型對(duì)所述視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到所述視頻內(nèi)容中每一模態(tài)的初始模態(tài)特征;在所述視頻內(nèi)容中提取出視頻幀,并采用所述訓(xùn)練后內(nèi)容檢索模型對(duì)所述視頻幀進(jìn)行多模態(tài)特征提取,得到每一視頻幀的基礎(chǔ)模態(tài)特征;在所述基礎(chǔ)模態(tài)特征中篩選出每一模態(tài)對(duì)應(yīng)的目標(biāo)模態(tài)特征,并將所述目標(biāo)模態(tài)特征和對(duì)應(yīng)的初始模態(tài)特征進(jìn)行融合,得到每一模態(tài)的視頻內(nèi)容對(duì)應(yīng)的模態(tài)特征。16.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,所述指令適于處理器進(jìn)行加載,以執(zhí)行權(quán)利要求1至14任一項(xiàng)所述的內(nèi)容檢索方法中的步驟。6一種內(nèi)容檢索方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)技術(shù)領(lǐng)域[0001]本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及一種內(nèi)容檢索方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)背景技術(shù)[0002]近年來(lái),互聯(lián)網(wǎng)上產(chǎn)生了海量的內(nèi)容,這些內(nèi)容可以包括多種類型,比如,可以包括文本和視頻等。為了更好的在海量?jī)?nèi)容中檢索出需要的內(nèi)容,通常可以通過(guò)一種類型的內(nèi)容檢索出與之匹配的另一種類型的內(nèi)容,比如,可以通過(guò)用戶提供的視頻內(nèi)容檢索出與之匹配的文本內(nèi)容?,F(xiàn)有的內(nèi)容檢索往往是采用特征提取網(wǎng)絡(luò)直接提取出視頻特征和文本特征進(jìn)行特征匹配來(lái)完成內(nèi)容檢索。[0003]在對(duì)現(xiàn)有技術(shù)的研究和實(shí)踐過(guò)程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),由于視頻包含多種模態(tài)和復(fù)雜的語(yǔ)義,采用單一的特征提取網(wǎng)絡(luò)提取出的視頻特征的準(zhǔn)確性不足,使的無(wú)法與發(fā)明內(nèi)容[0004]本發(fā)明實(shí)施例提供一種內(nèi)容檢索方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),可以提高內(nèi)容檢索的準(zhǔn)確率。[0006]獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容;[0007]當(dāng)所述待檢索內(nèi)容為視頻內(nèi)容時(shí),對(duì)所述視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的模態(tài)特征;[0008]分別對(duì)每一模態(tài)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)的模態(tài)內(nèi)容特征;[0009]將所述模態(tài)內(nèi)容特征進(jìn)行融合,得到所述視頻內(nèi)容的視頻特征,并根據(jù)所述視頻特征,在預(yù)設(shè)內(nèi)容集合中檢索出所述視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容。[0011]獲取單元,用于獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容;[0012]第一提取單元,用于當(dāng)所述待檢索內(nèi)容為視頻內(nèi)容時(shí),對(duì)所述視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的模態(tài)特征;[0013]第二提取單元,用于分別對(duì)每一模態(tài)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)的模態(tài)視頻特征;[0014]文本檢索單元,用于將所述模態(tài)視頻特征進(jìn)行融合,得到所述視頻內(nèi)容的視頻特征,并根據(jù)所述視頻特征,在所述預(yù)設(shè)內(nèi)容集合中檢索出所述視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)[0015]可選的,在一些實(shí)施例中,所述第一提取單元,具體可以用于采用訓(xùn)練后內(nèi)容檢索模型對(duì)所述視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到所述視頻內(nèi)容中每一模態(tài)的初始模態(tài)特征;在所述視頻內(nèi)容中提取出視頻幀,并采用所述訓(xùn)練后內(nèi)容檢索模型對(duì)所述視頻幀進(jìn)行7多模態(tài)特征提取,得到每一視頻幀的基礎(chǔ)模態(tài)特征;在所述基礎(chǔ)模態(tài)特征中篩選出每一模態(tài)對(duì)應(yīng)的目標(biāo)模態(tài)特征,并將所述目標(biāo)模態(tài)特征和對(duì)應(yīng)的初始模態(tài)特征進(jìn)行融合,得到每一模態(tài)的視頻內(nèi)容的模態(tài)特征。[0016]可選的,在一些實(shí)施例中,所述第二提取單元,具體可以用于在所述訓(xùn)練后內(nèi)容檢索模型的視頻特征提取網(wǎng)絡(luò)中識(shí)別出每一模態(tài)對(duì)應(yīng)的目標(biāo)視頻特征提取網(wǎng)絡(luò);采用所述目標(biāo)視頻特征提取網(wǎng)絡(luò)對(duì)所述模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)的模態(tài)視頻特征。[0017]可選的,在一些實(shí)施例中,所述內(nèi)容檢索裝置還可以包括訓(xùn)練單元,所述訓(xùn)練單元,具體可以用于獲取內(nèi)容樣本集合,所述內(nèi)容樣本集合包括視頻樣本和文本樣本,所述文本樣本包括至少一個(gè)文本詞;采用預(yù)設(shè)內(nèi)容檢索模型對(duì)所述視頻樣本進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的樣本模態(tài)特征;分別對(duì)每一模態(tài)的樣本模態(tài)特征進(jìn)行特征提取,得到所述視頻樣本的樣本模態(tài)內(nèi)容特征,并將所述樣本模態(tài)內(nèi)容特征進(jìn)行融合,得到所述視頻樣本的樣本視頻特征;對(duì)所述文本樣本進(jìn)行特征提取,得到樣本文本特征和每一文本詞對(duì)應(yīng)的文本詞特征,并根據(jù)所述樣本模態(tài)視頻特征、樣本視頻特征、樣本文本特征和文本詞特征,對(duì)所述預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到所述訓(xùn)練后內(nèi)容檢索模型。[0018]可選的,在一些實(shí)施例中,所述訓(xùn)練單元,具體可以用于根據(jù)所述樣本模態(tài)內(nèi)容特征和文本詞特征,確定所述內(nèi)容樣本集合的特征損失信息;基于所述樣本視頻特征和樣本文本特征,確定所述內(nèi)容樣本集合的內(nèi)容損失信息;將所述特征損失信息和內(nèi)容損失信息進(jìn)行融合,并基于融合后損失信息,對(duì)預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到訓(xùn)練后內(nèi)容檢索模[0019]可選的,在一些實(shí)施例中,所述訓(xùn)練單元,具體可以用于計(jì)算所述樣本模態(tài)內(nèi)容特征和文本詞特征之間的特征相似度,得到第一特征相似度;根據(jù)所述第一特征相似度,確定所述視頻樣本和文本樣本之間的樣本相似度;基于所述樣本相似度,計(jì)算所述視頻樣本與文本樣本之間的特征距離,以得到所述內(nèi)容樣本集合的特征損失信息。[0020]可選的,在一些實(shí)施例中,所述訓(xùn)練單元,具體可以用于根據(jù)所述第一特征相似度,將所述樣本模態(tài)內(nèi)容特征與文本詞特征進(jìn)行特征交互,得到交互后視頻特征和交互后文本詞特征;計(jì)算所述交互后視頻特征與交互后文本詞特征之間的特征相似度,得到第二特征相似度;將所述第二特征相似度進(jìn)行融合,得到所述視頻樣本和文本樣本之間的樣本相似度。[0021]可選的,在一些實(shí)施例中,所述訓(xùn)練單元,具體可以用于對(duì)所述第一特征相似度進(jìn)行標(biāo)準(zhǔn)化處理,得到目標(biāo)特征相似度;根據(jù)所述目標(biāo)特征相似度,確定所述樣本模態(tài)內(nèi)容特征的關(guān)聯(lián)權(quán)重,所述關(guān)聯(lián)權(quán)重用于指示所述樣本模態(tài)內(nèi)容特征與文本詞特征之間的關(guān)聯(lián)關(guān)系;基于所述關(guān)聯(lián)權(quán)重,對(duì)所述樣本模態(tài)內(nèi)容特征進(jìn)行加權(quán),并基于加權(quán)后樣本模態(tài)內(nèi)容特征對(duì)所述文本詞特征進(jìn)行更新,以得到所述交互后視頻特征和交互后文本詞特征。[0022]可選的,在一些實(shí)施例中,所述訓(xùn)練單元,具體可以用于將所述加權(quán)后樣本模態(tài)內(nèi)容特征作為初始交互后視頻特征,并基于所述初始交互后視頻特征對(duì)所述文本詞特征進(jìn)行更新,得到初始交互后文本詞特征;計(jì)算所述初始交互后視頻特征與初始交互后文本詞特征的特征相似度,得到第三特征相似度;根據(jù)所述第三特征相似度,對(duì)所述初始交互后視頻特征和初始交互后文本詞特征進(jìn)行更新,得到所述交互后視頻特征和交互后文本詞特征。[0023]可選的,在一些實(shí)施例中,所述訓(xùn)練單元,具體可以用于根據(jù)所述第三特征相似8度,將所述初始交互后視頻特征和初始交互后文本詞特征進(jìn)行特征交互,以得到目標(biāo)交互后視頻特征和目標(biāo)交互后文本詞特征;將所述目標(biāo)交互后視頻特征作為初始交互后視頻特征,并將所述目標(biāo)交互后文本詞特征作為初始交互后文本詞特征;返回執(zhí)行所述計(jì)算所述初始交互后視頻特征與初始交互后文本詞特征的特征相似度的步驟,直至所述初始交互后視頻特征和初始交互后文本詞特征的特征交互次數(shù)達(dá)到預(yù)設(shè)次數(shù)為止,得到所述交互后視頻特征和交互后文本詞特征。[0024]可選的,在一些實(shí)施例中,所述訓(xùn)練單元,具體可以用于獲取所述內(nèi)容樣本集合對(duì)應(yīng)的預(yù)設(shè)特征邊界值;根據(jù)所述樣本相似度,在所述內(nèi)容樣本集合中篩選出視頻樣本與文本樣本匹配的第一內(nèi)容樣本對(duì)、以及視頻樣本與文本樣本不匹配的第二內(nèi)容樣本對(duì);基于所述預(yù)設(shè)特征邊界值,計(jì)算所述第一內(nèi)容樣本對(duì)與第二內(nèi)容樣本對(duì)之間的特征距離,得到所述內(nèi)容樣本集合的特征損失信息。[0025]可選的,在一些實(shí)施例中,所述訓(xùn)練單元,具體可以用于在所述第二內(nèi)容樣本對(duì)中篩選出樣本相似度最大的內(nèi)容樣本對(duì),得到目標(biāo)內(nèi)容樣本對(duì);計(jì)算所述第一內(nèi)容樣本對(duì)的樣本相似度與目標(biāo)內(nèi)容樣本對(duì)的樣本相似度之間的相似度差值,得到第一相似度差值;將所述預(yù)設(shè)特征邊界值與第一相似度差值進(jìn)行融合,以得到所述內(nèi)容樣本集合的特征損失信[0026]可選的,在一些實(shí)施例中,所述訓(xùn)練單元,具體可以用于計(jì)算所述樣本視頻特征和文本特征之間的特征相似度,得到所述視頻樣本與文本樣本之間的內(nèi)容相似度;根據(jù)所述內(nèi)容相似度,在所述內(nèi)容樣本集合中篩選出視頻樣本與文本樣本匹配的第三內(nèi)容樣本對(duì)、以及視頻樣本與內(nèi)容樣本不匹配的第四內(nèi)容樣本對(duì);獲取所述內(nèi)容樣本集合對(duì)應(yīng)的預(yù)設(shè)內(nèi)容邊界值,并根據(jù)所述預(yù)設(shè)內(nèi)容邊界值,計(jì)算所述第三內(nèi)容樣本對(duì)與第四內(nèi)容樣本對(duì)之間的內(nèi)容差值,以得到所述內(nèi)容樣本集合的內(nèi)容損失信息。[0027]可選的,在一些實(shí)施例中,所述訓(xùn)練單元,具體可以用于計(jì)算所述第三內(nèi)容樣本對(duì)的內(nèi)容相似度與第四內(nèi)容樣本對(duì)的內(nèi)容相似度之間的相似度差值,得到第二相似度差值;將所述第二相似度差值與預(yù)設(shè)內(nèi)容邊界值進(jìn)行融合,得到所述第三內(nèi)容樣本對(duì)與第四內(nèi)容樣本對(duì)之間的內(nèi)容差值;對(duì)所述內(nèi)容差值進(jìn)行標(biāo)準(zhǔn)化處理,得到所述內(nèi)容樣本集合的內(nèi)容損失信息。[0028]可選的,在一些實(shí)施例中,所述內(nèi)容檢索裝置還可以包括視頻檢索單元,所述視頻檢索單元,具體可以用于當(dāng)所述待檢索內(nèi)容為文本內(nèi)容時(shí),對(duì)所述文本內(nèi)容進(jìn)行特征提取,得到所述文本內(nèi)容的文本特征;根據(jù)所述文本特征,在所述預(yù)設(shè)內(nèi)容集合中檢索出所述文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容。此外,本發(fā)明實(shí)施例還提供一種電子設(shè)備,包括處理器和存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)有應(yīng)用程序,所述處理器用于運(yùn)行所述存儲(chǔ)器內(nèi)的應(yīng)用程序?qū)崿F(xiàn)本發(fā)明實(shí)施例提供的內(nèi)容檢索方法。[0029]此外,本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有多條指令,所述指令適于處理器進(jìn)行加載,以執(zhí)行本發(fā)明實(shí)施例所提供的任一種內(nèi)容檢索方法中的步驟。[0030]本申請(qǐng)實(shí)施例在獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容后,當(dāng)待檢索內(nèi)容為視頻內(nèi)容時(shí),對(duì)視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的模態(tài)特征,分別對(duì)每一模態(tài)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)的模態(tài)內(nèi)容特征,將模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻內(nèi)9容的視頻特征,并根據(jù)視頻特征,在預(yù)設(shè)內(nèi)容集合中檢索出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容;由于該方案在對(duì)視頻內(nèi)容首先進(jìn)行多模態(tài)特征提取,然后,分別在每一模態(tài)對(duì)應(yīng)的模態(tài)特征中提取出模態(tài)視頻特征,從而提升了視頻中模態(tài)視頻特征的準(zhǔn)確性,并將模態(tài)視頻特征進(jìn)行融合,得到視頻內(nèi)容的視頻特征,使得提取出的視頻特征可以更好的表達(dá)視頻中的信附圖說(shuō)明[0031]為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附[0032]圖1是本發(fā)明實(shí)施例提供的內(nèi)容檢索方法的場(chǎng)景示意圖;[0033]圖2是本發(fā)明實(shí)施例提供的內(nèi)容檢索方法的流程示意圖;[0034]圖3是本發(fā)明實(shí)施例提供的對(duì)視頻內(nèi)容進(jìn)行模態(tài)特征提取的示意圖;[0035]圖4是本發(fā)明實(shí)施例提供的對(duì)預(yù)設(shè)內(nèi)容檢索模型的訓(xùn)練示意圖;[0036]圖5是本發(fā)明實(shí)施例提供的內(nèi)容檢索方法的另一流程示意圖;[0037]圖6是本發(fā)明實(shí)施例提供的內(nèi)容檢索裝置的結(jié)構(gòu)示意圖;[0038]圖7是本發(fā)明實(shí)施例提供的內(nèi)容檢索裝置的另一結(jié)構(gòu)示意圖;[0039]圖8是本發(fā)明實(shí)施例提供的內(nèi)容檢索裝置的另一結(jié)構(gòu)示意圖;[0040]圖9是本發(fā)明實(shí)施例提供的電子設(shè)備的結(jié)構(gòu)示意圖。具體實(shí)施方式[0041]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施[0042]本發(fā)明實(shí)施例提供一種內(nèi)容檢索方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。其中,該內(nèi)容檢索裝置可以集成在電子設(shè)備中,該電子設(shè)備可以是服務(wù)器,也可以是終端等設(shè)備。[0043]其中,服務(wù)器可以是獨(dú)立的物理服務(wù)器,也可以是多個(gè)物理服務(wù)器構(gòu)成的服務(wù)器CDN)、以及大數(shù)據(jù)和人工智能平臺(tái)等基礎(chǔ)云計(jì)算服務(wù)的云服務(wù)器。終端可以是智能手器可以通過(guò)有線或無(wú)線通信方式進(jìn)行直接或間接地連接,本申請(qǐng)?jiān)诖瞬蛔鱿拗?。[0044]例如,參見(jiàn)圖1,以內(nèi)容檢索裝置集成在電子設(shè)備中為例,電子設(shè)備在獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容后,當(dāng)待檢索內(nèi)容為視頻內(nèi)容時(shí),對(duì)視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的模態(tài)特征,分別對(duì)每一模態(tài)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)的模態(tài)內(nèi)容特征,將模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻內(nèi)容的視頻特征,并根據(jù)視頻特征,在預(yù)設(shè)內(nèi)容集合中檢索出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容,進(jìn)而提升內(nèi)容檢索的準(zhǔn)確率。[0045]其中,需說(shuō)明的是,本申請(qǐng)實(shí)施例提供的內(nèi)容檢索方法涉及到人工智能領(lǐng)域的計(jì)算機(jī)視覺(jué)技術(shù),即在本申請(qǐng)實(shí)施例中,可以利用人工智能的計(jì)算機(jī)視覺(jué)技術(shù)對(duì)文本內(nèi)容和視頻內(nèi)容進(jìn)行特征提取,并基于提取特征,在預(yù)設(shè)內(nèi)容集合中篩選出目標(biāo)內(nèi)容。[0046]所謂人工智能(ArtificialIntelligence,AI)是利用數(shù)字計(jì)算機(jī)或者數(shù)字計(jì)算機(jī)控制的機(jī)器模擬、延伸和擴(kuò)展人的智能,感知環(huán)境、獲取知識(shí)并使用知識(shí)獲得最佳結(jié)果的解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器。人工智能也就是研究各種智能機(jī)器的設(shè)計(jì)原理與實(shí)現(xiàn)方法,使機(jī)器具有感知、推理與決策的功能。人工智能技術(shù)是一門綜合學(xué)科,涉及領(lǐng)域廣泛,既有硬件層面的技術(shù)也有軟件層面的技術(shù)。人工智能基礎(chǔ)技術(shù)一般包括如傳感器、專用人工智能芯片、云計(jì)算、分布式存儲(chǔ)、大數(shù)據(jù)處理技術(shù)、操作/交互系統(tǒng)、機(jī)電一體化等技術(shù)。人工智能軟件技術(shù)主要包括計(jì)算機(jī)視覺(jué)技術(shù)、語(yǔ)音處理技術(shù)、自然語(yǔ)言處理技術(shù)以及機(jī)器學(xué)習(xí)/深度學(xué)習(xí)、自動(dòng)駕駛、智慧交通等幾大方[0047]其中,計(jì)算機(jī)視覺(jué)技術(shù)(ComputerVision,CV)計(jì)算機(jī)視覺(jué)是一門研究如何使機(jī)器“看”的科學(xué),更進(jìn)一步的說(shuō),就是指用攝影機(jī)和電等機(jī)器視覺(jué),并進(jìn)一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測(cè)的圖像。作為一個(gè)科學(xué)學(xué)科,計(jì)算機(jī)視覺(jué)研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取信息的人工智能系統(tǒng)。計(jì)算機(jī)視覺(jué)技術(shù)通常包括圖像處理、圖像識(shí)別、圖像語(yǔ)術(shù)、虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、同步定位與地圖構(gòu)建、自動(dòng)駕駛、智慧交通等人臉識(shí)別、指紋識(shí)別等生物特征識(shí)別技術(shù)。[0048]以下分別進(jìn)行詳細(xì)說(shuō)明。需要說(shuō)明的是,以下實(shí)施例的描述順序不作為對(duì)實(shí)施例優(yōu)選順序的限定。[0049]本實(shí)施例將從內(nèi)容檢索裝置的角度進(jìn)行描述,該內(nèi)容檢索裝置具體可以集成在電子設(shè)備中,該電子設(shè)備可以是服務(wù)器,也可以是終端等設(shè)備;其中,該終端可以包括平板電其他可以進(jìn)行內(nèi)容檢索的智能設(shè)備等設(shè)備。[0051]獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容,當(dāng)待檢索內(nèi)容為視頻內(nèi)容時(shí),對(duì)視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的模態(tài)特征,分別對(duì)每一模態(tài)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)的模態(tài)內(nèi)容特征,將模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻內(nèi)容的視頻特征,并根據(jù)視頻特征,在預(yù)設(shè)內(nèi)容集合中檢索出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容。[0053]101、獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容。[0054]其中,待檢索內(nèi)容可以理解為用于檢索目標(biāo)內(nèi)容的檢索條件中的內(nèi)容,待檢索內(nèi)容的內(nèi)容類型可以有多種,比如,可以為文本內(nèi)容或視頻內(nèi)容。[0056]例如,可以直接接收用戶通過(guò)終端發(fā)送的待檢索內(nèi)容,或者,可以從網(wǎng)絡(luò)或者第三方數(shù)據(jù)庫(kù)中獲取待檢索內(nèi)容,或者,當(dāng)待檢索內(nèi)容的內(nèi)存較大或者數(shù)量較多時(shí),接收內(nèi)容檢11索請(qǐng)求,該內(nèi)容檢索請(qǐng)求中攜帶待檢索內(nèi)容的存儲(chǔ)地址,根據(jù)存儲(chǔ)地址,在內(nèi)存、緩存或第三方數(shù)據(jù)庫(kù)中獲取待檢索內(nèi)容。[0057]102、當(dāng)待檢索內(nèi)容為視頻內(nèi)容時(shí),對(duì)視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到多個(gè)模態(tài)對(duì)應(yīng)的模態(tài)特征。[0058]其中,模態(tài)特征可以理解為視頻內(nèi)容中每一個(gè)模態(tài)對(duì)應(yīng)的特征信息,視頻內(nèi)容中[0060]例如,采用訓(xùn)練后內(nèi)容檢索模型對(duì)視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到視頻內(nèi)容中每一模態(tài)的初始模態(tài)特征,在視頻內(nèi)容中提取出視頻幀,并采用訓(xùn)練后內(nèi)容檢索模型對(duì)視頻幀進(jìn)行多模態(tài)特征提取,得到每一視頻幀的基礎(chǔ)模態(tài)特征,在基礎(chǔ)模態(tài)特征中篩選出每一模態(tài)對(duì)應(yīng)的目標(biāo)模態(tài)特征,并將目標(biāo)模態(tài)特征和對(duì)應(yīng)的初始模態(tài)特征進(jìn)行融合,得到每一模態(tài)的模態(tài)特征。[0061]其中,視頻內(nèi)容和視頻幀中包含多種模態(tài),針對(duì)不同模態(tài),可以采用不同的特征提取方法對(duì)視頻內(nèi)容和視頻幀進(jìn)行多模態(tài)特征提取,比如,針對(duì)描述動(dòng)作模態(tài),可以使用在動(dòng)作識(shí)別數(shù)據(jù)集上做過(guò)預(yù)訓(xùn)練的S3D(一種動(dòng)作識(shí)別模型)模型進(jìn)行特征抽取,針對(duì)音頻模態(tài),可以使用預(yù)訓(xùn)練過(guò)的VGGish(一種音頻提取模型)模型進(jìn)行特征提取,針對(duì)場(chǎng)景模態(tài),可以使用預(yù)訓(xùn)練過(guò)的DenseNet-161(一種深度模型)模型進(jìn)行特征提取,針對(duì)人臉模態(tài),可以使用預(yù)訓(xùn)練過(guò)的SSD模型和ResNet50模型進(jìn)行特征提取,針對(duì)人臉模態(tài),可以采用GoogleAPI(一種特征提取網(wǎng)絡(luò))進(jìn)行特征提取,針對(duì)實(shí)體模態(tài),可以采用預(yù)訓(xùn)練過(guò)的SENet-154(一種特征提取網(wǎng)絡(luò))進(jìn)行特征提取。提取出的初始模態(tài)特征和基礎(chǔ)模態(tài)特征都可以包含圖像特[0062]其中,將目標(biāo)模態(tài)特征和對(duì)應(yīng)的初始模態(tài)特征進(jìn)行融合,融合的方式可以有多種,比如,可以將目標(biāo)模態(tài)特征和初始模態(tài)特征中的圖像特征(F)、專家特征(E)和時(shí)間特征(T)進(jìn)行相加,從而得到每一模態(tài)的模態(tài)特征(Ω),具體可以如圖3所示?;蛘撸€可以獲取目標(biāo)模態(tài)特和初始模態(tài)特征的加權(quán)系數(shù),根據(jù)加權(quán)系數(shù),對(duì)應(yīng)目標(biāo)模態(tài)特征和初始模態(tài)特征進(jìn)行加權(quán),并將加權(quán)后的目標(biāo)模態(tài)特征和初始模態(tài)特征進(jìn)行融合,得到每一模態(tài)的模態(tài)特征。[0063]其中,該訓(xùn)練后內(nèi)容檢索模型可以根據(jù)實(shí)際應(yīng)用的需求進(jìn)行設(shè)置,另外,需要說(shuō)明的是,該訓(xùn)練后內(nèi)容檢索模型可以由維護(hù)人員預(yù)先進(jìn)行設(shè)置,也可以由內(nèi)容檢索裝置自行進(jìn)行訓(xùn)練,即步驟“采用訓(xùn)練后內(nèi)容檢索模型對(duì)視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到視頻內(nèi)容中每一模態(tài)的初始模態(tài)特征”之前,該內(nèi)容檢索方法還可以包括:[0064]獲取內(nèi)容樣本集合,該內(nèi)容樣本集合包括視頻樣本和文本樣本,該文本樣本包括至少一個(gè)文本詞,采用預(yù)設(shè)內(nèi)容檢索模型對(duì)視頻樣本進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的樣本模態(tài)特征,分別對(duì)每一模態(tài)的樣本模態(tài)特征進(jìn)行特征提取,得到視頻樣本的樣本模態(tài)內(nèi)容特征,并將樣本模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻樣本的樣本視頻特征,對(duì)文本樣本進(jìn)行特征提取,得到樣本文本特征和每一文本詞對(duì)應(yīng)的文本詞特征,并根據(jù)樣本模態(tài)視頻特征、樣本視頻特征、樣本文本特征和文本詞特征,對(duì)預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到訓(xùn)[0066]其中,內(nèi)容樣本集合包括視頻樣本和文本樣本,該文本樣本包括至少一個(gè)文本詞。[0068]例如,可以直接獲取視頻樣本和文本樣本,得到內(nèi)容樣本集合,或者,可以獲取原始視頻內(nèi)容和原始文本內(nèi)容,然后,將原始視頻內(nèi)容和原始文本內(nèi)容發(fā)送至標(biāo)注服務(wù)器,接收標(biāo)注服務(wù)器返回的原始視頻內(nèi)容和原始文本內(nèi)容之間的匹配標(biāo)簽,將匹配標(biāo)簽添加至原始視頻內(nèi)容和原始文本內(nèi)容,從而得到視頻樣本和文本樣本,將視頻樣本和文本樣本進(jìn)行組合,得到內(nèi)容樣本集合,或者,當(dāng)內(nèi)容樣本集合中的內(nèi)容樣本數(shù)量較多或者內(nèi)存較大時(shí),可以接收模型訓(xùn)練請(qǐng)求,該模型訓(xùn)練請(qǐng)求中攜帶內(nèi)容樣本集合的存儲(chǔ)地址,根據(jù)存儲(chǔ)地址,在內(nèi)存、緩存或第三方數(shù)據(jù)庫(kù)中獲取內(nèi)容樣本集合。[0069]S2、采用預(yù)設(shè)內(nèi)容檢索模型對(duì)視頻樣本進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的樣本模態(tài)特征。[0070]例如,采用預(yù)設(shè)內(nèi)容檢索模型對(duì)視頻樣本進(jìn)行多模態(tài)特征提取,得到視頻樣本中每一模態(tài)的初始樣本模態(tài)特征,在視頻樣本中提取出視頻幀,并采用預(yù)設(shè)內(nèi)容檢索模型對(duì)視頻幀進(jìn)行多模態(tài)特征提取,得到每一視頻幀的基礎(chǔ)樣本模態(tài)特征,在基礎(chǔ)樣本模態(tài)特征中篩選出每一模態(tài)對(duì)應(yīng)的目標(biāo)樣本模態(tài)特征,并將目標(biāo)樣本模態(tài)特征和對(duì)應(yīng)的初始樣本模態(tài)特征進(jìn)行融合,得到每一模態(tài)的模樣本態(tài)特征,具體可以參見(jiàn)上文,在此就不再一一贅述。[0071]S3、分別對(duì)每一模態(tài)的樣本模態(tài)特征進(jìn)行特征提取,得到視頻樣本的樣本模態(tài)內(nèi)容特征,并將樣本模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻樣本的樣本視頻特征。[0072]例如,根據(jù)樣本模態(tài)特征的模態(tài),在預(yù)設(shè)內(nèi)容檢索模型的視頻特征提取網(wǎng)絡(luò)中識(shí)別出每一模態(tài)對(duì)應(yīng)的目標(biāo)視頻特征提取網(wǎng)絡(luò),采用目標(biāo)視頻特征提取網(wǎng)絡(luò)對(duì)樣本模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)對(duì)應(yīng)的樣本模態(tài)內(nèi)容特征。將樣本模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻樣本的樣本視頻特征。[0073]其中,預(yù)設(shè)內(nèi)容檢索模型的視頻特征提取網(wǎng)絡(luò)的模態(tài)固定,因此,只需要根據(jù)樣本模態(tài)特征的模態(tài),就可以識(shí)別出該模態(tài)對(duì)應(yīng)的視頻特征提取網(wǎng)絡(luò),將識(shí)別出的視頻特征提取網(wǎng)絡(luò)作為目標(biāo)視頻特征提取網(wǎng)絡(luò)。[0074]在識(shí)別出目標(biāo)視頻特征提取網(wǎng)絡(luò)之后,便可以采用目標(biāo)視頻特征提取網(wǎng)絡(luò)對(duì)模態(tài)特征進(jìn)行特征提取,特征提取的過(guò)程可以多種,比如,目標(biāo)視頻特征提取網(wǎng)絡(luò)可以為模態(tài)特定的Transformer(一種轉(zhuǎn)換網(wǎng)絡(luò))的編碼器對(duì)樣本模態(tài)特征進(jìn)行編碼,從而提取出每一模態(tài)的樣本模態(tài)內(nèi)容特征。[0075]在提取出樣本模態(tài)內(nèi)容特征之后,便可以將樣本模態(tài)內(nèi)容特征進(jìn)行融合,融合的過(guò)程可以有多種,比如,可以將每一模態(tài)的樣本模態(tài)內(nèi)容特征進(jìn)行組合,得到視頻樣本的樣本模態(tài)內(nèi)容特征集合,將該樣本模態(tài)內(nèi)容特征集合輸入至Transformer進(jìn)行編碼,以計(jì)算樣本模態(tài)內(nèi)容特征的關(guān)聯(lián)權(quán)重,根據(jù)關(guān)聯(lián)權(quán)重對(duì)樣本模態(tài)內(nèi)容特征進(jìn)行加權(quán),并將加權(quán)后的樣本模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻樣本的樣本視頻特征。[0076]S4、對(duì)文本樣本進(jìn)行特征提取,得到樣本文本特征和每一文本詞對(duì)應(yīng)的文本詞特征,并根據(jù)樣本模態(tài)內(nèi)容特征、樣本視頻特征、樣本文本特征和文本詞特征,對(duì)預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到訓(xùn)練后內(nèi)容檢索模型。[0077]例如,采用預(yù)設(shè)內(nèi)容檢索模型的文本特征提取網(wǎng)絡(luò)對(duì)文本樣本進(jìn)行特征提取,得到文本樣本的文本特征和文本詞的文本詞特征,然后,根據(jù)樣本模態(tài)內(nèi)容特征、樣本視頻特征、樣本文本特征和文本詞特征,對(duì)預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到訓(xùn)練后內(nèi)容檢索模[0078]其中,對(duì)文本樣本進(jìn)行特征提取的方式可以有多種,比如,可以采用文本編碼器對(duì)文本樣本的文本特征進(jìn)行特征提取,得到文本特征和文本詞特征,文本編碼器的類型可以有多種,譬如,可以包括Bert(一種文本編碼器)或word2vector(一種詞向量生成模型)等。[0079]在提取出文本特征和文本詞特征之后,就可以根據(jù)樣本模態(tài)內(nèi)容特征、樣本視頻特征、樣本文本特征和文本詞特征,對(duì)預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,收斂的方式可以有多[0080]例如,可以根據(jù)樣本模態(tài)內(nèi)容特征和文本詞特征,確定內(nèi)容樣本集合的特征損失信息,基于樣本視頻特征和樣本文本特征,確定內(nèi)容樣本集合的內(nèi)容損失信息,將特征損失信息和內(nèi)容損失信息進(jìn)行融合,并基于融合后損失信息,對(duì)預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到訓(xùn)練后內(nèi)容檢索模型,具體可以如下:[0081](1)根據(jù)樣本模態(tài)內(nèi)容特征和文本詞特征,確定內(nèi)容樣本集合的特征損失信息。[0082]例如,可以計(jì)算樣本模態(tài)內(nèi)容特征和文本詞特征之間的特征相似度,得到第一特征相似度,根據(jù)第一特征相似度,確定視頻樣本和文本樣本之間的樣本相似度,基于樣本相似度,計(jì)算視頻樣本與文本樣本之間的特征距離,以得到內(nèi)容樣本集合的特征損失信息。[0083]其中,計(jì)算樣本模態(tài)內(nèi)容特征和文本詞特征之間的特征相似度的方式可以有多種,比如,可以計(jì)算樣本模態(tài)內(nèi)容特征和文本詞特征之間的余弦相似度,將余弦相似度作為第一特征相似度,具體可以參考公式(1)所示:[0086]計(jì)算出第一特征相似度之后,便可以根據(jù)第一特征相似度,確定視頻樣本和文本樣本之間的樣本相似度,確定的方式可以有多種,比如,可以根據(jù)第一特征相似度,將樣本模態(tài)內(nèi)容特征與文本詞特征進(jìn)行特征交互,得到交互后視頻特征和交互后文本詞特征,計(jì)算交互后視頻特征與交互后文本詞特征之間的特征相似度,得到第二特征相似度,將第二特征相似度進(jìn)行融合,得到視頻樣本與文本樣本之間的樣本相似度。[0087]其中,將樣本模態(tài)內(nèi)容特征與文本詞特征進(jìn)行特征交互的方式可以有多種,比如,可以對(duì)第一特征相似度進(jìn)行標(biāo)準(zhǔn)化處理,得到目標(biāo)特征相似度,根據(jù)目標(biāo)特征相似度,確定樣本模態(tài)內(nèi)容特征的關(guān)聯(lián)權(quán)重,該關(guān)聯(lián)權(quán)重用于指示樣本模態(tài)內(nèi)容特征與文本詞特征之間的關(guān)聯(lián)關(guān)系,基于關(guān)聯(lián)權(quán)重,對(duì)樣本模態(tài)內(nèi)容特征進(jìn)行加權(quán),并基于加權(quán)后樣本模態(tài)內(nèi)容特征對(duì)文本詞特征進(jìn)行更新,以得到交互后視頻特征和交互后文本詞特征。[0088]其中,對(duì)第一特征相似度進(jìn)行標(biāo)準(zhǔn)化處理的方式可以有多種,比如,可以采用激活函數(shù)對(duì)第一特征相似度進(jìn)行標(biāo)準(zhǔn)化處理,激活函數(shù)的種類可以多種,譬如可以為ReLU(relu(x)=max(0,x)),標(biāo)準(zhǔn)化的過(guò)程可以如公式(2)所示:[0090]其中,Sij為目標(biāo)特征相似度,S;為第一特征相似度,relu為激活函數(shù)。[0091]其中,根據(jù)目標(biāo)特征相似度,確定樣本模態(tài)內(nèi)容特征的關(guān)聯(lián)權(quán)重的方式可以有多該關(guān)聯(lián)權(quán)重也可以理解為注意力權(quán)重,具體可以如公式(3)所示:[0094]在確定出樣本模態(tài)內(nèi)容特征的關(guān)聯(lián)權(quán)重之后,便可以基于該關(guān)聯(lián)權(quán)重對(duì)樣本模態(tài)視內(nèi)容特征進(jìn)行加權(quán),并將加權(quán)后的樣本模態(tài)內(nèi)容特征進(jìn)行融合,就可以得到加權(quán)后模態(tài)內(nèi)容特征,將加權(quán)后模態(tài)內(nèi)容特征作為視頻樣本的初始交互后視頻特征,具體可以參考公式(4)所示:[0097]在計(jì)算出初始交互后視頻特征之后,便可以基于初始交互后視頻特征對(duì)文本詞特征進(jìn)行更新,以得到交互后視頻特征和交互后文本詞特征,比如,可以基于初始交互后視頻特征對(duì)文本詞特征進(jìn)行更新,得到初始交互后文本詞特征,計(jì)算初始交互后視頻特征與初始交互后文本詞特征的特征相似度,得到第三特征相似度,根據(jù)第三特征相似度,對(duì)初始交互后視頻特征和初始交互后文本詞特征進(jìn)行更新,得到交互后視頻特征和交互后文本詞特[0098]其中,基于初始交互后視頻特征對(duì)文本詞特征進(jìn)行更新的方式可以有多種,比如,可以獲取預(yù)設(shè)更新參數(shù),將預(yù)設(shè)更新參數(shù)、初始交互后視頻特征和文本詞特征進(jìn)行融合,得到初始交互后文本詞特征,具體可以如公式(5)所示:文本詞特征的多次更新,因此,可以將公式(5)進(jìn)行整合得到F,就可以得到K次特征交(互交叉注意力運(yùn)算)時(shí)的公式,如公式(6)所示:次的交互后視頻特征,Ve為模態(tài)視頻特征。[0103]其中,根據(jù)第三特征相似度,對(duì)初始交互后視頻特征和初始交互后文本詞特征進(jìn)行更新的方式有多種,比如,可以根據(jù)第三特征相似度,將初始交互后視頻特征和初始交互后文本詞特征進(jìn)行特征交互,以得到目標(biāo)交互后視頻特征和目標(biāo)交互后文本詞特征,將目標(biāo)交互后視頻特征作為初始交互后視頻特征,并將目標(biāo)交互后文本詞特征作為初始交互后文本詞特征,返回執(zhí)行計(jì)算初始交互后視頻特征與初始交互后文本詞特征的特征相似度的步驟,直至初始交互后視頻特征和初始交互后文本詞特征的特征交互次數(shù)達(dá)到預(yù)設(shè)次數(shù)為止,得到交互后視頻特征和交互后文本詞特征。[0104]其中,特征交互的過(guò)程就可以看作是進(jìn)行多步交叉注意力的計(jì)算,從而得交互后視頻特征和交互后文本詞特征。特征交互的次數(shù)可以根據(jù)實(shí)際應(yīng)用來(lái)進(jìn)行設(shè)定,通??梢訹0105]在得到交互后視頻特征和交互后文本詞特征之后,便可以計(jì)算視頻樣本和文本樣本之間的樣本相似度,計(jì)算的方式可以有多種,比如,可以計(jì)算交互后視頻特征和交互后文本詞特征之間的特征相似度,得到第二特征相似度,將第二特征相似度進(jìn)行融合,得到視頻樣本和文本樣本之間的樣本相似度,如公式(7)所示:[0108]在計(jì)算出樣本相似度之后,便可以計(jì)算視頻樣本和文本樣本之間的特征距離,從而得到內(nèi)容樣本集合的特征損失信息,計(jì)算的方式可以有多種,比如,可以獲取內(nèi)容樣本集合對(duì)應(yīng)的預(yù)設(shè)特征邊界值,根據(jù)樣本相似度,在內(nèi)容樣本集合中篩選出視頻樣本與文本樣本匹配的第一內(nèi)容樣本對(duì)、以及視頻樣本與文本樣本不匹配的第二內(nèi)容樣本對(duì),基于預(yù)設(shè)特征邊界值,計(jì)算第一內(nèi)容樣本對(duì)與第二內(nèi)容樣本對(duì)之間的特征距離,得到內(nèi)容樣本集合的特征損失信息。[0109]其中,根據(jù)樣本相似度,在內(nèi)容樣本集合中篩選出第一內(nèi)容樣本對(duì)和第二內(nèi)容樣本對(duì)的方式可以有多種,比如,可以將樣本相似度與預(yù)設(shè)相似度閾值進(jìn)行對(duì)比,在內(nèi)容樣本集合中篩選出樣本相似度超過(guò)預(yù)設(shè)相似度閾值的視頻樣本和對(duì)應(yīng)的文本樣本,從而就可以得到第一內(nèi)容樣本對(duì),在內(nèi)容樣本集合中篩選出樣本相似度未超過(guò)預(yù)設(shè)相似度閾值的視頻樣本和對(duì)應(yīng)的文本樣本,從而就可以得到第二內(nèi)容樣本對(duì)。[0110]在篩選出第一內(nèi)容樣本對(duì)和第二內(nèi)容樣本對(duì)之后,便可以計(jì)算第一內(nèi)容樣本對(duì)和第二內(nèi)容樣本對(duì)之間的特征距離,計(jì)算方式可以有多種,比如,可以在第二內(nèi)容樣本對(duì)中篩選出樣本相似度最大的內(nèi)容樣本對(duì),得到目標(biāo)內(nèi)容樣本對(duì),計(jì)算第一內(nèi)容樣本對(duì)的樣本相似度與目標(biāo)內(nèi)容樣本對(duì)的樣本相似度之間的相似度差值,得到第一相似度差值,將預(yù)設(shè)特征邊界值與第一相似度差值進(jìn)行融合,以得到內(nèi)容樣本集合的特征損失信息,如公式(8)所征邊界值與第一相似度差值進(jìn)行融合之后,還可以對(duì)融合后相似度差值進(jìn)行標(biāo)準(zhǔn)化處理,值與預(yù)設(shè)內(nèi)容邊界值進(jìn)行融合,得到第三內(nèi)容樣本對(duì)與第四內(nèi)容樣本對(duì)之間的內(nèi)容差值,過(guò)了雙向max-marginrankingloss(一種損失函數(shù))進(jìn)行反向傳播和參數(shù)更新得到損失信[0120]例如,可以獲取預(yù)設(shè)平衡參數(shù),將預(yù)設(shè)平衡參數(shù)與特征損失信息進(jìn)行融合,得到平衡后特征損失信息,將平衡后特征損失信息與內(nèi)容損失信息相加,從而得到融合后損失信衡參數(shù),該預(yù)設(shè)平衡參數(shù)用于在尺度上平衡這兩個(gè)損失函數(shù)。[0123]可選的,還可以獲取特征損失信息和內(nèi)容損失信息的加權(quán)參數(shù),基于該加權(quán)參數(shù),對(duì)特征損失信息和內(nèi)容損失信息進(jìn)行加權(quán),并將加權(quán)后的特征損失信息和內(nèi)容損失信息進(jìn)[0124]在得到融合后損失信息之后,便可以基于融合后損失信息,對(duì)預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,收斂的方式可以有多種,比如,可以根據(jù)融合后損失信息,采用梯度下降算法對(duì)預(yù)設(shè)內(nèi)容檢索模型中的網(wǎng)絡(luò)參數(shù)進(jìn)行更新,從而收斂預(yù)設(shè)內(nèi)容檢索模型,得到訓(xùn)練后內(nèi)容檢索模型,或者,還可以采用其他算法,采用融合后損失信息對(duì)預(yù)設(shè)內(nèi)容檢索模型中的網(wǎng)絡(luò)參數(shù)進(jìn)行更新,從而收斂預(yù)設(shè)內(nèi)容檢索模型,得到訓(xùn)練后內(nèi)容檢索模型。[0125]其中,需要說(shuō)明的是,在內(nèi)容檢索模型訓(xùn)練過(guò)程中,文本樣本和視頻樣本經(jīng)過(guò)多步交叉注意力計(jì)算以及內(nèi)容相似度的計(jì)算,分別采用了Tripletloss和雙向max-marginrankingloss進(jìn)行反向傳播和參數(shù)更新,從而得到訓(xùn)練后內(nèi)容檢索模型,具體可以如圖4所[0126]103、分別對(duì)每一模態(tài)對(duì)應(yīng)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)對(duì)應(yīng)的模態(tài)內(nèi)容特征。[0127]其中,模態(tài)內(nèi)容特征可以為每一模態(tài)內(nèi)容的總體特征,用于指示該模態(tài)下的內(nèi)容特征。[0128]其中,對(duì)模態(tài)特征進(jìn)行特征提取的方式可以有多種,具體可以如下:[0129]例如,可以根據(jù)模態(tài)特征的模態(tài),在訓(xùn)練后內(nèi)容檢索模型的視頻特征提取網(wǎng)絡(luò)中識(shí)別出每一模態(tài)對(duì)應(yīng)的目標(biāo)視頻特征提取網(wǎng)絡(luò),采用目標(biāo)視頻特征提取網(wǎng)絡(luò)對(duì)模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)對(duì)應(yīng)的模態(tài)內(nèi)容特征。[0130]其中,訓(xùn)練后內(nèi)容檢索模型的視頻特征提取網(wǎng)絡(luò)的模態(tài)固定,因此,只需要根據(jù)模態(tài)特征的模態(tài),就可以識(shí)別出該模態(tài)對(duì)應(yīng)的視頻特征提取網(wǎng)絡(luò),將識(shí)別出的視頻特征提取網(wǎng)絡(luò)作為目標(biāo)視頻特征提取網(wǎng)絡(luò)。[0131]在識(shí)別出目標(biāo)視頻特征提取網(wǎng)絡(luò)之后,便可以采用目標(biāo)視頻特征提取網(wǎng)絡(luò)對(duì)模態(tài)特征進(jìn)行特征提取,特征提取的過(guò)程可以多種,比如,目標(biāo)視頻特征提取網(wǎng)絡(luò)可以為模態(tài)特定的Transformer的編碼器對(duì)模態(tài)特征進(jìn)行編碼,從而提取出每一模態(tài)的視頻內(nèi)容對(duì)應(yīng)的模態(tài)內(nèi)容特征。設(shè)內(nèi)容集合中檢索出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容。[0133]其中,將模態(tài)視頻特征進(jìn)行融合的方式可以有多種,具體可以如下:[0134]例如,可以將每一模態(tài)的模態(tài)內(nèi)容特征進(jìn)行組合,得到視頻內(nèi)容的模態(tài)內(nèi)容特征集合,將該模態(tài)內(nèi)容特征集合輸入至Transformer模型中進(jìn)行編碼,以計(jì)算模態(tài)內(nèi)容特征的關(guān)聯(lián)權(quán)重,根據(jù)關(guān)聯(lián)權(quán)重對(duì)模態(tài)內(nèi)容特征進(jìn)行加權(quán),并將加權(quán)后的模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻內(nèi)容的視頻特征,或者,獲取每一模態(tài)對(duì)應(yīng)的加權(quán)參數(shù),基于該加權(quán)參數(shù),對(duì)模態(tài)內(nèi)容特征進(jìn)行加權(quán),并將加權(quán)后的模態(tài)內(nèi)容特征進(jìn)行融合,從而得到視頻內(nèi)容的視頻特征,或者,直接將模態(tài)內(nèi)容特征進(jìn)行拼接,從而得到視頻內(nèi)容的視頻特征。[0135]在得到視頻內(nèi)容的視頻特征之后,便可以根據(jù)視頻特征,在預(yù)設(shè)內(nèi)容集合中檢索出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容,檢索的方式可以有多種,比如,可以分別計(jì)算視頻特征與預(yù)設(shè)內(nèi)容集合中的候選文本內(nèi)容的文本特征之間的特征相似度,根據(jù)特征相似度,在候選文本內(nèi)容中篩選出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容。[0136]其中,對(duì)候選文本內(nèi)容進(jìn)行文本特征提取的方式可以有多種,比如,可以采用文本編碼器對(duì)候選文本內(nèi)容進(jìn)行特征提取,得到候選文本內(nèi)容的文本特征,文本編碼器的類型可以有多種,譬如,可以包括Bert和word2vector,或者,還可以提取出候一個(gè)文本詞的特征,然后,計(jì)算每個(gè)文本詞之間的關(guān)聯(lián)權(quán)重,基于關(guān)聯(lián)權(quán)重,對(duì)文本詞特征進(jìn)行加權(quán),從而得到候選文本內(nèi)容的文本特征。對(duì)預(yù)設(shè)內(nèi)容集合中的候選文本內(nèi)容進(jìn)行文本特征提取的時(shí)間可以有多種,比如,可以為實(shí)時(shí)提取,譬如,當(dāng)獲取的待檢索內(nèi)容為視頻內(nèi)容時(shí),就可以對(duì)候選文本內(nèi)容進(jìn)行文本特征提取,得到候選文本內(nèi)容的文本特征,或者,還可以在獲取待檢索內(nèi)容之前,就對(duì)預(yù)設(shè)內(nèi)容集合中的候選文本內(nèi)容進(jìn)行文本特征提取,得到候選文本內(nèi)容的文本特征,從而可以實(shí)現(xiàn)離線計(jì)算文本特征和視頻特征之間的特征相似度,從而更快的在候選文本內(nèi)容中篩選出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容。[0137]其中,計(jì)算視頻特征與候選文本內(nèi)容的文本特征之間的特征相似度的方式也可以有多種,比如,可以計(jì)算視頻特征與候選文本內(nèi)容的文本特征之間的余弦相似度,從而就可以得到特征相似度,或者,還可以計(jì)算視頻特征與候選文本內(nèi)容的文本特征之間的特征距離,根據(jù)特征距離,確定視頻特征與文本特征之間的特征相似度。[0138]在計(jì)算出特征相似度之后,便可以根據(jù)特征相似度在候選文本內(nèi)容中篩選出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容,篩選的方式可以有多種,比如,在候選文本內(nèi)容中篩選出特征相似度超過(guò)預(yù)設(shè)相似度閾值的候選視文本內(nèi)容,并對(duì)篩選出的候選文本內(nèi)容進(jìn)行排序,將排序后的候選文本內(nèi)容作為視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容,或者,還可以根據(jù)特征相似度,對(duì)候選文本內(nèi)容進(jìn)行排序,在排序后的候選文本內(nèi)容中篩選出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容,篩選出的目標(biāo)文本內(nèi)容可以為一個(gè),也可以為多個(gè),當(dāng)目標(biāo)文本內(nèi)容的數(shù)量為一個(gè)時(shí),就可以將與視頻特征的特征相似度最大的候選文本內(nèi)容作為目標(biāo)文本內(nèi)容,當(dāng)目標(biāo)文本內(nèi)容為數(shù)量為多個(gè)時(shí),就可以在排序后的候選文本內(nèi)容中篩選出與視頻特征的特征相似度排名靠前的TOPN個(gè)候選文本內(nèi)容作為目標(biāo)文本內(nèi)容。[0139]可選的,當(dāng)待檢索內(nèi)容為文本內(nèi)容時(shí),還可以對(duì)文本內(nèi)容進(jìn)行特征提取,并根據(jù)提取出的文本特征,在預(yù)設(shè)內(nèi)容集合中檢索出文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容,具體可以如下:[0140]例如,當(dāng)待檢索內(nèi)容為文本內(nèi)容時(shí),采用訓(xùn)練后內(nèi)容檢索模型的文本特征提取網(wǎng)絡(luò)對(duì)文本內(nèi)容進(jìn)行特征提取,得到文本內(nèi)容的文本特征。分別計(jì)算文本特征與預(yù)設(shè)內(nèi)容集合中的候選視頻內(nèi)容的視頻特征之間的特征相似度,根據(jù)特征相似度,在候選視頻內(nèi)容中篩選出文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容。[0141]其中,對(duì)文本內(nèi)容進(jìn)行特征提取的方式可以有多種,比如,可以采用文本編碼器對(duì)文本內(nèi)容中的總體特征進(jìn)行提取,得到文本特征,文本編碼器的類型可以有多種,譬如,可以包括Bert和word2vector,或者,還可以提取出文本內(nèi)容中的每一個(gè)文本詞的特征,然后,計(jì)算每個(gè)文本詞之間的關(guān)聯(lián)權(quán)重,基于關(guān)聯(lián)權(quán)重,對(duì)文本詞特征進(jìn)行加權(quán),從而得到文本特[0142]提取出文本內(nèi)容的文本特征之后,便可以計(jì)算文本特征和視頻特征之間的特征相似度,計(jì)算特征相似度的方式可以有多種,比如,可以對(duì)預(yù)設(shè)內(nèi)容集合中的候選視頻內(nèi)容進(jìn)行特征提取,得到每一候選視頻內(nèi)容的視頻特征,然后,計(jì)算文本特征和視頻特征之間的余弦相似度,從而就可以得到特征相似度。[0143]其中,在候選視頻內(nèi)容中提取出視頻特征的方式可以有多種,比如,可以采用訓(xùn)練后內(nèi)容檢索模型對(duì)候選視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到多個(gè)模態(tài)對(duì)應(yīng)的模態(tài)特征,分別對(duì)每一模態(tài)對(duì)應(yīng)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)對(duì)應(yīng)的模態(tài)視頻特征,將模態(tài)視頻特征進(jìn)行融合,就可以得到每一候選視頻內(nèi)容的視頻特征。提取候選視頻內(nèi)容的視頻特征的時(shí)間可以有多種,比如,可以實(shí)時(shí)提取候選視頻內(nèi)容的視頻特征,譬如,每獲取一次待檢索內(nèi)容,就可以對(duì)候選視頻內(nèi)容提取視頻特征,或者,還可以在獲取待檢索內(nèi)容之前,就對(duì)預(yù)設(shè)內(nèi)容集合中的每一候選視頻內(nèi)容進(jìn)行特征提取,提取出視頻特征,從而可以實(shí)現(xiàn)離線計(jì)算文本特征和視頻特征之間的特征相似度,從而更快的在候選視頻內(nèi)容中篩選出文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容。[0144]其中,根據(jù)特征相似度,在候選視頻內(nèi)容中篩選出文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容的方式可以有多種,比如,在候選視頻內(nèi)容中篩選出特征相似度超過(guò)預(yù)設(shè)相似度閾值的候選視頻內(nèi)容,并對(duì)篩選出的候選視頻內(nèi)容進(jìn)行排序,將排序后的候選視頻內(nèi)容作為文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容,或者,還可以根據(jù)特征相似度,對(duì)候選視頻內(nèi)容進(jìn)行排序,在排序后的候選視頻內(nèi)容中篩選出文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容,篩選出的目標(biāo)視頻內(nèi)容可以為一個(gè),也可以為多個(gè),當(dāng)目標(biāo)視頻內(nèi)容的數(shù)量為一個(gè)時(shí),就可以將與文本特征的特征相似度最大的候選視頻內(nèi)容作為目標(biāo)視頻內(nèi)容,當(dāng)目標(biāo)視頻內(nèi)容為數(shù)量為多個(gè)時(shí),就可以在排序后的候選視頻內(nèi)容中篩選出與文本特征的特征相似度排名靠前的TOPN個(gè)候選視頻內(nèi)容作為目標(biāo)視頻內(nèi)容。其中,在本方案中不僅對(duì)視頻中的多模態(tài)信息進(jìn)行了更好的特征提取,而且更好地關(guān)注了檢索文本中更重要的詞,從而達(dá)到了更好的檢索結(jié)果。在數(shù)據(jù)集MSR-VTT、LSMDC和ActivityNet上,內(nèi)容檢索性能較目前主流的方法有了較大的方案文本->視頻對(duì)比方案1------對(duì)比方案26對(duì)比方案344本方案33方案文本->視頻對(duì)比方案2------對(duì)比方案3本方案表3ActivityNet數(shù)據(jù)集上的結(jié)果方案文本->視頻對(duì)比方案266對(duì)比方案35本方案33[0151]由以上可知,本申請(qǐng)實(shí)施例在獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容后,當(dāng)待檢索內(nèi)容為視頻內(nèi)容時(shí),對(duì)視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的模態(tài)特征,分別對(duì)每一模態(tài)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)的模態(tài)內(nèi)容特征,將模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻內(nèi)容的視頻特征,并根據(jù)視頻特征,在預(yù)設(shè)內(nèi)容集合中檢索出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容;由于該方案在對(duì)視頻內(nèi)容首先進(jìn)行多模態(tài)特征提取,然后,分別在每一模態(tài)對(duì)應(yīng)的模態(tài)特征中提取出模態(tài)視頻特征,從而提升了視頻中模態(tài)視頻特征的準(zhǔn)確性,并將模態(tài)視頻特征進(jìn)行融合,得到視頻內(nèi)容的視頻特征,使得提取出的視頻特征可以更好的表[0152]根據(jù)上面實(shí)施例所描述的方法,以下將舉例作進(jìn)一步詳細(xì)說(shuō)明。[0153]在本實(shí)施例中,將以該內(nèi)容檢索裝置具體集成在電子設(shè)備,電子設(shè)備為服務(wù)器為例進(jìn)行說(shuō)明。[0154](一)服務(wù)器訓(xùn)練內(nèi)容檢索模型[0156]例如,服務(wù)器可以直接獲取視頻樣本和文本樣本,得到內(nèi)容樣本集合,或者,可以獲取原始視頻內(nèi)容和原始文本內(nèi)容,然后,將原始視頻內(nèi)容和原始文本內(nèi)容發(fā)送至標(biāo)注服務(wù)器,接收標(biāo)注服務(wù)器返回的原始視頻內(nèi)容和原始文本內(nèi)容之間的匹配標(biāo)簽,將匹配標(biāo)簽添加至原始視頻內(nèi)容和原始文本內(nèi)容,從而得到視頻樣本和文本樣本,將視頻樣本和文本樣本進(jìn)行組合,得到內(nèi)容樣本集合,或者,當(dāng)內(nèi)容樣本集合中的內(nèi)容樣本數(shù)量較多或者內(nèi)存較大時(shí),可以接收模型訓(xùn)練請(qǐng)求,該模型訓(xùn)練請(qǐng)求中攜帶內(nèi)容樣本集合的存儲(chǔ)地址,根據(jù)存[0157]C2、服務(wù)器采用預(yù)設(shè)內(nèi)容檢索模型對(duì)視頻樣本進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的樣本模態(tài)特征。[0158]例如,服務(wù)器采用預(yù)設(shè)內(nèi)容檢索模型對(duì)視頻樣本進(jìn)行多模態(tài)特征提取,得到視頻樣本中每一模態(tài)的初始樣本模態(tài)特征,在視頻樣本中提取出視頻幀,并采用預(yù)設(shè)內(nèi)容檢索模型對(duì)視頻幀進(jìn)行多模態(tài)特征提取,得到每一視頻幀的基礎(chǔ)樣本模態(tài)特征,在基礎(chǔ)樣本模態(tài)特征中篩選出每一模態(tài)對(duì)應(yīng)的目標(biāo)樣本模態(tài)特征,并將目標(biāo)樣本模態(tài)特征和對(duì)應(yīng)的初始樣本模態(tài)特征進(jìn)行融合,得到每一模態(tài)的模樣本態(tài)特征。[0159]C3、服務(wù)器分別對(duì)每一模態(tài)的樣本模態(tài)特征進(jìn)行特征提取,得到視頻樣本的樣本模態(tài)內(nèi)容特征,并將樣本模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻樣本的樣本視頻特征。[0160]例如,服務(wù)器根據(jù)樣本模態(tài)特征的模態(tài),在預(yù)設(shè)內(nèi)容檢索模型的視頻特征提取網(wǎng)絡(luò)中識(shí)別出每一模態(tài)對(duì)應(yīng)的Transformer網(wǎng)絡(luò)作為目標(biāo)視頻特征提取網(wǎng)絡(luò),并采用Transformer網(wǎng)絡(luò)的編碼器對(duì)樣本模態(tài)特征進(jìn)行編碼,從而提取出每一模態(tài)的樣本模態(tài)內(nèi)容特征。將每一模態(tài)的樣本模態(tài)內(nèi)容特征進(jìn)行組合,得到視頻樣本的樣本模態(tài)內(nèi)容特征集合,將該樣本模態(tài)內(nèi)容特征集合輸入至整體Transformer網(wǎng)絡(luò)進(jìn)行編碼,以計(jì)算樣本模態(tài)內(nèi)容特征的關(guān)聯(lián)權(quán)重,根據(jù)關(guān)聯(lián)權(quán)重對(duì)樣本模態(tài)內(nèi)容特征進(jìn)行加權(quán),并將加權(quán)后的樣本模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻樣本的樣本視頻特征。[0161]C4、服務(wù)器對(duì)文本樣本進(jìn)行特征提取,得到樣本文本特征和每一文本詞對(duì)應(yīng)的文本詞特征,并根據(jù)樣本模態(tài)內(nèi)容特征、樣本視頻特征、樣本文本特征和文本詞特征,對(duì)預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到訓(xùn)練后內(nèi)容檢索模型。[0162]例如,服務(wù)器可以采用Bert或word2vector等文本編碼器對(duì)文本樣本的文本特征進(jìn)行特征提取,得到文本特征和文本詞特征。根據(jù)樣本模態(tài)內(nèi)容特征和文本詞特征,確定內(nèi)容樣本集合的特征損失信息,基于樣本視頻特征和樣本文本特征,確定內(nèi)容樣本集合的內(nèi)容損失信息,將特征損失信息和內(nèi)容損失信息進(jìn)行融合,并基于融合后損失信息,對(duì)預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到訓(xùn)練后內(nèi)容檢索模型,具體可以如下:[0163](1)服務(wù)器根據(jù)樣本模態(tài)內(nèi)容特征和文本詞特征,確定內(nèi)容樣本集合的特征損失信息。[0164]例如,服務(wù)器可以計(jì)算樣本模態(tài)內(nèi)容特征和文本詞特征之間的余弦相似度,將余弦相似度作為第一特征相似度,具體可以參考公式(1)所示。采用激活函數(shù)對(duì)第一特征相似度進(jìn)行標(biāo)準(zhǔn)化處理,激活函數(shù)的種類可以多種,譬如可以為ReLU(relu(x)=max(0,x)),標(biāo)準(zhǔn)化的過(guò)程可以如公式(2)所示,進(jìn)而得到標(biāo)準(zhǔn)化后的目標(biāo)特征相似度,獲取預(yù)設(shè)關(guān)聯(lián)參數(shù),將關(guān)聯(lián)參數(shù)與目標(biāo)特征相似度進(jìn)行融合,得到關(guān)聯(lián)權(quán)重,該關(guān)聯(lián)權(quán)重也可以理解為注意力權(quán)重,具體可以如公式(3)所示。基于該關(guān)聯(lián)權(quán)重對(duì)樣本模態(tài)內(nèi)容特征進(jìn)行加權(quán),并將加權(quán)后的樣本模態(tài)內(nèi)容特征進(jìn)行融合,就可以得到加權(quán)后模態(tài)視頻特征,將加權(quán)后模態(tài)內(nèi)容特征作為視頻樣本的初始交互后視頻特征,具體可以參考公式(4)所示。[0165]服務(wù)器在計(jì)算出初始交互后視頻特征之后,可以獲取預(yù)設(shè)更新參數(shù),將預(yù)設(shè)更新參數(shù)、初始交互后視頻特征和文本詞特征進(jìn)行融合,得到初始交互后文本詞特征,具體可以如公式(5)所示。計(jì)算初始交互后視頻特征與初始交互后文本詞特征的特征相似度,得到第三特征相似度,可以根據(jù)第三特征相似度,將初始交互后視頻特征和初始交互后文本詞特征進(jìn)行特征交互,以得到目標(biāo)交互后視頻特征和目標(biāo)交互后文本詞特征,將目標(biāo)交互后視頻特征作為初始交互后視頻特征,并將目標(biāo)交互后文本詞特征作為初始交互后文本詞特征,返回執(zhí)行計(jì)算初始交互后視頻特征與初始交互后文本詞特征的特征相似度的步驟,直至初始交互后視頻特征和初始交互后文本詞特征的特征交互次數(shù)達(dá)到預(yù)設(shè)次數(shù)為止,得到交互后視頻特征和交互后文本詞特征。[0166]服務(wù)器在得到交互后視頻特征和交互后文本詞特征之后,可以計(jì)算交互后視頻特征和交互后文本詞特征之間的特征相似度,得到第二特征相似度,將第二特征相似度進(jìn)行融合,得到視頻樣本和文本樣本之間的樣本相似度,如公式(7)所示。將樣本相似度與預(yù)設(shè)相似度閾值進(jìn)行對(duì)比,在內(nèi)容樣本集合中篩選出樣本相似度超過(guò)預(yù)設(shè)相似度閾值的視頻樣本和對(duì)應(yīng)的文本樣本,從而就可以得到第一內(nèi)容樣本對(duì),在內(nèi)容樣本集合中篩選出樣本相似度未超過(guò)預(yù)設(shè)相似度閾值的視頻樣本和對(duì)應(yīng)的文本樣本,從而就可以得到第二內(nèi)容樣本對(duì)。獲取內(nèi)容樣本集合對(duì)應(yīng)的預(yù)設(shè)特征邊界值,在第二內(nèi)容樣本對(duì)中篩選出樣本相似度最大的內(nèi)容樣本對(duì),得到目標(biāo)內(nèi)容樣本對(duì),計(jì)算第一內(nèi)容樣本對(duì)的樣本相似度與目標(biāo)內(nèi)容樣本對(duì)的樣本相似度之間的相似度差值,得到第一相似度差值,將預(yù)設(shè)特征邊界值與第一相似度差值進(jìn)行融合,以得到內(nèi)容樣本集合的特征損失信息,如公式(8)所示。[0167](2)服務(wù)器基于樣本視頻特征和樣本文本特征,確定內(nèi)容樣本集合的內(nèi)容損失信[0168]例如,服務(wù)器可以計(jì)算樣本視頻特和文本特征之間的特征相似度,得到視頻樣本與文本樣本之間的內(nèi)容相似度,根據(jù)內(nèi)容相似度,在內(nèi)容樣本集合中篩選出視頻樣本與文本樣本匹配的第三內(nèi)容樣本對(duì)、以及視頻樣本與內(nèi)容樣本不匹配的第四內(nèi)容樣本對(duì),獲取內(nèi)容樣本集合對(duì)應(yīng)的預(yù)設(shè)內(nèi)容邊界值。計(jì)算第三內(nèi)容樣本對(duì)的內(nèi)容相似度與第四內(nèi)容樣本對(duì)的內(nèi)容相似度之間的相似度差值,得到第二相似度差值,將第二相似度差值與預(yù)設(shè)內(nèi)容邊界值進(jìn)行融合,得到第三內(nèi)容樣本對(duì)與第四內(nèi)容樣本對(duì)之間的內(nèi)容差值,對(duì)內(nèi)容差值進(jìn)行標(biāo)準(zhǔn)化處理,得到內(nèi)容樣本集合的內(nèi)容損失信息,如公式(9)所示。[0169](3)服務(wù)器將特征損失信息和內(nèi)容損失信息進(jìn)行融合,并基于融合后損失信息,對(duì)預(yù)設(shè)內(nèi)容檢索模型進(jìn)行收斂,得到訓(xùn)練后內(nèi)容檢索模型。[0170]例如,服務(wù)器可以獲取預(yù)設(shè)平衡參數(shù),將預(yù)設(shè)平衡參數(shù)與特征損失信息進(jìn)行融合,得到平衡后特征損失信息,將平衡后特征損失信息與內(nèi)容損失信息相加,從而得到融合后損失信息,如公式(10)所示。然后,根據(jù)融合后損失信息,采用梯度下降算法對(duì)預(yù)設(shè)內(nèi)容檢索模型中的網(wǎng)絡(luò)參數(shù)進(jìn)行更新,從而收斂預(yù)設(shè)內(nèi)容檢索模型,得到訓(xùn)練后內(nèi)容檢索模型,或者,還可以采用其他算法,采用融合后損失信息對(duì)預(yù)設(shè)內(nèi)容檢索模型中的網(wǎng)絡(luò)參數(shù)進(jìn)行更新,從而收斂預(yù)設(shè)內(nèi)容檢索模型,得到訓(xùn)練后內(nèi)容檢索模型。[0172]201、服務(wù)器獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容。[0173]例如,服務(wù)器可以直接接收用戶通過(guò)終端發(fā)送的待檢索內(nèi)容,或者,可以從網(wǎng)絡(luò)或者第三方數(shù)據(jù)庫(kù)中獲取待檢索內(nèi)容,或者,當(dāng)待檢索內(nèi)容的內(nèi)存較大或者數(shù)量較多時(shí),接收內(nèi)容檢索請(qǐng)求,該內(nèi)容檢索請(qǐng)求中攜帶待檢索內(nèi)容的存儲(chǔ)地址,根據(jù)存儲(chǔ)地址,在內(nèi)存、緩存或第三方數(shù)據(jù)庫(kù)中獲取待檢索內(nèi)容。[0174]202、當(dāng)待檢索內(nèi)容為視頻內(nèi)容時(shí),服務(wù)器對(duì)視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到多個(gè)模態(tài)對(duì)應(yīng)的模態(tài)特征。[0175]例如,當(dāng)待檢索內(nèi)容為視頻內(nèi)容時(shí),服務(wù)器采用訓(xùn)練后內(nèi)容檢索模型對(duì)視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到視頻內(nèi)容中每一模態(tài)的初始模態(tài)特征,在視頻內(nèi)容中提取出視頻幀,并采用訓(xùn)練后內(nèi)容檢索模型對(duì)視頻幀進(jìn)行多模態(tài)特征提取,得到每一視頻幀的基礎(chǔ)模態(tài)特征,在基礎(chǔ)模態(tài)特征中篩選出每一模態(tài)對(duì)應(yīng)的目標(biāo)模態(tài)特征,并將目標(biāo)模態(tài)特征和對(duì)應(yīng)的初始模態(tài)特征進(jìn)行融合,得到每一模態(tài)的模態(tài)特征。[0176]其中,視頻內(nèi)容以及視頻內(nèi)容中的視頻幀可以包括多種模態(tài),針對(duì)描述動(dòng)作模態(tài),可以使用在動(dòng)作識(shí)別數(shù)據(jù)集上做過(guò)預(yù)訓(xùn)練的S3D模型進(jìn)行特征抽取,針對(duì)音頻模態(tài),可以使用預(yù)訓(xùn)練過(guò)的VGGish模型進(jìn)行特征提取,針對(duì)場(chǎng)景模態(tài),可以使用預(yù)訓(xùn)練過(guò)的DenseNet-161模型進(jìn)行特征提取,針對(duì)人臉模態(tài),可以使用預(yù)訓(xùn)練過(guò)的SSD模型和ResNet50模型進(jìn)行特征提取,針對(duì)人臉模態(tài),可以采用GoogleAPI進(jìn)行特征提取,針對(duì)實(shí)體模態(tài),可以采用預(yù)訓(xùn)練過(guò)的SENet-154進(jìn)行特征提取。提取出的初始模態(tài)特征和基礎(chǔ)模態(tài)特征都可以包含圖像特征、專家特征和時(shí)間特征等。[0177]203、服務(wù)器分別對(duì)每一模態(tài)對(duì)應(yīng)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)對(duì)應(yīng)的模態(tài)內(nèi)容特征。[0178]例如,可以根據(jù)模態(tài)特征的模態(tài),在訓(xùn)練后內(nèi)容檢索模型的視頻特征提取網(wǎng)絡(luò)中識(shí)別出每一模態(tài)對(duì)應(yīng)的Transformer網(wǎng)絡(luò)作為目標(biāo)視頻特征提取網(wǎng)絡(luò),采用模態(tài)特定的Transformer的編碼器對(duì)模態(tài)特征進(jìn)行編碼,從而提取出每一模態(tài)對(duì)應(yīng)的模態(tài)內(nèi)容特征。[0180]例如,服務(wù)器可以將每一模態(tài)的模態(tài)內(nèi)容特征進(jìn)行組合,得到視頻內(nèi)容的樣本模態(tài)內(nèi)容特征集合,將該模態(tài)視內(nèi)容特征集合輸入至Transformer模型中進(jìn)行編碼,以計(jì)算模態(tài)內(nèi)容特征的關(guān)聯(lián)權(quán)重,根據(jù)關(guān)聯(lián)權(quán)重對(duì)模態(tài)內(nèi)容特征進(jìn)行加權(quán),并將加權(quán)后的模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻內(nèi)容的視頻特征,或者,獲取每一模態(tài)對(duì)應(yīng)的加權(quán)參數(shù),基于該加權(quán)參數(shù),對(duì)模態(tài)內(nèi)容特征進(jìn)行加權(quán),并將加權(quán)后的模態(tài)內(nèi)容特征進(jìn)行融合,從而得到視頻內(nèi)容的視頻特征,或者,直接將模態(tài)視頻特征進(jìn)行拼接,從而得到視頻內(nèi)容[0181]205、服務(wù)器根據(jù)視頻特征,在預(yù)設(shè)內(nèi)容集合中檢索出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)[0182]例如,服務(wù)器可以采用Bert或word2vector等文本編碼器對(duì)候選文本內(nèi)容進(jìn)行特征提取,得到候選文本內(nèi)容的文本特征,或者,還可以提取出候選文本內(nèi)容中的每一個(gè)文本從而得到候選文本內(nèi)容的文本特征。[0183]服務(wù)器計(jì)算視頻特征與候選文本內(nèi)容的文本特征之間的余弦相似度,從而就可以得到特征相似度,或者,還可以計(jì)算視頻特征與候選文本內(nèi)容的文本特征之間的特征距離,根據(jù)特征距離,確定視頻特征與文本特征之間的特征相似度。[0184]服務(wù)器在候選文本內(nèi)容中篩選出特征相似度超過(guò)預(yù)設(shè)相似度閾值的候選視文本內(nèi)容,并對(duì)篩選出的候選文本內(nèi)容進(jìn)行排序,將排序后的候選文本內(nèi)容作為視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容,或者,還可以根據(jù)特征相似度,對(duì)候選文本內(nèi)容進(jìn)行排序,在排序后的候選文本內(nèi)容中篩選出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容,篩選出的目標(biāo)文本內(nèi)容可以為一個(gè),也可以為多個(gè),當(dāng)目標(biāo)文本內(nèi)容的數(shù)量為一個(gè)時(shí),就可以將與視頻特征的特征相似度最大的候選文本內(nèi)容作為目標(biāo)文本內(nèi)容,當(dāng)目標(biāo)文本內(nèi)容為數(shù)量為多個(gè)時(shí),就可以在排序后的候選文本內(nèi)容中篩選出與視頻特征的特征相似度排名靠前的TOPN個(gè)候選文本內(nèi)容作為目標(biāo)文本內(nèi)容。[0185]其中,對(duì)預(yù)設(shè)內(nèi)容集合中的候選文本內(nèi)容進(jìn)行文本特征提取的時(shí)間可以有多種,比如,可以為實(shí)時(shí)提取,譬如,當(dāng)獲取的待檢索內(nèi)容為視頻內(nèi)容時(shí),就可以對(duì)候選文本內(nèi)容進(jìn)行文本特征提取,得到候選文本內(nèi)容的文本特征,或者,還可以在獲取待檢索內(nèi)容之前,就對(duì)預(yù)設(shè)內(nèi)容集合中的候選文本內(nèi)容進(jìn)行文本特征提取,得到候選文本內(nèi)容的文本特征,從而可以實(shí)現(xiàn)離線計(jì)算文本特征和視頻特征之間的特征相似度,從而更快的在候選文本內(nèi)容中篩選出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容。[0186]206、當(dāng)待檢索內(nèi)容為文本內(nèi)容時(shí),服務(wù)器對(duì)文本內(nèi)容進(jìn)行特征提取,并根據(jù)提取出的文本特征,在預(yù)設(shè)內(nèi)容集合中檢索出文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容。[0187]例如,當(dāng)待檢索內(nèi)容為文本內(nèi)容時(shí),服務(wù)器可以采用Bert或word2vector等文本編碼器對(duì)文本內(nèi)容中的總體特征進(jìn)行提取,得到文本內(nèi)容的文本特征。采用訓(xùn)練后內(nèi)容檢索模型對(duì)候選視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到多個(gè)模態(tài)對(duì)應(yīng)的模態(tài)特征,分別對(duì)每一模態(tài)對(duì)應(yīng)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)對(duì)應(yīng)的模態(tài)視頻特征,將模態(tài)視頻特征進(jìn)行融合,就可以得到每一候選視頻內(nèi)容的視頻特征。然后,計(jì)算文本特征和視頻特征之間的余弦相似度,從而就可以得到特征相似度。在候選視頻內(nèi)容中篩選出特征相似度超過(guò)預(yù)設(shè)相似度閾值的候選視頻內(nèi)容,并對(duì)篩選出的候選視頻內(nèi)容進(jìn)行排序,將排序后的候選視頻內(nèi)容作為文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容,或者,還可以根據(jù)特征相似度,對(duì)候選視頻內(nèi)容進(jìn)行排序,在排序后的候選視頻內(nèi)容中篩選出文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容,篩選出的目標(biāo)視頻內(nèi)容可以為一個(gè),也可以為多個(gè),當(dāng)目標(biāo)視頻內(nèi)容的數(shù)量為一個(gè)時(shí),就可以將與文本特征的特征相似度最大的候選視頻內(nèi)容作為目標(biāo)視頻內(nèi)容,當(dāng)目標(biāo)視頻內(nèi)容為數(shù)量為多個(gè)時(shí),就可以在排序后的候選視頻內(nèi)容中篩選出與文本特征的特征相似度排名靠前的TOPN個(gè)候選視頻內(nèi)容作為目標(biāo)視頻內(nèi)容。[0188]其中,提取候選視頻內(nèi)容的視頻特征的時(shí)間可以有多種,比如,可以實(shí)時(shí)提取候選視頻內(nèi)容的視頻特征,譬如,每獲取一次待檢索內(nèi)容,就可以對(duì)候選視頻內(nèi)容提取視頻特征,或者,還可以在獲取待檢索內(nèi)容之前,就對(duì)預(yù)設(shè)內(nèi)容集合中的每一候選視頻內(nèi)容進(jìn)行特征提取,提取出視頻特征,從而可以實(shí)現(xiàn)離線計(jì)算文本特征和視頻特征之間的特征相似度,從而更快的在候選視頻內(nèi)容中篩選出文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容。[0189]由以上可知,本申請(qǐng)實(shí)施例服務(wù)器在獲取用于檢索目標(biāo)內(nèi)容的待檢索內(nèi)容后,當(dāng)待檢索內(nèi)容為視頻內(nèi)容時(shí),對(duì)視頻內(nèi)容進(jìn)行多模態(tài)特征提取,得到每一模態(tài)的模態(tài)特征,分別對(duì)每一模態(tài)的模態(tài)特征進(jìn)行特征提取,得到每一模態(tài)的模態(tài)內(nèi)容特征,將模態(tài)內(nèi)容特征進(jìn)行融合,得到視頻內(nèi)容的視頻特征,并根據(jù)視頻特征,在預(yù)設(shè)內(nèi)容集合中檢索出視頻內(nèi)容對(duì)應(yīng)的目標(biāo)文本內(nèi)容,當(dāng)待檢索內(nèi)容為文本內(nèi)容時(shí),對(duì)文本內(nèi)容進(jìn)行特征提取,并根據(jù)提取出的文本特征,在預(yù)設(shè)內(nèi)容集合中檢索出文本內(nèi)容對(duì)應(yīng)的目標(biāo)視頻內(nèi)容;由于該方案在對(duì)視頻內(nèi)容首先進(jìn)行多模態(tài)特征提取,然后,分別在每一模態(tài)對(duì)應(yīng)的模態(tài)特征中提取出模態(tài)視頻特征,從而提升了視頻中模態(tài)視頻特征的準(zhǔn)確性,并將模態(tài)視頻特征進(jìn)行融合,得到視頻內(nèi)容的視頻特征,使得提取出的視頻特征可以更好的表達(dá)視頻中的信息,實(shí)現(xiàn)文本和視[0190]為了更好地實(shí)施以上方法,本發(fā)明實(shí)施例還提供一種內(nèi)容檢索裝置,該內(nèi)容檢索裝置可以集成在電子設(shè)備,比如服務(wù)器或終端等設(shè)備中,該終端可以包括平板電腦、筆記本電腦和/或個(gè)人計(jì)算機(jī)等。提取

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論