CN112149632B 一種視頻識(shí)別方法、裝置及電子設(shè)備(騰訊科技(深圳)有限公司)_第1頁(yè)
CN112149632B 一種視頻識(shí)別方法、裝置及電子設(shè)備(騰訊科技(深圳)有限公司)_第2頁(yè)
CN112149632B 一種視頻識(shí)別方法、裝置及電子設(shè)備(騰訊科技(深圳)有限公司)_第3頁(yè)
CN112149632B 一種視頻識(shí)別方法、裝置及電子設(shè)備(騰訊科技(深圳)有限公司)_第4頁(yè)
CN112149632B 一種視頻識(shí)別方法、裝置及電子設(shè)備(騰訊科技(深圳)有限公司)_第5頁(yè)
已閱讀5頁(yè),還剩52頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(19)國(guó)家知識(shí)產(chǎn)權(quán)局(12)發(fā)明專利(10)授權(quán)公告號(hào)CN112149632B(21)申請(qǐng)?zhí)?02011133415.8(22)申請(qǐng)日2020.10.21(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)申請(qǐng)公布號(hào)CN112149632A(43)申請(qǐng)公布日2020.12.29(73)專利權(quán)人騰訊科技(深圳)有限公司地址518057廣東省深圳市南山區(qū)高新區(qū)科技中一路騰訊大廈35層(72)發(fā)明人禹常隆田植良(74)專利代理機(jī)構(gòu)廣州三環(huán)專利商標(biāo)代理有限公司44202專利代理師熊永強(qiáng)杜維GO6V20/40(2022.01)GO6V30/413(2022.01)GO6V30/148(2022.01)GO6V10/80(2022.(56)對(duì)比文件(54)發(fā)明名稱一種視頻識(shí)別方法、裝置及電子設(shè)備(57)摘要本申請(qǐng)實(shí)施例公開(kāi)了一種視頻識(shí)別方法、裝置及電子設(shè)備,方法包括:獲取目標(biāo)視頻,所述目標(biāo)視頻包括視頻幀圖像以及目標(biāo)文本;調(diào)用第一圖像特征提取模型提取所述視頻幀圖像的第一圖像特征;調(diào)用第二圖像特征提取模型提取所述視頻幀圖像的第二圖像特征;調(diào)用第一文本特征提取模型提取所述目標(biāo)文本的第一文本特征;調(diào)用第二文本特征提取模型提取所述目標(biāo)文本的第二文本特征;根據(jù)所述第一圖像特征、所述第二圖像特征、所述第一文本特征和所述第二文本特征確定所述目標(biāo)視頻的視頻標(biāo)簽,確定所述目標(biāo)視頻的視頻標(biāo)簽屬于所述第一分類任務(wù)??梢垣@取目標(biāo)視頻,所述目標(biāo)視頻包括視頻幀圖像以本2獲取目標(biāo)視頻,所述目標(biāo)視頻包括視頻幀圖像以及目標(biāo)文本;調(diào)用第一圖像特征提取模型提取所述視頻幀圖像的第一圖像特征;所述第一圖像特征提取模型是基于第一分類任務(wù)訓(xùn)練的圖像特征提取模型;所述第一分類任務(wù)是區(qū)分目標(biāo)視頻是否為廣告視頻的任務(wù);調(diào)用第二圖像特征提取模型提取所述視頻幀圖像的第二圖像特征;所述第二圖像特征提取模型是基于所述第一分類任務(wù)和第二分類任務(wù)訓(xùn)練的圖像特征提取模型;基于所述第一分類任務(wù)和第二分類任務(wù)訓(xùn)練的圖像特征提取模型得到的第二圖像特征用于判斷目標(biāo)視頻是否為廣告視頻、并用于判斷目標(biāo)視頻中的對(duì)象以及對(duì)象的不同行為;調(diào)用第一文本特征提取模型提取所述目標(biāo)文本的第一文本特征;所述第一文本特征提取模型是基于所述第一分類任務(wù)訓(xùn)練的文本特征提取模型;調(diào)用第二文本特征提取模型提取所述目標(biāo)文本的第二文本特征;所述第二文本特征提取模型是基于所述第一分類任務(wù)和第三分類任務(wù)訓(xùn)練的文本特征提取模型;根據(jù)所述第一圖像特征、所述第二圖像特征、所述第一文本特征和所述第二文本特征確定所述目標(biāo)視頻的視頻標(biāo)簽,確定所述目標(biāo)視頻的視頻標(biāo)簽屬于所述第一分類任務(wù),所述視頻標(biāo)簽用于判斷該目標(biāo)視頻是否為廣告視頻。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一圖像特征、所述第二圖像特征、所述第一文本特征和所述第二文本特征確定所述目標(biāo)視頻的視頻標(biāo)簽,包括:調(diào)用圖像特征融合模型,將所述第一圖像特征和所述第二圖像特征融合為第一特征;調(diào)用文本特征融合模型,將所述第一文本特征和所述第二文本特征融合為第二特征;調(diào)用標(biāo)簽識(shí)別模型,識(shí)別所述第一特征和所述第二特征,得到目標(biāo)視頻的視頻標(biāo)簽;其中,所述圖像特征融合模型、所述文本特征融合模型以及所述標(biāo)簽識(shí)別模型是基于所述第一分類任務(wù)訓(xùn)練的模型。獲取所述視頻幀圖像,識(shí)別所述視頻幀圖像中的文本,將識(shí)別到的文本作為所述目標(biāo)將所述視頻幀圖像和所述目標(biāo)文本組合為所述目標(biāo)視頻。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:獲取用于第一分類任務(wù)的第一樣本數(shù)據(jù),所述第一樣本數(shù)據(jù)包括第一樣本視頻幀圖像以及第一樣本文本;調(diào)用第一圖像待訓(xùn)練中間模型提取所述第一樣本視頻幀圖像的第一樣本圖像特征,以及調(diào)用第二圖像待訓(xùn)練中間模型提取所述第一樣本視頻幀圖像的第二樣本圖像特征;調(diào)用第一文本待訓(xùn)練中間模型提取所述第一樣本文本的第一樣本文本特征,以及調(diào)用第二文本待訓(xùn)練中間模型提取所述第一樣本文本的第二樣本文本特征;調(diào)用待訓(xùn)練圖像特征融合模型將所述第一樣本圖像特征以及所述第二樣本圖像特征融合為第一樣本特征;調(diào)用待訓(xùn)練文本特征融合模型,將所述第一樣本文本特征和所述第二樣本文本特征融合為第二樣本特征;調(diào)用待訓(xùn)練標(biāo)簽識(shí)別模型,識(shí)別所述第一樣本特征和所述第二樣本特征,得到第一樣3本數(shù)據(jù)的第一預(yù)測(cè)標(biāo)簽;獲取所述第一樣本數(shù)據(jù)的第一樣本標(biāo)簽,根據(jù)所述第一預(yù)測(cè)標(biāo)簽和所述第一樣本標(biāo)簽訓(xùn)練所述第一圖像待訓(xùn)練中間模型、所述第二圖像待訓(xùn)練中間模型、所述第一文本待訓(xùn)練中間模型、所述第二文本待訓(xùn)練中間模型、所述待訓(xùn)練圖像特征融合模型、所述待訓(xùn)練文本特征融合模型以及所述待訓(xùn)練標(biāo)簽識(shí)別模型,得到第一圖像特征提取模型、第二圖像特征提取模型、第一文本特征提取模型、第二文本特征提取模型、圖像特征融合模型、文本特征融合模型以及標(biāo)簽識(shí)別模型。獲取用于第二分類任務(wù)的第二樣本數(shù)據(jù);所述第二樣本數(shù)據(jù)包括第二樣本視頻幀圖基于第二圖像待訓(xùn)練模型,識(shí)別所述第二樣本視頻幀圖像的第二預(yù)測(cè)標(biāo)簽;根據(jù)所述第二樣本數(shù)據(jù)的第二樣本標(biāo)簽以及第二預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第二圖像待訓(xùn)練模型得到所述第二圖像待訓(xùn)練中間模型,其中,第二樣本數(shù)據(jù)的數(shù)量大于所述第一樣本數(shù)據(jù)的數(shù)量?;诘谝粓D像待訓(xùn)練模型,識(shí)別所述第一樣本視頻幀圖像的原始圖像預(yù)測(cè)標(biāo)簽;根據(jù)所述第一樣本數(shù)據(jù)的樣本標(biāo)簽以及原始圖像預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第一圖像待訓(xùn)練模型得到所述第一圖像待訓(xùn)練中間模型。獲取用于第三分類任務(wù)的第三樣本數(shù)據(jù);所述第三樣本數(shù)據(jù)包括第三樣本文本;基于第二文本待訓(xùn)練模型,識(shí)別所述第三樣本文本的第三預(yù)測(cè)標(biāo)簽;根據(jù)第三樣本數(shù)據(jù)的第三樣本標(biāo)簽以及第三預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第二文本待訓(xùn)練模型得到第二文本待訓(xùn)練中間模型,其中,第三樣本數(shù)據(jù)的數(shù)量大于所述第一樣本數(shù)據(jù)的數(shù)量?;诘谝晃谋敬?xùn)練模型,識(shí)別所述第一樣本文本的原始文本預(yù)測(cè)標(biāo)簽;根據(jù)所述第一樣本數(shù)據(jù)的樣本標(biāo)簽以及原始文本預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第一文本待訓(xùn)練模型得到第一文本待訓(xùn)練中間模型。獲取單元,用于獲取目標(biāo)視頻,所述目標(biāo)視頻包括視頻幀圖像以及目標(biāo)文本;處理單元,用于調(diào)用第一圖像特征提取模型提取所述視頻幀圖像的第一圖像特征;所述第一圖像特征提取模型是基于第一分類任務(wù)訓(xùn)練的圖像特征提取模型;所述第一分類任務(wù)是區(qū)分目標(biāo)視頻是否為廣告視頻的任務(wù);所述處理單元,還用于調(diào)用第二圖像特征提取模型提取所述視頻幀圖像的第二圖像特征;所述第二圖像特征提取模型是基于所述第一分類任務(wù)和第二分類任務(wù)訓(xùn)練的圖像特征提取模型;基于所述第一分類任務(wù)和第二分類任務(wù)訓(xùn)練的圖像特征提取模型得到的第二圖像特征用于判斷目標(biāo)視頻是否為廣告視頻、并用于判斷目標(biāo)視頻中的對(duì)象以及對(duì)象的不同行為;所述處理單元,還用于調(diào)用第一文本特征提取模型提取所述目標(biāo)文本的第一文本特征;所述第一文本特征提取模型是基于所述第一分類任務(wù)訓(xùn)練的文本特征提取模型;4所述處理單元,還用于調(diào)用第二文本特征提取模型提取所述目標(biāo)文本的第二文本特征;所述第二文本特征提取模型是基于所述第一分類任務(wù)和第三分類任務(wù)訓(xùn)練的文本特征提取模型;確定單元,用于根據(jù)所述第一圖像特征、所述第二圖像特征、所述第一文本特征和所述第二文本特征確定所述目標(biāo)視頻的視頻標(biāo)簽,確定所述目標(biāo)視頻的視頻標(biāo)簽屬于所述第一分類任務(wù),所述視頻標(biāo)簽用于判斷該目標(biāo)視頻是否為廣告視頻。10.一種電子設(shè)備,其特征在于,包括處理器、存儲(chǔ)設(shè)備、通信接口,以及一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序被存儲(chǔ)在所述存儲(chǔ)設(shè)備中,并且被配置由所述處理器執(zhí)行如權(quán)利要求1-8任一項(xiàng)所述的方法。11.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的方法。5一種視頻識(shí)別方法、裝置及電子設(shè)備技術(shù)領(lǐng)域[0001]本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種視頻背景技術(shù)[0002]隨著計(jì)算機(jī)技術(shù)的發(fā)展,電子設(shè)備也日益普及。電子設(shè)備上具有大量的視頻播放平臺(tái),提供的海量視頻,豐富了人們的日常生活。但是視頻中含有的內(nèi)嵌廣告卻嚴(yán)重影響了人們的觀看體驗(yàn)。[0003]目前在對(duì)視頻進(jìn)行識(shí)別時(shí),以視頻中的內(nèi)嵌廣告為例。針對(duì)未對(duì)內(nèi)嵌廣告進(jìn)行標(biāo)注的視頻,可以通過(guò)眾包的方式對(duì)視頻的內(nèi)嵌廣告過(guò)濾。即把過(guò)濾廣告任務(wù)發(fā)布到視頻平臺(tái),讓用戶標(biāo)注,并給用戶一定物質(zhì)獎(jiǎng)勵(lì)。但通過(guò)人工的方式無(wú)法實(shí)現(xiàn)設(shè)備自動(dòng)智能化篩選視頻的廣告片段,導(dǎo)致廣告片段識(shí)別的自動(dòng)化程度低下。發(fā)明內(nèi)容[0004]本申請(qǐng)實(shí)施例提供了一種視頻識(shí)別方法、裝置及電子設(shè)備??梢杂行嵘繕?biāo)視頻的視頻標(biāo)簽識(shí)別過(guò)程的自動(dòng)化以及智能化程度。[0006]獲取目標(biāo)視頻,所述目標(biāo)視頻包括視頻幀圖像以及目標(biāo)文本;[0007]調(diào)用第一圖像特征提取模型提取所述視頻幀圖像的第一圖像特征;所述第一圖像特征提取模型是基于第一分類任務(wù)訓(xùn)練的圖像特征提取模型;[0008]調(diào)用第二圖像特征提取模型提取所述視頻幀圖像的第二圖像特征;所述第二圖像特征提取模型是基于所述第一分類任務(wù)和第二分類任務(wù)訓(xùn)練的圖像特征提取模型;[0009]調(diào)用第一文本特征提取模型提取所述目標(biāo)文本的第一文本特征;所述第一文本特征提取模型是基于所述第一分類任務(wù)訓(xùn)練的文本特征提取模型;[0010]調(diào)用第二文本特征提取模型提取所述目標(biāo)文本的第二文本特征;所述第二文本特征提取模型是基于所述第一分類任務(wù)和第三分類任務(wù)訓(xùn)練的文本特征提取模型;[0011]根據(jù)所述第一圖像特征、所述第二圖像特征、所述第一文本特征和所述第二文本特征確定所述目標(biāo)視頻的視頻標(biāo)簽,確定所述目標(biāo)視頻的視頻標(biāo)簽屬于所述第一分類任[0013]獲取單元,用于獲取目標(biāo)視頻,所述目標(biāo)視頻包[0014]處理單元,用于調(diào)用第一圖像特征提取模型提取所述視頻幀圖像的第一圖像特征;所述第一圖像特征提取模型是基于第一分類任務(wù)訓(xùn)練的圖像特征提取模型;[0015]所述處理單元,還用于調(diào)用第二圖像特征提取模型提取所述視頻幀圖像的第二圖像特征;所述第二圖像特征提取模型是基于所述第一分類任務(wù)和第二分類任務(wù)訓(xùn)練的圖像特征提取模型;[0016]所述處理單元,還用于調(diào)用第一文本特征提取模型提取所述目標(biāo)文本的第一文本6特征;所述第一文本特征提取模型是基于所述第一分類任務(wù)訓(xùn)練的文本特征提取模型;[0017]所述處理單元,還用于調(diào)用第二文本特征提取模型提取所述目標(biāo)文本的第二文本特征;所述第二文本特征提取模型是基于所述第一分類任務(wù)和第三分類任務(wù)訓(xùn)練的文本特征提取模型;[0018]確定單元,用于根據(jù)所述第一圖像特征、所述第二圖像特征、所述第一文本特征和所述第二文本特征確定所述目標(biāo)視頻的視頻標(biāo)簽,確定所述目標(biāo)視頻的視頻標(biāo)簽屬于所述第一分類任務(wù)。[0019]一方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括處理器、存儲(chǔ)器、通信接口以及一個(gè)或多個(gè)程序,其中,上述一個(gè)或多個(gè)程序被存儲(chǔ)在上述存儲(chǔ)器中,并且被配置由上述處理器執(zhí)行,上述程序包括用于執(zhí)行上述方法中的步驟的指令。[0020]相應(yīng)的,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于儲(chǔ)存為終端設(shè)備所用的計(jì)算機(jī)程序指令,其包含用于執(zhí)行上述方法中的步驟所涉及的程序。[0021]相應(yīng)的,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序,計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)程序包括計(jì)算機(jī)指令,計(jì)算機(jī)指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,計(jì)算機(jī)指令被計(jì)算機(jī)設(shè)備的處理器執(zhí)行時(shí),執(zhí)行上述各實(shí)施例中的方法。[0022]可見(jiàn),本申請(qǐng)實(shí)施例中,通過(guò)多個(gè)特征提取模型識(shí)別目標(biāo)視頻的視頻標(biāo)簽,實(shí)現(xiàn)自動(dòng)識(shí)別過(guò)程,效率高,自動(dòng)化程度高。并且提取第二圖像特征以及第二文本特征的模型是基于第一分類任務(wù)和第二分類任務(wù)共同訓(xùn)練模型,即提取的圖像特征以及文本特征不僅可以表征第一分類任務(wù)領(lǐng)域下的特征,還可以表征第二分類任務(wù)領(lǐng)域的特征,不僅可以豐富圖像特征以及文本特征的表達(dá)方式以及豐富視頻標(biāo)簽的識(shí)別方式,還可以提高識(shí)別準(zhǔn)確率。附圖說(shuō)明[0023]為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。[0024]圖1是本申請(qǐng)實(shí)施例提供的目標(biāo)視頻識(shí)別過(guò)程的示意圖;[0025]圖2是本申請(qǐng)實(shí)施例提供的一種視頻識(shí)別方法的流程示意圖;[0026]圖3A是本申請(qǐng)實(shí)施例提供的另一種視頻識(shí)別方法的流程示意圖;[0027]圖3B是本申請(qǐng)實(shí)施例提供的一種訓(xùn)練中間模型得到第一預(yù)測(cè)標(biāo)簽的示意圖;[0028]圖3C是本申請(qǐng)實(shí)施例提供的一種使用總模型得到視頻標(biāo)簽的示意圖;[0029]圖3D是本申請(qǐng)實(shí)施例提供的一種第二圖像待訓(xùn)練模型的結(jié)構(gòu)示意圖;[0030]圖3E是本申請(qǐng)實(shí)施例提供的一種模塊一的結(jié)構(gòu)示意圖;[0031]圖3F是本申請(qǐng)實(shí)施例提供的一種第一圖像待訓(xùn)練模型的結(jié)構(gòu)示意圖;[0032]圖3G是本申請(qǐng)實(shí)施例提供的一種第二文本待訓(xùn)練模型的結(jié)構(gòu)示意圖;[0033]圖3H是本申請(qǐng)實(shí)施例提供的一種模塊二的結(jié)構(gòu)示意圖;[0034]圖3I是本申請(qǐng)實(shí)施例提供的一種第一文本待訓(xùn)練模型的結(jié)構(gòu)示意圖;[0035]圖3J是本申請(qǐng)實(shí)施例提供的一種總模型的結(jié)構(gòu)示意圖;[0036]圖4是本申請(qǐng)實(shí)施例提供的一種圖像識(shí)別裝置的功能單元示意圖;7[0037]圖5是本申請(qǐng)實(shí)施例提供的一種電子設(shè)備的結(jié)構(gòu)示意圖。具體實(shí)施方式[0038]下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備沒(méi)有限定于已列出的步驟或單元,而是可選地還包括沒(méi)有列出的步驟或單元,或可選地還包括對(duì)于這些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其他步驟或單元。[0040]在本文中提及“實(shí)施例”意味著,結(jié)合實(shí)施例描述的特定特征、結(jié)構(gòu)或特性可以包含在本申請(qǐng)的至少一個(gè)實(shí)施例中。在說(shuō)明書(shū)中的各個(gè)位置出現(xiàn)該短語(yǔ)并不一定均是指相同的實(shí)施例,也不是與其它實(shí)施例互斥的獨(dú)立的或備選的實(shí)施例。本領(lǐng)域技術(shù)人員顯式地和隱式地理解的是,本文所描述的實(shí)施例可以與其它實(shí)施例相結(jié)合。[0041]計(jì)算機(jī)視覺(jué)技術(shù)(ComputerVision,CV)計(jì)算機(jī)視覺(jué)是一門(mén)研究如何使機(jī)器“看”的科學(xué),更進(jìn)一步的說(shuō),就是指用攝影機(jī)和電腦代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別、檢測(cè)和測(cè)量等機(jī)器視覺(jué),并進(jìn)一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測(cè)的圖像。作為一個(gè)科學(xué)學(xué)科,計(jì)算機(jī)視覺(jué)研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取信息的人工智能系統(tǒng)。計(jì)算機(jī)視覺(jué)技術(shù)通常包括圖像處理、圖像識(shí)別、圖像語(yǔ)義理虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、同步定位與地圖構(gòu)建等技術(shù),還包括常見(jiàn)的人臉識(shí)別、指紋識(shí)別等生物特征識(shí)別技術(shù)。[0042]機(jī)器學(xué)習(xí)(MachineLearning,ML)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門(mén)學(xué)科。專門(mén)研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。機(jī)器學(xué)習(xí)是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域。教學(xué)習(xí)等技術(shù)。[0043]本申請(qǐng)和機(jī)器學(xué)習(xí)相結(jié)合,利用人工神經(jīng)網(wǎng)絡(luò)技術(shù)多本申請(qǐng)中的使用的多個(gè)模型進(jìn)行構(gòu)建,以及訓(xùn)練,得到具有很強(qiáng)的圖像識(shí)別能力的多個(gè)模型。并且本申請(qǐng)和CV技術(shù)相結(jié)合,利用ORC技術(shù)提取視頻幀圖像中的文件,得到目標(biāo)文本。對(duì)視頻目標(biāo)視頻的視頻標(biāo)簽。提高視頻標(biāo)簽識(shí)別過(guò)程的智能化以及自動(dòng)化程度。[0044]本申請(qǐng)實(shí)施例提供一種視頻識(shí)別的方法,應(yīng)用于視頻識(shí)別裝置,該視頻識(shí)別裝置可以是電子設(shè)備的內(nèi)置裝置,也可以是該電子設(shè)備的外接裝置。下面結(jié)合附圖進(jìn)行詳細(xì)介[0045]首先,請(qǐng)參看圖1所示的目標(biāo)視頻識(shí)別過(guò)程的示意圖,目標(biāo)視頻的識(shí)別過(guò)程包括第一圖像特征提取模型,第二圖像特征提取模型,第一文本特征提取模型,第二文本特征提取8模型。[0046]針對(duì)某一目標(biāo)視頻,該目標(biāo)視頻包括視頻幀圖像以及目標(biāo)文本。調(diào)用第一圖像特征提取模型提取視頻幀圖像的第一圖像特征;第一圖像特征提取模型是基于第一分類任務(wù)訓(xùn)練的圖像特征提取模型;調(diào)用第二圖像特征提取模型提取視頻幀圖像的第二圖像特征;第二圖像特征提取模型是基于第一分類任務(wù)和第二分類任務(wù)訓(xùn)練的圖像特征提取模型;調(diào)用第一文本特征提取模型提取目標(biāo)文本的第一文本特征;第一文本特征提取模型是基于第一分類任務(wù)訓(xùn)練的文本特征提取模型;調(diào)用第二文本特征提取模型提取目標(biāo)文本的第二文本特征;第二文本特征提取模型是基于第一分類任務(wù)和第三分類任務(wù)訓(xùn)練的文本特征提取模型;最終可以根據(jù)第一圖像特征、第二圖像特征、第一文本特征和第二文本特征確定目標(biāo)視頻的視頻標(biāo)簽,確定目標(biāo)視頻的視頻標(biāo)簽屬于第一分類任務(wù)。[0047]上述第一圖像特征提取模型,第二圖像特征提取模型,第一文本特征提取模型,第二文本特征提取模型可以是循環(huán)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNN),卷積網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN),深度信念網(wǎng)絡(luò)(DeepBeliefNeuralNetworks),生成式對(duì)抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks),自編碼器(autoencoder,AE),遞歸神經(jīng)網(wǎng)絡(luò)中的任意一種或多種。[0048]上述電子設(shè)備,例如可以包括分布式存儲(chǔ)服務(wù)器、傳統(tǒng)服務(wù)器、大型存儲(chǔ)系能手環(huán)等。[0049]本申請(qǐng)實(shí)施例的技術(shù)方案可以基于圖1舉例所示的視頻過(guò)程的示意圖或形變示意圖來(lái)具體實(shí)施。[0050]參見(jiàn)圖2,圖2是本申請(qǐng)實(shí)施例提供的一種視頻識(shí)別方法的流程示意圖,可以應(yīng)用于視頻識(shí)別裝置。這種方法可包括但不限于如下步驟:[0051]201、獲取目標(biāo)視頻,所述目標(biāo)視頻包括視頻幀圖像以及目標(biāo)文本。[0052]具體的,對(duì)于一段完整視頻,可以按照預(yù)設(shè)方式將這段完整視頻分成一個(gè)一個(gè)的視頻片段。比如每5秒或者2秒或者3秒等作為一個(gè)視頻片段。視頻識(shí)別裝置可以將其中任意一個(gè)視頻片段作為目標(biāo)視頻??梢岳斫鉃樵撃繕?biāo)視頻包括視頻幀圖像以及目標(biāo)文本,目標(biāo)文本即每一幀視頻幀圖像包括的字幕。[0053]202、調(diào)用第一圖像特征提取模型提取所述視頻幀圖像的第一圖像特征。所述第一圖像特征提取模型是基于第一分類任務(wù)訓(xùn)練的圖像特征提取模型。[0054]具體的,視頻識(shí)別裝置調(diào)用第一圖像特征提取模型,可以從視頻幀圖像中提取第一圖像特征。該第一圖像特征提取模型是基于第一分類任務(wù)訓(xùn)練的圖像特征提取模型。第一分類任務(wù)可以理解為區(qū)分目標(biāo)視頻是廣告視頻或者不是廣告視頻,可以作為視頻廣告分類。對(duì)應(yīng)的第一圖像特征即可以判斷該視頻幀圖像對(duì)應(yīng)的目標(biāo)視頻為廣告視頻或者不是廣告視頻的圖像特征。[0055]203、調(diào)用第二圖像特征提取模型提取所述視頻幀圖像的第二圖像特征。所述第二圖像特征提取模型是基于所述第一分類任務(wù)和第二分類任務(wù)訓(xùn)練的圖像特征提取模型。[0056]具體的,視頻識(shí)別裝置調(diào)用第二圖像特征提取模型,可以從視頻幀圖像中提取第二圖像特征。該第二圖像特征提取模型是基于第一分類任務(wù)以及第二分類任務(wù)訓(xùn)練的圖像特征提取模型。第一分類任務(wù)如前所述,可以理解為區(qū)分目標(biāo)視頻是廣告視頻或者不是廣9告視頻。對(duì)應(yīng)的第一圖像特征即可以判斷該視頻幀圖像對(duì)應(yīng)的目標(biāo)視頻為廣告視頻或者不是廣告視頻的圖像特征。[0057]另外,第二分類任務(wù)可以理解為基于視頻幀圖像區(qū)分視頻中的不同對(duì)象,或者對(duì)象的不同行為,可以作為一種通用視頻分類。對(duì)應(yīng)的第二圖像特征不僅可以是判斷該視頻幀圖像對(duì)應(yīng)的目標(biāo)視頻為廣告視頻或者不是廣告視頻的圖像特征,還可以是判斷該視頻幀圖像對(duì)應(yīng)的視頻中的對(duì)象以及對(duì)象的不同行為的圖像特征。[0058]204、調(diào)用第一文本特征提取模型提取所述目標(biāo)文本的第一文本特征。所述第一文本特征提取模型是基于所述第一分類任務(wù)訓(xùn)練的文本特征提取模型。[0059]具體的,由于目標(biāo)視頻包括目標(biāo)文本,視頻識(shí)別裝置調(diào)用第一文本特征提取模型,可以從目標(biāo)文本中提取第一文本特征。該第一文本特征提取模型是基于第一分類任務(wù)訓(xùn)練的文本特征提取模型。第一分類任務(wù)可以理解為區(qū)分目標(biāo)視頻是廣告視頻或者不是廣告視頻,可以作為視頻廣告分類。對(duì)應(yīng)的第一文本特征即可以判斷該目標(biāo)文本對(duì)應(yīng)的目標(biāo)視頻為廣告視頻或者不是廣告視頻的文本特征。[0060]205、調(diào)用第二文本特征提取模型提取所述目標(biāo)文本的第二文本特征。所述第二文本特征提取模型是基于所述第一分類任務(wù)和第三分類任務(wù)訓(xùn)練的文本特征提取模型。[0061]具體的,視頻識(shí)別裝置調(diào)用第二文本特征提取模型,可以從目標(biāo)文本中提取第二文本特征。該第二文本特征提取模型是基于第一分類任務(wù)以及第二分類任務(wù)訓(xùn)練的文本特征提取模型。第一分類任務(wù)如前所述,可以理解為區(qū)分目標(biāo)視頻是廣告視頻或者不是廣告視頻。對(duì)應(yīng)的第一文本特征即可以判斷該目標(biāo)文本對(duì)應(yīng)的目標(biāo)視頻為廣告視頻或者不是廣告視頻的文本特征。[0062]另外,第三分類任務(wù)可以理解為基于目標(biāo)文本區(qū)分視頻中的不同對(duì)象,或者對(duì)象的不同行為,可以作為一種通用視頻文本分類。對(duì)應(yīng)的第二文本特征即可以判斷該目標(biāo)文本對(duì)應(yīng)的視頻中的對(duì)象以及對(duì)象的不同行為。第三分類任務(wù)可以與第二類分類任務(wù)相同或者不同。[0063]206、根據(jù)所述第一圖像特征、所述第二圖像特征、所述第一文本特征和所述第二文本特征確定所述目標(biāo)視頻的視頻標(biāo)簽,確定所述目標(biāo)視頻的視頻標(biāo)簽屬于所述第一分類任務(wù)。[0064]具體的,視頻裝置可以根據(jù)該第一圖像特征、該第二圖像特征、該第一文本特征和該第二文本特征確定該目標(biāo)視頻的視頻標(biāo)簽,確定該目標(biāo)視頻的視頻標(biāo)簽屬于上述第一分類任務(wù),即可以為視頻廣告分類任務(wù)。也可以理解為,確定該目標(biāo)視頻的視頻標(biāo)簽,即可以通過(guò)該視頻標(biāo)簽判斷該目標(biāo)視頻是否為廣告視頻。當(dāng)然,若第一分類任務(wù)為其他分類任務(wù),比如判斷視頻是否為娛樂(lè)視頻、搞笑視頻、新聞資訊視頻、戰(zhàn)爭(zhēng)史實(shí)視頻等,通過(guò)該視頻標(biāo)簽也可以判斷該目標(biāo)視頻是否為對(duì)應(yīng)類別的視頻。[0065]可選的,若根據(jù)目標(biāo)視頻的視頻標(biāo)簽確定該目標(biāo)視頻為廣告視頻片段時(shí),可以從所述完整視頻中刪除該目標(biāo)視頻,使得完整視頻為不包含廣告視頻片段的正常視頻,實(shí)現(xiàn)完整視頻的過(guò)濾過(guò)程。減少?gòu)V告視頻片段對(duì)完整視頻的干擾,提升視頻播放效果。[0066]可見(jiàn),本申請(qǐng)實(shí)施例中,為了完成屬于第一分類任務(wù)的視頻標(biāo)簽識(shí)別,不僅需要提取第一分類任務(wù)領(lǐng)域下的圖像特征以及文本特征問(wèn)題,還需要參考其他分類任務(wù)(即第二分類任務(wù)和第三分類任務(wù))領(lǐng)域下的圖像特征以及文本特征問(wèn)題,基于多個(gè)分類任務(wù)領(lǐng)域下的多樣化的特征識(shí)別得到的視頻標(biāo)簽,可以保證識(shí)別準(zhǔn)確率。[0067]與上述圖2所示的實(shí)施例一致,請(qǐng)參閱圖3A,圖3A是本申請(qǐng)實(shí)施例提供的另一種視頻識(shí)別方法的流程示意圖,這種方法應(yīng)用于小程序生成裝置,這種方法可包括但不限于如下步驟:[0069]302、調(diào)用第一圖像特征提取模型提取所述視頻幀圖像的第一圖像特征。所述第一圖像特征提取模型是基于第一分類任務(wù)訓(xùn)練的圖像特征提取模型。[0070]303、調(diào)用第二圖像特征提取模型提取所述視頻幀圖像的第二圖像特征。所述第二圖像特征提取模型是基于所述第一分類任務(wù)和第二分類任務(wù)訓(xùn)練的圖像特征提取模型。[0071]304、調(diào)用第一文本特征提取模型提取所述目標(biāo)文本的第一文本特征。所述第一文本特征提取模型是基于所述第一分類任務(wù)訓(xùn)練的文本特征提取模型。[0072]305、調(diào)用第二文本特征提取模型提取所述目標(biāo)文本的第二文本特征。所述第二文本特征提取模型是基于所述第一分類任務(wù)和第三分類任務(wù)訓(xùn)練的文本特征提取模型。[0073]步驟301-305參看上述步驟201-205,在此不再贅述。[0074]306、調(diào)用圖像特征融合模型,將所述第一圖像特征和所述第二圖像特征融合為第一特征。[0075]具體的,圖像特征融合模型可以包括至少兩個(gè)非線性變換層,兩個(gè)非線性變換層之間連接全連接層。一個(gè)非線性變換層連接第一圖像特征提取模型與第二圖像特征提取模型,另一個(gè)非線性變換層連接標(biāo)簽識(shí)別模型。采用圖像特征融合模型可以將第一圖像特征和所述第二圖像特征融合為第一特征。比如第一圖像特征為廣告視頻特征,第二圖像特征為人物運(yùn)動(dòng)圖像特征。融合后的第一特征可以包含人物運(yùn)動(dòng)圖像特征以及廣告視頻圖像特[0076]另外,圖像特征融合模型可以為內(nèi)外網(wǎng)模型(Inside-OutsideNet,ION)、像素級(jí)融合、特征級(jí)融合和決策級(jí)融合等。也可以是早融合模型(Earlyfusion)。早多層的特征,然后在融合后的特征上訓(xùn)練預(yù)測(cè)器(只在完全融合之后,才統(tǒng)一進(jìn)行檢測(cè))。這類方法也被稱為skipconnection(跳躍連接),即采用concat(連接)、add(添加)融合方式。)concat,系列特征融合,直接將兩個(gè)特征進(jìn)行連接。兩個(gè)輸入特征x和y的維數(shù)若為p和q,輸出特征z的維數(shù)為p+q。add,并行策略,將這兩個(gè)特征向量組合成復(fù)向量,對(duì)于輸入特征[0077]307、調(diào)用文本特征融合模型,將所述第一文本特征和所述第二文本特征融合為第二特征。[0078]具體的,文本特征融合模型包括至少兩個(gè)非線性變換層,兩個(gè)非線性變換層之間連接全連接層。一個(gè)非線性變換層連接第一文本特征提取模型與第二文本特征提取模型,另一個(gè)非線性變換層連接標(biāo)簽識(shí)別模型。也可以是早融合模型(Earlyfusion)。[0079]視頻識(shí)別裝置調(diào)用文本特征融合模型,可以將所述第一文本特征和所述第二文本特征融合為第二特征。比如第一文本特征為廣告視頻特征,第二文本特征為人物運(yùn)動(dòng)文本特征。融合后的第二特征可以包含人物運(yùn)動(dòng)文本特征以及廣告視頻文本特征。[0080]308、調(diào)用標(biāo)簽識(shí)別模型,識(shí)別所述第一特征和所述第二特征,得到目標(biāo)視頻的視頻標(biāo)簽。其中,所述圖像特征融合模型、所述文本特征融合模型以及所述標(biāo)簽識(shí)別模型是基11于所述第一分類任務(wù)訓(xùn)練的模型。[0081]具體的,圖像識(shí)別裝置調(diào)用標(biāo)簽識(shí)別模型,可以識(shí)別所述第一特征和所述第二特征,得到目標(biāo)視頻的視頻標(biāo)簽。以第一特征為包含人物運(yùn)動(dòng)圖像特征的廣告圖視頻特征,第二特征為包含人物運(yùn)動(dòng)文本特征的廣告視頻特征為例,圖像識(shí)別裝置識(shí)別第一特征與第二特征后,得到的目標(biāo)視頻的視頻標(biāo)簽為包含人物運(yùn)動(dòng)特征的廣告視頻特征。進(jìn)一步的可以通過(guò)該視頻標(biāo)簽將該目標(biāo)視頻確定為廣告視頻。[0082]其中,所述圖像特征融合模型、所述文本特征融合模型以及所述標(biāo)簽識(shí)別模型是基于所述第一分類任務(wù)訓(xùn)練的模型。第一分類任務(wù)如前所述,在此不再贅述。[0083]可見(jiàn),視頻識(shí)別裝置在獲取目標(biāo)視頻之后,可以分別調(diào)用第一圖像特征提取模型提取第一圖像特征;調(diào)用第二圖像特征提取模型提取所述視頻幀圖像的第二圖像特征。調(diào)用第一文本特征提取模型提取所述目標(biāo)文本的第一文本特征;調(diào)用第二文本特征提取模型提取所述目標(biāo)文本的第二文本特征。也就是基于多樣化的特征提取模型,獲取目標(biāo)視頻的多樣化特征。進(jìn)一步的,調(diào)用圖像特征融合模型,將所述第一圖像特征和所述第二圖像特征融合為第一特征;調(diào)用文本特征融合模型,將所述第一文本特征和所述第二文本特征融合為第二特征;調(diào)用標(biāo)簽識(shí)別模型,識(shí)別所述第一特征和所述第二特征,得到目標(biāo)視頻的視頻標(biāo)簽?;诙鄻踊奶卣魅诤夏P腿诤隙鄻踊奶卣鳎苡行岣咭曨l標(biāo)簽識(shí)別的準(zhǔn)確程度。[0084]并且由于第二圖像特征提取模型,以及第二文本特征提取模型不僅基于第一分類任務(wù)進(jìn)行訓(xùn)練,還基于第二分類任務(wù)采用通用視頻訓(xùn)練,采用的訓(xùn)練樣本更易獲取,能有效彌補(bǔ)第一分類任務(wù)樣本量不足的問(wèn)題,顯著提升訓(xùn)練效果。使得二者最終在做目標(biāo)視頻識(shí)[0085]在一個(gè)可能的實(shí)施例中,所述獲取目標(biāo)視頻,包括:獲取所述視頻幀圖像,識(shí)別所述視頻幀圖像中的文本,將識(shí)別到的文本作為所述目標(biāo)文本;將所述視頻幀圖像和所述目標(biāo)文本組合為所述目標(biāo)視頻。[0086]具體的,由于目標(biāo)視頻是由一幀一幀的視頻幀圖像組成,要獲取目標(biāo)視頻,就需要獲取組成目標(biāo)視頻的視頻幀圖像。在獲取視頻幀圖像之后,需要識(shí)別視頻幀圖像中的文本,并將識(shí)別到的文本作為所述目標(biāo)文本,也即目標(biāo)視頻包含的文本。識(shí)別視頻幀圖像中的文本,也即將視頻幀圖像中的字幕提取出來(lái)。針對(duì)嵌入在頻幀圖像中的字幕,需要用光學(xué)字符識(shí)別(OpticalCharacterRecognition,OCR)技術(shù)對(duì)每一個(gè)視頻片段中包含的字幕進(jìn)行提取。若該字幕有的是通過(guò)單獨(dú)的字幕文件,則可以直接從文件中提取文本。使得通過(guò)目標(biāo)視頻本身的視頻幀圖像信息,以及目標(biāo)視頻字幕的語(yǔ)言學(xué)信息分析,對(duì)提取出的目標(biāo)視頻的圖像特征以及文本特征,對(duì)視頻標(biāo)簽進(jìn)行識(shí)別。進(jìn)一步的,可以將所述視頻幀圖像和所述目標(biāo)文本組合為所述目標(biāo)視頻。[0087]可見(jiàn),根據(jù)獲取的視頻幀圖像,識(shí)別所述視頻幀圖像中的文本,將識(shí)別到的文本作為所述目標(biāo)文本;進(jìn)一步的,將所述視頻幀圖像和所述目標(biāo)文本組合為所述目標(biāo)視頻。后續(xù),不僅使用目標(biāo)視頻的視頻幀圖像,還使用目標(biāo)視頻的目標(biāo)文本,使得多個(gè)特征提取模型在進(jìn)行特征提取時(shí),能提取到多樣化的特征,以此提升視頻標(biāo)簽確定的準(zhǔn)確程度。[0088]在一個(gè)可能的實(shí)施例中,所述方法還包括:獲取用于第一分類任務(wù)的第一樣本數(shù)據(jù),所述第一樣本數(shù)據(jù)包括第一樣本視頻幀圖像以及第一樣本文本;調(diào)用第一圖像待訓(xùn)練中間模型提取所述第一樣本視頻幀圖像的第一樣本圖像特征,以及調(diào)用第二圖像待訓(xùn)練中間模型提取所述第一樣本視頻幀圖像的第二樣本圖像特征;調(diào)用第一文本待訓(xùn)練中間模型提取所述第一樣本文本的第一樣本文本特征,以及調(diào)用第二文本待訓(xùn)練中間模型提取所述第一樣本文本的第二樣本文本特征;調(diào)用待訓(xùn)練圖像特征融合模型將所述第一樣本圖像特征以及所述第二樣本圖像特征融合為第一樣本特征;調(diào)用待訓(xùn)練文本特征融合模型,將所述第一樣本文本特征和所述第二樣本文本特征融合為第二樣本特征;調(diào)用待訓(xùn)練標(biāo)簽識(shí)別模型,識(shí)別所述第一樣本特征和所述第二樣本特征,得到第一樣本數(shù)據(jù)的第一預(yù)測(cè)標(biāo)簽;獲取所述第一樣本數(shù)據(jù)的第一樣本標(biāo)簽,根據(jù)所述第一預(yù)測(cè)標(biāo)簽和所述第一樣本標(biāo)簽訓(xùn)練所述第一圖像待訓(xùn)練中間模型、所述第二圖像待訓(xùn)練中間模型、所述第一文本待訓(xùn)練中間模型、所述第二文本待訓(xùn)練中間模型、所述待訓(xùn)練圖像特征融合模型、所述待訓(xùn)練文本特征融合模型以及所述待訓(xùn)練標(biāo)簽識(shí)別模型,得到第一圖像特征提取模型、第二圖像特征提取模型、第一文本特征提取模型、第二文本特征提取模型、圖像特征融合模型、文本特征融合模型以及標(biāo)簽識(shí)別模型。[0089]具體的,可以理解為在視頻識(shí)別階段使用的特征提取模型,是利用第一樣本數(shù)據(jù)訓(xùn)練中間模型得到的。第一樣本數(shù)據(jù)可以為進(jìn)行廣告標(biāo)注的視頻或未進(jìn)行廣告標(biāo)注的視頻,即第一樣本數(shù)據(jù)的真實(shí)標(biāo)簽用于標(biāo)識(shí)該第一樣本數(shù)據(jù)是廣告視頻,或者不是廣告視頻。第一樣本數(shù)據(jù)用于第一分類任務(wù),第一分類任務(wù)可以為廣告分類任務(wù),即判斷該視頻是廣告視頻還是非廣告視頻。如圖3B所示,圖3B為基于第一樣本數(shù)據(jù)訓(xùn)練中間模型得到第一預(yù)測(cè)標(biāo)簽的過(guò)程。所述第一樣本數(shù)據(jù)包括第一樣本視頻幀圖像以及第一樣本文本。視頻識(shí)別裝置調(diào)用第一圖像待訓(xùn)練中間模型提取所述第一樣本視頻幀圖像的第一樣本圖像特征,以及調(diào)用第二圖像待訓(xùn)練中間模型提取所述第一樣本視頻幀圖像的第二樣本圖像特征。調(diào)用第一文本待訓(xùn)練中間模型提取所述第一樣本文本的第一樣本文本特征,以及調(diào)用第二文本待訓(xùn)練中間模型提取所述第一樣本文本的第二樣本文本特征。調(diào)用待訓(xùn)練圖像特征融合模型將所述第一樣本圖像特征以及所述第二樣本圖像特征融合為第一樣本特征。比如,第一樣本圖像特征為廣告視頻特征,第二樣本圖像特征為運(yùn)動(dòng)的人物圖像特征。待訓(xùn)練圖像特征融合模型將二者融合后得到的第一樣本特征便可以為包含運(yùn)動(dòng)的人物圖像特征的廣告視頻特征。[0090]另外,視頻識(shí)別裝置調(diào)用待訓(xùn)練文本特征融合模型,將所述第一樣本文本特征和所述第二樣本文本特征融合為第二樣本特征。舉例來(lái)說(shuō),第一樣本文本特征為廣告文本,第二樣本文本特征可以為情感特征。比如正向情感特征,負(fù)向情感特征等。待訓(xùn)練文本特征融合模型將二者融合后得到的第二樣本特征便可以為帶有勵(lì)志激勵(lì)特征的廣告文本。[0091]更進(jìn)一步的,由于待訓(xùn)練標(biāo)簽識(shí)別模型為基于第一分類任務(wù)的標(biāo)簽識(shí)別模型,因此,調(diào)用待訓(xùn)練標(biāo)簽識(shí)別模型,識(shí)別所述第一樣本特征和所述第二樣本特征,得到第一樣本數(shù)據(jù)的第一預(yù)測(cè)標(biāo)簽可以得到第一分類任務(wù)的預(yù)測(cè)結(jié)果。比如第一預(yù)測(cè)標(biāo)簽為廣告標(biāo)簽或者非廣告標(biāo)簽。當(dāng)然,第一預(yù)測(cè)標(biāo)簽還可以帶有其他標(biāo)簽,比如基于圖像特征提取的人物運(yùn)動(dòng)標(biāo)簽,或者基于文本特征提取的情感標(biāo)簽等。[0092]再者,視頻識(shí)別裝置在獲取所述第一樣本數(shù)據(jù)的第一樣本標(biāo)簽(也就是第一樣本數(shù)據(jù)的真實(shí)標(biāo)簽),根據(jù)所述第一預(yù)測(cè)標(biāo)簽和第一樣本標(biāo)簽訓(xùn)練第一圖像待訓(xùn)練中間模型、第二圖像待訓(xùn)練中間模型、第一文本待訓(xùn)練中間模型、第二文本待訓(xùn)練中間模型、待訓(xùn)練圖像特征融合模型、待訓(xùn)練文本特征融合模型以及待訓(xùn)練標(biāo)簽識(shí)別模型。即根據(jù)第一預(yù)測(cè)標(biāo)簽和第一樣本標(biāo)簽的差值(即誤差),也即根據(jù)上述中間模型或者待訓(xùn)練模型的損失函數(shù),調(diào)整上述模型的參數(shù),使得上述模型逐漸達(dá)到模型收斂條件,模型收斂條件可以是以下任意一種或多種:損失值(即誤差)小于某個(gè)預(yù)先設(shè)定的誤差閾值;或者,兩次迭代之間的權(quán)值變化(參數(shù))已經(jīng)很小,可設(shè)定一個(gè)閾值,當(dāng)權(quán)值變化值小于參數(shù)閾值后,就停止訓(xùn)練;又或者,設(shè)定最大迭代次數(shù),當(dāng)?shù)^(guò)最大次數(shù)就停止訓(xùn)練,可以視為達(dá)到模型收斂條件。在達(dá)到收斂后,得到第一圖像待訓(xùn)練中間模型對(duì)應(yīng)的第一圖像特征提取模型,第二圖像待訓(xùn)練中間模型對(duì)應(yīng)的第二圖像特征提取模型,第一文本待訓(xùn)練中間模型對(duì)應(yīng)的第一文本特征提取模型,第二文本待訓(xùn)練中間模型對(duì)應(yīng)的第二文本特征提取模型,待訓(xùn)練圖像特征融合模型對(duì)應(yīng)的圖像特征融合模型、待訓(xùn)練文本特征融合模型對(duì)應(yīng)的文本特征融合模型以及待訓(xùn)練標(biāo)簽識(shí)別模型對(duì)應(yīng)的標(biāo)簽識(shí)別模型。[0093]訓(xùn)練完成后,得到的可以識(shí)別目標(biāo)視頻的視頻標(biāo)簽的綜合模型可以如圖3C所示。其中,圖像特征融合模型包括至少兩個(gè)非線性變換層,兩個(gè)非線性變換層之間連接全連接層。一個(gè)非線性變換層連接第一圖像特征提取模型與第二圖像特征提取模型,另一個(gè)非線性變換層連接標(biāo)簽識(shí)別模型。同理,文本特征融合模型包括至少兩個(gè)非線性變換層,兩個(gè)非線性變換層之間連接全連接層。一個(gè)非線性變換層連接第一文本特征提取模型與第二文本特征提取模型,另一個(gè)非線性變換層連接標(biāo)簽識(shí)別模型。標(biāo)簽識(shí)別模型包括至少一個(gè)全連[0094]可見(jiàn),視頻識(shí)別裝置調(diào)用基于第一分類任務(wù)的多個(gè)中間模型,聯(lián)合輸出第一樣本數(shù)據(jù)的第一預(yù)測(cè)標(biāo)簽。再獲取該第一樣本數(shù)據(jù)的第一樣本標(biāo)簽,根據(jù)所述第一預(yù)測(cè)標(biāo)簽和所述第一樣本標(biāo)簽訓(xùn)練訓(xùn)練上述中間模型,最終使得各個(gè)模型能盡量收斂。提高各個(gè)模型針對(duì)第一分類任務(wù)的視頻識(shí)別能力,提升各個(gè)模型識(shí)別目標(biāo)視頻的準(zhǔn)確程度。[0095]下面對(duì)如何得到第二圖像待訓(xùn)練中間模型的具體過(guò)程進(jìn)行說(shuō)明:[0096]在一個(gè)可能的實(shí)施例中,還包括:獲取用于第二分類任務(wù)的第二樣本數(shù)據(jù);所述第二樣本數(shù)據(jù)包括第二樣本視頻幀圖像;基于第二圖像待訓(xùn)練模型,識(shí)別所述第二樣本視頻幀圖像的第二預(yù)測(cè)標(biāo)簽;根據(jù)所述第二樣本數(shù)據(jù)的第二樣本標(biāo)簽以及第二預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第二圖像待訓(xùn)練模型得到所述第二圖像待訓(xùn)練中間模型,其中,第二樣本數(shù)據(jù)的數(shù)量大于所述第一樣本數(shù)據(jù)的數(shù)量。[0097]具體的,圖像識(shí)別裝置獲取用于第二分類任務(wù)的第二樣本數(shù)據(jù)。第二分類任務(wù)如前所述,可以理解為基于視頻幀圖像區(qū)分視頻中的不同對(duì)象,或者對(duì)象的不同行為,可以作為一種通用視頻分類。不同于第一樣本數(shù)據(jù)需要進(jìn)行廣告標(biāo)注,因此,第二樣本數(shù)據(jù)的數(shù)量要遠(yuǎn)遠(yuǎn)大于所述第一樣本數(shù)據(jù)的數(shù)量。[0098]該第二樣本數(shù)據(jù)包括第二樣本視頻幀圖像。第二圖像待訓(xùn)練模型可以如圖3D所示,包括模塊一,還包括至少兩層全連接層,兩層全連接層之間通過(guò)非線性變換層連接。全連接層中的任意一層連接模塊一。[0099]另外,模塊一為視頻向量化表示模型,如圖3E所示,包括至少一個(gè)三維卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,3D-CNN),還包括至少兩層全連接層,兩層全連接層之間通過(guò)非線性變換層連接。全連接層中的任意一層連接3D-CNN網(wǎng)絡(luò)。由于一個(gè)完整視頻包含很多個(gè)視頻片段,例如每5秒、3秒、4秒等算作是一個(gè)視頻片段。量的視頻片段。本模塊會(huì)將分割好的視頻片段進(jìn)行內(nèi)容分析,3D-CNN網(wǎng)絡(luò)對(duì)視頻片段進(jìn)行建模,最終模塊一將每一個(gè)視頻片段轉(zhuǎn)化為一個(gè)視頻向量,該視頻向量作為視頻內(nèi)容的表[0100]更進(jìn)一步的,基于第二圖像待訓(xùn)練模型,識(shí)別所述第二樣本視頻幀圖像的第二預(yù)測(cè)標(biāo)簽。即模塊一將第二樣本視頻幀圖像的視頻向量輸入第二圖像待訓(xùn)練模型,由第二圖像待訓(xùn)練模型識(shí)別所述第二樣本視頻幀圖像的第二預(yù)測(cè)標(biāo)簽。再根據(jù)所述第二樣本數(shù)據(jù)的第二樣本標(biāo)簽以及第二預(yù)測(cè)標(biāo)簽,確定第二圖像待訓(xùn)練模型的損失值,并根據(jù)該損失值調(diào)整第二圖像待訓(xùn)練模型的參數(shù)值,使得第二圖像待訓(xùn)練模型完全收斂,得到所述第二圖像待訓(xùn)練中間模型。由于第二樣本數(shù)據(jù)是用于通用圖像分類的樣本數(shù)據(jù),因此第二樣本數(shù)據(jù)可以為海量數(shù)據(jù),比如10萬(wàn)個(gè)視頻片段,或者100萬(wàn)個(gè)視頻片段等,因此可以將第二圖像待訓(xùn)練模型訓(xùn)練至完全收斂,使得其具有很好的通用視頻識(shí)別能力。[0101]可見(jiàn),基于大量的第二樣本數(shù)據(jù)預(yù)先將第二圖像待訓(xùn)練模型訓(xùn)練至完全收斂,得到所述第二圖像待訓(xùn)練中間模型。提升第二圖像待訓(xùn)練中間模型通用視頻分類能力。進(jìn)一步的,利用第一樣本數(shù)據(jù)再次訓(xùn)練第二圖像待訓(xùn)練中間模型,得到的第二圖像特征提取模型能具有更好的第二圖像特征提取能力,有利于提升針對(duì)第一分類任務(wù)的目標(biāo)視頻標(biāo)簽識(shí)別的準(zhǔn)確程度。[0102]下面對(duì)如何得到第一圖像待訓(xùn)練中間模型的具體過(guò)程進(jìn)行說(shuō)明:[0103]在一個(gè)可能的實(shí)施例中,還包括:基于第一圖像待訓(xùn)練模型,識(shí)別所述第一樣本視頻幀圖像的原始圖像預(yù)測(cè)標(biāo)簽;根據(jù)所述第一樣本數(shù)據(jù)的樣本標(biāo)簽以及原始圖像預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第一圖像待訓(xùn)練模型得到所述第一圖像待訓(xùn)練中間模型。[0104]具體的,類似于第二圖像待訓(xùn)練模型的結(jié)構(gòu),第一圖像待訓(xùn)練模型的結(jié)構(gòu)可以如圖3F所示,包括模塊一,還包括至少兩層全連接層,兩層全連接層之間通過(guò)非線性變換層連[0105]更進(jìn)一步的,基于第一圖像待訓(xùn)練模型,識(shí)別所述第一樣本視頻幀圖像的原始圖像預(yù)測(cè)標(biāo)簽。即模塊一將第一樣本視頻幀圖像的視頻向量輸入第一圖像待訓(xùn)練模型,由第一圖像待訓(xùn)練模型識(shí)別所述第一樣本視頻幀圖像的原始圖像預(yù)測(cè)標(biāo)簽。再根據(jù)所述第一樣本數(shù)據(jù)的樣本標(biāo)簽以及原始圖像預(yù)測(cè)標(biāo)簽,確定第一圖像待訓(xùn)練模型的損失函數(shù),并根據(jù)該損失函數(shù)調(diào)整第一圖像待訓(xùn)練模型的參數(shù)值,使得第一圖像待訓(xùn)練模型盡可能的收斂(即訓(xùn)練至所有第一樣本數(shù)據(jù)都參與第一圖像待訓(xùn)練模型的訓(xùn)練即可),得到所述第一圖像待訓(xùn)練中間模型。但由于第一樣本數(shù)據(jù)來(lái)自于人工標(biāo)注,會(huì)標(biāo)注出每一個(gè)視頻片段是否為廣告片段。但是由于標(biāo)注數(shù)據(jù)需要人工進(jìn)行,難度大、消耗時(shí)間與金錢(qián),所以這部分我們只用第一樣本數(shù)據(jù)可以將第一圖像待訓(xùn)練模型訓(xùn)練至完全收斂,也即第一圖像待訓(xùn)練中間模型并不一定完全收斂。[0106]可見(jiàn),基于少量的第一樣本數(shù)據(jù)預(yù)先將第一圖像待訓(xùn)練模型訓(xùn)練至盡可能收斂,得到所述第一圖像待訓(xùn)練中間模型。提升第一圖像待訓(xùn)練中間模型的第一分類任務(wù)的能力,可以是廣告分類能力。以便于,后續(xù)進(jìn)一步利用第一樣本數(shù)據(jù)再次同時(shí)訓(xùn)練第一圖像待訓(xùn)練中間模型與第二圖像待訓(xùn)練中間模型,得到第一圖像特征提取模型與第二圖像特征提取模型。通過(guò)第二圖像特征提取模型強(qiáng)化整體模型的圖像特征提取能力,有助于針對(duì)目標(biāo)視頻的第一分類任務(wù)的視頻標(biāo)簽識(shí)別結(jié)果更加準(zhǔn)確。[0107]下面對(duì)如何得到第二文本待訓(xùn)練中間模型的具體過(guò)程進(jìn)行說(shuō)明:[0108]在一個(gè)可能的實(shí)施例中,還包括:獲取用于第三分類任務(wù)的第三樣本數(shù)據(jù);所述第三樣本數(shù)據(jù)包括第三樣本文本;基于第二文本待訓(xùn)練模型,識(shí)別所述第三樣本文本的第三預(yù)測(cè)標(biāo)簽;根據(jù)第三樣本數(shù)據(jù)的第三樣本標(biāo)簽以及第三預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第二文本待訓(xùn)練模型得到第二文本待訓(xùn)練中間模型,其中,第三樣本數(shù)據(jù)的數(shù)量大于所述第一樣本數(shù)據(jù)的數(shù)量。[0109]具體的,圖像識(shí)別裝置獲取用于第三分類任務(wù)的第三樣本數(shù)據(jù)。第三分類任務(wù)可以同第二分類任務(wù)相同,也可以不同。可以理解為基于第三樣本數(shù)據(jù)的樣本文本區(qū)分文本中的不同對(duì)象,不同對(duì)象對(duì)應(yīng)的不同行為,或者文本具有的不同情感??梢宰鳛橐环N通用文本分類。不同于第一樣本數(shù)據(jù)需要進(jìn)行廣告標(biāo)注,第三樣本數(shù)據(jù)不需要任何有監(jiān)督的數(shù)據(jù),可以直接從所有視頻中提取文本字幕做文本輸入和文本的向量化輸出。因此,第三樣本數(shù)據(jù)的數(shù)量要遠(yuǎn)遠(yuǎn)大于所述第一樣本數(shù)據(jù)的數(shù)量。[0110]該第三樣本數(shù)據(jù)包括第三樣本文本。第二文本待訓(xùn)練模型可以如圖3G左側(cè)所示,包括模塊二,還包括至少兩層全連接層,兩層全連接層之間通過(guò)非線性變換層連接。全連接層中的任意一層連接模塊二。[0111]另外,模塊二為文本向量化表示模型,并且為提高模塊二的文本向量化表示準(zhǔn)確度和效率,可以預(yù)先訓(xùn)練該文本向量化表示模型。該模型的結(jié)構(gòu)如圖3H所示。在對(duì)文本向量化表示模型進(jìn)行訓(xùn)練時(shí),可以做一個(gè)無(wú)監(jiān)督的任務(wù)。即輸入樣本文本,樣本文本可以是第三樣本文本,也可以是第一樣本文本。通過(guò)一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,出原始的句子,即樣本文本?;诖笠?guī)模的數(shù)據(jù)訓(xùn)練文本向量化表示模型,可以讓該模型具有理解文本、以及很強(qiáng)的文本向量化表示的能力。[0112]更進(jìn)一步的,基于第二文本待訓(xùn)練模型,識(shí)別所述第三樣本文本的第三預(yù)測(cè)標(biāo)簽。即模塊二將第三樣本文本的文本向量輸入第二文本待訓(xùn)練模型,由第二文本待訓(xùn)練模型識(shí)別所述第三樣本文本的第三預(yù)測(cè)標(biāo)簽。再根據(jù)所述第三樣本數(shù)據(jù)的第三樣本標(biāo)簽以及第三預(yù)測(cè)標(biāo)簽,確定第二文本待訓(xùn)練模型的損失函數(shù),并根據(jù)該損失函數(shù)調(diào)整第二文本待訓(xùn)練模型的參數(shù)值,使得第二圖像待訓(xùn)練模型完全收斂,得到所述第二圖像待訓(xùn)練中間模型。由于第二樣本數(shù)據(jù)為大量數(shù)據(jù),比如20萬(wàn)個(gè)視頻片段,50萬(wàn)個(gè)、或可以將第二文本待訓(xùn)練模型訓(xùn)練至完全收斂,使得其具有很好的通用文本識(shí)別能力。[0113]可見(jiàn),基于大量的第三樣本數(shù)據(jù)預(yù)先將第二文本待訓(xùn)練模型訓(xùn)練至完全收斂,得到所述第二文本待訓(xùn)練中間模型。提升第二文本待訓(xùn)練中間模型通用文本分類能力。進(jìn)一步的,利用第一樣本數(shù)據(jù)再次訓(xùn)練第二文本待訓(xùn)練中間模型,得到的第二文本特征提取模型能具有更好的第二文本特征提取能力,有利于提升針對(duì)第一分類任務(wù)的目標(biāo)視頻標(biāo)簽識(shí)別的準(zhǔn)確程度。[0114]下面對(duì)如何得到第一文本待訓(xùn)練中間模型的具體過(guò)程進(jìn)行說(shuō)明:[0115]在一個(gè)可能的實(shí)施例中,還包括:基于第一文本待訓(xùn)練模型,識(shí)別所述第一樣本文本的原始文本預(yù)測(cè)標(biāo)簽;根據(jù)所述第一樣本數(shù)據(jù)的樣本標(biāo)簽以及原始文本預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第一文本待訓(xùn)練模型得到第一文本待訓(xùn)練中間模型。[0116]具體的,類似于第二文本待訓(xùn)練模型的結(jié)構(gòu),第一文本待訓(xùn)練模型的結(jié)構(gòu)可以如圖3I所示,包括模塊二,還包括至少兩層全連接層,兩層全連接層之間通過(guò)非線性變換層連接。全連接層中的任意一層連接模塊二。模塊二的結(jié)構(gòu)如前所述,在此不再贅述。通過(guò)模塊二可以將第一樣本文本轉(zhuǎn)化成對(duì)應(yīng)的文本向量。[0117]更進(jìn)一步的,基于第一文本待訓(xùn)練模型,識(shí)別所述第一樣本文本的原始文本預(yù)測(cè)標(biāo)簽。即模塊二將第一樣本文本的文本向量輸入第一文本待訓(xùn)練模型,由第一文本待訓(xùn)練模型識(shí)別所述第一樣本文本的原始文本預(yù)測(cè)標(biāo)簽。再根據(jù)所述第一樣本數(shù)據(jù)的樣本標(biāo)簽以及原始文本預(yù)測(cè)標(biāo)簽,確定第一文本待訓(xùn)練模型的損失函數(shù),并根據(jù)該損失函數(shù)調(diào)整第一文本待訓(xùn)練模型的參數(shù)值,使得第一文本待訓(xùn)練模型盡可能的收斂,得到所述第一文本待訓(xùn)練中間模型。但由于第一樣本數(shù)據(jù)來(lái)自于人工標(biāo)注,會(huì)標(biāo)注出每一個(gè)視頻片段是否為廣告片段。但是由于標(biāo)注數(shù)據(jù)需要人工進(jìn)行,難度大、消耗時(shí)間與金錢(qián),所以這部分我們只能第一樣本數(shù)據(jù)可以將第一文本待訓(xùn)練模型訓(xùn)練至完全收斂,也即第一文本待訓(xùn)練中間模型并不一定完全收斂。[0118]可見(jiàn),基于少量的第一樣本數(shù)據(jù)預(yù)先將第一文本待訓(xùn)練模型訓(xùn)練至盡可能收斂,得到所述第一文本待訓(xùn)練中間模型??梢杂行嵘谝晃谋敬?xùn)練中間模型的第一分類任務(wù)的能力。第一分類任務(wù)可以是廣告分類任務(wù)。以便于,后續(xù)進(jìn)一步利用第一樣本數(shù)據(jù)再次同時(shí)訓(xùn)練第一文本待訓(xùn)練中間模型與第二文本待訓(xùn)練中間模型,得到第一文本特征提取模型與第二文本特征提取模型。通過(guò)第二文本特征提取模型強(qiáng)化整體模型的文本特征提取能力,有助于針對(duì)目標(biāo)視頻的第一分類任務(wù)的視頻標(biāo)簽識(shí)別結(jié)果更加準(zhǔn)確。[0119]總結(jié)上述過(guò)程,首先是針對(duì)各個(gè)待訓(xùn)練模型的單獨(dú)訓(xùn)練。包括基于第一分類任務(wù)對(duì)第一圖像待訓(xùn)練模型以及第一文本待訓(xùn)練模型進(jìn)行訓(xùn)練,以及基于第二分類任務(wù)對(duì)第一文本待訓(xùn)練模型以及基于第三分類任務(wù)對(duì)第二文本待訓(xùn)練模型進(jìn)行訓(xùn)練。使得各個(gè)待訓(xùn)練模型盡可能的收斂,得到各個(gè)待訓(xùn)練模型對(duì)應(yīng)的中間模型。提高中間模型對(duì)圖像的識(shí)別能[0120]然后是基于第一分類任務(wù)對(duì)各個(gè)中間模型進(jìn)行聯(lián)合訓(xùn)練。且在聯(lián)合訓(xùn)練時(shí),可以認(rèn)為中間模型是經(jīng)過(guò)了上述預(yù)訓(xùn)練的,因此即使少量的第一樣本參與聯(lián)合訓(xùn)練,也可以達(dá)到模型收斂條件。即本申請(qǐng)會(huì)降低對(duì)屬于第一分類任務(wù)的第一樣本數(shù)據(jù)量的要求,轉(zhuǎn)而用其他分類領(lǐng)域(即第二分類任務(wù)和第三分類任務(wù))的數(shù)據(jù)對(duì)待訓(xùn)練的模型進(jìn)行預(yù)先訓(xùn)練,得到中間模型。其他分類領(lǐng)域可以理解為通用分類領(lǐng)域。[0121]從樣本數(shù)據(jù)體量角度來(lái)說(shuō),訓(xùn)練模型屬于半監(jiān)督模型。也即既采用廣告標(biāo)注視頻數(shù)據(jù),又采用海量通用分類視頻(未進(jìn)行廣告標(biāo)注)數(shù)據(jù),實(shí)現(xiàn)對(duì)待訓(xùn)練模型的預(yù)訓(xùn)練過(guò)程。提升各個(gè)中間模型的圖像視頻能力,輔助第一分類任務(wù)的完成。[0122]在模型訓(xùn)練完成后得到的總體圖,可以如圖3J所示,圖3J中的各個(gè)特征提取模型,各個(gè)特征融合模型以及標(biāo)簽識(shí)別模型用于第一分類任務(wù),第一分類任務(wù)可以是廣告視頻分[0123]其中,第二圖像特征提取模型是由第二圖像待訓(xùn)練中間模型訓(xùn)練后得到的。由于第二圖像待訓(xùn)練中間模型是采用通用視頻數(shù)據(jù),對(duì)第二圖像待訓(xùn)練模型訓(xùn)練至收斂后得到的,第二圖像待訓(xùn)練中間模型具有通用視頻分類能力。因此,圖3J中標(biāo)注的第二圖像特征提取模型用于通用視頻分類任務(wù),可以理解為是由第二圖像待訓(xùn)練中間模型完成的。第一圖像特征提取模型與第二圖像特征提取模型皆包括模塊一。[0124]同理,第二文本特征提取模型是由第二文本待訓(xùn)練中間模型訓(xùn)練后得到的。由于第二文本待訓(xùn)練中間模型是采用通用文本數(shù)據(jù),對(duì)第二文本待訓(xùn)練模型訓(xùn)練至收斂后得到的,第二文本待訓(xùn)練中間模型具有通用文本分類能力。因此,圖3J中標(biāo)注的第二文本特征提取模型用于通用文本分類任務(wù),可以理解為是由第二文本待訓(xùn)練中間模型完成的。第一文本特征提取模型與第二文本特征提取模型皆包括模塊二。[0125]另外,針對(duì)第一分類任務(wù)使用總模型識(shí)別目標(biāo)視頻的視頻標(biāo)簽時(shí),圖像特征融合模型能融合第一圖像特征提取模型以及第二圖像特征提取模型輸出的圖像特征,得到第一特征,并將融合后的第一特征輸入標(biāo)簽識(shí)別模型。標(biāo)簽識(shí)別模型可以包含至少一個(gè)全連接層。文本特征融合模型能融合第一文本特征提取模型以及第二文本特征提取模型輸出的文本特征,得到第二特征,并將融合后的第二特征輸入標(biāo)簽識(shí)別模型。標(biāo)簽識(shí)別模型基于第一特征以及第二特征輸出視頻標(biāo)簽。由此可見(jiàn),視頻標(biāo)簽是基于第一分類任務(wù)得到的。因此,通過(guò)視頻標(biāo)簽可以判斷該目標(biāo)視頻是否為廣告視頻。[0126]再請(qǐng)參見(jiàn)圖4,是本發(fā)明實(shí)施例的一種圖像識(shí)別裝置400的功能單元示意圖,本申請(qǐng)實(shí)施例的圖像識(shí)別裝置400可以為前述圖1-圖3J對(duì)應(yīng)實(shí)施例中的圖像識(shí)別裝置,圖像識(shí)別裝置400可以是運(yùn)行于計(jì)算機(jī)設(shè)備中的一個(gè)計(jì)算機(jī)程序(包括程序代碼),例如該圖像識(shí)別裝置為一個(gè)應(yīng)用軟件。[0127]本發(fā)明實(shí)施例的所述裝置的一個(gè)實(shí)現(xiàn)方式中,所述裝置包括:[0128]獲取單元410,用于獲取目標(biāo)視頻,所述目標(biāo)視頻包括視頻幀圖像以及目標(biāo)文本;[0129]處理單元420,用于調(diào)用第一圖像特征提取模型提取所述視頻幀圖像的第一圖像特征;所述第一圖像特征提取模型是基于第一分類任務(wù)訓(xùn)練的圖像特征提取模型;[0130]所述處理單元420,還用于調(diào)用第二圖像特征提取模型提取所述視頻幀圖像的第二圖像特征;所述第二圖像特征提取模型是基于所述第一分類任務(wù)和第二分類任務(wù)訓(xùn)練的圖像特征提取模型;[0131]所述處理單元420,還用于調(diào)用第一文本特征提取模型提取所述目標(biāo)文本的第一文本特征;所述第一文本特征提取模型是基于所述第一分類任務(wù)訓(xùn)練的文本特征提取模[0132]所述處理單元420,還用于調(diào)用第二文本特征提取模型提取所述目標(biāo)文本的第二文本特征;所述第二文本特征提取模型是基于所述第一分類任務(wù)和第三分類任務(wù)訓(xùn)練的文本特征提取模型;[0133]確定單元430,用于根據(jù)所述第一圖像特征、所述第二圖像特征、所述第一文本特征和所述第二文本特征確定所述目標(biāo)視頻的視頻標(biāo)簽,確定所述目標(biāo)視頻的視頻標(biāo)簽屬于所述第一分類任務(wù)。[0134]在一個(gè)可能的實(shí)施例中,在所述根據(jù)所述第一圖像特征、所述第二圖像特征、所述第一文本特征和所述第二文本特征確定所述目標(biāo)視頻的視頻標(biāo)簽方面,所述確定單元430,具體用于:調(diào)用圖像特征融合模型,將所述第一圖像特征和所述第二圖像特征融合為第一特征;調(diào)用文本特征融合模型,將所述第一文本特征和所述第二文本特征融合為第二特征;調(diào)用標(biāo)簽識(shí)別模型,識(shí)別所述第一特征和所述第二特征,得到目標(biāo)視頻的視頻標(biāo)簽;其中,所述圖像特征融合模型、所述文本特征融合模型以及所述標(biāo)簽識(shí)別模型是基于所述第一分類任務(wù)訓(xùn)練的模型。[0135]在一個(gè)可能的實(shí)施例中,在所述獲取目標(biāo)視頻方面,所述獲取單元410,具體用于:獲取所述視頻幀圖像,識(shí)別所述視頻幀圖像中的文本,將識(shí)別到的文本作為所述目標(biāo)文本;將所述視頻幀圖像和所述目標(biāo)文本組合為所述目標(biāo)視頻。[0136]在一個(gè)可能的實(shí)施例中,所述處理單元420還用于:獲取用于第一分類任務(wù)的第一樣本數(shù)據(jù),所述第一樣本數(shù)據(jù)包括第一樣本視頻幀圖像以及第一樣本文本;調(diào)用第一圖像待訓(xùn)練中間模型提取所述第一樣本視頻幀圖像的第一樣本圖像特征,以及調(diào)用第二圖像待訓(xùn)練中間模型提取所述第一樣本視頻幀圖像的第二樣本圖像特征;調(diào)用第一文本待訓(xùn)練中間模型提取所述第一樣本文本的第一樣本文本特征,以及調(diào)用第二文本待訓(xùn)練中間模型提取所述第一樣本文本的第二樣本文本特征;調(diào)用待訓(xùn)練圖像特征融合模型將所述第一樣本圖像特征以及所述第二樣本圖像特征融合為第一樣本特征;調(diào)用待訓(xùn)練文本特征融合模型,將所述第一樣本文本特征和所述第二樣本文本特征融合為第二樣本特征;調(diào)用待訓(xùn)練標(biāo)簽識(shí)別模型,識(shí)別所述第一樣本特征和所述第二樣本特征,得到第一樣本數(shù)據(jù)的第一預(yù)測(cè)標(biāo)簽;獲取所述第一樣本數(shù)據(jù)的第一樣本標(biāo)簽,根據(jù)所述第一預(yù)測(cè)標(biāo)簽和所述第一樣本標(biāo)簽訓(xùn)練所述第一圖像待訓(xùn)練中間模型、所述第二圖像待訓(xùn)練中間模型、所述第一文本待訓(xùn)練中間模型、所述第二文本待訓(xùn)練中間模型、所述待訓(xùn)練圖像特征融合模型、所述待訓(xùn)練文本特征融合模型以及所述待訓(xùn)練標(biāo)簽識(shí)別模型,得到第一圖像特征提取模型、第二圖像特征提取模型、第一文本特征提取模型、第二文本特征提取模型、圖像特征融合模型、文本特征融合模型以及標(biāo)簽識(shí)別模型。[0137]在一個(gè)可能的實(shí)施例中,所述處理單元420還用于:獲取用于第二分類任務(wù)的第二樣本數(shù)據(jù);所述第二樣本數(shù)據(jù)包括第二樣本視頻幀圖像;基于第二圖像待訓(xùn)練模型,識(shí)別所述第二樣本視頻幀圖像的第二預(yù)測(cè)標(biāo)簽;根據(jù)所述第二樣本數(shù)據(jù)的第二樣本標(biāo)簽以及第二預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第二圖像待訓(xùn)練模型得到所述第二圖像待訓(xùn)練中間模型,其中,第二樣本數(shù)據(jù)的數(shù)量大于所述第一樣本數(shù)據(jù)的數(shù)量。[0138]在一個(gè)可能的實(shí)施例中,所述處理單元420還用于:基于第一圖像待訓(xùn)練模型,識(shí)別所述第一樣本視頻幀圖像的原始圖像預(yù)測(cè)標(biāo)簽;根據(jù)所述第一樣本數(shù)據(jù)的樣本標(biāo)簽以及原始圖像預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第一圖像待訓(xùn)練模型得到所述第一圖像待訓(xùn)練中間模型。[0139]在一個(gè)可能的實(shí)施例中,所述處理單元420還用于:獲取用于第三分類任務(wù)的第三樣本數(shù)據(jù);所述第三樣本數(shù)據(jù)包括第三樣本文本;基于第二文本待訓(xùn)練模型,識(shí)別所述第三樣本文本的第三預(yù)測(cè)標(biāo)簽;根據(jù)第三樣本數(shù)據(jù)的第三樣本標(biāo)簽以及第三預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第二文本待訓(xùn)練模型得到第二文本待訓(xùn)練中間模型,其中,第三樣本數(shù)據(jù)的數(shù)量大于所述第一樣本數(shù)據(jù)的數(shù)量。[0140]在一個(gè)可能的實(shí)施例中,所述處理單元420還用于:基于第一文本待訓(xùn)練模型,識(shí)別所述第一樣本文本的原始文本預(yù)測(cè)標(biāo)簽;根據(jù)所述第一樣本數(shù)據(jù)的樣本標(biāo)簽以及原始文本預(yù)測(cè)標(biāo)簽,訓(xùn)練所述第一文本待訓(xùn)練模型得到第一文本待訓(xùn)練中間模型。[0141]在一些實(shí)施例中,視頻識(shí)別裝置還可包括有輸入輸出接口、通信接口、電源以及通信總線。[0142]本申請(qǐng)實(shí)施例可以根據(jù)上述方法示例對(duì)視頻識(shí)別裝置進(jìn)行功能單元的劃分,例如,可以對(duì)應(yīng)各個(gè)功能劃分各個(gè)功能單元,也可以將兩個(gè)或兩個(gè)以上的功能集成在一個(gè)處理單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。需要說(shuō)明的是,本申請(qǐng)實(shí)施例中對(duì)單元的劃分是示意性的,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。[0143]再請(qǐng)參見(jiàn)圖5,是本發(fā)明實(shí)施例的一種電子設(shè)備的結(jié)構(gòu)示意圖,前述圖1-圖3J對(duì)應(yīng)實(shí)施例中的圖像識(shí)別裝置可以應(yīng)用于該電子設(shè)備,所述電子設(shè)備包括供電模塊等結(jié)構(gòu),并包括處理器501、存儲(chǔ)設(shè)備502以及通信接口503。所述處理器501、存儲(chǔ)設(shè)備502以及通信接口503之間可以交互數(shù)據(jù)。[0144]所述存儲(chǔ)設(shè)備502可以包括易失性存儲(chǔ)器(volatilememory),例如隨機(jī)存取存儲(chǔ)器(random-accessmemory,RAM);存儲(chǔ)設(shè)備502也可以包括非易失性存儲(chǔ)器(non-volatilememory),例如快閃存儲(chǔ)器(flashmemory),固態(tài)硬盤(pán)(solid-statedrive,SSD)等;所述存儲(chǔ)設(shè)備502還可以包括上述種類的存儲(chǔ)器的組合。所述通信接口503為電子設(shè)備的內(nèi)部設(shè)備之間進(jìn)行數(shù)據(jù)交互的接口,如:存儲(chǔ)設(shè)備502與處理器501之間。[0145]所述處理器501可以是中央處理器501(centralprocessingunit,CPU)。在一個(gè)實(shí)施例中,所述處理器501還可以是圖形處理器501(GraphicsProcessingUnit,GPU)。所述處理器501也可以是由CPU和GPU的組合。在一個(gè)實(shí)施例中,所述存儲(chǔ)設(shè)備502用于存儲(chǔ)程序指令。所述處理器501可以調(diào)用所述程序指令,執(zhí)行如下步驟:[0146]獲取目標(biāo)視頻,所述目標(biāo)視頻包括視頻幀圖像以及目標(biāo)文本;[0147]調(diào)用第一圖像特征提取模型提取所述視頻幀圖像的第一圖像特征;所述第一圖像特征提取模型是基于第一分類任務(wù)訓(xùn)練的圖像特征提取模型;[0148]調(diào)用第二圖像特征提取模型提取所述視頻幀圖像的第二圖像特征;所述第二圖像特征提取模型是基于所述第一分類任務(wù)和第二分類任務(wù)訓(xùn)練的圖像特征提取模型;[0149]調(diào)用第一文本特征提取模型提取所述目標(biāo)文本的第一文本特征;所述第一文本特征提取模型是基于所述第一分類任務(wù)訓(xùn)練的文本特征提取模型;[0150]調(diào)用第二文本特征提取模型提取所述目標(biāo)文本的第二文本特征;所述第二文本特征提取模型是基于所述第一分類任務(wù)和第三分類任務(wù)訓(xùn)練的文本特征提取模型;[0151]根據(jù)所述第一圖像特征、所述第二圖像特征、所述第一文本特征和所述第二文本特征確定所述目標(biāo)視頻的視頻標(biāo)簽,確定所述目標(biāo)視頻的視頻標(biāo)簽屬于所述第一分類任[0152]在一個(gè)可能的實(shí)施例中,在所述根據(jù)所述第一圖像特征、所述第二圖像特征、所述第一文本特征和所述第二文本特征確定所述目標(biāo)視頻的視頻標(biāo)簽方面,所述處理器501,具體用于:調(diào)用圖像特征融合模型,將所述第一圖像特征和所述第二圖像特征融合為第一特征;調(diào)用文本特征融合模型,將所述第一文本特征和所述第二文本特征融合為第二特征;調(diào)用標(biāo)簽識(shí)別模型,識(shí)別所述第一特征和所述第二特征,得到目標(biāo)視頻的視頻標(biāo)簽;其中,所述圖像特征融合模型、所述文本特征融合模型以及所述標(biāo)簽識(shí)別模型是基于所述第一分類任務(wù)訓(xùn)練的模型。[0153]在一個(gè)可能的實(shí)施例中,在所述獲取目標(biāo)視頻方面,所述處理器501,具體用于:獲取所述視頻幀圖像,識(shí)別所述視頻幀圖像中的文本,將識(shí)別到的文本作為所述目標(biāo)文本;將所述

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論