CN114140708B 視頻處理方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì) (阿里巴巴達(dá)摩院(杭州)科技有限公司)_第1頁
CN114140708B 視頻處理方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì) (阿里巴巴達(dá)摩院(杭州)科技有限公司)_第2頁
CN114140708B 視頻處理方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì) (阿里巴巴達(dá)摩院(杭州)科技有限公司)_第3頁
CN114140708B 視頻處理方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì) (阿里巴巴達(dá)摩院(杭州)科技有限公司)_第4頁
CN114140708B 視頻處理方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì) (阿里巴巴達(dá)摩院(杭州)科技有限公司)_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

(12)發(fā)明專利(22)申請日2021.08.16(43)申請公布日2022.03.04GO6V20/40(2022.01)GO6V10/774(2022.01)GO6V10/82(2022.01)GO6N3/0442(2023.01)(56)對比文件localization.《IEEETransactionsMultimedia》.2022,第25卷2734-2748.AwareNetworksforAudio-VisualEventLocalization.《Proceedingsofthe28thACM’20)》.2020,第3893-3901頁.AwareNetworksforAudio-VisualEventLocalization.《Proceedingsofthe28thACM’20)》.2020,第3893-3901頁.權(quán)利要求書3頁說明書18頁附圖7頁視頻處理方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)算機(jī)可讀存儲介質(zhì)。其中,該方法包括:接收待處2接收待處理視頻,并對所述待處理視頻進(jìn)行特征提取,以得到所述待處理視頻的初始視頻特征和初始音頻特征;通過所述初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對所述初始視頻特征進(jìn)行增強(qiáng)處理,以得到增強(qiáng)的視頻特征,其中,所述多個(gè)維度至少包括通道維度、空間維度和時(shí)間維度;基于所述增強(qiáng)的視頻特征預(yù)測所述待處理視頻中的視聽事件;其中,所述多個(gè)維度上的權(quán)重參數(shù)包括第一維度注意力權(quán)重參數(shù)、第二維度注意力權(quán)重參數(shù)和第三維度注意力權(quán)重參數(shù),所述第一維度為所述通道維度,所述第二維度為所述空間維度,所述第三維度為所述時(shí)間維度;基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對所述初始視頻特征進(jìn)行增強(qiáng)處理,包括:使用所述第一維度注意力權(quán)重參數(shù)對所述初始視頻特征進(jìn)行增強(qiáng),得到第一維度視頻特征;基于所述第二維度注意力權(quán)重參數(shù)、所述第三維度注意力權(quán)重參數(shù)和所述第一維度視頻特征,得到所述增強(qiáng)的視頻特征,所述第二維度注意力權(quán)重參數(shù)通過在第二維度上對所述初始音頻特征和所述第一維度視頻特征進(jìn)行融合得到,所述第三維度注意力權(quán)重參數(shù)通過在第三維度上對所述初始音頻特征和所述第一維度視頻特征進(jìn)行融合得到。2.根據(jù)權(quán)利要求1所述的視頻處理方法,其特征在于,在基于所述增強(qiáng)的視頻特征預(yù)測所述待處理視頻中的視聽事件之后,所述方法還包括:輸出所述視聽事件的預(yù)測結(jié)果,其中,所述預(yù)測結(jié)果包括所述待處理視頻中是否存在所述視聽事件、所述視聽事件所在的視頻片段以及所述視聽事件的類別中的任意一種或者多種。3.根據(jù)權(quán)利要求1所述的視頻處理方法,其特征在于,基于所述第二維度注意力權(quán)重參數(shù)、所述第三維度注意力權(quán)重參數(shù)和所述第一維度視頻特征,得到所述增強(qiáng)的視頻特征,包基于所述第二維度注意力權(quán)重參數(shù)和所述第三維度注意力權(quán)重參數(shù),得到第二維度注意力特征映射權(quán)重;使用所述第二維度注意力特征映射權(quán)重,更新所述第一維度視頻特征,得到所述增強(qiáng)的視頻特征。4.根據(jù)權(quán)利要求1所述的視頻處理方法,其特征在于,基于所述增強(qiáng)的視頻特征預(yù)測所將所述初始音頻特征和所述增強(qiáng)的視頻特征分別輸入自注意力模塊,得到自注意力音頻特征和自注意力視頻特征;將所述初始音頻特征和所述自注意力視頻特征輸入第二注意力模塊,得到交叉注意力的音頻特征,以及將所述增強(qiáng)的視頻特征和所述自注意力音頻特征輸入所述第二注意力模將所述交叉注意力的音頻特征和所述交叉注意力的視頻特征進(jìn)行融合,得到融合特基于所述融合特征預(yù)測所述視聽事件。5.根據(jù)權(quán)利要求4所述的視頻處理方法,其特征在于,將所述初始音頻特征和所述自注3意力視頻特征輸入第二注意力模塊,得到交叉注意力的音頻特征,以及將所述增強(qiáng)的視頻特征和所述自注意力音頻特征輸入所述第二注意力模塊,得到交叉注意力的視頻特征,包基于所述第二注意力模塊,對所述初始音頻特征和所述自注意力視頻特征進(jìn)行分組加權(quán)平均處理,得到所述交叉注意力的音頻特征;基于所述第二注意力模塊,對所述增強(qiáng)的視頻特征和所述自注意力音頻特征進(jìn)行分組加權(quán)平均處理,得到所述交叉注意力的視頻特征。6.根據(jù)權(quán)利要求4所述的視頻處理方法,其特征在于,所述方法還包括:獲取待訓(xùn)練模型,其中,所述待訓(xùn)練模型用于基于所述融合特征預(yù)測所述視聽事件;基于所述融合特征確定第一分類損失函數(shù);基于所述自注意力視頻特征確定第二分類損失函數(shù);根據(jù)所述第一分類損失函數(shù)和所述第二分類損失函數(shù)對所述待訓(xùn)練模型進(jìn)行優(yōu)化。7.根據(jù)權(quán)利要求6所述的視頻處理方法,其特征在于,所述方法還包括:基于所述融合特征確定預(yù)測損失函數(shù);根據(jù)所述預(yù)測損失函數(shù)、所述第一分類損失函數(shù)和所述第二分類損失函數(shù)對所述待訓(xùn)練模型進(jìn)行優(yōu)化。獲取直播過程中采集到的待處理的直播視頻;采用目標(biāo)檢測模型所述直播視頻進(jìn)行分類檢測,得到所述直播視頻中視聽事件的預(yù)測基于所述預(yù)測結(jié)果對所述直播視頻增加標(biāo)簽信息;其中,所述目標(biāo)檢測模型用于對所述直播視頻進(jìn)行特征提取,以得到所述直播視頻的初始視頻特征和初始音頻特征;通過所述初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對所述初始視頻特征進(jìn)行增強(qiáng)處理,以得到增強(qiáng)的視頻特征;基于所述增強(qiáng)的視頻特征預(yù)測所述視聽事件,所述多個(gè)維度至少包括通其中,所述多個(gè)維度上的權(quán)重參數(shù)包括第一維度注意力權(quán)重參數(shù)、第二維度注意力權(quán)重參數(shù)和第三維度注意力權(quán)重參數(shù),所述第一維度為所述通道維度,所述第二維度為所述空間維度,所述第三維度為所述時(shí)間維度;基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對所述初始視頻特征進(jìn)行增強(qiáng)處理,包括:使用所述第一維度注意力權(quán)重參數(shù)對所述初始視頻特征進(jìn)行增強(qiáng),得到第一維度視頻特征;基于所述第二維度注意力權(quán)重參數(shù)、所述第三維度注意力權(quán)重參數(shù)和所述第一維度視頻特征,得到所述增強(qiáng)的視頻特征,所述第二維度注意力權(quán)重參數(shù)通過在第二維度上對所述初始音頻特征和所述第一維度視頻特征進(jìn)行融合得到,所述第三維度注意力權(quán)重參數(shù)通過在第三維度上對所述初始音頻特征和所述第一維度視頻特征進(jìn)行融合得到。接收模塊,用于接收待處理視頻,并對所述待處理視頻進(jìn)行特征提取,以得到所述待處理視頻的初始視頻特征和初始音頻特征;增強(qiáng)模塊,用于通過所述初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意4力模塊利用多個(gè)維度上的權(quán)重參數(shù)對所述初始視頻特征進(jìn)行增強(qiáng)處理,以得到增強(qiáng)的視頻預(yù)測模塊,用于基于所述增強(qiáng)的視頻特征預(yù)測所述待處理視頻中的視聽事件;其中,所述多個(gè)維度上的權(quán)重參數(shù)包括第一維度注意力權(quán)重參數(shù)、第二維度注意力權(quán)重參數(shù)和第三維度注意力權(quán)重參數(shù),所述第一維度為所述通道維度,所述第二維度為所述空間維度,所述第三維度為所述時(shí)間維度;所述增強(qiáng)模塊,還用于使用所述第一維度注意力權(quán)重參數(shù)對所述初始視頻特征進(jìn)行增強(qiáng),得到第一維度視頻特征;基于所述第二維度注意力權(quán)重參數(shù)、所述第三維度注意力權(quán)重參數(shù)和所述第一維度視頻特征,得到所述增強(qiáng)的視頻特征,所述第二維度注意力權(quán)重參數(shù)通過在第二維度上對所述初始音頻特征和所述第一維度視頻特征進(jìn)行融合得到,所述第三維度注意力權(quán)重參數(shù)通過在第三維度上對所述初始音頻特征和所述第一維度視頻特征進(jìn)行融合得到。10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)包括存儲的程序,其中,在所述程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲介質(zhì)所在設(shè)備執(zhí)行權(quán)利要求1至8中任意一項(xiàng)所述的方法。11.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品運(yùn)行時(shí)執(zhí)行權(quán)利要求1至8中任意一項(xiàng)所述的方法。存儲器,與所述處理器連接,用于為所述處理器提供處理以下處理步驟的指令:接收待處理視頻,并對所述待處理視頻進(jìn)行特征提取,以得到所述待處理視頻的初始視頻特征和初始音頻特征;通過所述初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對所述初始視頻特征進(jìn)行增強(qiáng)處理,以得到增強(qiáng)的視頻特征,其中,所述多個(gè)維度至少包括通道維度、空間維度和時(shí)間維度;基于所述增強(qiáng)的視頻特征預(yù)測所述待處理視頻中的視聽事件;其中,所述多個(gè)維度上的權(quán)重參數(shù)包括第一維度注意力權(quán)重參數(shù)、第二維度注意力權(quán)重參數(shù)和第三維度注意力權(quán)重參數(shù),所述第一維度為所述通道維度,所述第二維度為所述空間維度,所述第三維度為所述時(shí)間維度;基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對所述初始視頻特征進(jìn)行增強(qiáng)處理,包括:使用所述第一維度注意力權(quán)重參數(shù)對所述初始視頻特征進(jìn)行增強(qiáng),得到第一維度視頻特征;基于所述第二維度注意力權(quán)重參數(shù)、所述第三維度注意力權(quán)重參數(shù)和所述第一維度視頻特征,得到所述增強(qiáng)的視頻特征,所述第二維度注意力權(quán)重參數(shù)通過在第二維度上對所述初始音頻特征和所述第一維度視頻特征進(jìn)行融合得到,所述第三維度注意力權(quán)重參數(shù)通過在第三維度上對所述初始音頻特征和所述第一維度視頻特征進(jìn)行融合得到。5視頻處理方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)技術(shù)領(lǐng)域[0001]本發(fā)明涉及視頻處理技術(shù)領(lǐng)域,具體而言,涉及一種視頻處理方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)。背景技術(shù)[0002]人類感知系統(tǒng)能夠融合視覺和聽覺信息,以實(shí)現(xiàn)對現(xiàn)實(shí)世界中的視聽事件的理解。傳統(tǒng)的視頻檢測技術(shù)局限于視覺方法而忽略其他感知方法,無法準(zhǔn)確對視聽事件進(jìn)行檢測。相關(guān)技術(shù)中,通過多模態(tài)事件檢測算法對音頻與視頻特征進(jìn)行融合,可以實(shí)現(xiàn)對視頻中視聽事件的檢測,然而現(xiàn)有的多模態(tài)事件檢測算法采用粗粒度的特征融合方式,比如,音頻特征僅僅在單一維度上參與引導(dǎo)視頻特征,導(dǎo)致視頻中視聽事件檢測不準(zhǔn)確。[0003]針對上述相關(guān)技術(shù)中粗粒度的視頻檢測方法,導(dǎo)致視頻中視聽事件檢測不準(zhǔn)確的問題,目前尚未提出有效的解決方案。發(fā)明內(nèi)容[0004]本發(fā)明實(shí)施例提供了一種視頻處理方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì),以至少解決相關(guān)技術(shù)中粗粒度的視頻檢測方法,導(dǎo)致視頻中視聽事件檢測不準(zhǔn)確的技術(shù)問題。[0005]根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種視頻處理方法,包括:接收待處理視頻,并對待處理視頻進(jìn)行特征提取,以得到待處理視頻的初始視頻特征和初始音頻特征;通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,以得到增強(qiáng)的視頻特征;基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件。[0006]根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種視頻處理方法,包括:獲取直播過程中采集到的待處理的直播視頻;采用目標(biāo)檢測模型直播視頻進(jìn)行分類檢測,得到直播視頻中視聽事件的預(yù)測結(jié)果;基于預(yù)測結(jié)果對直播視頻增加標(biāo)簽信息,其中,目標(biāo)檢測檢測模型用于對直播視頻進(jìn)行特征提取,以得到直播視頻的初始視頻特征和初始音頻特征;通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,以得到增強(qiáng)的視頻特征;基于增強(qiáng)的視頻特征預(yù)測視聽事件。[0007]根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種視頻處理裝置,包括:接收模塊,用于接收待處理視頻,并對待處理視頻進(jìn)行特征提取,得到待處理視頻的初始視頻特征和初始音頻特征;增強(qiáng)模塊,用于通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,得到增強(qiáng)的視頻特征;預(yù)測模塊,用于基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件。[0008]根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),計(jì)算機(jī)可讀存儲介質(zhì)包括存儲的程序,其中,在程序運(yùn)行時(shí)控制計(jì)算機(jī)可讀存儲介質(zhì)所在設(shè)備執(zhí)行上述任意一項(xiàng)的方法。6[0009]根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種計(jì)算機(jī)程序,計(jì)算機(jī)程序運(yùn)行時(shí)執(zhí)行上述任意一項(xiàng)的方法。[0010]根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種視頻的處理系統(tǒng),包括:處理器;以及存儲器,與處理器連接,用于為處理器提供處理以下處理步驟的指令:接收待處理視頻,并對待處理視頻進(jìn)行特征提取,以得到待處理視頻的初始視頻特征和初始音頻特征;通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,以得到增強(qiáng)的視頻特征;基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件。[0011]在本發(fā)明實(shí)施例中,接收待處理視頻,并對待處理視頻進(jìn)行特征提取,得到待處理視頻的初始視頻特征和初始音頻特征,基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,得到增強(qiáng)的視頻特征,基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件,通過在多個(gè)維度上對音頻和視頻特征進(jìn)行細(xì)粒度模態(tài)融合,減少了背景噪聲對視聽事件檢測造成的干擾,可以更加準(zhǔn)確地捕獲視頻中聲源的位置,進(jìn)而提高了視聽事件檢測的準(zhǔn)確性,進(jìn)而解決了相關(guān)技術(shù)中粗粒度的視頻檢測方法,導(dǎo)致視頻中視聽事件檢測不準(zhǔn)確的技術(shù)問題。附圖說明[0012]此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:[0013]圖1是一種用于實(shí)現(xiàn)數(shù)據(jù)的訓(xùn)練方法的計(jì)算設(shè)備的硬件結(jié)構(gòu)框圖;[0014]圖2是根據(jù)本發(fā)明實(shí)施例的一種視頻處理方法的流程圖;[0015]圖3a是根據(jù)本發(fā)明實(shí)施例的一種可選的三元注意力網(wǎng)絡(luò)結(jié)構(gòu)的示意圖;[0016]圖3b是根據(jù)本發(fā)明實(shí)施例的一種可選的MFB模塊的示意圖;[0017]圖4a是根據(jù)本發(fā)明實(shí)施例的一種可選的稠密跨模態(tài)注意力模塊結(jié)構(gòu)的示意圖;[0018]圖4b是根據(jù)本發(fā)明實(shí)施例的一種可選的稠密相關(guān)權(quán)重計(jì)算的示意圖;[0019]圖4c是根據(jù)本發(fā)明實(shí)施例的一種可選的分組加權(quán)平均的示意圖;[0020]圖5是根據(jù)本發(fā)明實(shí)施例的一種可選的視頻處理方法的示意圖;[0021]圖6是根據(jù)本發(fā)明實(shí)施例的一種可選的視頻處理方法的示意圖;[0022]圖7是不同的平衡超參對于檢測結(jié)果影響的示意圖;[0023]圖8是根據(jù)本發(fā)明實(shí)施例的一種視頻處理方法的流程圖;[0024]圖9是根據(jù)本發(fā)明實(shí)施例的一種視頻處理裝置的示意圖;[0025]圖10是根據(jù)本申請實(shí)施例的一種計(jì)算機(jī)終端的結(jié)構(gòu)框圖。具體實(shí)施方式[0026]為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范7[0027]需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。[0029]根據(jù)本發(fā)明實(shí)施例,還提供了一種視頻處理方法的實(shí)施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。[0030]本申請實(shí)施例一所提供的方法實(shí)施例可以在移動終端、計(jì)算機(jī)終端或者類似的運(yùn)算裝置中執(zhí)行。以運(yùn)行在計(jì)算機(jī)終端上為例,圖1是本發(fā)明實(shí)施例的一種視頻處理方法的計(jì)算機(jī)終端的硬件結(jié)構(gòu)框圖。如圖1所示,計(jì)算設(shè)備10可以包括一個(gè)或多個(gè)(圖中僅示出一個(gè))處理器102(處理器102可以包括但不限于微處理器MCU或可編程邏輯器件FPGA等的處理裝置)、用于存儲數(shù)據(jù)的存儲器104、以及用于通信功能的傳輸模塊106。本領(lǐng)域普通技術(shù)人員可以理解,圖1所示的結(jié)構(gòu)僅為示意,其并不對上述電子裝置的結(jié)備10還可包括比圖1中所示更多或者更少的組件,或者具有與圖1所示不同的配置。[0031]存儲器104可用于存儲應(yīng)用軟件的軟件程序以及模塊,如本發(fā)明實(shí)施例中的視頻處理方法對應(yīng)的程序指令/模塊,處理器102通過運(yùn)行存儲在存儲器104內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述的應(yīng)用程序的漏洞檢測方法。存儲器104可包括高速隨機(jī)存儲器,還可包括非易失性存儲器,如一個(gè)或者多個(gè)磁性存儲裝置、閃存、或者其他非易失性固態(tài)存儲器。在一些實(shí)例中,存儲器104可進(jìn)一步包括相對于處理器102遠(yuǎn)程設(shè)置的存儲器,這些遠(yuǎn)程存儲器可以通過網(wǎng)絡(luò)連接至計(jì)算設(shè)備10。上述網(wǎng)絡(luò)的實(shí)[0032]傳輸裝置106用于經(jīng)由一個(gè)網(wǎng)絡(luò)接收或者發(fā)送數(shù)據(jù)。上述的網(wǎng)絡(luò)具體實(shí)例可包括計(jì)算設(shè)備10的通信供應(yīng)商提供的無線網(wǎng)絡(luò)。在一個(gè)實(shí)例中,傳輸裝置106包括一個(gè)網(wǎng)絡(luò)適配器(NetworkInterfaceController,NIC),其可通過基站與其他網(wǎng)絡(luò)設(shè)備相連從而可與互聯(lián)網(wǎng)進(jìn)行通訊。在一個(gè)實(shí)例中,傳輸裝置106可以為射頻(RadioFrequency,RF)模塊,其用于通過無線方式與互聯(lián)網(wǎng)進(jìn)行通訊。[0033]在上述運(yùn)行環(huán)境下,本申請?zhí)峁┝巳鐖D2所示的視頻處理方法。圖2是根據(jù)本發(fā)明[0034]步驟S201,接收待處理視頻,并對待處理視頻進(jìn)行特征提取,以得到待處理視頻的初始視頻特征和初始音頻特征。[0035]上述待處理視頻為需要進(jìn)行檢測視聽事件的視頻,視聽事件為包含圖像和音頻的事件,比如,視聽事件可以為待處理視頻中包含語音對話和圖像的一段視頻。[0036]待處理視頻可以為任意主題或者應(yīng)用場景的視頻,包括但不限于直播平臺上獲得的直播視頻,交通場景下的交通視頻,教育領(lǐng)域的教學(xué)視頻,醫(yī)療領(lǐng)域的醫(yī)療檢查視頻等。8[0037]上述初始視頻特征和初始音頻特征可以通過訓(xùn)練好的特征提取模型進(jìn)行提取,初始視頻特征用于表示待處理視頻中的圖像特征,初始音頻特征用于表示待處理視頻中的聲音特征。[0038]步驟S202,通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,得到增強(qiáng)的視頻特征。[0039]通過在多個(gè)維度上以細(xì)粒度的融合方式來計(jì)算注意力的權(quán)重參數(shù),對初始視頻特征和初始音頻特征進(jìn)行融合,并得到增強(qiáng)的視頻特征,增強(qiáng)的視頻特征相比于初始視頻特征,突出顯示了事件相關(guān)區(qū)域(事件相關(guān)區(qū)域?yàn)榇幚硪曨l中存在視聽事件的視頻片段),降低了視聽事件檢測過程中背景噪聲的干擾,顯著地提高了捕獲視頻中聲源位置的性能。[0040]在一種可選的實(shí)施例中,上述第一注意力模塊可以為三元注意力模塊,上述多個(gè)維度可以包括通道維度、空間維度和時(shí)間維度,三元注意力模塊基于初始音頻特征得到通道維度、空間維度和時(shí)間維度三個(gè)維度上的權(quán)重參數(shù),進(jìn)而在通道、空間和時(shí)間三個(gè)維度上以細(xì)粒度方式對初始視頻特征進(jìn)行增強(qiáng)處理。[0041]圖3a是根據(jù)本發(fā)明實(shí)施例的一種可選的三元注意力網(wǎng)絡(luò)結(jié)構(gòu)的示意圖,如圖3a所示,三元注意力網(wǎng)絡(luò)結(jié)構(gòu)包括通道注意力模塊,空間注意力模塊和時(shí)間注意力模塊,空間注意力模塊可以采用多模態(tài)雙線性矩陣分解池化模塊(Multi-modalfactorizedbilinearpooling,MFB模塊),將初始音頻特征a(且at∈Rda)和初始視頻特征v(且vt∈Rdv×(HW輸入至三元注意力網(wǎng)絡(luò)模型中,實(shí)現(xiàn)初始音頻特征在通道、空間和時(shí)間三個(gè)維度上以細(xì)粒度方式對初始視頻特征進(jìn)行增強(qiáng)處理,得到增強(qiáng)的視頻特征v。[0042]步驟S203,基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件。[0043]在得到了增強(qiáng)的視頻特征后,基于增強(qiáng)的視頻特征與音頻特征進(jìn)行融合,得到音頻和視頻的融合特征,融合特征可以用于預(yù)測待處理視頻中的視聽事件。[0044]在一種可選的實(shí)施中,在基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件之后,上述方法還包括:輸出視聽事件的預(yù)測結(jié)果,其中,預(yù)測結(jié)果包括待處理視頻中是否存在所述視聽事件、視聽事件所在的視頻片段以及所述視聽事件的類別中的任意一種或者多種。[0045]具體的,對視聽事件的預(yù)測結(jié)果可以包括視聽事件相關(guān)段和視聽事件的類別,視聽事件相關(guān)段的預(yù)測結(jié)果可以包括待處理視頻中是否存在視聽事件,以及當(dāng)待處理視頻中存在視聽事件時(shí)該視聽事件在待處理視頻中存在的視頻片段。例如,待預(yù)測的視聽事件可以為飛機(jī)起飛的視聽事件,可以將獲取到的待處理視頻基于上述方法得到增強(qiáng)的視頻特征,將增強(qiáng)的視頻特征輸入訓(xùn)練好的檢測模型中,可以得到預(yù)測結(jié)果,預(yù)測結(jié)果可以包括待處理視頻中是否包含飛機(jī)起飛視聽事件、飛機(jī)起飛視聽事件存在與待處理視頻中的視頻片段,以及視聽事件的類別,基于視聽事件的類別可以對檢測到的視聽事件增加標(biāo)簽,比如,將“飛機(jī)起飛”作為視聽事件的類別標(biāo)簽。本實(shí)施例中,基于增強(qiáng)的視頻特征來預(yù)測視聽事件,增強(qiáng)了區(qū)別聲音相似類別的檢測性能,比如,可以更精確的區(qū)分出噪音和視聽事件中音頻特征。[0046]本實(shí)施例中的視頻處理方法可以用于在視頻推薦場景、視頻內(nèi)容審核、視頻內(nèi)容理解場景以及音視頻分離場景等多種應(yīng)用場景中視頻中視聽事件的檢測。9[0047]本實(shí)施例中,接收待處理視頻,并對待處理視頻進(jìn)行特征提取,得到待處理視頻的初始視頻特征和初始音頻特征,基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,得到增強(qiáng)的視頻特征,基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件,通過在多個(gè)維度上對音頻和視頻特征進(jìn)行細(xì)粒度模態(tài)融合,減少了背景噪聲對視聽事件檢測造成的干擾,可以更加準(zhǔn)確地捕獲視頻中聲源的位置,進(jìn)而提高了視聽事件檢測的準(zhǔn)確性,解決了相關(guān)技術(shù)中粗粒度的視頻檢測方法,導(dǎo)致視頻中視聽事件檢測不準(zhǔn)確的技術(shù)問題。[0048]作為一種可選的實(shí)施例,對待處理視頻進(jìn)行特征提取,得到待處理視頻的初始視頻特征,包括:獲取待處理視頻的圖像序列;基于圖像特征提取模型從圖像序列中提取得到特征圖;將特征圖進(jìn)行全局平均池化,得到初[0049]上述圖像序列可以為從待處理視頻中提取的具有指定幀數(shù)的圖像,指定幀數(shù)可以上述圖像序列。[0050]上述可以為卷積神經(jīng)網(wǎng)絡(luò)模型,比如VGG-19網(wǎng)絡(luò)模型,圖像特征提取模型可以基于圖像數(shù)據(jù)集(比如,ImageNet數(shù)據(jù)集)對VGG-19網(wǎng)絡(luò)模型預(yù)訓(xùn)練得到。[0051]上述特征圖可以為具有指定時(shí)間長度的視頻片段的特征圖,例如,為了得到初始型中,提取得到具有1秒視頻片段的pool5特征圖,使用全局平均池化,得到段級別的初始視頻特征v,t∈[1,10]。[0052]作為一種可選的實(shí)施例,對待處理視頻進(jìn)行特征提取,得到待處理視頻的初始音頻特征,包括:獲取待處理視頻中的音頻片段;將音頻片段轉(zhuǎn)換為頻譜圖;基于音頻特征提取模型從頻譜圖中提取特征向量;確定特征向量為初始音頻特征。[0053]上述音頻片段可以為從待處理視頻中提取的具有指定時(shí)間長度的音頻,指定時(shí)間長度可以根據(jù)音頻特征提取模型確定。[0054]上述音頻特征提取模型可以為預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,比如VGGish網(wǎng)絡(luò)模型,具體的,音頻特征提取模型可以通過基于音頻數(shù)據(jù)集(比如,AudioSet數(shù)據(jù)集)網(wǎng)絡(luò)模型預(yù)訓(xùn)練得到。[0055]例如,為了得到初始音頻特征,可以將待處理視頻中每1秒的音頻片段轉(zhuǎn)換為log-mel頻譜圖,基于預(yù)訓(xùn)練的VGGish網(wǎng)絡(luò)模型提取得到128D特征向量,作為段級別的初始音頻[0056]作為一種可選的實(shí)施例,多個(gè)維度上的權(quán)重參數(shù)包括第一維度注意力權(quán)重參數(shù)、第二維度注意力權(quán)重參數(shù)和第三維度注意力權(quán)重參數(shù),步驟S202,基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,包括如下步驟:[0057]步驟S2021,使用第一維度注意力權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng),得到第一維度視頻特征。[0058]上述第一注意力模塊可以為三元注意力模塊,上述第一維度可以為通道維度,第二維度可以為空間維度,第三維度可以為時(shí)間維度,三元注意力模塊基于初始音頻特征,在通道、空間和時(shí)間三個(gè)維度上以細(xì)粒度方式對初始視頻特征進(jìn)行增強(qiáng)處理。[0059]在一種可選的實(shí)施例中,通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),包括:對[0060]第一維度注意力權(quán)重參數(shù)可以為通道注意力權(quán)重,在得到初始音頻特征at∈Rda和初始視頻特征vt∈Rdv×(HW后,可通過兩個(gè)非線性變換將初始音頻特征和初始視頻特征投影和對齊到相同維度,通過擠壓和激勵模塊獲得通道注意力權(quán)重,具體的,通道注意度上全局平均池化,W?∈Rdv×d和W?∈Rd×dv分別表示兩個(gè)線性變換,8代表ReLU的激活[0063]第一維度注意力權(quán)重參數(shù)可以為通道注意力權(quán)重,使用通道注意力權(quán)重初始視頻特征Vt∈Rdv×(HW進(jìn)行增強(qiáng),得到通道注意力的視頻特征(即第一維度視頻特征),具體過程如下:[0066]步驟S2022,基于第二維度注意力權(quán)重參數(shù)和第三維度注意力權(quán)重參數(shù),得到第二維度注意力特征映射權(quán)重,其中,第二維度注意力權(quán)重參數(shù)通過在第二維度上對初始音頻特征和第一維度視頻特征進(jìn)行融合得到,第三維度注意力權(quán)重參數(shù)通過在第三維度上對初始音頻特征和第一維度視頻特征進(jìn)行融合得到。[0067]具體的,第二維度注意力權(quán)重參數(shù)為空間注意力權(quán)重,第三維度注意力權(quán)重參數(shù)為時(shí)間注意力權(quán)重,基于空間注意力權(quán)重和時(shí)間注意力權(quán)重,計(jì)算得到空間注意力特征映射權(quán)重[0070]步驟S2023,使用第二維度注意力特征映射權(quán)重,更新第一維度視頻特征,得到增強(qiáng)的視頻特征[0072]其中,為空間注意力特征映射權(quán)重。通過使用空間注意來更新通道注意力的視頻特征,可以得到音頻在通道、空間和時(shí)間三個(gè)維度上增強(qiáng)的視頻特征[0073]在一種可選的實(shí)施例中,通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),包括:基空間注意力權(quán)重Mv,在空間維度上對初始音頻特征a和通道注意力的視頻特征v{進(jìn)行音頻特征a和通道注意力的視頻特征v擴(kuò)張到相同的維度kdo,SP(f,k)代表核和步長都為[0080]通過采用多模態(tài)雙線性矩陣分解池化模塊(即MFB模塊),對每個(gè)空間位置上的視地提高了捕獲視頻中聲源位置的性能。圖3b是根據(jù)本發(fā)明實(shí)施例的一種可選的MFB模塊的[0082]將初始音頻特征a和通道注意力的視頻特征v[投影到相同的維度do:[0088]作為一種可選的實(shí)施例,步驟S203,基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視到交叉注意力的視頻特征,將交叉注意力的音頻特征和交叉注意力的視頻特征進(jìn)行融合,注意力模塊中,x作為稠密跨模態(tài)注意力模塊的查詢qu中的ai,yi為圖4c中的bi,將矩陣(x?×yi)中的元素分為兩組:對角線元素(對應(yīng)于原始內(nèi)[0113]通過將交叉注意力的音頻特征和交叉注意力的視頻特征進(jìn)行融合,可以得到音頻和視頻融合的高語義特征。上述檢測結(jié)果可以包括預(yù)測的視聽事件的事件相關(guān)段(即待處理是視頻中是否包含視聽事件以及視聽事件所處的位置)和視聽事件類別等。[0116]例如,待處理視頻可以為一段包含了人物交談和飛機(jī)起飛事件的視頻,將上述待處理視頻基于上述方法得到融合特征,將融合特征輸入預(yù)設(shè)的檢測模型中,可以得到上述待處理視頻中包含人物交談的視聽事件和飛機(jī)起飛的視聽事件的檢測結(jié)果,以及各視聽事件的類別,基于類別可以對檢測到的視聽事件增加標(biāo)簽。[0117]由于融合特征通過上述細(xì)粒度的跨模態(tài)融合得到,使用融合特征來檢測待處理視頻中的視聽事件,可以提高對視聽事件檢測的準(zhǔn)確性,比如,在檢測飛機(jī)起飛的視聽事件時(shí),可以準(zhǔn)確的區(qū)分出人物交談的聲音為噪音,降低噪音對視聽事件檢測的干擾。[0118]作為一種可選的實(shí)施例,上述方法還包括:獲取待訓(xùn)練模型,其中,待訓(xùn)練模型用于基于融合特征預(yù)測視聽事件;基于融合特征確定第一分類損失函數(shù);基于自注意力視頻特征確定第二分類損失函數(shù);根據(jù)第一分類損失函數(shù)和第二分類損失函數(shù)對待訓(xùn)練模型進(jìn)行優(yōu)化。[0119]上述待訓(xùn)練模型為用于基于融合特征檢測視聽事件的檢測模型,檢測模型可以根據(jù)得到的融合特征,輸出檢測結(jié)果,其中,檢測結(jié)果可以包括對于待處理視頻中是否存在視聽事件,以及視聽事件的類別。上述第一分類損失函數(shù)基于融合特征確定,可以為一種跨模態(tài)約束損失函數(shù),關(guān)注融合特征的分類能力。第二分類損失函數(shù)基于自注意力視頻特征確定,可以為一種單模態(tài)約束損失函數(shù),關(guān)注單模態(tài)特征的分類能力。[0120]在一種可選的實(shí)施中,為了提高待訓(xùn)練模型對視頻級別的視聽事件類別檢測的準(zhǔn)確性,分別基于融合特征確定第一分類損失函數(shù),以及基于中間階段的自注意力視頻特征確定第二分類損失函數(shù)(即單模態(tài)約束損失函數(shù)),不僅利用融合特征0a計(jì)算交叉熵?fù)p失,還利用自注意力視頻特征vse1f(即單模態(tài)特征)計(jì)算交叉熵?fù)p失,實(shí)現(xiàn)了利用單模態(tài)約束損失函數(shù)去加強(qiáng)單模態(tài)特征的分類能力,將單模態(tài)約束損失函數(shù)與基于融合特征的視聽事件分類損失結(jié)合,以進(jìn)一步提高利用單模態(tài)特征識別事件類別的能力,進(jìn)而增強(qiáng)了對于相似的視聽事件分類的區(qū)分性能。[0121]具體的,先利用融合特征0計(jì)算交叉熵?fù)p失$1:S1=Softmax(FC(Oav));[0122]利用自注意力視頻特征Ve1計(jì)算交叉熵?fù)p失:Sz=Softmax(FC(Vselif);合第一分類損失函數(shù)和第二分類損失函數(shù)對上述待訓(xùn)練模型進(jìn)行優(yōu)化,可以增強(qiáng)待訓(xùn)練模型對于相似的視聽事件分類的區(qū)分性能。[0126]在一種可選的實(shí)施例中,上述第一分類損失函數(shù)為多標(biāo)簽軟邊界損失的視聽事件分類損失,第二分類損失函數(shù)可以為單模態(tài)事件分類約束損失,基于第一分類損失函數(shù)和第二分類損失函數(shù),可得到弱監(jiān)督損失函數(shù)Lws:[0129]作為一種可選的實(shí)施例,基于融合特征確定預(yù)測損失函數(shù);根據(jù)預(yù)測損失函數(shù)、第一分類損失函數(shù)和第二分類損失函數(shù)對待訓(xùn)練模型進(jìn)行優(yōu)化。[0130]基于上述待訓(xùn)練模型對視聽事件的檢測結(jié)果還包括待處理視頻中是否存在視聽事件,即對視聽事件相關(guān)段的檢測結(jié)果。上述預(yù)測損失函數(shù)用于優(yōu)化待訓(xùn)練模型對視聽事件相關(guān)段檢測結(jié)果的準(zhǔn)確性。[0131]具體的,預(yù)測損失函數(shù)可以基于二元交叉熵?fù)p失函數(shù)確定,首先,可以利用融合特征0計(jì)算二元交叉熵?fù)p失s:s=Sigmoid(FC(0a)),,[0134]在得到預(yù)測損失函數(shù)、第一分類損失函數(shù)和第二分類損失函數(shù)后,可以分別使用三種損失函數(shù)對上述待訓(xùn)練模型進(jìn)行優(yōu)化,也可以基于三種損失函數(shù)構(gòu)建成一個(gè)最終的損失函數(shù),使用最終的損失函數(shù)來訓(xùn)練待訓(xùn)練模型。[0135]在一種可選的實(shí)施例中,根據(jù)預(yù)測損失函數(shù)、第一分類損失函數(shù)和第二分類損失函數(shù)對特征提取模型進(jìn)行優(yōu)化,包括:基于預(yù)設(shè)的超參數(shù)通過預(yù)測損失函數(shù)、第一分類損失函數(shù)和第二分類損失函數(shù)構(gòu)建完全監(jiān)督損失函數(shù);求解完全監(jiān)督損失函數(shù)以對待訓(xùn)練模型進(jìn)行優(yōu)化。[0136]具體的,基于預(yù)測損失函數(shù)、第一分類損失函數(shù)和第二分類損失函數(shù),得到完全監(jiān)督損失函數(shù)Lfs:[0139]使用完全監(jiān)督損失函數(shù)Lfs對待訓(xùn)練模型進(jìn)行優(yōu)化,可以提高對待處理視頻中的視聽事件的檢測結(jié)果的準(zhǔn)確性。[0140]在完成對待訓(xùn)練模型的優(yōu)化后,最終的檢測結(jié)果由基于融合特征0a計(jì)算的交叉熵?fù)p失S?和二元交叉熵?fù)p失s共同決定??梢栽O(shè)定合理的對比閾值,來判斷檢測結(jié)果中是否包含視聽事件,例如,對比閾值可以設(shè)定為0.5,如果s≥0.5,則確定待處理視頻包含視聽事件,且該視聽事件為S?的視聽事件類別;如果s<0.5,則確定該段待處理視頻為背景視頻[0141]在一種可選的實(shí)施例中,圖6是根據(jù)本發(fā)明實(shí)施例的一種可選的視頻處理方法的示意圖,如圖6所示,從待處理視頻中采樣得到具有預(yù)設(shè)幀數(shù)的視頻片段601輸入至VGG-19網(wǎng)絡(luò)中提取得到初始視頻特征Vt,將待處理視頻中的音頻片段602轉(zhuǎn)換為log-mel頻譜圖603,將log-mel頻譜圖603輸入至VGGish網(wǎng)絡(luò)中提取得到初始音頻特征a,將初始視頻特征Vt和初始音頻特征at輸入至音頻引導(dǎo)的三元注意力模塊606中,實(shí)現(xiàn)初始音頻特征在通道、空間和時(shí)間三個(gè)維度上以細(xì)粒度方式對初始視頻特征進(jìn)行增強(qiáng)處理,得到增強(qiáng)的視頻特征[0142]將增強(qiáng)的視頻特征v輸入模態(tài)內(nèi)注意力模塊607(即自注意力模塊),得到自注意力的視頻特征,將初始視頻特征a,輸入模態(tài)內(nèi)注意力模塊608(即自注意力模塊),得到自注意力的音頻特征。上述第二注意力模塊分別包括稠密跨模態(tài)注意力模塊609和稠密跨模態(tài)注意力模塊610,將增強(qiáng)的視頻特征v和自注意力的音頻特征輸入稠密跨模態(tài)注意力模塊610,得到,將自注意力的視頻特征和初始音頻特征輸入稠密跨模態(tài)注意力模塊609,將輸入音頻-視頻融合模塊605,可以得到最終的融合特征,融合特征經(jīng)過分類模型(即全連接層FC)處理,可以得到視聽事件相關(guān)段和視聽事件類型的檢測結(jié)果。[0143]此外,可以基于模態(tài)內(nèi)注意力模塊607輸出的自注意力視頻特征,構(gòu)建單模態(tài)約束損失函數(shù)604,以及基于音頻-視頻融合模塊611輸出的融合特征構(gòu)件構(gòu)建分類損失函數(shù),利用單模態(tài)約束損失函數(shù)604去加強(qiáng)單模態(tài)特征的分類能力,將單模態(tài)約束損失函數(shù)604與分類損失函數(shù)結(jié)合,對分類模型進(jìn)行訓(xùn)練,進(jìn)一步提高分類模型利用單模態(tài)特征識別事件類別的能力,進(jìn)而增強(qiáng)了對于相似的視聽事件分類的區(qū)分性能。[0144]基于本實(shí)施例中的視頻處理方法,在弱監(jiān)督的條件下,對視聽事件檢測到準(zhǔn)確度可以達(dá)到74.3%,在完全監(jiān)督的條件下,對視聽事件檢測到準(zhǔn)確度可以達(dá)到79.6%,相比于現(xiàn)有的檢測網(wǎng)絡(luò),提高了對視聽事件檢測的準(zhǔn)確度。[0145]圖7是不同的平衡超參數(shù)對于檢測結(jié)果影響的示意圖,如圖7所示,橫坐標(biāo)為平衡超參數(shù)的取值,縱坐標(biāo)為檢測結(jié)果精度,曲線71為基于弱監(jiān)督損失函數(shù)Lws對上述待訓(xùn)練模型優(yōu)化后的檢測結(jié)果的精度曲線,曲線72為基于完全監(jiān)督損失函數(shù)對上述待訓(xùn)練模型優(yōu)化后的檢測結(jié)果的精度曲線,根據(jù)不同平衡超參數(shù)對檢測結(jié)果精度影響,確定出合適的平衡超參數(shù),可以提高對視聽事件檢測結(jié)果的準(zhǔn)確性。[0146]需要說明的是,對于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。[0147]通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實(shí)施例的方法可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個(gè)存儲機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。[0148]實(shí)施例2[0149]根據(jù)本發(fā)明實(shí)施例,還提供了一種視頻處理方法的實(shí)施例,圖8是根據(jù)本發(fā)明實(shí)施[0150]步驟S801,獲取直播過程中采集到的待處理的直播視頻。[0151]步驟S802,采用目標(biāo)檢測模型直播視頻進(jìn)行分類檢測,得到直播視頻中視聽事件的預(yù)測結(jié)果。[0152]上述待處理的直播視頻為直播平臺中需要檢測視聽事件的視頻,基于目標(biāo)檢測模型對直播視頻進(jìn)行檢測,得到的預(yù)測結(jié)果。[0153]步驟S803,基于預(yù)測結(jié)果對直播視頻增加標(biāo)簽信息,其中,目標(biāo)檢測檢測模型用于對直播視頻進(jìn)行特征提取,以得到直播視頻的初始視頻特征和初始音頻特征;通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,以得到增強(qiáng)的視頻特征;基于增強(qiáng)的視頻特征預(yù)測視聽事件。[0154]目標(biāo)檢測模型中可以包括特征提取模型,上述初始視頻特征和初始音頻特征可以通過訓(xùn)練好的特征提取模型進(jìn)行提取,初始視頻特征用于表示待處理視頻中的圖像特征,初始音頻特征用于表示待處理視頻中的聲音特征。[0155]具體的,對視聽事件的預(yù)測結(jié)果可以包括視聽事件相關(guān)段和視聽事件的類別,視聽事件相關(guān)段的預(yù)測結(jié)果可以包括待處理視頻中是否存在視聽事件,以及當(dāng)待處理視頻中存在視聽事件時(shí)該視聽事件在待處理視頻中存在的視頻片段。[0156]例如,待預(yù)測的視聽事件可以為主播唱歌,可以將獲取到的直播視頻基于上述方法得到增強(qiáng)的視頻特征,將增強(qiáng)的視頻特征輸入訓(xùn)練好的目標(biāo)檢測模型中,可以得到預(yù)測結(jié)果,預(yù)測結(jié)果可以包括待處理視頻中是否包含主播唱歌的視聽事件,存在該視聽事件的視頻片段,以及視聽事件的類別,基于視聽事件的類別可以對檢測到的視聽事件增加標(biāo)簽,件,增強(qiáng)了區(qū)別聲音相似類別的檢測性能,比如,可以更精確的區(qū)分出噪音和視聽事件中音頻特征。[0157]上述標(biāo)簽信息可以用于向用戶進(jìn)行直播視頻推薦,比如,將包含“唱歌”標(biāo)簽對應(yīng)視聽事件的直播視頻推薦給感興趣的用戶。[0158]在直播視頻審核場景中,待處理的直播視頻可以為視頻直播平臺上正在直播的直播視頻,上述采集過程可以為在直播視頻分發(fā)到用戶端前對直播視頻進(jìn)行采集,通過對采集的直播視頻的視聽事件進(jìn)行分類檢測,進(jìn)而對直播視頻的內(nèi)容進(jìn)行審核,以確定正在直播的直播視頻是否涉及到違規(guī)內(nèi)容類別,進(jìn)而作出相應(yīng)的預(yù)處理措施,避免包含違規(guī)內(nèi)容的直播視頻在網(wǎng)絡(luò)平臺上傳播。[0159]本實(shí)施例通過在多個(gè)維度上以細(xì)粒度的融合方式來計(jì)算注意力的權(quán)重參數(shù),對初始視頻特征和初始音頻特征進(jìn)行融合,并得到增強(qiáng)的視頻特征,增強(qiáng)的視頻特征相比于初始視頻特征,突出顯示了事件相關(guān)區(qū)域(事件相關(guān)區(qū)域?yàn)榇幚硪曨l中存在視聽事件的視頻片段),降低了視聽事件檢測過程中背景噪聲的干擾,顯著地提高了捕獲視頻中聲源位置的性能。[0160]實(shí)施例3[0161]根據(jù)本發(fā)明實(shí)施例,還提供了一種用于實(shí)施上述視頻處理方法的裝置,圖9是根據(jù)本發(fā)明實(shí)施例的一種視頻處理裝置的示意圖,如圖9所示,該裝置包括:[0162]接收模塊91,用于接收待處理視頻,并對待處理視頻進(jìn)行特征提取,以得到待處理視頻的初始視頻特征和初始音頻特征;增強(qiáng)模塊92,用于通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,以得到增強(qiáng)的視頻特征;預(yù)測模塊93,用于基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件。[0163]此處需要說明的是,上述接收模塊91、增強(qiáng)模塊92、和預(yù)測模塊93對應(yīng)于實(shí)施例1中的步驟S201至步驟S203,三個(gè)模塊與對應(yīng)的步驟所實(shí)現(xiàn)的實(shí)例和應(yīng)用場景相同,但不限于上述實(shí)施例1所公開的內(nèi)容。需要說明的是,上述模塊作為裝置的一部分可以運(yùn)行在實(shí)施例一提供的計(jì)算設(shè)備10中。[0164]作為一種可選的實(shí)施例,上述預(yù)測模塊還用于:在基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件之后,輸出視聽事件的預(yù)測結(jié)果,其中,預(yù)測結(jié)果包括待處理視頻中是否存在所述視聽事件、視聽事件所在的視頻片段以及所述視聽事件的類別中的任意一種或者多種。[0165]作為一種可選的實(shí)施例,上述接收模塊還用于:獲取待處理視頻的圖像序列;基于圖像特征提取模型從圖像序列中提取得到特征圖;將特征圖進(jìn)行全局平均池化,得到初始視頻特征。[0166]作為一種可選的實(shí)施例,上述接收模塊還用于:獲取待處理視頻中的音頻片段;轉(zhuǎn)換子模塊,用于將音頻片段轉(zhuǎn)換為頻譜圖;基于音頻特征提取模型從頻譜圖中提取特征向量;確定特征向量為初始音頻特征。[0167]作為一種可選的實(shí)施例,多個(gè)維度上的權(quán)重參數(shù)包括第一維度注意力權(quán)重參數(shù)、第二維度注意力權(quán)重參數(shù)和第三維度注意力權(quán)重參數(shù),上述增強(qiáng)模塊還用于:使用第一維度注意力權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng),得到第一維度視頻特征;基于第二維度注意力權(quán)重參數(shù)和第三維度注意力權(quán)重參數(shù),得到第二維度注意力特征映射權(quán)重,其中,第二維度注意力權(quán)重參數(shù)通過在第二維度上對初始音頻特征和第一維度視頻特征進(jìn)行融合得到,第三維度注意力權(quán)重參數(shù)通過在第三維度上對初始音頻特征和第一維度視頻特征進(jìn)行融合得到;使用第二維度注意力特征映射權(quán)重,更新第一維度視頻特征,得到增強(qiáng)的視頻特[0168]作為一種可選的實(shí)施例,上述增強(qiáng)模塊還用于:對初始音頻特征對初始視頻特征進(jìn)行非線性變化和激活處理,得到第一維度注意力權(quán)重參數(shù)。[0169]作為一種可選的實(shí)施例,上述增強(qiáng)模塊還用于:基于激活函數(shù)將初始音頻特征和第一維度視頻特征分別進(jìn)行維度擴(kuò)張,得到擴(kuò)張的音頻特征和擴(kuò)張的視頻特征;確定擴(kuò)張的視頻特征在第二維度上的視頻特征單元;基于多模態(tài)雙線性矩陣分解池化模塊,對第二維度上的視頻特征單元和擴(kuò)張的音頻特征進(jìn)行融合,得到第二維度注意力權(quán)重參數(shù)。[0170]作為一種可選的實(shí)施例,上述預(yù)測模塊還用于:將初始音頻特征和增強(qiáng)的視頻特征分別輸入自注意力模塊,得到自注意力音頻特征和自注意力視頻特征;將初始音頻特征和自注意力視頻特征輸入第二注意力模塊,得到交叉注意力的音頻特征,以及將增強(qiáng)的視頻特征和自注意力音頻特征輸入第二注意力模塊,得到交叉注意力的視頻特征,將交叉注意力的音頻特征和交叉注意力的視頻特征進(jìn)行融合,得到融合特征;基于融合特征預(yù)測視聽事件。[0171]作為一種可選的實(shí)施例,上述預(yù)測模塊還用于:基于第二注意力模塊,對初始音頻特征和自注意力視頻特征進(jìn)行分組加權(quán)平均處理,得到交叉注意力的音頻特征;基于第二注意力模塊,對增強(qiáng)的視頻特征和自注意力音頻特征進(jìn)行分組加權(quán)平均處理,得到交叉注意力的視頻特征。待訓(xùn)練模型用于基于融合特征預(yù)測視聽事件;第一確定模塊,用于基于融合特征確定第一分類損失函數(shù);第二確定模塊,用于基于自注意力視頻特征確定第二分類損失函數(shù);優(yōu)化模塊,用于根據(jù)第一分類損失函數(shù)和第二分類損失函數(shù)對待訓(xùn)練模型進(jìn)行優(yōu)化。[0173]作為一種可選的實(shí)施例,上述裝置還包括:第三確定模塊,用于基于融合特征確定預(yù)測損失函數(shù);上述優(yōu)化模塊還用于根據(jù)預(yù)測損失函數(shù)、第一分類損失函數(shù)和第二分類損失函數(shù)對待訓(xùn)練模型進(jìn)行優(yōu)化。[0174]作為一種可選的實(shí)施例,上述優(yōu)化模塊還用于基于預(yù)設(shè)的超參數(shù)通過預(yù)測損失函數(shù)、第一分類損失函數(shù)和第二分類損失函數(shù)構(gòu)建完全監(jiān)督損失函數(shù);求解完全監(jiān)督損失函數(shù)以對待訓(xùn)練模型進(jìn)行優(yōu)化。[0175]需要說明的是,本實(shí)施例的可選或優(yōu)選實(shí)施方式可以參見實(shí)施例1中的相關(guān)描述,此處不再贅述。[0177]本發(fā)明的實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲介質(zhì)。計(jì)算機(jī)可讀存儲介質(zhì)包括存儲的程序,其中,在程序運(yùn)行時(shí)控制計(jì)算機(jī)可讀存儲介質(zhì)所在設(shè)備執(zhí)行上述目標(biāo)對象的搜索方法。[0178]可選地,在本實(shí)施例中,上述計(jì)算機(jī)可讀存儲介質(zhì)可以位于計(jì)算機(jī)網(wǎng)絡(luò)中計(jì)算設(shè)備群中的任意一個(gè)計(jì)算設(shè)備中,或者位于移動終端群中的任意一個(gè)移動終端中。[0179]可選地,在本實(shí)施例中,計(jì)算機(jī)可讀存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:接收待處理視頻,并對待處理視頻進(jìn)行特征提取,以得到待處理視頻的初始視頻特征和初始音頻特征;通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,以得到增強(qiáng)的視頻特征;基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件。[0180]可選地,在本實(shí)施例中,計(jì)算機(jī)可讀存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:對待處理視頻進(jìn)行特征提取,得到待處理視頻的初始視頻特征,包括:獲取待處理視頻的圖像序列;基于圖像特征提取模型從圖像序列中提取得到特征圖;將特征圖進(jìn)行[0181]可選地,在本實(shí)施例中,計(jì)算機(jī)可讀存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:對待處理視頻進(jìn)行特征提取,得到待處理視頻的初始音頻特征,包括:獲取待處理視頻中的音頻片段;將音頻片段轉(zhuǎn)換為頻譜圖;基于音頻特征提取模型從頻譜圖中提取特征向量;確定特征向量為初始音頻特征。[0182]可選地,在本實(shí)施例中,計(jì)算機(jī)可讀存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:多個(gè)維度上的權(quán)重參數(shù)包括第一維度注意力權(quán)重參數(shù)、第二維度注意力權(quán)重參數(shù)和第三維度注意力權(quán)重參數(shù),基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,包括:使用第一維度注意力權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng),得到第一維度視頻特征;基于第二維度注意力權(quán)重參數(shù)和第三維度注意力權(quán)重參數(shù),得到第二維度注意力特征映射權(quán)重,其中,第二維度注意力權(quán)重參數(shù)通過在第二維度上對初始音頻特征和第一維度視頻特征進(jìn)行融合得到,第三維度注意力權(quán)重參數(shù)通過在第三維度上對初始音頻特征和第一維度視頻特征進(jìn)行融合得到;使用第二維度注意力特征映射權(quán)重,更新第一維度視頻特征,得到增強(qiáng)的視頻特征。[0183]可選地,在本實(shí)施例中,計(jì)算機(jī)可讀存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),包括:對初始音頻特征對初始視頻特征進(jìn)行非線性變化和激活處理,得到第一維度注意力權(quán)重參數(shù)。[0184]可選地,在本實(shí)施例中,計(jì)算機(jī)可讀存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),包括:基于激活函數(shù)將初始音頻特征和第一維度視頻特征分別進(jìn)行維度擴(kuò)張,得到擴(kuò)張的音頻特征和擴(kuò)張的視頻特征;確定擴(kuò)張的視頻特征在第二維度上的視頻特征單元;基于多模態(tài)雙線性矩陣分解池化模塊,對第二維度上的視頻特征單元和擴(kuò)張的音頻特征進(jìn)行融合,得到第二維度注意力權(quán)重參[0185]可選地,在本實(shí)施例中,計(jì)算機(jī)可讀存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件,包括:將初始音頻特征和增強(qiáng)的視頻特征分別輸入自注意力模塊,得到自注意力音頻特征和自注意力視頻特征;將初始音頻特征和自注意力視頻特征輸入第二注意力模塊,得到交叉注意力的音頻特征,以及將增強(qiáng)的視頻特征和自注意力音頻特征輸入第二注意力模塊,得到交叉注意力的視頻特征,將交叉注意力的音頻特征和交叉注意力的視頻特征進(jìn)行融合,得到融合特征;基于融合特征預(yù)測視聽事件。[0186]可選地,在本實(shí)施例中,計(jì)算機(jī)可讀存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:將初始音頻特征和自注意力視頻特征輸入第二注意力模塊,得到交叉注意力的音頻特征,以及將增強(qiáng)的視頻特征和自注意力音頻特征輸入第二注意力模塊,得到交叉注意力的視頻特征,包括:基于第二注意力模塊,對初始音頻特征和自注意力視頻特征進(jìn)行分組加權(quán)平均處理,得到交叉注意力的音頻特征;基于第二注意力模塊,對增強(qiáng)的視頻特征和自注意力音頻特征進(jìn)行分組加權(quán)平均處理,得到交叉注意力的視頻特征。[0187]可選地,在本實(shí)施例中,計(jì)算機(jī)可讀存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:獲取待訓(xùn)練模型,其中,待訓(xùn)練模型用于基于融合特征預(yù)測視聽事件;基于融合特征確定第一分類損失函數(shù);基于自注意力視頻特征確定第二分類損失函數(shù);根據(jù)第一分類損失函數(shù)和第二分類損失函數(shù)對待訓(xùn)練模型進(jìn)行優(yōu)化。[0188]可選地,在本實(shí)施例中,計(jì)算機(jī)可讀存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:基于融合特征確定預(yù)測損失函數(shù);根據(jù)預(yù)測損失函數(shù)、第一分類損失函數(shù)和第二分類損失函數(shù)對待訓(xùn)練模型進(jìn)行優(yōu)化。[0189]可選地,在本實(shí)施例中,計(jì)算機(jī)可讀存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:根據(jù)預(yù)測損失函數(shù)、第一分類損失函數(shù)和第二分類損失函數(shù)對特征提取模型進(jìn)行優(yōu)化,包括:基于預(yù)設(shè)的超參數(shù)通過預(yù)測損失函數(shù)、第一分類損失函數(shù)和第二分類損失函數(shù)構(gòu)建完全監(jiān)督損失函數(shù);求解完全監(jiān)督損失函數(shù)以對待訓(xùn)練模型進(jìn)行優(yōu)化。[0190]實(shí)施例5[0191]根據(jù)本申請實(shí)施例,還提供了一種計(jì)算機(jī)終端的實(shí)施例,該計(jì)算機(jī)終端可以是計(jì)算機(jī)終端群中的任意一個(gè)計(jì)算機(jī)終端設(shè)備。可選地,在本實(shí)施例中,上述計(jì)算機(jī)終端也可以替換為移動終端等終端設(shè)備。[0192]可選地,在本實(shí)施例中,上述計(jì)算機(jī)終端可以位于計(jì)算機(jī)網(wǎng)絡(luò)的多個(gè)網(wǎng)絡(luò)設(shè)備中的至少一個(gè)網(wǎng)絡(luò)設(shè)備。[0193]在本實(shí)施例中,上述計(jì)算機(jī)終端可以執(zhí)行應(yīng)用程序的視頻處理方法中以下步驟的程序代碼:接收待處理視頻,并對待處理視頻進(jìn)行特征提取,以得到待處理視頻的初始視頻特征和初始音頻特征;通過初始音頻特征確定多個(gè)維度上的權(quán)重參數(shù),并基于第一注意力模塊利用多個(gè)維度上的權(quán)重參數(shù)對初始視頻特征進(jìn)行增強(qiáng)處理,以得到增強(qiáng)的視頻特征;基于增強(qiáng)的視頻特征預(yù)測待處理視頻中的視聽事件。[0194]可選地,圖10是根據(jù)本申請實(shí)施例5的一種計(jì)算機(jī)終端的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論