CN120226015A 用于識別視頻內(nèi)容中的情緒的方法和電子裝置(三星電子株式會社)_第1頁
CN120226015A 用于識別視頻內(nèi)容中的情緒的方法和電子裝置(三星電子株式會社)_第2頁
CN120226015A 用于識別視頻內(nèi)容中的情緒的方法和電子裝置(三星電子株式會社)_第3頁
CN120226015A 用于識別視頻內(nèi)容中的情緒的方法和電子裝置(三星電子株式會社)_第4頁
CN120226015A 用于識別視頻內(nèi)容中的情緒的方法和電子裝置(三星電子株式會社)_第5頁
已閱讀5頁,還剩44頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

(19)國家知識產(chǎn)權(quán)局PCT/KR2023/00960020WO2024/111775ENGO6N20/00(2019.01)GO6V40/16(2022.01)HO4N21/44(2011.01)HO4N21/439(2011.01)權(quán)利要求書3頁說明書16頁附圖6頁用于識別視頻內(nèi)容中的情緒的方法和電子一種方法包括獲得具有多個視頻幀和音頻的至少一個面部相關(guān)聯(lián)的視頻特征和與音頻數(shù)訓(xùn)練的機(jī)器學(xué)習(xí)模型執(zhí)行視頻特征和音頻特征(鑒于放形)(基千模型)21.一種方法600,包括:獲得602包括多個視頻幀204和音頻數(shù)據(jù)206的視頻序列202;提取604與多個視頻幀204中的至少一個面部相關(guān)聯(lián)的視頻特征和與音頻數(shù)據(jù)206相關(guān)使用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212來處理視頻特征和音頻特征,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212執(zhí)行視頻特征和音頻特征的不同子集的多層融合,以便識別由視頻序列202中的至少一個人表達(dá)的至少一個情緒214。2.根據(jù)權(quán)利要求1所述的方法,其中,提取604所述視頻特征和所述音頻特征包括:提取604視頻特征,包括(i)將多個視頻幀204分割成多個視頻幀集合,(ii)在多個視頻幀集合中執(zhí)行面部檢測,以及(iii)基于面部檢測的結(jié)果處理多個視頻幀集合,以便識別與至少一個面部相關(guān)聯(lián)的視頻特征;以及提取606、608音頻特征,包括(i)處理音頻數(shù)據(jù)206以便識別與音頻數(shù)據(jù)206的波形相關(guān)聯(lián)的音頻特征的第一子集,以及(ii)使用預(yù)訓(xùn)練的音頻模型來處理音頻數(shù)據(jù)206以便識別音頻特征的第二子集。3.根據(jù)權(quán)利要求2所述的方法,其中:處理所述多個視頻幀集合以便識別所述視頻特征包括使用自我修復(fù)網(wǎng)絡(luò)(SCN)處理所使用預(yù)訓(xùn)練的音頻模型來處理音頻數(shù)據(jù)206包括使用預(yù)訓(xùn)練、采樣、標(biāo)記和聚合(PSLA)模型來處理音頻數(shù)據(jù)206。4.根據(jù)權(quán)利要求1至3中任一項所述的方法,其中,所述經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212包至少一個交叉模態(tài)變換器編碼器層304,被配置為接收和融合視頻特征和音頻特征的第一子集并生成多模態(tài)特征;至少一個融合編碼器層306,被配置為組合多模態(tài)特征;和多層感知器(MLP)解碼器310層,被配置為對與音頻特征的第二子集融合的至少一個融合編碼器層306的輸出進(jìn)行解碼。5.根據(jù)權(quán)利要求1至3中任一項所述的方法,其中:經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212包括多模態(tài)變換器302,多模態(tài)變換器302包括一個或多個交叉模態(tài)變換器編碼器層304和一個或多個融合編碼器層306;多模態(tài)變換器302的輸出與音頻特征的第二子集融合;以及所述視頻特征和所述音頻特征的第一子集通過以下中的一個來融合:多模態(tài)變換器302中的較早層,用于支持視頻特征和音頻特征的早-晚融合;多模態(tài)變換器302中的較晚層,用于支持視頻特征和音頻特征的晚-晚融合;或者多模態(tài)變換器302中的較早層和較晚層之間的層,用于支持視頻特征和音頻特征的中-晚融合。6.根據(jù)權(quán)利要求1至5中任一項所述的方法,其中,所述視頻特征和所述音頻特征的所述多層融合包括:所述視頻特征和所述音頻特征的第一子集的第一融合;以及經(jīng)處理的特征和所述音頻特征的第二子集的第二融合,所述經(jīng)處理的特征基于所述第3一融合。7.根據(jù)權(quán)利要求1至6中任一項所述的方法,其中,所述經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212被訓(xùn)練以識別被布置在層級中的多個情緒,所述層級的兩個根類別包括正面情緒和負(fù)面情緒。8.一種電子裝置101,包括:至少一個存儲器130,被配置為存儲包括多個視頻幀204和音頻數(shù)據(jù)206的視頻序列202;和至少一個處理器120,被配置為:提取與多個視頻幀204中的至少一個面部相關(guān)聯(lián)的視頻特征和與音頻數(shù)據(jù)206相關(guān)聯(lián)使用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212來處理視頻特征和音頻特征,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212被配置為執(zhí)行視頻特征和音頻特征的不同子集的多層融合,以便識別由視頻序列202中的至少一個人表達(dá)的至少一個情緒214。9.根據(jù)權(quán)利要求8所述的電子裝置101,其中:為了提取視頻特征,至少一個處理器120還被配置為(i)將多個視頻幀204分割成多個視頻幀集合,(ii)在多個視頻幀集合中執(zhí)行面部檢測,以及(iii)基于面部檢測的結(jié)果處理多個視頻幀集合,以便識別與至少一個面部相關(guān)聯(lián)的視頻特征;以及為了提取音頻特征,至少一個處理器120還被配置為(i)處理音頻數(shù)據(jù)206,以便識別與音頻數(shù)據(jù)206的波形相關(guān)聯(lián)的音頻特征的第一子集,以及(ii)使用預(yù)訓(xùn)練的音頻模型來處理音頻數(shù)據(jù)206,以便識別音頻特征的第二子集。10.根據(jù)權(quán)利要求9所述的電子裝置101,其中:為了處理多個視頻幀集合,至少一個處理器120還被配置為使用自我修復(fù)網(wǎng)絡(luò)(SCN);為了使用預(yù)訓(xùn)練的音頻模型來處理音頻數(shù)據(jù),至少一個處理器120還被配置為使用預(yù)11.根據(jù)權(quán)利要求8至10中任一項所述的電子裝置101,其中,所述經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212包括:至少一個交叉模態(tài)變換器編碼器層304,被配置為接收和融合視頻特征和音頻特征的第一子集并生成多模態(tài)特征;至少一個融合編碼器層306,被配置為組合多模態(tài)特征;和多層感知器(MLP)解碼器層310,被配置為對與音頻特征的第二子集融合的至少一個融合編碼器層306的輸出進(jìn)行解碼。12.根據(jù)權(quán)利要求8至11中任一項所述的電子裝置101,其中:經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212包括多模態(tài)變換器302,多模態(tài)變換器302包括一個或多個交叉模態(tài)變換器編碼器層304和一個或多個融合編碼器層306;經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212還被配置為將多模態(tài)變換器302的輸出與音頻特征的第二經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212還被配置為在以下之一中融合視頻特征和音頻特征的第一子集:多模態(tài)變換器302中的較早層,用于支持視頻特征和音頻特征的早-晚融合;4多模態(tài)變換器302中的較晚層,用于支持視頻特征和音頻特征的晚-晚融合;或者多模態(tài)變換器302中的較早層和較晚層之間的層,用于支持視頻特征和音頻特征的中-晚融合。13.根據(jù)權(quán)利要求8至12中任一項所述的電子裝置101,其中,所述視頻特征和所述音頻特征的多層融合包括:所述視頻特征和所述音頻特征的第一子集的第一融合;以及經(jīng)處理的特征和所述音頻特征的第二子集的第二融合,所述經(jīng)處理的特征基于所述第一融合。14.根據(jù)權(quán)利要求8至12中任一項所述的電子裝置101,其中,所述經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212被訓(xùn)練以識別被布置在層級中的多個情緒,所述層級的兩個根類別包括正面情緒和負(fù)面情緒。15.一種包含指令的計算機(jī)可讀介質(zhì),所述指令在被執(zhí)行時使至少一個處理器120實現(xiàn)根據(jù)權(quán)利要求1至7中任一項所述的方法。5技術(shù)領(lǐng)域[0001]本公開總體上涉及機(jī)器學(xué)習(xí)系統(tǒng)。更具體地,本公開涉及用于識別視頻內(nèi)容中的至少一種情緒的方法和電子裝置。背景技術(shù)[0002]準(zhǔn)確地識別視頻內(nèi)容中包含的各種情緒的能力在各種應(yīng)用中可能是有用的,但是用于識別視頻內(nèi)容中包含的情緒的當(dāng)前方法存在許多缺點。例如,這些方法通常限于識別少量核心情緒(諸如憤怒、厭惡、恐懼、快樂、悲傷和驚訝),這可能限制這些方法的有效性。此外,這些方法通常使用單個模態(tài)的信息(諸如僅與視頻內(nèi)容相關(guān)聯(lián)的音頻數(shù)據(jù))來識別視頻內(nèi)容中的情緒。因此,這些方法通常產(chǎn)生不準(zhǔn)確的結(jié)果。作為特定示例,在體育賽事期間體育場中的人群噪聲通??梢员环诸悶榕c“快樂”的正面情緒相關(guān)聯(lián)。然而,體育場人群的實際情緒可能是“興奮的”(諸如在特定比賽時段期間)或失敗的比賽或嘗試)。發(fā)明內(nèi)容[0004]在實施例中,一種方法包括獲得具有多個視頻幀和音頻數(shù)據(jù)的視頻序列。該方法還包括提取與視頻幀中的至少一個面部相關(guān)聯(lián)的視頻特征和與音頻數(shù)據(jù)相關(guān)聯(lián)的音頻特征。該方法還包括使用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型來處理視頻特征和音頻特征。經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型執(zhí)行視頻特征和音頻特征的不同子集的多層融合,以便識別由視頻序列中的至少一個人表達(dá)的至少一個情緒。[0005]在實施例中,電子裝置包括至少一個存儲器,被配置為存儲具有多個視頻幀和音頻數(shù)據(jù)的視頻序列。該電子裝置還包括至少一個處理器,被配置為提取與視頻幀中的至少一個面部相關(guān)聯(lián)的視頻特征和與音頻數(shù)據(jù)相關(guān)聯(lián)的音頻特征,以及使用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型來處理視頻特征和音頻特征。經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型被配置為執(zhí)行視頻特征和音頻特征的不同子集的多層融合,以便識別由視頻序列中的至少一個人表達(dá)的至少一個情緒。[0006]在實施例中,一種計算機(jī)可讀介質(zhì)包含指令,所述指令在被執(zhí)行時使至少一個處理器獲得具有多個視頻幀和音頻數(shù)據(jù)的視頻序列。該計算機(jī)可讀介質(zhì)還包含指令,該指令在被執(zhí)行時使得至少一個處理器提取與視頻幀中的至少一個面部相關(guān)聯(lián)的視頻特征和與音頻數(shù)據(jù)相關(guān)聯(lián)的音頻特征。所述計算機(jī)可讀介質(zhì)還包含指令,所述指令在被執(zhí)行時使所述至少一個處理器使用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型來處理所述視頻特征和所述音頻特征。經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型被配置為執(zhí)行視頻特征和音頻特征的不同子集的多層融合,以便識別由視頻序列中的至少一個人表達(dá)的至少一個情緒。附圖說明[0007]為了更完整地理解本公開及其優(yōu)點,現(xiàn)在參考結(jié)合附圖進(jìn)行的以下描述,其中相6同的附圖標(biāo)記表示相同的部分:[0008]圖1示出了根據(jù)本公開的包括電子裝置的示例網(wǎng)絡(luò)配置;[0009]圖2示出了根據(jù)本公開的支持對視頻內(nèi)容中的情緒的多模態(tài)理解的示例架構(gòu);[0010]圖3示出了根據(jù)本公開的用于圖2的架構(gòu)中的示例機(jī)器學(xué)習(xí)模型;[0011]圖4示出了根據(jù)本公開的用于圖2的架構(gòu)中的示例機(jī)器學(xué)習(xí)模型;[0012]圖5示出了根據(jù)本公開的用于圖2的架構(gòu)中的示例機(jī)器學(xué)習(xí)模型;和[0013]圖6示出了根據(jù)本公開的用于視頻內(nèi)容中的情緒的多模態(tài)理解的示例方法。具體實施方式“與……相關(guān)聯(lián)”以及其派生詞意指包括、被包括在……內(nèi)、與……互連、包含、被包含在……內(nèi)、連接到或與……連接、耦合到或與……耦合、可與……通信、與……協(xié)作、交錯、[0015]此外,下面描述的各種功能可以由一個或多個計算機(jī)程序?qū)崿F(xiàn)或支持,每個計算適于在合適的計算機(jī)可讀程序代碼中實現(xiàn)的一個或多個計算機(jī)程序、軟件組件、指令集、過算機(jī)訪問的任何類型的介質(zhì),諸如只讀存儲器(ROM)、隨機(jī)存取存儲器(RAM)、硬盤驅(qū)動器、壓縮盤(CD)、數(shù)字視頻盤(DVD)或任何其他類型的存儲器。計算機(jī)可讀介質(zhì)不包括傳輸瞬時電信號或其他信號的有線、無線、光學(xué)或其他通信鏈路。計算機(jī)可讀介質(zhì)包括其中可以永久地存儲數(shù)據(jù)的介質(zhì)和其中可以存儲并且稍后重寫數(shù)據(jù)的介質(zhì),諸如可重寫光盤或可擦除存儲器裝置。能、操作或諸如部件的組件)的術(shù)語和短語指示該特征的存在,而不排除其他特征的存在。一個”可以指示以下全部:(1)包括至少一個A,(2)包括至少一個B,或(3)包括至少一個A和如何,并且不限制組件。這些術(shù)語僅用于將一個組件與另一個組件區(qū)分開。例如,第一用戶裝置和第二用戶裝置可以指示彼此不同的用戶裝置,而不管裝置的順序或重要性如何。在不脫離本公開的范圍的情況下,第一組件可以表示為第二組件,反之亦然。[0017]應(yīng)當(dāng)理解,當(dāng)元件(諸如第一元件)被稱為(可操作地或通信地)與另一元件(諸如第三元件與另一元件耦接或連接到另一元件。相反,將理解的是,當(dāng)元件(諸如第一元件)被稱為與另一元件(諸如第二元件)“直接耦接”或“直接連接”時,沒有其他元件(諸如第三元件)介于該元件和該其他元件之間。7以與另一裝置或部分一起執(zhí)行操作。例如,短語“被配置(或設(shè)置)為執(zhí)行A、B和C的處理器”可以表示可以通過執(zhí)行存儲在存儲器裝置中的一個或多個軟件程序來執(zhí)行操作的通用處理器(諸如CPU或應(yīng)用處理器)或用于執(zhí)行操作的專用處理器(諸如嵌入式處理器)。[0019]這里使用的術(shù)語和短語僅用于描述本公開的一些實施例,而不是限制本公開的其包括復(fù)數(shù)指代。這里使用的所有術(shù)語和短語(包括技術(shù)和科學(xué)術(shù)語和短語)具有與本公開的實施例所屬領(lǐng)域的普通技術(shù)人員通常理解的含義相同的含義。將進(jìn)一步理解,術(shù)語和短語(諸如在常用詞典中定義的那些術(shù)語和短語)應(yīng)被解釋為具有與其在相關(guān)領(lǐng)域的上下文中的含義一致的含義,并且將不以理想化或過度正式的意義來解釋,除非在此明確地如此定義。在實施例中,這里定義的術(shù)語和短語可以被解釋為排除本公開的實施例。[0020]根據(jù)本公開的實施例的“電子裝置”的示例可以包括智能電話、平板個人計算機(jī)身、智能鏡子或智能手表)中的至少一個。電子裝置的其他示例包括智能家用電器。智能家的智能揚聲器或揚聲器、游戲控制臺(諸如子裝置的其他示例包括如下中的至少一個:各種醫(yī)療裝置(諸如各種便攜式醫(yī)療測量裝置(如血糖測量裝置、心跳測量裝置或體溫測量裝置)、磁資源血管造影(MRA)裝置、磁資源成像(MRI)裝置、計算機(jī)斷層掃描(CT)裝置、成像裝置或超聲裝置)、導(dǎo)航裝置、全球定位系統(tǒng) 裝置(諸如航行導(dǎo)航裝置或陀螺羅盤)、航空電子裝置、安全裝置、車載頭單元、工業(yè)或家用機(jī)器人、自動取款機(jī)(ATM)、銷售點(POS)裝置或物聯(lián)網(wǎng)(IoT)裝置(諸如燈泡、各種傳感器、爐)。電子裝置的其他示例包括一件家具或建筑物/結(jié)構(gòu)的至少一部分、電子板、電子簽名接開的各種實施例,電子裝置可以是上面列出的裝置中的一個或組合。根據(jù)本公開的實施例,電子裝置可以是柔性電子裝置。這里公開的電子裝置不限于上面列出的裝置,并且可以包括取決于技術(shù)發(fā)展的新電子裝置。[0021]在以下描述中,根據(jù)本公開的各種實施例,參考附圖描述電子裝置。如這里所使用[0022]貫穿本專利文件可以提供對其他某些詞語和短語的定義。本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)理解,在許多情況下(如果不是大多數(shù)情況下),這樣的定義適用于這樣定義的單詞和短語的先前以及將來的使用。8[0023]本公開涉及一種用于視頻內(nèi)容中的情緒的多模態(tài)理解的方法和電子裝置。本公開涉及用于識別視頻內(nèi)容中的至少一種情緒的方法和電子裝置。[0024]參考附圖描述下面討論的圖1至圖6以及本公開的各種實施例。然而,應(yīng)當(dāng)理解,本公開不限于這些實施例,并且對其的所有改變和/或等同物或替換也屬于本公開的范圍。在整個說明書和附圖中,相同或相似的附圖標(biāo)記可以用于指代相同或相似的元件。[0025]如上所述,準(zhǔn)確地識別視頻內(nèi)容中包含的各種情緒的能力在各種應(yīng)用中可能是有用的,但是用于識別視頻內(nèi)容中包含的情緒的當(dāng)前方法存在許多缺點。例如,這些方法通常有效性。此外,這些方法通常使用單個模態(tài)的信息(諸如僅與視頻內(nèi)容相關(guān)聯(lián)的音頻數(shù)據(jù))來識別視頻內(nèi)容中的情緒。因此,這些方法通常產(chǎn)生不準(zhǔn)確的結(jié)果。作為特定示例,在體育賽事期間體育場中的人群噪聲通??梢员环诸悶榕c“快樂”的正面情緒相關(guān)聯(lián)。然而,體育場人群的實際情緒可能是“興奮的”(諸如在特定比賽時段期間)或“悲定球隊的失敗的比賽)。[0026]本公開提供了一種用于對視頻內(nèi)容中的情緒進(jìn)行多模態(tài)理解的方法和電子裝置(或技術(shù))。視頻內(nèi)容中的情緒可以指由視頻序列中的至少一個人表達(dá)的至少一種情緒(或至少一種人類情緒)。如下文更詳細(xì)地描述,可獲得視頻序列,其中視頻序列包括(i)多個視頻幀和(ii)音頻數(shù)據(jù)。視頻序列中的視頻幀中的至少一個可以捕獲至少一個人的面部。提取與視頻幀中的至少一個面部相關(guān)聯(lián)的視頻特征,并且提取與音頻數(shù)據(jù)相關(guān)聯(lián)的音頻特征。在實施例中,可以通過將視頻幀分成多個集合,使用集合執(zhí)行面部檢測,并基于面部檢測結(jié)果處理集合以識別與至少一個面部相關(guān)聯(lián)的視頻特征來提取視頻特征。此外,在實施例中,可以通過處理音頻數(shù)據(jù)以識別音頻特征的第一子集(諸如與音頻數(shù)據(jù)的原始音頻波形相關(guān)聯(lián)的特征)和音頻特征的第二子集(諸如使用預(yù)訓(xùn)練的音頻模型并基于音頻數(shù)據(jù)確定的特征)來提取音頻特征。[0027]視頻特征和音頻特征被提供給經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型并使用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型進(jìn)行處理,其中經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型(其中包括)執(zhí)行視頻特征和音頻特征的不同子集的多層融合,以識別由視頻序列中的至少一個人表達(dá)的至少一個情緒。例如,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型可以執(zhí)行(i)視頻特征和音頻特征的第一子集的第一融合以及(ii)經(jīng)處理的特征和音頻特征的第二子集的第二融合,其中經(jīng)處理的特征基于第一融合。在實施例中,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型可以包括(i)至少一個交叉模態(tài)變換器編碼器層,其接收并融合視頻特征和音頻特征的第一子集并且生成多模態(tài)特征,(ii)至少一個融合編碼器層,其組合多模態(tài)特征,以及(iii)多層感知器解碼器層,其解碼與音頻特征的第二子集融合的融合編碼器層的輸出。[0028]以這種方式,所描述的技術(shù)使得能夠更有效地識別視頻內(nèi)容中包含的人類情緒。另外,所描述的技術(shù)支持使用多種模態(tài),因為機(jī)器學(xué)習(xí)模型可以處理與視頻內(nèi)容的視頻數(shù)據(jù)和音頻數(shù)據(jù)兩者相關(guān)聯(lián)的特征??梢曰趤碜砸曨l內(nèi)容中存在的多個模態(tài)(諸如音頻和面部)的信息的有效融合來更好地推斷視頻內(nèi)容中包含的人類情緒,并且可以有效地訓(xùn)練機(jī)器學(xué)習(xí)模型以利用音頻和視覺模態(tài)兩者來識別視頻內(nèi)容中的情緒。此外,所描述的技術(shù)可以支持人類情緒的更大或更詳盡的分類,這允許檢測視頻內(nèi)容中的細(xì)微情緒。作為特定示例,在示出體育賽事的視頻內(nèi)容中,所描述的技術(shù)可以檢測情緒,諸如當(dāng)人群期望得分時9的正面的快樂(通常)或正面的快樂(興奮),或者當(dāng)運動員面臨受傷時的負(fù)面的震驚或驚訝習(xí)模型,所述大的情緒視頻數(shù)據(jù)集可以結(jié)合各種層級情緒標(biāo)注以及模態(tài)。這有助于改進(jìn)機(jī)器學(xué)習(xí)模型的訓(xùn)練并提高機(jī)器學(xué)習(xí)模型的整體準(zhǔn)確性。[0029]圖1示出了根據(jù)本公開的包括電子裝置101的示例網(wǎng)絡(luò)配置100。圖1所示的網(wǎng)絡(luò)配置100的實施例僅用于說明。在不脫離本公開的范圍的情況下,可以使用網(wǎng)絡(luò)配置100的其他實施例。[0030]根據(jù)本公開的實施例,電子裝置101包括在網(wǎng)絡(luò)配置100中。電子裝置101可以包括器180中的至少一個。在實施例中,電子裝置101可以排除這些組件中的至少一個,或者可以添加至少一個其他組件??偩€110包括用于將組件120-180彼此連接并且用于在組件之間傳送通信(諸如控制消息和/或數(shù)據(jù))的電路。[0031]處理器120包括一個或多個處理裝置,諸如一個或多個微處理器、微控制器、數(shù)字信號處理器(DSP)、專用集成電路(ASIC)或現(xiàn)場可編程門陣列(FPGA)。在實施例中,處理器120包括中央處理單元(CPU)、應(yīng)用處理器(AP)、通信處理器(CP)或圖形處理器單元(GPU)中的一個或多個。處理器120能夠?qū)﹄娮友b置101的其他組件中的至少一個執(zhí)行控制和/或執(zhí)行與通信或其他功能有關(guān)的操作或數(shù)據(jù)處理。如下所述,處理器120可以用于使用特征提取器和多模態(tài)機(jī)器學(xué)習(xí)模型來處理視頻序列,以便識別每個視頻序列中的一個或多個人的情緒。處理器120還可以或替代地用于基于或響應(yīng)于在至少一個視頻序列中識別的至少一個情緒來執(zhí)行一個或多個動作或發(fā)起一個或多個動作的執(zhí)行。[0032]存儲器130可以包括易失性和/或非易失性存儲器。例如,存儲器130可以存儲與電子裝置101的至少一個其他組件有關(guān)的命令或數(shù)據(jù)。根據(jù)本公開的實施例,存儲器130可以存儲軟件和/或程序140。程序140包括例如內(nèi)核141、中間件143、應(yīng)用編程接口(API)145和/或應(yīng)用程序(或“應(yīng)用”)147。內(nèi)核141、中間件143或API145的至少一部分可以表示[0033]內(nèi)核141可以控制或管理用于執(zhí)行在其他程序(諸如中間件143、API145或應(yīng)用147)中實現(xiàn)的操作或功能的系統(tǒng)資源(諸如總線110、處理器120或存儲器130)。內(nèi)核141提供允許中間件143、API145或應(yīng)用147訪問電子裝置101的各個組件以控制或管理系統(tǒng)資源的接口。應(yīng)用147可以包括用于支持或使用對視頻內(nèi)容中的情緒的多模態(tài)理解的一個或多個應(yīng)用。這些功能可以由單個應(yīng)用或多個應(yīng)用執(zhí)行,每個應(yīng)用執(zhí)行這些功能中的一個或多個。例如,中間件143可以用作中繼器,以允許API145或應(yīng)用147與內(nèi)核141施例中,可以提供多個應(yīng)用147。中間件143能夠控制從應(yīng)用147接收的工作請求,諸如通過將使用電子裝置101的系統(tǒng)資源(如總線110、處理器120或存儲器130)的優(yōu)先級分配給多個應(yīng)用147中的至少一個。API145是允許應(yīng)用147控制從內(nèi)核141或中間件143提供的功能的功能(諸如命令)。[0034]I/0接口150用作可以例如將從用戶或其他外部裝置輸入的命令或數(shù)據(jù)傳送到電子裝置101的其他組件的接口。I/0接口150還可以將從電子裝置101的其他組件接收的命令或數(shù)據(jù)輸出到用戶或其他外部裝置。[0035]顯示器160包括例如液晶顯示器(LCD)、發(fā)光二極管(LED)顯示器、有機(jī)發(fā)光二極管(OLED)顯示器、量子點發(fā)光二極管(QLED)顯示器、微機(jī)電系統(tǒng)(MEMS)顯示器或電子紙顯示器中的至少一個。顯示器160還可以是深度感知顯示器,諸如多焦顯示器。顯示器160能夠向用戶顯示例如各種內(nèi)容(諸如文本、圖像、視頻、圖標(biāo)或符號)。顯示器160可以包括觸摸屏,并且可以接收例如使用電子筆或用戶的身體部分的觸摸、手勢、接近或懸停輸入。[0036]例如,通信接口170能夠建立電子裝置101與外部電子裝置(諸如第一電子裝置102、第二電子裝置104或服務(wù)器106)之間的通信。例如,通信接口170可以通過無線或有線通信與網(wǎng)絡(luò)162或164連接,以與外部電子裝置通信。通信接口170可以是有線或無線收發(fā)器或用于發(fā)送和接收信號(諸如圖像)的任何其他組件。[0037]電子裝置101還包括一個或多個傳感器180,其可以計量物理量或檢測電子裝置101的激活狀態(tài),并將計量或檢測到的信息轉(zhuǎn)換為電信號。例如,一個或多個傳感器180可以包括一個或多個相機(jī)或其他成像傳感器,其可以用于捕獲場多個相機(jī)或其他成像傳感器可以捕獲連續(xù)的視頻幀??筛鶕?jù)制造商或用戶的設(shè)置來預(yù)先確定視頻幀中的每一者的時間間隔(或幀速率)。傳感器180還可以包括用于觸摸輸入的一個虹膜傳感器或指紋傳感器。(一個或多個)傳感器180還可以包括慣性測量單元,其可以包括一個或多個加速度計、陀螺儀和其他組件。另外,(一個或多個)傳感器180可以包括用于控制這里包括的傳感器中的至少一個的控制電路。這些傳感器180中的任何一個可以位于電子裝置101內(nèi)。[0038]第一電子裝置102或第二電子裝置104可以是可穿戴裝置或電子裝置可安裝的可穿戴裝置(諸如頭戴式顯示器(HMD))。當(dāng)電子裝置101安裝在第一電子裝置102(諸如HMD)中時,電子裝置101可以通過通信接口170與第一電子裝置102通信。電子裝置101可以與第一電子裝置102直接連接,以與第一電子裝置102通信,而不涉及單獨的網(wǎng)絡(luò)。電子裝置101還可以是包括一個或多個相機(jī)的增強(qiáng)現(xiàn)實可穿戴裝置,諸如眼鏡。[0039]無線通信能夠使用例如長期演進(jìn)(LTE)、高級長期演進(jìn)(LTE-A)、第五代無線系統(tǒng)動電信系統(tǒng)(UMTS)、無線寬帶(WiBro)或全球移動通信系統(tǒng)(GSM)中的至少一個作為蜂窩通信協(xié)議。有線連接可以包括例如通用串行總線(USB)、高清晰度多媒體接口(HDMI)、推薦標(biāo)準(zhǔn)232(RS-232)或普通老式電話服務(wù)(POTS)中的至少一個。網(wǎng)絡(luò)162包括至少一個通信網(wǎng)絡(luò),諸如計算機(jī)網(wǎng)絡(luò)(如局域網(wǎng)(LAN)或廣域網(wǎng)(WAN))、互聯(lián)網(wǎng)或電話網(wǎng)絡(luò)。[0040]第一電子裝置102和第二電子裝置104以及服務(wù)器106各自可以是與電子裝置101相同或不同類型的裝置。根據(jù)本公開的實施例,服務(wù)器106包括一個或多個服務(wù)器的組。此外,根據(jù)本公開的實施例,在電子裝置101上執(zhí)行的所有或一些操作可以在另一個或多個其他電子裝置(諸如第一電子裝置102和第二電子裝置104或服務(wù)器106)上執(zhí)行。此外,根據(jù)本公開的實施例,當(dāng)電子裝置101應(yīng)該自動地或根據(jù)請求執(zhí)行一些功能或服務(wù)時,電子裝置101可以請求另一裝置(諸如第一電子裝置102和第二電子裝置104或服務(wù)器106)執(zhí)行與其11相關(guān)聯(lián)的至少一些功能,而不是自己執(zhí)行該功能或服務(wù),或者另外地執(zhí)行該功能或服務(wù)。另一電子裝置(諸如第一電子裝置102和第二電子裝置104或服務(wù)器106)能夠執(zhí)行所請求的功能或附加功能,并將執(zhí)行的結(jié)果傳送到電子裝置101。電子裝置101可以通過按原樣或附加地處理接收到的結(jié)果來提供所請求的功能或服務(wù)。為此,例如,可以使用云計算、分布式計算或客戶端-服務(wù)器計算技術(shù)。雖然圖1示出了電子裝置101包括經(jīng)由網(wǎng)絡(luò)162與第二電子裝置104或服務(wù)器106通信的通信接口170,但是根據(jù)本公開的實施例,電子裝置101可以獨立地操作而無需單獨的通信功能。[0041]服務(wù)器106可以包括與電子裝置101相同或相似的組件(或其合適的子集)。服務(wù)器106可以支持通過執(zhí)行在電子裝置101上實現(xiàn)的操作(或功能)中的至少一個來驅(qū)動電子裝置101。例如,服務(wù)器106可以包括可以支持在電子裝置101中實現(xiàn)的處理器120的處理模塊或處理器。如下所述,服務(wù)器106可以用于使用特征提取器和多模態(tài)機(jī)器學(xué)習(xí)模型來處理視頻序列,以便識別每個視頻序列中的一個或多個人的情緒。服務(wù)器106還可以或替代地用于基于或響應(yīng)于在至少一個視頻序列中識別的至少一個情緒來執(zhí)行一個或多個動作或發(fā)起一個或多個動作的執(zhí)行?;谝曨l序列中包括的視頻幀和音頻數(shù)據(jù),所識別的至少一個情緒可以被稱為一個或多個預(yù)測的情緒或一個或多個估計的情緒。[0042]盡管圖1示出了包括電子裝置101的網(wǎng)絡(luò)配置100的一個示例,但是可以對圖1進(jìn)行各種改變。例如,網(wǎng)絡(luò)配置100可以以任何合適的布置包括任何和通信系統(tǒng)具有各種各樣的配置,并且圖1不將本公開的范圍限制于任何特定配置。此外,雖然圖1示出了可以使用本公開中的各種特征的一個操作環(huán)境,但是這些特征可以用于任何其他合適的系統(tǒng)中。[0043]圖2示出了根據(jù)本公開的支持對視頻內(nèi)容中的情緒的多模態(tài)理解的示例架構(gòu)200。為了便于解釋,圖2所示的架構(gòu)200被描述為在圖1的網(wǎng)絡(luò)配置100中的電子裝置101上實現(xiàn)或由電子裝置101支持。然而,圖2中所示的架構(gòu)200可以與任何其他合適的裝置一起使用并且可以在任何其他合適的系統(tǒng)中使用,諸如當(dāng)架構(gòu)200在服務(wù)器106上實現(xiàn)或由服務(wù)器106支持的情況。[0044]如圖2所示,架構(gòu)200通常接收和處理視頻序列202。每個視頻序列202包括多個視頻幀204和音頻數(shù)據(jù)206。多個視頻幀可以被稱為多個視頻幀。每個視頻序列202可以從任何合適的源獲得。在實施例中,例如,每個視頻序列202可以表示從服務(wù)器106或其他源提供給電子裝置101以由電子裝置101呈現(xiàn)給一個或多個觀看者的視頻內(nèi)容。視頻序列202可以表示任何合適的視頻內(nèi)容,諸如電影、電視節(jié)目、家庭視頻、可用于通過互聯(lián)網(wǎng)下載或觀看的長或短視頻剪輯或任何其他合適的視頻內(nèi)容。每個視頻序列202可以具有任何合適的長度,可能范圍從相對短的視頻剪輯到冗長的電影或其他視頻。[0045]每個視頻幀204可以表示相關(guān)聯(lián)的視頻序列202中的圖像序列中包含的圖像之一。每個視頻幀204可具有任何合適的格式和分辨率,可能高達(dá)并包括4K或8K分辨率或甚至更高??梢允褂酶鞣N過程從相關(guān)聯(lián)的視頻序列202捕獲每個視頻幀204。舉例來說,各種過程可包含使用視頻播放器、視頻編輯器軟件或視頻捕獲軟件的過程。架構(gòu)200可以從每個視頻序列202中的至少一些視頻幀204捕獲一個或多個人的一個或多個面部。音頻數(shù)據(jù)206表示可以在呈現(xiàn)相關(guān)聯(lián)的視頻序列202期間再現(xiàn)以向一個或多個觀看者提供可聽聲音的音頻波形。例如,音頻數(shù)據(jù)206可以包括在相關(guān)聯(lián)的視頻序列202中說話、歡呼或以其他方式產(chǎn)生聲音的一個或多個人的一個或多個語音、相關(guān)聯(lián)的視頻序列202中的音樂或聲音效果或者在相關(guān)聯(lián)的視頻序列202中捕獲的場景中的聲音。音頻數(shù)據(jù)206可以具有任何合適的格式和任何合適的分辨率,可能高達(dá)并包括24位或32位分辨率或甚至更高。音頻數(shù)據(jù)206還可以具有任何合適的數(shù)據(jù)速率,可能高達(dá)并包括256kbit/sec或甚至更高??梢允褂靡纛l分析軟件或音頻捕獲軟件從相關(guān)聯(lián)的視頻序列202捕獲、獲得或檢測音頻數(shù)據(jù)206。在實施例中,視頻幀204可被稱作用于從每一視頻序列202獲得視頻幀204的視頻幀獲得處理器、視頻幀獲得功能、視頻幀獲得模塊或視頻幀獲得單元。在實施例中,音頻數(shù)據(jù)206可以被稱為用于從每個視頻序列202獲得音頻數(shù)據(jù)206的音頻獲得處理器、音頻獲得功能、音頻獲得模塊或音頻獲得單元。[0046]在實施例中,每個視頻序列202的視頻幀204可以被提供給面部檢測和視頻特征提取功能208并且使用面部檢測和視頻特征提取功能208來處理。面部檢測和視頻特征提取功能208一般操作以識別視頻幀204中的一個或多個人的面部的位置,并且提取或以其他方式識別視頻幀204的特征。視頻幀204的所識別的特征包括(至少)與視頻幀204內(nèi)的所識別的面部相關(guān)的特征,意味著視頻幀204的所識別的特征包括在視頻幀204中捕捉的一個或多個人的面部特征。在實施例中,面部檢測和視頻特征提取功能208可以單獨地處理視頻幀204。在實施例中,面部檢測和視頻特征提取功能208可以處理視頻幀204的集合,諸如當(dāng)視頻幀204被分組為相對短的持續(xù)時間的集合(諸如每個大約六秒長度的集合)時。[0047]面部檢測和視頻特征提取功能208可以使用任何合適的技術(shù)來執(zhí)行面部檢測并提取一個或多個視頻序列202中的視頻幀204的面部特征或其他視頻特征。面部檢測和視頻特征提取功能208可以被稱為面部檢測和視頻特征提取處理器、面部檢測和視頻特征提取模塊、面部檢測和視頻特征提取部分、或者面部檢測和視頻特征提取單元。在實施例中,面部檢測和視頻特征提取功能208可以使用已經(jīng)被訓(xùn)練為執(zhí)行面部檢測和視頻特征提取的一個或多個機(jī)器學(xué)習(xí)模型來實現(xiàn)。在實施例中,面部檢測和視頻特征提取功能208的面部檢測部分可以使用多任務(wù)級聯(lián)卷積網(wǎng)絡(luò)(MTCNN)來實現(xiàn),并且面部檢測和視頻特征提取功能208的視頻特征提取部分可以使用自我修復(fù)網(wǎng)絡(luò)(SCN)來實現(xiàn)。MTCNN或其他機(jī)器學(xué)習(xí)模型可用于支持面部檢測(其涉及識別視頻幀204中面部的位置)和面部特征點對準(zhǔn)(其涉及識別視頻幀204中人的眼睛、鼻子、嘴或其他面部特征點的位置)。SCN或其它機(jī)器學(xué)習(xí)模型可用于識別與視頻幀204中的人的面部表情相關(guān)聯(lián)的特征。在實施例中,SCN包括五個凍結(jié)層,并且支持與面部特征相關(guān)的多達(dá)512個類。[0048]在本公開中,每個視頻序列202的音頻數(shù)據(jù)206可以被提供給至少一個音頻特征提取功能210并使用至少一個音頻特征提取功能210進(jìn)行處理。音頻特征提取功能210通常操作以識別與音頻數(shù)據(jù)206相關(guān)的音頻特征的多個子集。例如,音頻特征提取功能210可識別音頻數(shù)據(jù)206的音頻特征的第一子集,其中這些特征可包括基于音頻數(shù)據(jù)206的原始音頻波形的一般特征??梢栽谝纛l特征的第一子集中使用的特征的示例可以包括音頻數(shù)據(jù)206的能量相關(guān)特征、頻譜相關(guān)特征或其他特征。音頻特征提取功能210還可以識別音頻數(shù)據(jù)206的音頻特征的第二子集,其中這些特征可以使用預(yù)訓(xùn)練的音頻模型來生成并且基于音頻數(shù)據(jù)206。[0049]音頻特征提取功能210可以使用任何合適的技術(shù)來提取一個或多個視頻序列202中的音頻數(shù)據(jù)206的音頻特征。在實施例中,音頻特征提取功能210可以至少部分地使用已提取功能210可以使用PyAudio分析來實現(xiàn),以識別音頻數(shù)據(jù)206的每個實例的音頻特征的[0050]將每個視頻序列202的提取的視頻特征和提取的音頻特征提供給經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212通常操作以處理提取的特征并生成由每個視頻序列型212進(jìn)行訓(xùn)練以在識別由至少一個人在每個視頻序列202中表達(dá)的一個或多個預(yù)測的情以具有被配置為處理視頻和音頻特征并估計視頻內(nèi)容中包含的情緒的任何合適的基于機(jī)以使用具有用于音頻的四個注意力頭部和用于視頻的八個注意力頭部的單層變換器來實征(即,視頻/面部特征和音頻特征的第一子集)可以諸如經(jīng)由級聯(lián)或其他合適的融合技術(shù)來融合,并且使用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212中的多模態(tài)變換器的一個或多個交叉模態(tài)變獲得訓(xùn)練數(shù)據(jù)和真實數(shù)據(jù),其中(i)訓(xùn)練數(shù)據(jù)可以包括包含示出各種情緒的各種人的面部的視頻序列202,以及(ii)真實數(shù)據(jù)可以包括由經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212使用訓(xùn)練數(shù)據(jù)的及音頻特征提取功能210,以便從訓(xùn)練數(shù)據(jù)中的視頻序列202中提取視頻和音頻特征??梢詫⒁曨l和音頻特征提供給經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212,并且經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212可以用任何合適的損失函數(shù)來計算損失,例如學(xué)習(xí)率為0.0001并且丟失率為0.2的焦點損失并且可以使用更新的經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212再次處理訓(xùn)練數(shù)據(jù)中的視頻序列202(或者可以處理不同訓(xùn)練數(shù)據(jù)中的新視頻序列202),以便產(chǎn)生新的一個或多個預(yù)測的情緒214,其可以與真實數(shù)據(jù)進(jìn)行比較以便計算更新的損失。計算出的損失隨時間減小并且最終低于閾值,指示經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212已經(jīng)被訓(xùn)練為準(zhǔn)確地(至少在由閾值表示的期望準(zhǔn)確度內(nèi))預(yù)測視頻序列202中的人的情緒。[0053]這里的經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212可以被訓(xùn)練以識別視頻內(nèi)容中的各種各樣的人類情緒。在實施例中,例如,可以訓(xùn)練經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212以識別被布置在層級中的情緒,其中層級的兩個根類別可以包括正面情緒和負(fù)面情緒。在實施例中,可以訓(xùn)練經(jīng)訓(xùn)練樂,可以訓(xùn)練經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212以識別特定傲和寬慰。對于正面的愛情,可以訓(xùn)練經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212以識別特定類型的愛情,諸如浪漫和柏拉圖。對于正面的希望,可以訓(xùn)練經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212以識別特定類型的希望,諸如信念和信心。例如,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212可以被訓(xùn)練為識別悲傷、憤怒、訓(xùn)練經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212以識別特定類型的憤怒,諸如沮喪、爭吵和憤怒。對于負(fù)面的恐懼,可以訓(xùn)練經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212以識別特定類型的恐懼,諸如緊張和恐怖。還可以支持模糊分類以識別可能是正面或負(fù)面的情緒,諸如驚訝或驚嚇、困惑和諷刺。[0054]為了支持可能情緒的這種或其他類型的分層布置,可以在訓(xùn)練過程期間使用足夠量的訓(xùn)練數(shù)據(jù),以便有效地訓(xùn)練經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212關(guān)于如何識別這些情緒并區(qū)分類似情緒。這可能涉及使用非常大的訓(xùn)練數(shù)據(jù)集,可能包括具有數(shù)十萬或更多視頻序列訓(xùn)練樣本和相關(guān)聯(lián)的真實數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集??梢砸匀魏魏线m的方式獲得這種類型的訓(xùn)練數(shù)據(jù)集。例如,這種類型的訓(xùn)練數(shù)據(jù)集可以通過自動提取包含面部表情的視頻序列(諸如來自SAMSUNGTVPLUS擁有和運營的或“0&0”視頻頻道或8M視頻數(shù)據(jù)集或其他公共/私人數(shù)據(jù)集)并且使人類用識別提取的視頻序列中的實際情緒的真實標(biāo)簽手動注釋提取的視頻序列來獲得。此外,例如,訓(xùn)練數(shù)據(jù)集中的視頻序列202中的每一個可以列202中的每一個的長度為大約六秒或更短時(盡管可以使用其他合適的持續(xù)時間)。[0055]應(yīng)當(dāng)注意,圖2中示出或關(guān)于圖2描述的功能可以以任何合適的方式在電子裝置或其他裝置的處理器(或至少一個處理器)120執(zhí)行的一個或多個軟件應(yīng)用或其他軟件指令來實現(xiàn)或支持圖2中示出或關(guān)于圖2描述的功能中的至少一些。在實施例中,可以使用專用硬件組件來實現(xiàn)或支持在圖2中示出或關(guān)于圖2描述的功能中的至少一些。通常,可以使用任何合適的硬件或硬件和軟件/固件指令的任何合適的組合來執(zhí)行圖2中示出或關(guān)于圖2描述的功能。而且,可以使用單個裝置或多個裝置來執(zhí)行圖2中示出或關(guān)于圖2描述的功能。[0056]盡管圖2示出了支持對視頻內(nèi)容中的情緒的多模態(tài)理解的架構(gòu)200的示例,但是可以對圖2進(jìn)行各種改變。例如,圖2中的各種組件和功能可以根據(jù)特定需要被組合、進(jìn)一步細(xì)[0057]圖3至圖5示出了根據(jù)本公開的用于圖2的架構(gòu)200中的示例經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212。如圖3至圖5所示,在實施例中,音頻特征提取功能210可以使用單獨的音頻特征提取功能210a-210b來實現(xiàn)。音頻特征提取功能210a可用于識別音頻數(shù)據(jù)206中的原始音頻波形的一般特征,諸如音頻數(shù)據(jù)206的能量相關(guān)特征、頻譜相關(guān)特征或其他特征。例如,可以使用PyAudio分析來實現(xiàn)音頻特征提取功能210a。音頻特征提取功能210a可以被稱為基于波形的音頻特征提取功能或第一音頻特征提取功能。音頻特征提取功能210b可以用于使用預(yù)訓(xùn)練的音頻模型來識別音頻數(shù)據(jù)206的特征。例如,音頻特征提取功能210b可以使用PSLA模型來實現(xiàn)。音頻特征提取功能210b可以被稱為基于模型的音頻特征提取功能或第二音頻特征提取功能。[0058]結(jié)合MTCNN/SCN或面部檢測和視頻特征提取功能208的實施方式,架構(gòu)200可以使用各個域中現(xiàn)有技術(shù)的預(yù)訓(xùn)練機(jī)器學(xué)習(xí)模型的組合來執(zhí)行多個模態(tài)(即視覺(面部)和音頻)的有效特征提取。在實施例中,面部檢測和視頻特征提取功能208可以生成具有512個維度的特征向量,音頻特征提取功能210a可以生成具有68個維度的特征向量,并且音頻特征提取功能210b可以生成具有527個維度的特征向量。然而,注意,這些值僅是示根據(jù)需要或期望而變化。[0059]在圖3至圖5的示例中,可以使用基于注意力的變換器架構(gòu)來實現(xiàn)經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212。此處,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212可包括多模態(tài)變換器302,其使用一個或多個交叉模態(tài)變換器編碼器層304及一個或多個融合編碼器層306實施。一個或多個交叉模態(tài)變換器編碼器層304可以(除了別的之外)接收和融合由面部檢測和視頻特征提取功能208確定的視頻特征以及由音頻特征提取功能210a確定的音頻特征的第一子集。例如,視頻特征和音頻特征的第一子集可以被級聯(lián)或以其他方式組合,并且所得到的組合特征可以由一個或多個交叉模態(tài)變換器編碼器層304處理。一個或多個交叉模態(tài)變換器編碼器層304負(fù)責(zé)將組合的視頻和音頻特征編碼成用于后續(xù)處理的合適形式。結(jié)果,一個或多個交叉模態(tài)變換器編碼器層304可以產(chǎn)生經(jīng)處理的特征,其基于視頻特征和音頻特征的第一子集的融合。在實施例中,一個或多個交叉模態(tài)變換器編碼器層304中的每一個可以包括自注意力機(jī)制和前饋網(wǎng)絡(luò)。[0060]來自一個或多個交叉模態(tài)變換器編碼器層304的處理特征表示多模態(tài)特征,因為它們是使用視頻和音頻特征的組合形成的。這里,多模態(tài)特征被提供給一個或多個融合編碼器層306,融合編碼器層306可以編碼來自交叉模態(tài)變換器編碼器層304的多模態(tài)特征。例如,一個或多個融合編碼器層306可以用于在識別視頻內(nèi)容中的情緒時學(xué)習(xí)各種多模態(tài)特征之間的關(guān)系。這允許經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212學(xué)習(xí)如何將基于視頻和音頻特征的各種多模態(tài)特征彼此相關(guān)。[0061]來自一個或多個融合編碼器層306的輸出可以表示多模態(tài)變換器302的最終輸出。如這里所示,這些輸出可以被稱為多模變換器302的變換器輸出。這些輸出(或變換器輸出)經(jīng)由融合功能308與由音頻特征提取功能210b確定的音頻特征(或頻譜特征)的第二子集融合(諸如經(jīng)由級聯(lián))。將得到的融合值提供給解碼器310,解碼器310對由融合功能308產(chǎn)生的融合特征進(jìn)行解碼。例如,解碼器310可以表示機(jī)器學(xué)習(xí)模型的至少一部分,該機(jī)器學(xué)習(xí)模型已經(jīng)被訓(xùn)練為以導(dǎo)致生成視頻序列202的一個或多個預(yù)測的情緒214的方式組合融合的特征。例如,解碼器310可以被實現(xiàn)為多層感知器(MLP)層,其可以包括接收融合特征的輸入層、使用(除其他之外)非線性激活功能共同處理融合特征的隱藏層,以及基于來自最后的隱藏層的輸出提供一個或多個預(yù)測的情緒214的輸出層。作為特定示例,解碼器310可以被實現(xiàn)為具有一百個隱藏層的多層感知器層。[0062]總的來說,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212的所示實施例可以通過利用交叉模態(tài)輸入并且結(jié)合特征融合技術(shù)來調(diào)整變換器模型以學(xué)習(xí)單模態(tài)特征中的時序關(guān)系。圖3至圖5中所示的經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212的實施例的不同之處在于如何執(zhí)行視頻和音頻特征的融合。例如,如圖3所示,可以存在接收并組合視頻特征和音頻特征的第一子集的單個交叉模態(tài)變換器編碼器層304,以及處理交叉模態(tài)變換器編碼器層304的輸出的多個(諸如三個)融合編碼器層306。這種類型的方法可以說是表示“早-晚”融合技術(shù),因為視頻和音頻特征在多模態(tài)變換器302的層中較早融合,而在解碼器310之前較晚融合。如圖4所示,可以存在接收并組合視頻特征和音頻特征的第一子集的多個(諸如兩個)交叉模態(tài)變換器編碼器層304,以及處理交叉模態(tài)變換器編碼器層304的輸出的多個(諸如兩個)融合編碼器層306。這種類型的方法可以說是表示“中-晚”融合技術(shù),因為視頻和音頻特征融合得更靠近多模態(tài)變換器302的中間層,并且在解碼器310之前較晚融合。如圖5中所示,可以存在接收并組合視頻特征和音頻特征的第一子集的多個(諸如三個)交叉模態(tài)變換器編碼器層304,以及處理交叉模態(tài)變換器編碼器層304的輸出的單個融合編碼器層306。這種類型的方法可以說是表示“晚-晚”融合技術(shù),因為視頻和音頻特征較晚在多模態(tài)變換器302的層中融合并且在解碼器310之前較晚融合。[0063]盡管圖3至圖5示出了用于在圖2的架構(gòu)200中使用的經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212的示例,但是可以對圖3至圖5進(jìn)行各種改變。例如,圖3至圖5中的每一個中的各種組件和功能個附加組件和功能可以被包括在圖3至圖5中的每一個中。此外,架構(gòu)200中的經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212可以具有任何其他合適的形式。[0064]支持有效識別視頻內(nèi)容中的情緒的能力的架構(gòu)可以用于支持任何數(shù)量的可能應(yīng)用。以下表示可以使用有效識別視頻內(nèi)容中的情緒的示例用例。這些用例可以包括社交平是示例,并且架構(gòu)200可以以任何其他合適的方式用于任何其他合適的目的。[0065]關(guān)于社交平臺參與,應(yīng)用可以使用識別視頻內(nèi)容中的情緒的能力,以便創(chuàng)建“基于情緒的”句子生成器,其可以用于與視頻內(nèi)容的觀看者互動。例如,句子生成器可以使用呈現(xiàn)給觀看者的視頻內(nèi)容中的情緒的識別,以便生成連貫的句子并與觀看者對話互動。例如,在刺激的體育賽事期間,架構(gòu)200可以用于感測“緊張”,并且句子生成器可以產(chǎn)生吸引人的[0066]關(guān)于“活體”藝術(shù)生成,應(yīng)用可以是生成基于觀看藝術(shù)品的人的情緒而變化的“活體”藝術(shù)品。例如,一個或多個相機(jī)可用于捕獲觀看藝術(shù)品的觀眾成員的視頻序列,并且架構(gòu)200可用于識別觀眾成員的情緒??梢曰跈z測到的情緒來改變藝術(shù)品的內(nèi)容,諸如通過基于在藝術(shù)品前面或最接近藝術(shù)品的觀看者的情緒來改變藝術(shù)品。[0067]關(guān)于廣告定向,應(yīng)用可以針對適當(dāng)?shù)挠脩舨⑶一谟脩舻囊曨l內(nèi)容的觀看歷史向他們示出相關(guān)廣告。例如,廣告商可以基于品味圖來定向特定用戶的興趣,并且用戶觀看或偏好的視頻內(nèi)容的情緒類別可以包括在品味圖中。這可能有助于增加廣告定向的精度。因此,架構(gòu)200可以用于識別由特定用戶觀看的視頻內(nèi)容中的情緒,并且用戶在觀看的視頻中的情緒內(nèi)容方面的偏好可以包括在品味圖中。架構(gòu)200還可以用于識別特定廣告中的情緒。這允許在廣告內(nèi)容和用戶歷史之間匹配細(xì)粒度類別,這允許情緒在確定廣告相關(guān)性分?jǐn)?shù)并向特定用戶提供特定廣告時是有用的成分。[0068]關(guān)于元宇宙情緒理解,可以在各種應(yīng)用中使用理解由元宇宙中的現(xiàn)實人類化身顯示的情緒的能力。例如,架構(gòu)200可以用于識別用戶正在觀看的視頻內(nèi)容中的情緒,并將這些情緒投影到人類化身的面部上(諸如通過將內(nèi)容的情緒投影到化身的面部關(guān)鍵點上),從而使化身表現(xiàn)得更像人類。架構(gòu)200可以用于檢測元宇宙中類似人類的化身的情緒,并且這些檢測到的情緒可以用于對元宇宙對話的句子生成進(jìn)行建模。架構(gòu)200可用于調(diào)節(jié)類似人類的化身的元宇宙中的極端情緒,諸如當(dāng)響應(yīng)于檢測到“憤怒”或與該化身相關(guān)聯(lián)的其他特定情緒而限制或以其他方式調(diào)節(jié)類似人類的化身的動作時(以便避免極端行為)。[0069]關(guān)于內(nèi)容推薦,應(yīng)用可以基于例如觀看者正在觀看的當(dāng)前視頻和觀看者的觀看歷史或用戶簡檔來向觀看者建議視頻內(nèi)容。例如,可以使用架構(gòu)200基于觀看者隨時間觀看的視頻內(nèi)容來創(chuàng)建觀看者的情緒簡檔。觀看者不喜歡的某些情緒高的視頻可以從那些觀看者的推薦中移除。例如,如果某人傾向于僅喜歡正面的快樂表演或電影,則推薦系統(tǒng)可以避免[0070]圖6示出了根據(jù)本公開的用于視頻內(nèi)容中的情緒的多模態(tài)理解的示例方法600。為了便于解釋,圖6所示的方法600被描述為由圖1的網(wǎng)絡(luò)配置100中的電子裝置101執(zhí)行。然而,圖6中所示的方法600可以與任何其他合適的(多個)裝置一起使用并且在任何其他合適的(多個)系統(tǒng)中使用,諸如當(dāng)方法600由服務(wù)器106執(zhí)行的情況。[0071]如圖6所示,在步驟602獲得視頻序列。這可以包括例如電子裝置101的處理器120(或至少一個處理器)從任何合適的源獲得視頻序列202。視頻序列202包括多個視頻幀204和音頻數(shù)據(jù)206,諸如定義音頻波形的數(shù)據(jù)。在步驟604處,執(zhí)行面部檢測并且使用視頻幀來提取視頻特征。這可以包括例如電子裝置101的處理器120執(zhí)行面部檢測和視頻特征提取功能208,以便識別視頻幀204中包含人的面部的位置,并且基于面部檢測結(jié)果來提取面部特征或與視頻幀204相關(guān)聯(lián)的其他視頻特征。例如,視頻幀204可以被劃分為視頻幀204的集合,諸如視頻幀204的六秒集合或其他集合,并且視頻幀204的每個集合可以由面部檢測和行特征提取。[0072]在步驟606,從音頻數(shù)據(jù)中提取音頻特征的第一子集,并且在步驟608,從音頻數(shù)據(jù)中提取音頻特征的第二子集。這可以包括例如電子裝置101的處理器120執(zhí)行至少一個音頻特征提取功能210、210a-210b,以便提取與音頻數(shù)據(jù)206相關(guān)聯(lián)的音頻特征。例如,音頻特征的第一子集可以基于由音頻數(shù)據(jù)206定義的音頻波形,并且可以使用PyAudio分析或其他合適的信號分析來識別這些特征。此外,例如,可以使用預(yù)訓(xùn)練的音頻模型(諸如PSLA模型)來確定音頻特征的第二子集。[0073]在步驟610處,將所提取的視頻特征和所提取的音頻特征的子集提供給經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212。這可以包括例如電子裝置101的處理器120將視頻特征和音頻特征的第一子集提供給多模態(tài)變換器302,并且將音頻特征的第二子集提供給融合功能308。在步驟612,使用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212來執(zhí)行視頻特征和音頻特征的第一子集的融合。這可以包括例如電子裝置101的處理器120連接或以其他方式組合視頻特征和音頻特征的第一子集,并且使用一個或多個交叉模態(tài)變換器編碼器層304和一個或多個融合編碼器層306來處理融合的特征。多模態(tài)變換器302的最終輸出可以表示基于視頻特征和音頻特征的第一子集的經(jīng)處理的特征。[0074]在步驟614,執(zhí)行經(jīng)處理的特征和音頻特征的第二子集的融合。這可以包括例如電子裝置101的處理器120執(zhí)行融合功能308以連接或以其他方式組合經(jīng)處理的特征和音頻特征的第二子集。融合功能308的輸出可以表示基于視頻特征和音頻特征的兩個子集的編碼輸出。在步驟616,對編碼輸出進(jìn)行解碼以生成包含在視頻序列中的至少一個人的一個或多個預(yù)測的情緒214。一個或多個預(yù)測的情緒可以被稱為至少一個人的至少一個情緒的估計,因為至少一個情緒是從視頻序列202中包括的視頻幀204和音頻數(shù)據(jù)206估計的。這可以包括例如電子裝置101的處理器120使用解碼器310(諸如MLP解碼器)處理編碼輸出。解碼器310可以使用來自融合功能308的融合輸出來產(chǎn)生與視頻序列202相關(guān)聯(lián)的一個或多個預(yù)測的情緒214。一個或多個預(yù)測的情緒214可以被稱為至少一個情緒,因為至少一個情緒是從視頻序列202中包括的視頻幀204和音頻數(shù)據(jù)206預(yù)測的。[0075]在步驟618,可以以某種方式存儲、輸出或使用一個或多個預(yù)測的情緒214。一個或多個預(yù)測的情緒214的確切使用可以基于情況而變化。以上描述了示例應(yīng)用(諸如社交平臺情緒214可以以任何其它合適的方式用于任何其它合適的目的。[0076]盡管圖6示出了用于對視頻內(nèi)容中的情緒進(jìn)行多模態(tài)理解的方法600的一個示例,但是可以對圖6進(jìn)行各種改變。例如,雖然被示出為一系列步驟,但是圖6中的各種步驟可以[0077]在本公開中,方法600包括獲得602包括多個視頻幀204和音頻數(shù)據(jù)206的視頻序列202,提取604與多個視頻幀204中的至少一個面部相關(guān)聯(lián)的視頻特征和與音頻數(shù)據(jù)206相關(guān)聯(lián)的音頻特征,以及使用經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212處理視頻特征和音頻特征,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212執(zhí)行視頻特征和音頻特征的不同子集的多層融合,以便識別由視頻序列202中的至少一個人表達(dá)的至少一個情緒214。[0078]在本公開中,視頻特征和音頻特征的提取604包括提取604視頻特征,視頻特征的提取包括(i)將多個視頻幀204分割成多個視頻幀集合,(ii)在多個視頻幀集合中執(zhí)行面部檢測,以及(iii)基于面部檢測的結(jié)果處理多個視頻幀集合,以便識別與至少一個面部相關(guān)聯(lián)的視頻特征,以及提取606、608音頻特征。音頻特征的提取包括(i)處理音頻數(shù)據(jù)206以便識別與音頻數(shù)據(jù)206的波形相關(guān)聯(lián)的音頻特征的第一子集,以及(ii)使用預(yù)訓(xùn)練的音頻模型來處理音頻數(shù)據(jù)206以便識別音頻特征的第二子集。[0079]在本公開中,處理多個視頻幀集合以便識別視頻特征包括使用自我修復(fù)網(wǎng)絡(luò)(SCN)處理多個視頻幀集合,并且使用預(yù)訓(xùn)練的音頻模型處理音頻數(shù)據(jù)206包括使用預(yù)訓(xùn)[0080]在本公開中,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212包括被配置為接收和融合視頻特征和音頻特征的第一子集并生成多模態(tài)特征的至少一個交叉模態(tài)變換器編碼器層304、被配置為組合多模態(tài)特征的至少一個融合編碼器層306,以及被配置為解碼與音頻特征的第二子集融合的至少一個融合編碼器層306的輸出的多層感知器(MLP)解碼器層310。[0081]在本公開中,經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型212包括多模態(tài)變換器302,該多模態(tài)變換器302包括一個或多個交叉模態(tài)變換器編碼器層304和一個或多個融合編碼器層306,多模態(tài)變換器302的輸出與音頻特征的第二子集融合,并且視頻特征和音頻特征的第一子集通過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論