多模態(tài)深度學(xué)習(xí)_第1頁
多模態(tài)深度學(xué)習(xí)_第2頁
多模態(tài)深度學(xué)習(xí)_第3頁
多模態(tài)深度學(xué)習(xí)_第4頁
多模態(tài)深度學(xué)習(xí)_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多模態(tài)深度學(xué)習(xí)作者:日期:

MultimodalDeepLearning(多模態(tài)深度學(xué)習(xí))未完待續(xù)原創(chuàng)2016年06月22日08:53:40摘要:本文提出一種在深度網(wǎng)絡(luò)上的新應(yīng)用,用深度網(wǎng)絡(luò)學(xué)習(xí)多模態(tài)。特別的是,我們證明了跨模態(tài)特征學(xué)習(xí)——如果在特征學(xué)習(xí)過程中多模態(tài)出現(xiàn)工對(duì)于一個(gè)模態(tài)而言,更好的特征可以被學(xué)習(xí)(多模態(tài)上學(xué)習(xí),單模態(tài)上測(cè)試)。此外,我們展示了如何在多模態(tài)間學(xué)習(xí)一個(gè)共享的特征,并在一個(gè)特別的任務(wù)上評(píng)估它一類器用只有音頻的數(shù)據(jù)訓(xùn)練但是在只有視頻的數(shù)據(jù)上測(cè)試(反之亦然)。我們的模型在CUAVE和AVLetters數(shù)據(jù)集上進(jìn)行視-聽語音分類,證明了它在視覺語音分類(在AVLetters數(shù)據(jù)集上)和有效的共享特征學(xué)習(xí)上是已發(fā)表中論文中最佳的。1.介紹在語音識(shí)別中,人類通過合并語音-視覺信息來理解語音。視覺模態(tài)提供了發(fā)音地方和肌肉運(yùn)動(dòng)的信息,這些可以幫助消除相似語音(如不發(fā)音的輔音)的歧義。多模態(tài)學(xué)習(xí)包括來自多源的相關(guān)信息。語音和視覺數(shù)據(jù)在語音識(shí)別時(shí)在某個(gè)"中間層”是相關(guān)的例如音位和視位;未加工的像素是很難與語音波形或聲譜圖產(chǎn)生相關(guān)性的。在本文中,我們對(duì)"中間層”的關(guān)系感興趣,因此我們選擇使用語音-視覺分類來驗(yàn)證我們的模型。特別的是,我們關(guān)注用于語音識(shí)別的學(xué)習(xí)特征這個(gè)學(xué)習(xí)特征是和視覺中的唇形聯(lián)系在一起的。

全部任務(wù)可分為三部分-特征學(xué)習(xí)、有監(jiān)督訓(xùn)練和測(cè)試。用一個(gè)簡(jiǎn)單的線性分類器進(jìn)行有監(jiān)督訓(xùn)練和測(cè)試,以檢查使用多模態(tài)數(shù)據(jù)的不同的特征學(xué)習(xí)模型(eg:多模態(tài)融合、跨模態(tài)學(xué)習(xí)和共享特征學(xué)習(xí)...)的有效性。我們考慮三個(gè)學(xué)習(xí)布置——多模態(tài)融合、跨模態(tài)學(xué)習(xí)和共享特征學(xué)習(xí)。(如圖1所示)多模態(tài)融合:數(shù)據(jù)來自所有模態(tài),用于所有模態(tài)??缒B(tài)學(xué)習(xí):數(shù)據(jù)來自所有模態(tài),但只在某模態(tài)可用。共享特征學(xué)習(xí):訓(xùn)練和測(cè)試用的不同模態(tài)的數(shù)據(jù)。如果特征可以在跨不同模態(tài)下捕獲相關(guān)性,這會(huì)允許我們進(jìn)行評(píng)價(jià)。特別的是,學(xué)習(xí)這些布置可以使我們?cè)u(píng)估學(xué)到的特征是否具有模態(tài)不變性。FeatureLearningSupervisedTrainingTestingClassicDeepLearningAudioAudioAudioVideoVideoVideoMultimodalFusionA+VA+VA+VCrossModalityA+VVideoVideoLearningA+VAudioAudioSharedRepresentationA+VAudioVideoLearningA+VVideoAudioFigure1:MultimodalLearningsettingswhereA+VreferstoAudioandVideo.接下來,我們描述模型的構(gòu)造塊。然后,我們實(shí)現(xiàn)了不同的使用深度學(xué)習(xí)的多模態(tài)學(xué)習(xí)模型,這些模型可以實(shí)現(xiàn)不同的多模態(tài)任務(wù)。最后,我們展示實(shí)驗(yàn)結(jié)果和總結(jié)。2.背景

深度學(xué)習(xí)的當(dāng)前工作已經(jīng)測(cè)試了deepsigmoidalnetworks是如何被訓(xùn)練的,以產(chǎn)生有用的用于手寫數(shù)字識(shí)別和文本的特征。當(dāng)前工作的關(guān)鍵在于使用RBMs(RestrictedBoltzmannMachines)微調(diào)的進(jìn)行貪心的逐層訓(xùn)練。我們使用一個(gè)擴(kuò)展的稀疏RBMs,它學(xué)習(xí)到的特征對(duì)于數(shù)字和自然的圖像來說是有意義的特征。2.1稀疏RBMs為了正則化模型使其稀疏,我們讓每個(gè)隱藏層單元有一個(gè)使用了正則化懲罰的預(yù)先期望的激活函數(shù),這個(gè)正則化懲罰的形式是Wj(p-E陽時(shí)]))2.,其中{V】,…}是訓(xùn)練集,Q決定了隱藏層單元激活函數(shù)的稀疏性(就是隱藏層單元激活函數(shù)是否被激活)。3.學(xué)習(xí)結(jié)構(gòu)這部分描述我們的模型,用它來完成語音-視頻二模態(tài)的特征學(xué)習(xí)任務(wù)。輸入到模型里的語音和視頻是連續(xù)的音頻和視頻圖像。為了推出我們的深度自編碼模型,我們先描述一些簡(jiǎn)單的模型以及他們的缺點(diǎn)。(下面的都是預(yù)訓(xùn)練模型)I.RBM模型。用其分別訓(xùn)練語音和視頻,學(xué)習(xí)RBM之后,在v固定時(shí)得到的隱藏層值可以作為數(shù)據(jù)的一個(gè)新特征。我們將這個(gè)模型作為基準(zhǔn)來比較我們的多模態(tài)模型的結(jié)果,也可以將其用來預(yù)訓(xùn)練我們的深度網(wǎng)絡(luò)。HiddenUnitsHiddenHiddenUnitsOO…oS][oo…??rf■JI"OO二OO]loo-OOAudioInputVideoInput(a)AudioRBM(h)VideoRBMII.為了訓(xùn)練多模態(tài)模型,一個(gè)直接的方法是訓(xùn)練一個(gè)把語音和視頻數(shù)據(jù)連接在一起的RBM。雖然這個(gè)模型聯(lián)合了語音和視頻數(shù)據(jù)的分布,但它仍是一個(gè)淺層模型。語音和視頻數(shù)據(jù)之間的關(guān)聯(lián)是高度非線性的,RBM很難學(xué)習(xí)這些相關(guān)性形成多模態(tài)特征。事實(shí)上,我們發(fā)現(xiàn)在隱藏層單元學(xué)習(xí)到的淺層的二模態(tài)RBM結(jié)果與單模態(tài)下的值有很強(qiáng)的關(guān)聯(lián),但與跨模態(tài)下的值就沒有。ShaiedRepresentation.AudioInputVideoInput(c)ShallowBimodalRBMIII.因此,我們考慮在每個(gè)模態(tài)的預(yù)訓(xùn)練層貪婪的訓(xùn)練一個(gè)RBM,前面(,?"tShaiedRepresentation.AudioInputVideoInput(c)ShallowBimodalRBMDeepHiddenLay^t[oo…。。][c?!璫。AudioInputVideoInput(d)BimodalDBN然而,上述的多模態(tài)模型還有兩個(gè)問題。第一,沒有明確的目標(biāo)提供給模型去發(fā)現(xiàn)跨模態(tài)間的相關(guān)性;一些隱藏層單元只針對(duì)語音調(diào)整參數(shù),另一些只針對(duì)視頻調(diào)整參數(shù),這樣模型才有可能找到想要的特征。第二,在跨模態(tài)學(xué)習(xí)布置中只有一個(gè)模態(tài)用于監(jiān)督訓(xùn)練和測(cè)試,這樣的模型顯得很笨拙。只有一個(gè)模態(tài)呈現(xiàn),就要整合沒有觀察到的可見變量來推理。因此,我們提出解決以上問題的深度自編碼模型。我們首先考慮跨模態(tài)學(xué)習(xí)布置:特征學(xué)習(xí)過程中兩個(gè)模態(tài)都呈現(xiàn)了,但只有一個(gè)模態(tài)用于有監(jiān)督訓(xùn)練和測(cè)試。當(dāng)只給視頻數(shù)據(jù)時(shí),深度自編碼模型用于訓(xùn)練重建語音和視頻模態(tài)(圖3a)。我們用二模態(tài)的DBN(Deepbeliefnetwork瓶重(圖2d)去初始化深度自編碼模型。中間層可以作為新特征表示來用。這個(gè)模型可以看做多任務(wù)學(xué)習(xí)的一個(gè)實(shí)例。

VideoHecflnstniciionAudiuRecmiijtructiuiiAudioInputVidtuInputVideoHecflnstniciionAudiuRecmiijtructiuiiAudioInputVidtuInput(b)BimodalDeepAutoencoderVideoInput(a)Video-OnlyDeepAutoeneoderAndioRecunfitiuctiunVideuKecunstnictionFigureitDeepAutoeneoderModels.A''video-only^modelisshownin(a)wherethemodellearnstoreconstnictbothmodalitiesgivenonlyvide。astheinput.Asimilarmodelcanbedrawnforthe"audio-only1'setting.Wetrainthe(b)bimodaldeepautoeneoderinadonoisingfashion,usinganaugmenteddarasetwithexamplesLliatrequirethenetworktoreconstructbothmodalitiesgivenonlyone.Bothmodelsarepre-trainedusingsparseRBUm(Figure2d).Sinceweuseasigmoidtransferfunctionmthedeepnetwork,wecaninitializethenetworkusingtheconditionalprobabilitydistributionsp(h|vjandpivluofthelearnedRBM,我們?cè)诓贾弥惺褂脠D3a模型。另一方面,當(dāng)多模態(tài)適合任務(wù)時(shí),并不清楚如何使用模型針對(duì)每個(gè)模態(tài)進(jìn)行深度自編碼訓(xùn)練。一個(gè)直接的方法是訓(xùn)練解碼權(quán)重tied(這個(gè)我也不知道怎么理解)的網(wǎng)絡(luò)。但是,這樣的方法擴(kuò)展性不是很一如果在測(cè)試時(shí)我們?cè)试S任意模態(tài)相結(jié)合形成特征,我們將需要訓(xùn)練指數(shù)級(jí)數(shù)量的模型。受到降噪自編碼模型的啟發(fā),我們提出訓(xùn)練二模態(tài)深度自編碼模型(3b),它使用了一個(gè)擴(kuò)充(對(duì)單模態(tài)輸入的擴(kuò)充)但是有噪聲的數(shù)據(jù)集。實(shí)際上,我們擴(kuò)充時(shí)一個(gè)模態(tài)用全零作為輸入,另一個(gè)模態(tài)用原始值作為輸入,但是依舊要求模型重建這兩個(gè)模態(tài)。因此,三分之一的訓(xùn)練數(shù)據(jù)只有視頻作為輸入,三分之一的訓(xùn)練數(shù)據(jù)只有語音作為輸入,最后三分之一既有視頻又有語音

M/由于使用了稀疏RBMs進(jìn)行的初始化,我們發(fā)現(xiàn)就算深度自編碼訓(xùn)練之后,隱藏層單元還是有低期望激活函數(shù)。因此,當(dāng)一個(gè)輸入模態(tài)全設(shè)為零,第一層特征也接近于零。所以,我們本質(zhì)上訓(xùn)練了一個(gè)模態(tài)特別的深度自編碼網(wǎng)絡(luò)(3a)。當(dāng)某個(gè)模態(tài)輸入缺失時(shí),這個(gè)模型仍是魯棒的。M/4.實(shí)驗(yàn)和結(jié)果我們用分離字母和數(shù)字的語音-視頻分類來評(píng)估我們的模型。稀疏參數(shù)廣采用交叉核實(shí)來選擇,即其它所有參數(shù)都保持固定包括隱藏層大小和權(quán)重調(diào)整)。4.1數(shù)據(jù)預(yù)處理我們用時(shí)間導(dǎo)數(shù)的譜來表現(xiàn)語音信號(hào),采用PCA白化(就是歸一化)將483維減少到100維。對(duì)于視頻,我們預(yù)處理它以便于只提取嘴部的ROI(感興趣區(qū)域)。每個(gè)嘴部ROI都縮放到60*80,進(jìn)一步使用PCA白化減少到32維。我們用4幀連續(xù)視頻作為輸入,這近似于10幀連續(xù)的語音。對(duì)每個(gè)模態(tài),我們都在時(shí)間上進(jìn)行特征均值歸一化,類似于去除直流分量。我們也注意到在特征里增加時(shí)間導(dǎo)數(shù),這種用法在文獻(xiàn)里有很多,它有助于模擬不斷變化的語音信息。時(shí)間導(dǎo)數(shù)用歸一化線性斜率計(jì)算,所以導(dǎo)數(shù)特征的動(dòng)態(tài)范圍可以和原始信號(hào)媲美。4.2數(shù)據(jù)集和任務(wù)我們保證沒有測(cè)試集數(shù)據(jù)用于無監(jiān)督特征學(xué)習(xí)。所有的深度自編碼模型都用全部無標(biāo)簽的語音和視頻數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論