視頻多模態(tài)融合_第1頁(yè)
視頻多模態(tài)融合_第2頁(yè)
視頻多模態(tài)融合_第3頁(yè)
視頻多模態(tài)融合_第4頁(yè)
視頻多模態(tài)融合_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、幀(Farme):幀是視頻數(shù)據(jù)流中的基本組成單元每一幀均可看成一個(gè)獨(dú)立的圖像。視頻數(shù)據(jù)流就是由這些連續(xù)的圖像幀構(gòu)成的在PAL視頻格式中,視頻采樣率為25幀/秒,在NTSC視頻格式中,視頻采樣率為30幀/秒。鏡頭(Shot):鏡頭是攝像機(jī)拍下的不間斷的幀序列,是視頻數(shù)據(jù)流進(jìn)一步結(jié)構(gòu)化的基礎(chǔ)結(jié)構(gòu)層。關(guān)鍵幀(KeyFarme):關(guān)鍵幀是可以用來代表鏡頭內(nèi)容的圖像。在切分出鏡頭結(jié)構(gòu)以后,關(guān)鍵幀就被用來表示各個(gè)鏡頭的底層特征,從而進(jìn)行進(jìn)一步的視頻結(jié)構(gòu)化。在一個(gè)視頻鏡頭中,一般關(guān)鍵幀的數(shù)目要遠(yuǎn)遠(yuǎn)小于鏡頭所包含的圖像幀數(shù)目。場(chǎng)景(Secne):語(yǔ)義上相關(guān)和時(shí)間上相鄰的若干組鏡頭組成了一個(gè)場(chǎng)景,場(chǎng)景是視頻所蘊(yùn)

2、涵的 高層抽象概念和語(yǔ)義表達(dá)。組(Gmup :組是介于視頻鏡頭和語(yǔ)義場(chǎng)景之間的結(jié)構(gòu)。例如:一段采訪錄像,鏡頭在主持人與被采訪者之間頻繁切換,整個(gè)采訪過程屬于一個(gè)場(chǎng)景,而那些關(guān)于主 持人的所有鏡頭屬于一組,關(guān)于被采訪者的所有鏡頭屬于另外一組。連續(xù)視頻數(shù)據(jù)流(圖像幀)鏡頭邊緣檢測(cè)視頻鏡頭視頻幀圖2.1視頻數(shù)據(jù)結(jié)構(gòu)化流程視頻鏡頭邊緣檢測(cè)視頻可以看作是一系列時(shí)間上相互依賴的圖像幀組成的數(shù)據(jù)流。通常而言,在視頻情節(jié)內(nèi)容 發(fā)生變化時(shí),會(huì)出現(xiàn)鏡頭切換,從一個(gè)鏡頭內(nèi)容轉(zhuǎn)移到另外一個(gè)鏡頭內(nèi)容。視頻蘊(yùn)涵有豐富的視覺、聽覺和字幕信息,所以這些底層特征可以是顏色、紋理、形狀、音 調(diào)和文本等,然后可以采用單模態(tài)分析方法

3、,即只使用一種模態(tài)信息進(jìn)行處理,或是采用多模 態(tài)分析方法,即同時(shí)使用兩種或是兩種以上的模態(tài)信息進(jìn)行處理?;谶@些提取的底層特征 我們可以將視頻片段索引到相關(guān)的語(yǔ)義概念上例如,汽車、冰球、海灘、采訪等場(chǎng)景。目前 多數(shù)實(shí)驗(yàn)結(jié)果表明,多模態(tài)視頻融合分析能夠產(chǎn)生有效的視頻索引,方便視頻片段的分類。魯棒是Robust的音譯,也就是健壯和強(qiáng)壯的意思。它是在異常和危險(xiǎn)情況下系統(tǒng)生存的關(guān) 鍵。比如說,計(jì)算機(jī)軟件在輸入錯(cuò)誤、磁盤故障、網(wǎng)絡(luò)過載或有意攻擊情況下,能否不死機(jī)、 不崩潰,就是該軟件的魯棒性。所謂“魯棒性”,是指控制系統(tǒng)在一定(結(jié)構(gòu),大小)的參數(shù)攝動(dòng)下,維持其它某些性能的特性視頻數(shù)據(jù)融合分析實(shí)時(shí)地通過語(yǔ)

4、義訪問多模態(tài)視頻數(shù)據(jù)庫(kù)有著廣泛的應(yīng)用前景這就需要人們關(guān)注視頻片段的自動(dòng)索引。視頻數(shù)據(jù)分析方法是按照如下步驟進(jìn)行的:首先,從原始的視頻數(shù)據(jù)流中提取一系列底層特征因?yàn)橐曨l蘊(yùn)涵有豐富的視覺、聽覺和字幕信息, 所以這些底層特征可以是顏色、紋理、形狀、音調(diào)和文本等,然后可以采用單模態(tài)分析方法, 即只使用一種模態(tài)信息進(jìn)行處理或是采用多模態(tài)分析方法,即同時(shí)使用兩種或是兩種以上 的模態(tài)信息進(jìn)行處理。基于這些提取的底層特征我們可以將視頻片段索引到相關(guān)的語(yǔ)義概 念上,例如,汽車、冰球、海灘、采訪等場(chǎng)景。目前多數(shù)實(shí)驗(yàn)結(jié)果表明,多模態(tài)視頻融合 分析能夠產(chǎn)生有效的視頻索引,方便視頻片段的分類。一種簡(jiǎn)單的多模態(tài)融合分析方

5、法是,分別對(duì)單個(gè)模態(tài)的數(shù)據(jù)進(jìn)行處理分析,然后綜合得到的分析結(jié)果。方法已經(jīng)產(chǎn) 生了良好的實(shí)驗(yàn)結(jié)果,但是這些方法缺少擴(kuò)展性和魯棒性,而且在理論上也存在著兩個(gè)基本的問題:一是哪些模態(tài)信息對(duì)于視頻融合分析最為有益?二是 如何選擇性地融合這些最優(yōu)的模態(tài)信息?為了解決這兩個(gè)問題,文獻(xiàn)【23中,作者使用pAC)和獨(dú)立成分分析(Independentoc哪onent劫 alysis,I以)方法,完成對(duì)視頻的融合分析。他們提供了一個(gè)獨(dú)立模態(tài)信息的分析方法,從原始的底層特征中提取了最優(yōu)的模態(tài)信息。一 旦獨(dú)立的模態(tài)信息被定義以后,研究的第二步就是如何選擇一種最優(yōu)的方法來融合這些模態(tài) 信息,以方便視頻數(shù)據(jù)的后期處理,

6、例如,視頻鏡頭的分類。假設(shè)我們得到的是真正的獨(dú)立模態(tài)特征,并且每個(gè)模態(tài)特征都能為類別的預(yù)測(cè)提供準(zhǔn)確 的后驗(yàn)概率,那么我們只要簡(jiǎn)單地使用產(chǎn)品合成規(guī)則(Prdouct 一 CombinatinoRule)就可以計(jì) 算特征信息與預(yù)測(cè)類別之間的相關(guān)概率。但是上述兩個(gè)條件在大多數(shù)視頻數(shù)據(jù)的分析任務(wù) 中并不存在,所以,采用產(chǎn)品合成規(guī)則并不合適。另外一個(gè)比較通用的融合方法是使用權(quán)重加和規(guī)則Weihgtde 一 SumRul。),這種方法將各種 模態(tài)特征線性地融合在一起。權(quán)重加和規(guī)則的優(yōu)點(diǎn)在于簡(jiǎn)單,但它線性的約束條件不允許這 種方法在高維復(fù)雜的模態(tài)信息中被使用,因此它不能在PCA和ICA提取的模態(tài)特征中挖掘相

7、 互依賴的信息。23中者最后使用超核融合(sPuer KemelFusoin)算法將那些獨(dú)立的模態(tài)特征非線性地融合在一 起,其中線性融合將作為上述方法中的一種特殊情況。這雖然PCA和ICA兩種方法并不能保證在高維的模態(tài)信息中發(fā)現(xiàn)真正獨(dú)立的模態(tài)特征。所以,本文將采用支持向量聚類(uspportveoctrClusertnig,sVO的方法來完成獨(dú)立模態(tài)特征的選 取,并通過基于統(tǒng)計(jì)的最大信息嫡(MxanilumEnir叩y,ME)方法來最優(yōu)化地融合所提取的模態(tài) 信息。我們使用isoMAP和支持向量機(jī)聚類(SVC)相結(jié)合的方法對(duì)原始的多模態(tài)特征進(jìn)行分析,發(fā)現(xiàn) 其中的獨(dú)立模態(tài)特征。然后使用最大嫡(Mx

8、amiumEniorpy)模型對(duì)這些獨(dú)立模態(tài)特征進(jìn)行最優(yōu)化融合。第三章視頻的多模態(tài)融合分析利用視頻的多模態(tài)特征,獲取數(shù)據(jù)流中的語(yǔ)義信息已經(jīng)成為研究熱點(diǎn)。由于視頻蘊(yùn)涵有多種 內(nèi)容豐富的模態(tài)信息,融合分析視頻中的多模態(tài)特征將有助于我們對(duì)視頻的語(yǔ)義理解。傳統(tǒng)的視頻多模態(tài)融合分析大多是基于先驗(yàn)知識(shí)的它們?nèi)狈ψ銐虻睦碚搧?解決兩個(gè)基本的問題一是哪些模態(tài)信息對(duì)于視頻融合分析最為有益?二是如何選擇性地融合這些最優(yōu)的模態(tài)信息?我們使用isoMAP和支持向量機(jī)聚類(SVC)相結(jié)合的方法對(duì)原始的多模態(tài)特征進(jìn)行分析,發(fā)現(xiàn) 其中的獨(dú)立模態(tài)特征。多模態(tài)特視頻可以從視覺、聽覺和文本等通道中提取多模態(tài)特征。視頻的視覺特征包

9、括圖像的顏色特征、 紋理特征、鏡頭運(yùn)動(dòng)和人臉特征等,聽覺特征包括有音調(diào)特征、重要停頓等,文本特征則包括有轉(zhuǎn)錄文本、視 頻字幕等。多模態(tài)的識(shí)別而是使用基于ISOMAP非線性降維和支持向量機(jī)聚類SVC來對(duì)原始特征進(jìn)行降維和獨(dú)立模態(tài) 數(shù)目D的發(fā)現(xiàn)。獨(dú)立模態(tài)發(fā)現(xiàn)該算法用于將m維多模態(tài)特征轉(zhuǎn)換成K個(gè)獨(dú)立的模態(tài)。假設(shè)我們?cè)诳臻gX中給定一組m維 的點(diǎn)集(每個(gè)數(shù)據(jù)點(diǎn)表示一個(gè)訓(xùn)練樣本),那么,獨(dú)立模態(tài)發(fā)現(xiàn)算法就是把空間X分割成K個(gè)子 空間,每個(gè)子空間可以看作一個(gè)獨(dú)立的模態(tài)。從視頻數(shù)據(jù)中提取的多模態(tài)原始特征可以看作是在高維空間X中一些數(shù)據(jù)點(diǎn)。由于原 始多模態(tài)特征的維數(shù)很大,我們必須采用一個(gè)有效的維數(shù)約減算法來避免

10、維數(shù)災(zāi)難問題。 SIOMoP可以對(duì)高維數(shù)據(jù)進(jìn)行非線性降維,同時(shí)還保留了經(jīng)典的維數(shù)約減算法中的主要優(yōu)點(diǎn)。 SIOMAP保證覆蓋了高維原始特征空間中的所有真實(shí)維數(shù)和JL何結(jié)構(gòu),因此,SIOMAP更加適合 對(duì)高維視頻多模態(tài)原始特征進(jìn)行維數(shù)約減。通過sIOMAP對(duì)高維原始特征空間X進(jìn)行維數(shù)約減得到新的特征空間y,但是空間y 的維數(shù)仍然較高,所以,我們還可以通過支持向量機(jī)聚類算法(SVC)對(duì)空間Y進(jìn)行分割, 得到K個(gè)維數(shù)更小的相對(duì)獨(dú)立的空間。然后(其中包含有審計(jì)融合,加權(quán)融合)使用最大嫡MxamiumEniorpy)模型對(duì)這些獨(dú)立模態(tài) 特征進(jìn)行最優(yōu)化融合。多模態(tài)的融合得到了 D個(gè)不同的模態(tài),并且己經(jīng)為每

11、一個(gè)模態(tài)訓(xùn)練了一個(gè)單獨(dú)的分類器那么現(xiàn)在的任務(wù)就 是選擇一種合適的方法對(duì)這D個(gè)分類器的結(jié)果進(jìn)行融合。基于最大嫡的多模態(tài)分析出了一種基于最大嫡模型對(duì)視頻進(jìn)行多模態(tài)融合分析的算法。該算法針對(duì)不同的模態(tài),用最大嫡原理發(fā)掘不同模態(tài)之間的相關(guān)性,并對(duì)此進(jìn)行最優(yōu)化融合。視頻多模態(tài)原始特征獨(dú)立模態(tài)模態(tài)1 2。K多模態(tài)融合多模態(tài)融合分類器實(shí)驗(yàn)分析原始的多模態(tài)特征集小于isomap略小于采用獨(dú)立模態(tài)特征集小于當(dāng)ISomap在采用向量聚類首先,針對(duì)視頻的多模態(tài)特征,本文提出了一種新的視頻多模態(tài)融合分析機(jī)制,用于完 成對(duì)視頻鏡頭的檢測(cè)和分類,主要包含以下幾個(gè)新特點(diǎn):提出了一種全新的獨(dú)立模態(tài)發(fā)現(xiàn)算法。用流型算法(SIOMAP)對(duì)從視頻鏡頭中提取的多模態(tài)高維特征向量進(jìn)行非線性降維,然后使用支持向量機(jī)(S叩portVe以。Clusertnig,SVC)對(duì)降維后的特征向量進(jìn)行聚類,發(fā)現(xiàn)有效的獨(dú)立模態(tài)。.提出了一種基于最大嫡模型對(duì)視頻進(jìn)行多模態(tài)融合分析的算法。該算法針對(duì)不同的 模態(tài),用最大嫡原理發(fā)掘不同模態(tài)之間的相關(guān)性,并對(duì)此進(jìn)行最優(yōu)化融合。在第四章中,我們提出了一種基于轉(zhuǎn)錄文本的視頻語(yǔ)義自動(dòng)標(biāo)注算法。人們通常使用手 工方式對(duì)視頻數(shù)據(jù)進(jìn)行文本標(biāo)注,以支持基于語(yǔ)義的視頻管理與檢索。隨著視頻數(shù)據(jù)庫(kù)的不 斷增大,手工

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論