跨媒體檢索技術(shù)_第1頁
跨媒體檢索技術(shù)_第2頁
跨媒體檢索技術(shù)_第3頁
跨媒體檢索技術(shù)_第4頁
跨媒體檢索技術(shù)_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、跨媒體檢索技術(shù),摘要,摘要當(dāng)前多媒體信息檢索技術(shù)正從基于內(nèi)容特征相似性的單一媒體檢索發(fā)展到基于多種媒體綜合檢索,實現(xiàn)跨媒體信息檢索提出了多種跨媒體信息檢索的系統(tǒng)結(jié)構(gòu),在分析各種媒體信息檢索的基礎(chǔ)上,設(shè)計并實現(xiàn)跨媒體搜索引擎及其查詢分解策略和檢索結(jié)果融合方法等。 關(guān)鍵詞:多媒體;跨媒體;信息檢索;檢索機(jī)制,跨媒體檢索技術(shù),第一章 緒論 在數(shù)字信息時代,人們對信息的需求表現(xiàn)出前所未有的強(qiáng)烈。單一形式的傳播媒介不能滿足受眾的需求時,跨媒體傳播便應(yīng)運(yùn)而生了。由于新技術(shù)(尤其是網(wǎng)絡(luò)技術(shù))的迅速發(fā)展也為跨媒體傳播提供了必要的技術(shù)保障。 隨著媒體每時每刻滲入到人們生活每個角落,人類從來沒有感覺到媒介技術(shù)的力

2、量如此巨大,以至于它能極大地改變和影響著現(xiàn)代人的生活,各種媒體為了尋求更好的生存環(huán)境和發(fā)展它們必定之間會合作、共生、互動與協(xié)調(diào),這正是跨媒體傳播的市場動因。 傳媒一體化與合作化傾向正在成為歷史潮流??缑襟w傳播只是這種一體化與合作化的外部表象。許多傳媒巨子不僅插手各種傳播領(lǐng)域,也將傳播范圍覆蓋到全世界。澳大利亞的默多克新聞集團(tuán)、美國的CNN(美國有線電視新聞廣播公司),英國的BBC等都是世界上傳媒領(lǐng)域的大型“航空母艦”。在跨媒體傳播方面,它們是最早的實踐者,也是最大的受益者。 由于跨媒體的業(yè)務(wù)不斷地擴(kuò)張,基于跨媒體檢索的方法也越來越多,本文著重介紹基于內(nèi)容相關(guān)性的跨媒體檢索方法。,第二章 一種基

3、于內(nèi)容相關(guān)性的跨媒體檢索方法 跨媒體信息檢索系統(tǒng)結(jié)構(gòu)跨媒體是在多媒體的基礎(chǔ)上,利用各種媒體的形式和特征,對相同或相關(guān)的信息用不同的媒體表達(dá)形式進(jìn)行處理,由此而產(chǎn)生存儲、檢索和交換等活動.在跨媒體信息環(huán)境下,用戶提交一種媒體對象作為查詢示例,檢索系統(tǒng)不但可以返回相同種類的相似對象,而且還能返回不同種類的其他媒體對象,如利用圖像示例檢索語義相關(guān)的音頻或視頻片段等。 跨媒體信息檢索系統(tǒng)需要最大限度地挖掘不同媒體之間相互表達(dá)、相互補(bǔ)充的語義關(guān)聯(lián)性和協(xié)同效應(yīng),通過智能推理重構(gòu)和新生知識,構(gòu)建有效存儲、管理和檢索跨媒體信息的模型和系統(tǒng).跨媒體信息檢索的系統(tǒng)結(jié)構(gòu)如圖1所示,它包括跨媒體搜索引擎、跨媒體綜合處

4、理、數(shù)據(jù)存儲和用戶接口等模塊。,2.1 相關(guān)性介紹 相同語義、不同模態(tài)的媒體數(shù)據(jù)在底層特征上具有潛在相關(guān)性,例如,“松鼠”圖像的視覺特征和“松鼠”音頻的聽覺特征在統(tǒng)計意義上存在一定相互關(guān)聯(lián)。采用典型相關(guān)分析(Canonical Correlation Analysis CCA)方法挖掘這種不同模態(tài)之間的典型相關(guān)性。 兩個變量場與之間的相關(guān)性定義如下:設(shè)有個樣本、個變量組成的變量場,記為,另有個樣本、個變量組成的變量場,以最大限度地提取與之間相關(guān)性的主要特征為準(zhǔn)則,從中提取組合變量,從中提取組合變量,如下所示: (1) 其中, ,為空間特征向量,又稱為典型變量。按式(1)把具有較多個變量的變量場

5、與之間的相關(guān)化為較少組合變量與間的相關(guān),通過,的數(shù)值分布來確定與的空間相關(guān)分布形式, 而,的數(shù)值大小則表示了所對應(yīng)變量的重要程度。于是問題歸結(jié)為如何求解典型變量,。定義相關(guān)系數(shù)為,在式(3)的約束下,使相關(guān)系數(shù)最優(yōu)化,(2) (3) 其中式(2)的表示和構(gòu)成的協(xié)方差矩陣。結(jié)合式(2)和(3),使用拉格朗日乘子法可以得到,即將最優(yōu)化問題轉(zhuǎn)換為形如的特征根問題,并進(jìn)一步根據(jù)式(1)得到最小變量組合,以最大限度地揭示,之間的相關(guān)性。,2.2 同構(gòu)子空間的映射 給定多個語義類別的圖像和音頻作為訓(xùn)練數(shù)據(jù),設(shè)已知語義類別的個數(shù)為,未知每幅圖像和每段音頻例子與語義類別之間的所屬關(guān)系,可以采用如下所示的半監(jiān)督

6、式相關(guān)性保持映射方法構(gòu)建同時容納圖像和音頻對象的同構(gòu)子空間。 半監(jiān)督式相關(guān)性保持映射。 1、對每個語義類別,隨機(jī)選擇一些圖像和音頻進(jìn)行語義標(biāo)注; 2、分別求出,聚類質(zhì)心,; 3、分別以,為初始質(zhì)心對圖像數(shù)據(jù)集和音頻數(shù)據(jù)集進(jìn)K-Means聚類; 4、聚類結(jié)果中與初始聚類質(zhì)心劃分到相同類別的圖像被賦予與相同的語義; 5、聚類結(jié)果中與初始聚類質(zhì)心劃分到相同類別的音頻被賦予與相同的語義; 6、對每個語義類別中所有圖像和音頻數(shù)據(jù)提取視覺特征矩陣X和聽覺特征矩陣Y,計算X,Y之間的典型變量,以此為基向量映射得到低維子空間。 上述方法在只對少量圖像和音頻數(shù)據(jù)進(jìn)行語義 標(biāo)注的情況下,通過K-Means聚類劃分

7、語義類別,分別求取每個類別的視覺和聽覺典型變量,將典型變量映射得到的子空間命名為CCA子空間。,2.3 CCA子空間中的跨媒體檢索 2.3.1不同模態(tài)間的相關(guān)性度量 設(shè)表示初始的視覺特征向量, 表示初始的聽覺特征向量。經(jīng)過半監(jiān)督式的相關(guān)性保持映射后生成大量復(fù)數(shù),定義經(jīng)過子空間映射后的向量為,同理可得對應(yīng)CCA子空間中的映射結(jié)果。由于存在大量復(fù)數(shù)而無法直接在CCA子空間S*中計算距離,因此,將子空間中每一維上的坐標(biāo)值轉(zhuǎn)換為極坐標(biāo)形式: (4) 對也用式(4)的方法進(jìn)行變換,則圖像和音頻之間的距離定義為每一維上極坐標(biāo)距離的平方和的2次方根,即 (5) 從而,對于用戶提交的圖像查詢例子R,可以采用計

8、算子空間中圖像與音頻對象之間的距離以衡量跨媒體相關(guān)性大小。然而,由于語義鴻溝的存在, 子空間的映射過程雖然保留了視覺和聽覺特征間的典型相關(guān)性,但是的計算結(jié)果不能準(zhǔn)確反映整個數(shù)據(jù)集范圍內(nèi)的跨媒體語義關(guān)系。因此,需要對的結(jié)果進(jìn)行修正,定義修正后的跨媒體相關(guān)性為 (6),其中修正因子,表示子空間中不同模態(tài)樣本之間與真實的跨媒體語義關(guān)系之間的差值。 初始化為0,并在基于增量學(xué)習(xí)的相關(guān)反饋過程中通過提取用戶交互中的先驗知識進(jìn)行更新。 2.3.2基于增量學(xué)習(xí)的相關(guān)反饋 相關(guān)反饋方法的使用可以結(jié)合用戶的感知先驗知識,以修正查詢向量和整個數(shù)據(jù)集的拓?fù)潢P(guān)系,從而提高查詢效率?;谠隽繉W(xué)習(xí)的跨媒體相關(guān)反饋作用于子

9、空間,而不是初始的視覺和聽覺特征空間。因此,子空間中數(shù)據(jù)集的分布關(guān)系直接影響反饋算法的設(shè)計和效率。子空間是基于相關(guān)性保持映射而得到的,這種相關(guān)性保持特性使得圖像和音頻數(shù)據(jù)在子空間中形成一定的聚類效果,因此我們有如下假設(shè): 假設(shè),在子空間中,相似語義、相同模態(tài)的媒體對象分布在比較集中的區(qū)域。基于上述假設(shè),以增量學(xué)習(xí)方式傳播相關(guān)反饋中的跨媒體語義信息,修正圖像和音頻數(shù)據(jù)集在子空間中的拓?fù)浣Y(jié)構(gòu),同時更新修正因子的取值,使得式(6)的計算結(jié)果更準(zhǔn)確地反映圖像和音頻對象在語義上的跨媒體相關(guān)程度。設(shè)R為提交的圖像查詢例子,用戶對返回的音頻例子進(jìn)行評判。得到音頻正例集合P和音頻負(fù)例集合N,相關(guān)反饋,2.3.

10、3 新媒體對象在CCA子空間中的定位 為了實現(xiàn)“新”媒體對象在子空間中的定位,需要結(jié)合用戶反饋中的先驗知識。設(shè)“新”媒體對象為Z,如果可以準(zhǔn)確計算出Z的坐標(biāo),則以Z為查詢例子的跨媒體檢索可以用上述方法實現(xiàn)3。Z的坐標(biāo)的計算如下: (1)提取Z的底層特征,使用歐氏距離,檢索與Z同模態(tài)的媒體對象數(shù)據(jù)庫,找到Z的K-近鄰作為返回結(jié)果; (2)用戶標(biāo)注兩個反饋正例,設(shè) 的坐標(biāo)表示為, 則Z的坐標(biāo)為,其中。 此外,還可以根據(jù)反饋正例對應(yīng)的典型變量實現(xiàn)Z的子空間坐標(biāo)映射。,2.4 實驗結(jié)果與分析 為了驗證上述算法的有效性,我們在Win XP下用VC6。0實現(xiàn)了一個原型系統(tǒng),支持圖像和音頻間的跨媒體檢索。實

11、驗數(shù)據(jù)集包括10個語義(鳥類、狗、汽車、爆炸、老虎、飛機(jī)等等)的多媒體對象,每個語義類別中分別有100幅圖像和70段音頻數(shù)據(jù),其中60幅圖像和60段音頻例子作為訓(xùn)練數(shù)據(jù),其余共400幅圖像和100段音頻數(shù)據(jù)作為“新”媒體對象。 以下實驗結(jié)果中的“平均”是指分別在每個語義類別中隨機(jī)選擇了10個不同的查詢例子,得到檢索結(jié)果的平均值。 2.4.1 不同方法得到的跨媒體檢索結(jié)果 為驗證本文方法對圖像和音頻兩種不同模態(tài)之間跨媒體檢索的有效性,實驗根據(jù)視覺和聽覺的方法分析視覺特征和聽覺特征之間的典型相關(guān)性,并提取典型變量,映射得到保持相關(guān)性的子空間,用式(5)計算圖像和音頻在子空間中的距離,得出在沒有相關(guān)

12、反饋情況下的跨媒體檢索結(jié)果。 實驗與傳統(tǒng)的PCA、ICA和PLS方法做了對比,分別用這三種方法通過相同的降維映射步驟實現(xiàn)跨媒體檢索,過程如下:,(1)計算視覺特征矩陣的子空間基向量,映射得到子空間S1; (2)同樣將聽覺特征向量都映射到與S1相同維數(shù)的子空間S2中; (3)根據(jù)圖像和音頻在S1,S2中的坐標(biāo)計算兩者間的歐氏距離,以度量跨媒體相關(guān)性從而實現(xiàn)檢索。 圖1列出了本文的方法與傳統(tǒng)PCA,ICA以及PLS方法得到的跨媒體檢索結(jié)果,其中查準(zhǔn)率和查全率采用與基于內(nèi)容的圖像檢索在性能檢測時相同的方法計算。,圖1中的結(jié)果是以圖像為查詢例子檢索音頻和以音頻為查詢例子檢索圖像得到的平均值??梢?在選

13、擇相同的視覺和聽覺特征作為輸入的情況下,本文方法優(yōu)于傳統(tǒng)的PCA,ICA和PLS方法。這是因為典型變量的計算過程是根據(jù)視覺和聽覺特征的協(xié)方差矩陣分析潛在的跨媒體相關(guān)性信息,從而映射得到的子空間可以更好地反映高層的語義關(guān)系;而傳統(tǒng)的PCA,ICA和PLS方法雖然已證明在處理單一模態(tài)的特征矩陣時十分有效,但是難以挖掘兩種不同的特征矩陣之間的潛在關(guān)聯(lián)。 圖2是一個具體的跨媒體檢索例子,其中輸入為一段5.3s的汽車音頻,系統(tǒng)根據(jù)本文的方法計算相關(guān)性大小(見圖2中每幅圖像下方的數(shù)字),并返回前15個相似圖像??梢?返回結(jié)果中有12幅圖像與音頻查詢例子描述了相同語義。,圖1沒有相關(guān)反饋時的跨媒體檢索結(jié)果對

14、比,圖2 以汽車的音頻為查詢例子返回的相似圖像,2.4.2相關(guān)反饋對跨媒體檢索性能的改善 實驗在每輪反饋時分別提供2個反饋正例和2個反饋負(fù)例,并設(shè)定基于增量學(xué)習(xí)的相關(guān)反饋算法中參數(shù)為: (7) 由于在新一輪反饋之后的值隨著的改變而更新(見第4節(jié)中式(6),因此參數(shù)可以根據(jù)不同的反饋情況而動態(tài)更新。 圖3顯示了當(dāng)返回結(jié)果個數(shù)固定為15時,隨著相關(guān)反饋中用戶交互的不斷融入,返回結(jié)果中正確結(jié)果個數(shù)的變化過程,包括以音頻為查詢例子檢索圖像(I-by-A)和以圖像為查詢例子檢索音頻(A-by-I)兩部分??梢钥吹?經(jīng)過兩次相關(guān)反饋I-by-A和A-by-I得到的正確結(jié)果個數(shù)分別比反饋之前提高了44.9%

15、和24.2%,當(dāng)反饋次數(shù)大于等于3時,跨媒體檢索結(jié)果趨于穩(wěn)定。由此可見,本文的方法能夠快速學(xué)習(xí),并修正圖像與音頻數(shù)據(jù)集的拓?fù)浣Y(jié)構(gòu),從而有效地提高跨媒體檢索效率。,2.4.3 相關(guān)性保持映射對單模態(tài)數(shù)據(jù)的聚類檢測 上述跨媒體檢索結(jié)果反映的是全局范圍上圖像和音頻數(shù)據(jù)集之間的拓?fù)潢P(guān)系,而在子空間中的單模態(tài)檢索效率則取決于相關(guān)性保持映射得到的局部(即圖像數(shù)據(jù)集內(nèi)部和音頻數(shù)據(jù)集內(nèi)部)聚類效果。全局?jǐn)?shù)據(jù)關(guān)系和局部數(shù)據(jù)關(guān)系在一定程度上相互影響,因此,單模態(tài)檢索雖然不是本文的研究重點,但是為保持實驗的完整性,除了驗證全局意義上跨媒體檢索的有效性之外,實驗還從局部意義上說明了跨媒體檢索可達(dá)到較好檢索性能的原因。

16、 圖4顯示了在相關(guān)性保持映射得到的CCA子當(dāng)返回結(jié)果個數(shù)為35時,圖像檢索和音頻檢索結(jié)果。,第三章 其他的跨媒體檢索方法,3.1 基于語義的跨媒體信息檢索技術(shù) 多媒體信息檢索的傳統(tǒng)方法是基于文本描述的,包括各種媒體的屬性關(guān)鍵字和人工標(biāo)注.但是,多媒體信息包含豐富的感知特征,這些感知信息難以用文本反映出來.于是,基于內(nèi)容的多媒體檢索技術(shù)應(yīng)運(yùn)而生,它們的研究主要集中在通過使用一些低層感知特征對多媒體內(nèi)容建立索引,從而進(jìn)行樣例相似度檢索. 基于內(nèi)容的跨多媒體檢索已獲得一定成功,同時也可以應(yīng)用到跨媒體信息檢索中,但是多媒體信息中包含了豐富的圖像、視頻和音頻等不同模態(tài)的媒體,且相互間具有語義關(guān)聯(lián).那么,

17、是否可以通過語義關(guān)聯(lián)來更好的跨越不同媒體之間存在的界限,使用戶只需提交一種媒體的示例就能檢索到想要的其他類型的媒體呢? 主要的媒體語義檢索技術(shù)包括:圖像語義檢索、視頻語義檢索、音頻語義檢索。 3.2 一種支持海量跨媒體檢索 隨著Internet和多媒體技術(shù)的不斷發(fā)展,特別是近幾年來,Internet上多媒體信息的爆炸性增長,基于內(nèi)容的海量多媒體檢索成為一個熱門的研究領(lǐng)域。,結(jié) 論 應(yīng)對社會經(jīng)濟(jì)、政治的需要,越來越多的新型傳播媒體將不斷涌上歷史的舞臺?;仡櫼幌滦畔鞑サ臍v史,我們可以看到:從最原始的口頭傳播,到文字的形成、印刷術(shù)的發(fā)明,直到今天琳瑯滿目的電子傳播媒介,這是一個非常漫長的歷史發(fā)展過

18、程。而如今,隨著越來越多的傳統(tǒng)媒體在網(wǎng)絡(luò)上開辟出自己的天地,這兩者之間的關(guān)系找到了新的突破口。無論是傳統(tǒng)媒體互相整合成為新興的媒體集團(tuán),還是傳統(tǒng)媒體創(chuàng)辦新媒體,都預(yù)示著“跨媒體”已經(jīng)成為中國媒體尋求發(fā)展的敲門磚。,參考文獻(xiàn): 1 蔡平,王志強(qiáng),傅向華.基于語義的跨媒體信息檢索技術(shù)研究 J.微電子與計算機(jī),2010-03: 2 莊 毅. 一種支持海量跨媒體檢索的集成索引結(jié)構(gòu)J.軟件學(xué)報,2008,19(10):2667-2680. 3 張 鴻,吳 飛,莊越挺,陳建勛. 一種基于內(nèi)容相關(guān)性的跨媒體檢索方法J.計算機(jī)學(xué)報,2008,31(5):820-826. 4 胡 濤,武港山,吉亮.基于Ontology的跨媒體檢索技術(shù).計算機(jī)工程2009,35(8):266-268. 5 馬修軍.多媒體數(shù)據(jù)庫與內(nèi)容檢索M.北京:北京大學(xué)出版社,2007.7. 6 Snoek C G M, Worring M, Geusebroek J M. Semantic video search engine Proceedings of the TRECVID Workshop. Gaithersburg, U

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論