多媒體內(nèi)容分析與檢索技術PPT課件_第1頁
多媒體內(nèi)容分析與檢索技術PPT課件_第2頁
多媒體內(nèi)容分析與檢索技術PPT課件_第3頁
多媒體內(nèi)容分析與檢索技術PPT課件_第4頁
多媒體內(nèi)容分析與檢索技術PPT課件_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、.,1,多媒體分析與檢索技術 Multimedia Analysis and Retrieval Technology,注:本講內(nèi)容參考了北京大學數(shù)字媒體研究所數(shù)字媒體技術基礎課件,數(shù)字媒體技術基礎第五講(8課時),.,2,課程內(nèi)容及安排,第一部分:數(shù)字媒體導論 第二部分:數(shù)字媒體基礎 數(shù)字彩色圖像基礎 圖像/視頻處理基礎 第三部分:數(shù)字媒體關鍵技術 多媒體壓縮編碼技術 多媒體分析與檢索技術 多媒體通信技術 數(shù)字版權管理技術,.,3,教學目標,通過本章的學習,掌握“多媒體分析與檢索”這一多媒體領域最活躍研究方向的基本研究問題和方法,及其最新進展。 ACM Multimedia ACM ICMR

2、 ICME MMM ICIMCS ICCV CVPR ICIP ICPR,.,4,教學內(nèi)容,多媒體檢索概論(2) 基于內(nèi)容的圖像分析與檢索(CBIR)(2) 視頻分析與檢索(3) 音頻分析與檢索(1),.,5,一、多媒體檢索概論,.,6,Internet Videos, Images, Audio, Flash, Aminations,Local Videos, Images,如何從如此海量的多媒體數(shù)據(jù)中定位到你所感興趣的信息?,How to effectively organize, manage, browse, retrieve?,Image/Video indexing should

3、be analogous to text document indexing,Multimedia Analysis and Retrieval,.,7,引言,“多媒體搜索引擎” 可以搜索多媒體文檔的搜索引擎 多媒體文檔: 可包含多種模態(tài),如文本、圖像、視頻、音頻等 廣義的:可以搜索非文字信息的搜索引擎 “視/聽覺”信息,.,8,多媒體文檔的特點,多媒體文檔包含豐富的非文字信息,.,9,多媒體文檔的特點,關鍵字對應的非文字信息可能過于寬泛,麥浪滾滾,.,10,多媒體檢索概念,提供多媒體的查詢輸入 可以方便地輸入多媒體和文字查詢 對多媒體文檔進行多媒體索引 特征索引:文本特征(字、詞、短語)、視

4、覺特征(顏色直方圖、Gabor紋理、形狀特征、)、音頻特征(音高、音調(diào).) 語義索引:元數(shù)據(jù)、概念、事件 提供多媒體的結果顯示 直觀地展示多媒體和文字信息 直觀地展示深層信息 跨文檔綜合(多媒體和文字信息) 方便瀏覽大量文檔,.,11,如何檢索?,.,12,檢索方法1:基于文本(QBT),關鍵問題:如何獲得關鍵字標注? 方法1:手工標注 工作量巨大-不可行! 即使對同一幅圖像,不同的人有不同的描述 方法2:自動標注 各種機器學習的算法 性能不佳:只能提取少數(shù)概念,準確率也低(30%),.,13,檢索方法1:基于文本(QBT),關鍵問題:如何獲得關鍵字標注? 方法3:元數(shù)據(jù)分析-URL、鏈接文字

5、、標題、關聯(lián)頁面,Meta-data 元數(shù)據(jù),東北虎:5 老虎:3 動物:2 中國:1 俄羅斯:1 長白山:1 。,.,14,檢索方法1:基于文本(QBT),關鍵問題:如何獲得關鍵字標注? 方法3:元數(shù)據(jù)分析-URL、鏈接文字、標題、關聯(lián)頁面 問題:元數(shù)據(jù)不一定與多媒體文檔內(nèi)容相關,沒有元數(shù)據(jù)或不完整!,元數(shù)據(jù)與圖像內(nèi)容不相關!,.,15,檢索方法1:基于文本(QBT),關鍵問題:如何獲得關鍵字標注? 方法4:網(wǎng)絡標注(Social tagging/Folksonomy) 向普通用戶提供上載和分享平臺 鼓勵所有用戶對上載的文檔進行評論和標注 這些評論和標注是直接針對文檔作出的,.,16,.,1

6、7,.,18,QBT的難題,需求難以用文字精確描述 非文字需求 用戶不愿意輸入很多文字 用戶需求不是特別具體 大多數(shù)人的想象力是不夠豐富的 系統(tǒng)提供的結果會極大地影響用戶的需求 需要瀏覽更多的文檔才能發(fā)現(xiàn)需要的結果 最重要:圖像/視頻/音頻往往難以用文字準確描述 一圖勝千言 各種文字標注方法普遍準確率不高,.,19,視覺信息描述的復雜性,.,20,檢索方法2:基于內(nèi)容/樣例,基于內(nèi)容的圖像/視頻檢索 Content-based image/video retrieval (CBIR/CBVR) Query-by-Example (QBE) 什么是“內(nèi)容”(Content)? 圖像和視頻的視覺特

7、性 如何描述?(數(shù)學模型) 如何匹配?(相似度計算方法) 如何索引?(快速找到相似文檔) 如何提交查詢?,.,21,基于內(nèi)容的圖像/視頻檢索,“內(nèi)容”的數(shù)學模型 文本文檔:向量模型 多媒體文檔:特征 提取表示視覺的多個物理量組成描述文檔內(nèi)容的特征 視覺特征:顏色、紋理、形狀、運動 音頻特征:音頻、音質(zhì)、音調(diào).,.,22,Color Camera motion Motion activity Mosaic,Color Motion trajectory Parametric motion Spatio-temporal shape,Color Shape Position Texture,Spo

8、ken content Spectral characterization Music: timbre, melody, pitch,視音頻特征示例,.,23,基于內(nèi)容的圖像檢索,Query by content: Color,texture Eigen vectors of matrix) Turing function based (similar to Fourier descriptor) convex/concave polygons Wavelet transforms leverages multiresolution Chamfer matching for comparing

9、 2 shapes (linear dimension rather than area) 3-D object representations using similar invariant features Well-known edge detection algorithms,.,49,特征舉例:顏色特征,Colour histograms (CH) Global CH generated directly from RGB space, with 125 (5x5x5) bins.,.,50,Bosch, IVC, 2006,.,51,特征舉例:邊特征,Edge histogram

10、(EHD) Captures the spatial distribution of the edge in six statues: 0, 45, 90, 135, non direction and no edge. Global EHD of an image: Concatenating 16 sub EHDs into a 96 bins Local EHD of a segment Grouping the edge histogram of the image-blocks fallen into the segment,.,52,特征舉例:點特征,Detect patches

11、Mikojaczyk and Schmid 02 Sivic et al. 03,Compute SIFT descriptor Lowe99,.,53,.,54,全局 vs. 局部特征,.,55,區(qū)域分割,計算機視覺領域的公開難題,.,56,相似度度量,Dotta, et al., Image retrieval:Ideas, influences, and trends of the new age, ACM Computing Survey, 2008,.,57,相似度度量,Dotta, et al., Image retrieval:Ideas, influences, and tre

12、nds of the new age, ACM Computing Survey, 2008,CBIR不是為了進行精確的匹配,而是計算查詢圖像和數(shù)據(jù)庫中的圖像之間的視覺相似度,相應的,檢索結果不是單一的一副圖像,而是按照與查詢圖像的相似度排序的一系列圖像。不同的相似度度量顯著影響CBIR系統(tǒng)的性能。,.,58,基于樣例的查詢Query by Example,Pick query examples and ask the system to retrieve “similar” images.,Query Sample,.,59,相關反饋Relevance Feedback,User gives

13、 a feedback to the query results System recalculates feature weights,Initial sample,.,60,相關反饋Online Feature Weighting,From Query Examples, the system determines feature weighting (k x k) matrix W,Query,.,61,基于相關反饋的檢索界面,User selects relevant images If good images are found, add them When no more imag

14、es to add, the search converges,Slider or Checkbox,.,62,基于相關反饋的檢索界面,.,63,評價指標:Average Precision,只對返回的相關文檔進行計算,系統(tǒng)檢索出來的相關文檔越靠前(rank 越高),AP就越高,.,64,評價指標:Average Precision,MAP(Mean Average Precision) is the average AP for all queries,例如:假設有兩個queries,query 1有4個相關images,query2有5個相關image。 某系統(tǒng)對于query1檢索出4個相

15、關image,其rank分別為1, 2, 4, 7; 對于query2檢索出3個相關query,其rank分別為1,3,5。 對于query1,AP為 (1/1+2/2+3/4+4/7)/4=0.83。 對于query2,AP為 (1/1+2/3+3/5+0+0)/5=0.45。 則MAP= (0.83+0.45)/2=0.64。,.,65,現(xiàn)實中的CBIR系統(tǒng)示例,Visual similarity search in Specific Domain: a photo-sharing community with more than a million airplane-related pi

16、ctures,.,66,現(xiàn)實中的CBIR系統(tǒng)示例,a public-domain search engine which incorporates image retrieval and face recognition for searching pictures of people and products on the Web.,.,67,Image Annotation/Tagging:面向圖像語義檢索,Ship Water Tree sky,Use for keyword-based image retrieval,.,68,Image Annotation/Tagging,J Je

17、on, et al., Automatic image annotation and retrieval using cross-media relevance models, Sigir, 2003,Relevance Models,w1, w2, w3, . wn,.,69,Annotation Examples,.,70,Bridge User Intention Gap,User queries are usually short, ambiguous How to capture user search intent?,.,71,Visual Query Suggestion,Zhe

18、ng-Jun Zha, et al., Visual Query Suggestion, ACM MM, 2009,.,72,Visual Query Suggestion,To help users specify and deliver their search intents,Zheng-Jun Zha, et al., Visual Query Suggestion, ACM MM, 2009,.,73,IGroup: presenting web image search results in semantic clusters,The result of “tiger” in MS

19、N image search: mixed with “tiger woods” and “tiger animal”.,.,74,IGroup: presenting web image search results in semantic clusters,The screen of IGroup: the general view,.,75,IGroup: presenting web image search results in semantic clusters,The screen of IGroup: the cluster view,.,76,IGroup: presenti

20、ng web image search results in semantic clusters,.,77,3D MARS: 圖像檢索的3D展示,Image retrieval and browsing in 3D Virtual Reality The user can see more images without occlusion Query results can be displayed in various criteria Results by Color features, by texture, by combination of color and texture,.,78,3D MARS,.,79,.,80,Copy Detection,拷貝檢測的定義 拷貝(Copy)是從源視頻中截取的一段視頻片斷,并對其內(nèi)容或格式進行多種形式的轉變/攻擊(Transformations)。 拷貝檢測(CBCD, Content-based copy detection)是給定查詢視頻,判斷其是否是來源于數(shù)據(jù)庫某視頻的拷貝,并判定對應原始片斷的起止時間。,.,81,Global Quality Decrease Partial Content Alteration,Original,Blur,Brig

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論