版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、圖像檢索視頻檢索音頻檢索1 概念:Content-based Retrieval,簡稱CBR,主要指根據(jù)多媒體對象的聽覺、視覺特征及其中蘊含的內(nèi)容和語義特征進行識別,并希望能夠借助于模式識別、語音識別、圖像理解等相關(guān)領(lǐng)域的研究成果,對多媒體信息的特征進行自動分析、表達和組織。用戶提交查詢, 利用系統(tǒng)提供的查詢方式形成查詢條件;將查詢特征與數(shù)據(jù)庫中的特征按照一定的匹配算法進行匹配;滿足一定相似性的一組候選結(jié)果按相似度大小排列返回給用戶;對系統(tǒng)返回的一組初始特征的查詢結(jié)果, 用戶可以通過遍歷( 瀏覽) 挑選出滿意的結(jié)果, 也可以從候選結(jié)果中選擇一個示例進行特征調(diào)整, 形成一個新的查詢, 這個過程可
2、以多次進行, 直到用戶對查詢結(jié)果滿意。整個過程是是一個逐步逼近和相關(guān)反饋的過程。Why is Image IR important? “a picture is worth a 1000 words” Alternative form of communication Not everything can be described in text; Not everything can be described in images Popular medium of information on the Internet Text Descriptor (animal, instrument,
3、 etc.) Content Description The content of an image can be represented as a set of numeric features: MFFF,21Component CF1F2FMText主要經(jīng)歷了兩個發(fā)展階段text-based retrieval:基于語詞的檢索Content-based retrieval: 基于內(nèi)容的檢索利用圖像自身的特征,如顏色、紋理、形狀等特征來進行檢索 The images are downloaded from a specially The images are downloaded from
4、 a specially designed database system, using colour, designed database system, using colour, texture and shape as the key for the texture and shape as the key for the searchsearch. .(1)首先,根據(jù)目前一些流行的搜索引擎的分類,建立相應(yīng)的圖像分類的層次結(jié)構(gòu);然后針對每個類別選擇一些熱門的、具有代表性的站點作為候選。 Traversal Spider “assembles lists of candidate Web
5、 documents that may include images, videos, or hyperlinks to them”(2)然后,設(shè)計一個高效率的軟件工具(Crawler),針對選定的代表性站點自動進行圖像的收集。站點內(nèi)所有的頁面都將送給頁面分析器進行分析,頁面內(nèi)所有的圖像都將以鏈接的方式存儲到相應(yīng)的數(shù)據(jù)庫中。 Hyperlink Parser “which extracts the Web addresses of images and videos”圖像的特征分為兩種,一種是圖像的低層特征,如圖像的顏色、紋理及其形狀等。另外一類特征則是圖像的語義特征。圖像的低層特征,主要采用
6、的是圖像的顏色、紋理及其形狀等特征。顏色特征:和圖像的大小、方向無關(guān),而且對圖像的背景顏色不敏感,因此顏色特征被廣泛應(yīng)用于圖像檢索。顏色特征中包括顏色直方圖、顏色相關(guān)圖、顏色矩等。紋理特征:代表了物體的視覺模式,它包含了物體表面的組織結(jié)構(gòu)以及與周圍環(huán)境之間的關(guān)系。常用的方法有相關(guān)矩陣法,粗糙度、對比度等紋理表示方法,以及小波變換等。形狀特征:一種是基于邊界的形狀特征,另外一種則是基于區(qū)域的形狀特征。最成功的表示方法有傅利葉變換和不變矩等空間關(guān)系特征圖像的文件名及其網(wǎng)址。如redflower.jpg、http:/ Text)替代文字在網(wǎng)頁中通常用來表示圖像的語義信息,而且也是最為準(zhǔn)確的一個特征。
7、圖像周圍的文字(Surrounding Text)在網(wǎng)頁中圖像周圍的文字是最可能表達圖像所有包含的內(nèi)容的,雖然有些文字可能與圖像并不相關(guān),不過這些文字在一定程度上還是表達了圖像的語義信息圖像所在頁面的標(biāo)題(title)有些圖像用來加強作者的意圖,因此有些圖像的內(nèi)容同頁面的標(biāo)題內(nèi)容直接相關(guān)。頁面的標(biāo)題也就成為語義特征之一。圖像的超鏈接(Hyperlink)圖像的超鏈接信息在一定程度上與圖像的內(nèi)容相關(guān)。因此一些語義特征可以通過對超鏈接的分析計算得到。 所有這些特征,都將通過頁面分析器從網(wǎng)頁中自動抽取出來,并被賦予不同的重要性,并按照傳統(tǒng)的文本信息檢索技術(shù)建庫。Term extraction Ext
8、racted from URLs, alt tags, hyperlink text by removing non-alpha characters Fkey (URL) = Fchop (“animals/domestic-beasts1/dog37”) = “animals,” “domestic,” “beasts,” “dog.”Dictionary name extraction Fdir (URL) = “animals/domestic-beasts.”Key-term dictionary Terms and Dictionary names are used to crea
9、te t*k terms t*k terms identified semantically related to subject classes sm Mkm: t*k sm 采用壓縮方式生成功用戶瀏覽和顯示檢索結(jié)果的壓縮圖 “generates an icon, or motion icon, which sufficiently compacts and represents the visual information to be used for browsing and displaying query results” Compression algorithms提交的查詢將首先
10、轉(zhuǎn)換成為一個由低層特征和高層特征結(jié)合的向量,然后分別與數(shù)據(jù)庫中圖像的向量計算相似度。相似度的計算分類兩步完成:一是計算低層特征的相似度二是計算高層語義特征的相似度,然后采用線性組合的方法得到最后的相似度。相似度高的圖像成為檢索的結(jié)果。Search results list manipulation A = Query (Term = “sunset”) Returns Query A results Select Query B from Query A results B = Query (Term = “nature”) C = A B = Query (Term = “sunset” a
11、nd Term = “nature”)Content-based Techniques Color histograms dissimilarity “determines the color dissimilarity between a query image and a target image.” Indexes images by global color Integrated spatial and color query “users can graphically construct a query by placing color regions on a query gri
12、d” Analyzes “sizes, spatial locations, and relationships of color regions within the images”“WebSEEKWebSEEK is a Content- Based Image and Video Search and Catalog Tool for the Web. Search through more than 650,000 images and videos.” (Advent Project)Developed by The Advent Project at Columbia Univer
13、sity Founded 1995 Foster industrial collaboration between researchers and media technologyMore Specifically Uses multiple agents to automatically analyze, index, and assign images/videos to subject classes Uses both visual content and text for cataloging and searchingFeatures Searching using image c
14、ontent-based techniques Query modification using content-based relevance feedback Automated collection of visual information Compact presentation of images and videos for displaying query results Image and video subject search and navigation Text-based searching Search results lists manipulations in
15、tersection, subtraction and concatenation./webseek IBM公司開發(fā)Query By Image Query By Image ContentContent已經(jīng)在俄羅斯使用。已經(jīng)在俄羅斯使用。幀:運動圖像實際上是一系列圖像組成的序列,其中的每幅圖像稱為一幀幀(frame)。幀速率:幀速率:播放運動圖像時連續(xù)兩幀之間的時間間隔通常是恒定的稱為幀速率幀速率(frame per second,fps)。幀序列之所以能夠形成運動圖像,在于相鄰幀圖像一般都是關(guān)聯(lián)的,當(dāng)幀速率快到-定程度時,人的視覺暫留效應(yīng)
16、會使人產(chǎn)生連續(xù)運動的印象,每秒20幀(20fps)差不多是人腦把靜態(tài)圖像序列合成感覺中的平滑動態(tài)畫面的下限,電影的標(biāo)準(zhǔn)速度是24fps,PAL制式的電視為25fps,NTSC制式則為30fps,高清晰度電視(HDTV)中的一種制式的幀速率為60fps,從而使變化迅速的畫面也能得到平穩(wěn)的印象。1 1視頻數(shù)據(jù)既有空間屬性又有時間屬性視頻數(shù)據(jù)既有空間屬性又有時間屬性 文本、圖形和圖像稱為離散媒體,因為它們和時間無關(guān)。與離散媒體相反,運動圖像(視頻)、運動圖形(動畫)、聲音是時間有關(guān)的,需要在一定的時間段內(nèi)連續(xù)播放,故稱連續(xù)媒體(也稱時基媒體)。2 2巨大的數(shù)據(jù)量巨大的數(shù)據(jù)量目前MPEG, DVI,
17、H261等壓縮標(biāo)準(zhǔn)的壓絡(luò)比可達50:1200:1.但即使壓縮后的視頻數(shù)據(jù)量仍是相當(dāng)大的3 3幀內(nèi)圖像特點幀內(nèi)圖像特點 我們可以把幀內(nèi)的圖像看作是一副靜止的圖像,因此幀內(nèi)圖像具有靜止圖像的一切特性。對幀內(nèi)圖像的處理也可用靜止圖像處理和壓縮的方法。視頻圖像通常是二維的將二維視頻圖像轉(zhuǎn)換為一維電信號是通過光柵掃描實現(xiàn)的。主要有兩種方式:(1)逐行掃描:從圖像的左上角開始掃描水平移動到圖像的右端,成為一個掃描行然后,快速返回到下一行的開始點,開始第2個掃描行,依此繼續(xù),直到掃描完整個圖像,這稱之為逐行掃描,所有逐行掃描行的集合稱之為幀。(2)隔行掃描,顧名思義,即不是逐行進行掃描,而是隔一行后再掃描下
18、一行隔行掃描行的集合稱之為場逐行掃描有以下優(yōu)點;圖像垂直清晰度高,空間處理效果好,有利于電視轉(zhuǎn)換和制式轉(zhuǎn)換,能改善視頻壓縮效果等等其缺點是:數(shù)碼率高,行掃描頻率增高硬件難度加大 目前的電視系統(tǒng)(包括HDTV系統(tǒng))大都采用隔行掃描,因為隔行掃描能節(jié)省頻帶且硬件實現(xiàn)簡單。 視頻圖像的寬高比指1幀圖像的寬度與高度的比值普通電視的寬高比一般為4:3,高清晰度電視的寬高比為16:9。水平分辨率是度量水平清晰度的指標(biāo)在電視中,水平分辨率由能夠再現(xiàn)黑白相間的垂直線條的數(shù)目來測定。當(dāng)一個系統(tǒng)的水平分辨率為400線時,是指其在所對應(yīng)的圖像高度內(nèi)能交替顯示200條黑線和200條白線NTSC電視系統(tǒng)的最高水平分辨率
19、為360線視系統(tǒng)的垂直分辨率由1幀內(nèi)所使用的掃描行數(shù)來決定行數(shù)越多,垂直分辨率就越高,反之亦然例如,NTSC為525線,PAL為625線。幀頻是指幀重復(fù)的頻率,例如,每秒10幀場頻指場重復(fù)的頻率根據(jù)人眼的視覺惰性,當(dāng)幀(場)重復(fù)頻率太低時,會有閃爍感覺不引起閃爍感的最低重復(fù)頻率稱之為臨界閃爍頻率,當(dāng)幀頻高于臨界頻率時,主觀感覺亮度為顯示亮度的平均值隔行掃描就是利用這一特性克服閃爍現(xiàn)象的,這可降低行掃描的頻率,使得傳輸頻帶得以壓縮。GIF文件-.GIF GIF是圖形交換格式(Graphics Interchange Format)的英文縮寫,是由CompuServe公司于80年代推出的一種高壓縮
20、比的彩色圖像文件格式。目前Internet上大量采用的彩色動畫文件多為這種格式的GIF文件。 Flic文件是Autodesk公司在其出品的Autodesk Animator / Animator Pro / 3D Studio等2D/3D動畫制作軟件中采用的彩色動畫文件格式。GIF和Flic文件,通常用來表示由計算機生成的動畫序列,其圖像相對而言比較簡單,因此可以得到比較高的無損壓縮率,文件尺寸也不大。然而,對于來自外部世界的真實而復(fù)雜的影像信息而言,無損壓縮便顯得無能為力,而且,即使采用了高效的有損壓縮算法,影像文件的尺寸也仍然相當(dāng)龐大。 AVI是音頻視頻交錯(Audio Video Int
21、erleaved)的英文縮寫,它是Microsoft公司開發(fā)的一種符合RIFF文件規(guī)范的數(shù)字音頻與視頻文件格式。AVI文件目前主要應(yīng)用在多媒體光盤上,用來保存電影、電視等各種影像信息,有時也出現(xiàn)在Internet上,供用戶下載、欣賞新影片的精彩片斷。 QuickTime文件-.MOV/.QT QuickTime是Apple計算機公司開發(fā)的一種音頻、視頻文件格式,用于保存音頻和視頻信息,具有先進的視頻和音頻功能,目前已成為數(shù)字媒體軟件技術(shù)領(lǐng)域的事實上的工業(yè)標(biāo)準(zhǔn)。MPEG文件-.MPEG/.MPG/.DAT MPEG的平均壓縮比為501,最高可達2001,壓縮效率非常高,同時圖像和音響的質(zhì)量也非常
22、好。RealVideo文件是RealNetworks公司開發(fā)的一種新型流式視頻文件格式基于文本:人工采用關(guān)鍵字對視頻內(nèi)容進行標(biāo)引,在檢索鐘銅鼓哦匹配用戶查詢進行檢索。基于內(nèi)容:沒有人工參與的情況下,自動提取并描述視頻的特征和內(nèi)容 。 鏡頭:鏡頭:由攝像機記錄下來的一段連續(xù)的幀序列,它是一段視頻的物理組成單元。關(guān)鍵幀:關(guān)鍵幀:描述鏡頭主要內(nèi)容的幀。根據(jù)內(nèi)容的復(fù)雜程度,一個鏡頭可以有一個或多個關(guān)鍵幀。場景:場景:由一些語義相關(guān)的鏡頭組成,這些鏡頭不一定在時間上連續(xù)。場景描述了一個獨立的故事單元(或者說是一個高層概念),它是一段視頻的語義組成單元。 鏡頭組鏡頭組:物理鏡頭和語義場景之間的結(jié)構(gòu)部分。例
23、如一段采訪錄像,鏡頭在主持人預(yù)備采訪者之間頻繁切換,整個采訪屬于一個場景,那些關(guān)于支持人的鏡頭屬于一組,關(guān)于被采訪者的鏡頭屬于一組。一般來說,一段視頻由一些描述獨立故事單元的場景構(gòu)成;一個場景由一些語義相關(guān)的鏡頭組成;而每個鏡頭是由一些連續(xù)的幀構(gòu)成,它可由一個或多個關(guān)鍵幀表示。見下圖 視頻首先被分割成各個鏡頭,并對每個鏡頭進行運動分析(主要針對攝像機運動和物體運動)?;谶\動分析,我們可以提取并跟蹤鏡頭中的對象,同時選擇或構(gòu)造關(guān)鍵幀,來描述視頻內(nèi)容。然后,根據(jù)提取鏡頭、關(guān)鍵幀和對象的視覺特征,進行索引。通過視覺特征的相似度計算,鏡頭被組織成場景。最終,用戶可以通過一種簡單方便的方法瀏覽和檢索視
24、頻。(1)鏡頭分割 通常視頻流中的鏡頭,是由時間連續(xù)的視頻幀組成的。它對應(yīng)著攝像機一次紀(jì)錄的起停操作,代表一個場景在時間上和空間上的連續(xù)的動作。鏡頭之間有多種類型的過渡方式,最常見的是“切變”,表現(xiàn)為在相鄰兩幀間發(fā)生的突變性的鏡頭轉(zhuǎn)換。此外,還存在一些較復(fù)雜的過渡方式,如淡入、淡出等。鏡頭分割方法分為非壓縮域和壓縮域兩類。 基本的特征分析包括:顏色、紋理、形狀、運動和對象等。前三種是圖像和視頻共有的,屬于數(shù)字圖像處理中較為成熟的技術(shù)。對象提取和跟蹤,是視頻分析中最困難的部分,可利用運動信息進行處理:先將每幀圖像分割成具有相似視覺特征(顏色、紋理等)的區(qū)域,然后根據(jù)各個區(qū)域的運動特征,按照一定的
25、約束(例如區(qū)域之間的連通性),將它們合并成對象。國際標(biāo)準(zhǔn)MPEG-4便是以對象提取和合成作為焦點的,它提出了使用VOP(視頻對象平面)的概念,對視頻對象進行索引。 為了克服基于鏡頭的方法存在的問題,人們提出了一種基于內(nèi)容分析的方法。這種方法通過分析視頻內(nèi)容(顏色直方圖、運動信息)隨時間的變化情況,來選取所需關(guān)鍵幀的數(shù)目,并按照一定的規(guī)則為鏡頭抽取關(guān)鍵幀。 視頻結(jié)構(gòu)分析的過程,就是將語義相關(guān)的鏡頭組合、聚類的過程。假設(shè)有一段兩人對話的視頻段,在拍攝過程中,攝像機的焦點在兩人之間來回切換,用我們前面所述的鏡頭分割技術(shù),必然會把這一段視頻分割為多個鏡頭。而這一組在時間上連續(xù)的鏡頭是相關(guān)的,因為這一組
26、鏡頭是一個情節(jié)(稱為場景)。結(jié)構(gòu)分析的目的,便是使視頻數(shù)據(jù)形成結(jié)構(gòu)化的層次,可以方便用戶進行有效的瀏 覽。QBICQBIC系統(tǒng)系統(tǒng) Query By Image Content是由IBM Almaden研究中心開發(fā)的,是“基于內(nèi)容”檢索系統(tǒng)的典型代表。QBIC系統(tǒng)允許使用例子圖像、用戶構(gòu)建的草圖和圖畫及其選擇的顏色和紋理模式、以及鏡頭和目標(biāo)運動等圖形信息,對大型圖像和視頻數(shù)據(jù)庫進行查詢。視頻方面主要利用了顏色、紋理、形狀、攝像機和對象運動來描述內(nèi)容。http:/ 美國哥倫比亞大學(xué)電子工程系與電信研究中心圖像和高級電視實驗室共同研究的、一種在互聯(lián)網(wǎng)上使用的“基于內(nèi)容”的檢索系統(tǒng)。它實現(xiàn)了互聯(lián)網(wǎng)上
27、的“基于內(nèi)容”的圖像/視頻檢索系統(tǒng),提供了供人們在Web上搜索和檢索圖像及視頻的工具。聲音媒體是除視覺媒體外最重要的媒體,占有總信息量的 20 左右 1)波形聲音:對模擬聲音數(shù)字化而得到的數(shù)字音頻信號,它可以代表語音、音樂、自然界和合成的聲響;2)語音:具有字詞、語法等語素,是一種高度抽象的概念交流媒體,語音經(jīng)過識別可以轉(zhuǎn)換為文本,文本是語音的一種腳本形式;3)音樂:具有節(jié)奏、旋律和聲音等要素,是人聲和樂器音響等配合所構(gòu)成的一種聲音,音樂可以用樂譜來表示。1)外部特征:音頻信息在計算機內(nèi)部以文件格式存貯,文件屬性包括:文件名、創(chuàng)建時間、創(chuàng)建者、文件格式等。2)文本著錄特征:人工標(biāo)引,選擇主題詞、關(guān)鍵詞等來描述音頻信息的內(nèi)容。3)物理特征:模擬音頻信息通過采樣、量化、編碼等過程轉(zhuǎn)變成數(shù)字信號,數(shù)字信號在計算機內(nèi)部以流媒體的形式存放,具有時間屬性。4)聲學(xué)特征:主要有音強、基音、音調(diào)、節(jié)奏、旋律、樂器標(biāo)識等。5)語義特征:主要
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 落實工作督查督辦制度
- 2025湖南永州市機關(guān)事務(wù)管理局對外招聘3人參考考試試題附答案解析
- 2026中建三局第三建設(shè)工程有限責(zé)任公司校園招聘備考考試題庫附答案解析
- 2026湖南長沙市芙蓉區(qū)東湖街道社區(qū)衛(wèi)生服務(wù)中心招聘參考考試題庫附答案解析
- JIS D 9401-2010 自行車.車架標(biāo)準(zhǔn) Frame - Assembly for bicycles
- 2026河南平頂山文化藝術(shù)職業(yè)學(xué)院招聘48人備考考試題庫附答案解析
- 2026河北邢臺市臨城縣招聘森林消防專業(yè)隊員8人備考考試題庫附答案解析
- 2026北京石景山區(qū)教育系統(tǒng)事業(yè)單位招聘25人參考考試試題附答案解析
- 2026四川華豐科技股份有限公司招聘法務(wù)風(fēng)控管理崗位1人備考考試試題附答案解析
- 煤礦安全生產(chǎn)科保密制度
- 50萬噸年脫硫石膏及20萬噸年廢硫磺綜合利用項目可行性研究報告寫作模板-申批備案
- 《床上擦浴技術(shù)》評分標(biāo)準(zhǔn)
- 設(shè)備安裝可行性方案
- 高中化學(xué)人教版(2019)選擇性必修二知識點總結(jié)
- 消化系統(tǒng)常見癥狀與體征課件整理-002
- 流程與TOC改善案例
- 【當(dāng)代中國婚禮空間設(shè)計研究4200字(論文)】
- GB/T 20322-2023石油及天然氣工業(yè)往復(fù)壓縮機
- 中國重汽車輛識別代號(VIN)編制規(guī)則
- 通風(fēng)與空調(diào)監(jiān)理實施細則abc
- JJF 1614-2017抗生素效價測定儀校準(zhǔn)規(guī)范
評論
0/150
提交評論