【畢業(yè)學(xué)位論文】(Word原稿)視覺信息檢索技術(shù) video information retrival-計算技術(shù)圖像識別_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)視覺信息檢索技術(shù) video information retrival-計算技術(shù)圖像識別_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)視覺信息檢索技術(shù) video information retrival-計算技術(shù)圖像識別_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)視覺信息檢索技術(shù) video information retrival-計算技術(shù)圖像識別_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)視覺信息檢索技術(shù) video information retrival-計算技術(shù)圖像識別_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

視覺信息檢索技術(shù) 博 士 生:施 智 平 指導(dǎo)老師:史忠植 研究員 中國科學(xué)院計算技術(shù)研究所 2005 年 1 月 目 錄 第 1 章 基于內(nèi)容的多媒體檢索技術(shù)綜述 . 3 第 2 章 圖像特征的提取與表達 . 9 色特征的提取 . 9 理特征的提取 . 12 狀特征的提取 . 15 像的空間關(guān)系特征 . 19 維圖像特征的索引 . 20 第 3 章 相似度量方法 . 22 覺特征的相似度模型 . 22 像特征的性能評價 . 24 第 4 章 視頻分割 . 29 . 29 C 圖像 . 32 . 34 第五章 視頻數(shù)據(jù)的瀏覽和檢索技術(shù) . 36 頻非線性瀏覽 . 36 頻數(shù)據(jù)的檢索 . 37 動信息 . 37 動信息的提取 . 38 動信息的應(yīng)用 . 39 頻片斷分類方法 . 42 第六章總結(jié) . 43 第一部分 綜述 第 1 章 基于內(nèi)容的多媒體檢索技術(shù)綜述 基于內(nèi)容的多媒體信息檢索技術(shù)是數(shù)字圖書館的關(guān)鍵技術(shù)之一 ,是海量多媒體信息資源得以高效、充分地獲取和利用的技術(shù)支持。它的成熟發(fā)展和在數(shù)字圖書館建設(shè)中的推廣應(yīng)用 ,將從根本上提升數(shù)字圖書館的信息檢索能力和對用戶的信息貢獻力度。 1 關(guān)于基于內(nèi)容的多媒體信息檢索技術(shù) 對于數(shù)字圖書館環(huán)境下 ,以多媒體、超文本為主要存儲形式的海量數(shù)字化信息資源 ,關(guān)鍵詞已經(jīng)難以足夠形象和準(zhǔn)確 地描述多媒體信息所呈現(xiàn)的視覺或聽覺感知 ,致使適用于文本信息資源的關(guān)鍵詞檢索方式顯得相形見絀 ,而基于內(nèi)容的多媒體信息檢索技術(shù)在數(shù)字圖書館建設(shè)中逐漸顯示出無比的優(yōu)越性。 所謂基于內(nèi)容的信息檢索 (對文本、圖像、音頻、視頻等媒體對象進行內(nèi)容語義的分析和特征的提取 ,并基于這些特征進行相似性匹配的信息檢索技術(shù)。它與傳統(tǒng)數(shù)據(jù)庫基于關(guān)鍵詞的檢索方式相比 ,具有如下特點 : 破了關(guān)鍵詞檢索基于文本特征的局限 ,直接從媒體內(nèi)容中提取特征線索 ,使檢索更加接近媒體對象。 取特征的方法多種多樣 ,例如 ,可以提取圖像的形狀特征、顏色特征、紋理特征 ,視頻的動態(tài)特征 ,音頻的音調(diào)特征等。 機交互式檢索?;趦?nèi)容的檢索系統(tǒng)通常采用參數(shù)調(diào)整方法、聚類分析方法、概率學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)方法等 ,通過人機交互的方式來捕捉和建立多媒體信息低層特征和高層語義之間的關(guān)聯(lián) ,即所謂相關(guān)反饋技術(shù)。其目的是在檢索過程中根據(jù)用戶的查詢要求返回一組檢索結(jié)果 ,用戶可以對檢索結(jié)果進行評價和標(biāo)記 ,然后反饋給系統(tǒng) ,系統(tǒng)根據(jù)這些反饋信息進行學(xué)習(xí) ,再返回新的查詢結(jié)果 ,從而使檢索結(jié)果更接近用戶的要求 。 似性匹配檢索。基于內(nèi)容的檢索是按照一定的匹配算法將需求特征與特征庫中的特征元數(shù)據(jù) (行相似性匹配 ,滿足一定相似性的一組初始結(jié)果按照相似度大小排列 ,提供給用戶。這與關(guān)鍵詞的精確匹配算法有明顯不同。 步求精的檢索過程。用戶通過瀏覽初始結(jié)果 ,可以從中挑選相似結(jié)果 ,或者選擇其中一個結(jié)果作為示例 ,進行特征的調(diào)整 ,并重新進行相似性匹配 ,經(jīng)過多次循環(huán)后不斷縮小查詢范圍 ,做到逐步求精 ,最終得到較為理想的查詢結(jié)果。 綜上所述 ,基于內(nèi)容的多媒體信息檢索技術(shù)的開發(fā)重點和技術(shù)優(yōu) 勢主要包括以下兩項 :對多媒體信息內(nèi)容特征的識別和描述技術(shù)、對特征的相似性匹配技術(shù)??梢?,這種檢索技術(shù)是一項涉及面很廣的交叉學(xué)科的應(yīng)用技術(shù) ,需要利用圖像處理、模式識別、計算機視覺、圖像理解等領(lǐng)域的知識作為基礎(chǔ) ,還需從認(rèn)知科學(xué)、人工智能、數(shù)據(jù)庫管理系統(tǒng)、人機交互、信息檢索等領(lǐng)域引入新的媒體數(shù)據(jù)表示和數(shù)據(jù)模型 ,從而設(shè)計出可靠、有效的檢索算法、系統(tǒng)結(jié)構(gòu)以及友好的人機界面。 2 基于內(nèi)容的圖像檢索 基于內(nèi)容的圖像檢索技術(shù)是通過分析圖像的內(nèi)容 ,提取其顏色、形狀、紋理等可視特征 ,建立特征索引 ,存儲于特征庫中 ;在檢 索時 ,用戶只需把自己對圖像的模糊印象描述出來 ,就可以通過多次的近似匹配 ,在大容量圖像庫中查詢到所需圖像。 于顏色特征的檢索 顏色是描述一幅圖像最簡便而有效的特征 ,在基于顏色特征的檢索算法中通常用顏色直方圖來表示圖像的顏色特征。直方圖能較好地反映圖像中各顏色的頻率分布 ,橫軸表示顏色等級 ,縱軸表示在一個顏色等級上 ,具有該顏色的像素在整幅圖像中所占的比例。直方圖可以對整幅圖像進行最大匹配度檢索 ;如果用戶希望對圖像中的部分顏色加以指定 ,可以采用基于圖像分割的直方圖檢索方法 ,即將一幅圖像劃分為 nn 個子圖像 ,將對應(yīng)位置的子圖像顏色特征與數(shù)據(jù)庫中的圖像進行對比匹配。 于紋理特征的檢索 紋理是基于內(nèi)容圖像檢索的一條主要線索 ,它包含了關(guān)于圖像表面的結(jié)構(gòu)安排和周圍環(huán)境的關(guān)系。在 70 年代初期 ,人提出了紋理特征的共生矩陣表示法。他首先根據(jù)像素間的方向和距離構(gòu)造一個共生矩陣 ,然后從共生矩陣中抽取有意義的統(tǒng)計量作為紋理表示。 人則從視覺的心理學(xué)角度提出了紋理表示方法 ,表示的所有紋理性質(zhì)都具有直觀的視覺意義 ,這使得 理表示在圖像檢索中非常具有吸引力 ,而且可以提 供一個更友好的用戶界面。進入 90 年代 ,小波變換理論被應(yīng)用于紋理表示之中。 在基于圖像紋理特征的實際檢索中 ,一般采用示例查詢 (式。用戶給出一個所需圖像的示例 ,系統(tǒng)會按照示例搜索與之相似的圖像 ,用戶在這些相似圖像集合中確定檢索目標(biāo)。 于形狀特征的檢索 形狀是描述圖像內(nèi)容的本質(zhì)特征 ,在實際檢索中 ,形狀特征的表達和匹配經(jīng)常采用最為簡便的方法 ,即用形狀參數(shù) (如矩、面積、周長等定量測度來描述圖像形狀并進行匹配 ;也可以分割圖像 ,進行邊緣提取 ,得到目標(biāo)的輪廓線 ,針對輪廓線進行形狀特征檢索。 于知識的圖像檢索 基于知識的圖像檢索也是基于內(nèi)容檢索的重要方法之一。圖像本身是一定數(shù)量的顏色像素點的集合 ,人類能夠識別出像素點集合的含義是人類以自身的知識賦予圖像意義的過程?;谥R的圖像檢索系統(tǒng)為用戶提供知識庫 ,針對一個圖像需求 ,搜索引擎依次調(diào)入每一幅圖像的內(nèi)容描述 ,結(jié)合知識庫中的相關(guān)知識 ,以圖像需求為目標(biāo)進行推理 ,如果需求目標(biāo)得到滿足 ,則確定這幅圖像符合檢索要求。 3 基于內(nèi)容的視頻檢索 基于內(nèi)容的視頻信息檢索是當(dāng)前多媒體數(shù)據(jù)庫發(fā) 展的一個重要研究領(lǐng)域 ,它通過對非結(jié)構(gòu)化的視頻數(shù)據(jù)進行結(jié)構(gòu)化分析和處理 ,采用視頻分割技術(shù) ,將連續(xù)的視頻流劃分為具有特定語義的視頻片段 鏡頭 ,作為檢索的基本單元 ,在此基礎(chǔ)上進行代表幀 (提取和動態(tài)特征的提取 ,形成描述鏡頭的特征索引 ;依據(jù)鏡頭組織和特征索引 ,采用視頻聚類等方法研究鏡頭之間的關(guān)系 ,把內(nèi)容相近的鏡頭組合起來 ,逐步縮小檢索范圍 ,直至查詢到所需的視頻數(shù)據(jù)。這里 ,視頻分割、代表幀和動態(tài)特征提取是基于內(nèi)容的視頻檢索的關(guān)鍵技術(shù)。 于代表幀的檢索 代表幀 是用于描述一個鏡頭的關(guān)鍵圖像 ,它反映鏡頭的主要內(nèi)容。代表幀的選取方法很多 ,比較經(jīng)典的是幀平均法和直方圖平均法 ,其特征的提取與一般靜態(tài)圖像一樣 ,包括顏色特征、紋理特征和輪廓特征等。 視頻被抽象為代表幀之后 ,視頻檢索就變成按照某種相似度來檢索數(shù)據(jù)庫中與需求相似的代表幀。目前常用的查詢方式是示例查詢 ,即根據(jù)用戶提交的視頻例子 ,在視頻特征庫的支持下 ,檢索到相似的代表幀 ,用戶就可以通過播放觀看它代表的視頻片段 ,并挑選相似的圖像 ,選擇這些圖像中所有相近的代表幀 ,重新進行更精確的查詢。 于動態(tài)特征的檢索 視頻數(shù)據(jù)的動態(tài)特征是檢索時用戶所能給出的主要內(nèi)容 ,例如 ,鏡頭的運動變化、運動目標(biāo)的大小變化、視頻目標(biāo)的運動軌跡等。這些動態(tài)特征的提取與代表幀的提取不同 ,不能從靜態(tài)圖像中獲得 ,必須對整個視頻序列進行分析。 基于動態(tài)特征來搜索鏡頭是視頻檢索的進一步要求。檢索時可以利用運動方向和幅度特征來檢索運動的主體目標(biāo) ,還可以將動態(tài)特征與代表幀特征結(jié)合起來 ,檢索出動態(tài)特征相似但靜態(tài)特征不同的鏡頭。 頻瀏覽 視頻瀏覽是視頻數(shù)據(jù)庫的重要組成部分 ,當(dāng)用戶對所要檢索的目標(biāo)不十分明確時 ,往往需要對視頻數(shù)據(jù)進 行快速瀏覽以便尋找感興趣的內(nèi)容 ,目的是排除次要內(nèi)容 ,以較少的圖像盡可能全面地表達出所需視頻數(shù)據(jù)的主要內(nèi)容特征。 4 基于內(nèi)容的多媒體信息檢索系統(tǒng)開發(fā)概況 統(tǒng) 由 究中心開發(fā) ,是基于內(nèi)容的檢索系統(tǒng)的典型代表。 統(tǒng)允許使用示例圖像、用戶構(gòu)建的草圖、選擇的顏色和紋理模式、鏡頭和目標(biāo)運動以及其他圖形信息等 ,對大型圖像和視頻數(shù)據(jù)庫進行查詢。 統(tǒng) 由 媒體實驗室于 1994 年開發(fā)研制。圖像在存儲時按人臉、形狀或紋理特性自動分類 ,圖像根據(jù)類別通過顯著語義特征壓縮編碼。 統(tǒng) 這是新加坡國立大學(xué)開發(fā)的一個基于內(nèi)容的檢索系統(tǒng)。其顯著的技術(shù)特色包括 :多種特征提取方法、多種基于內(nèi)容檢索方法、使用自組織神經(jīng)網(wǎng)絡(luò)對復(fù)雜特征度量、建立基于內(nèi)容索引的新方法以及對多媒體信息進行模糊檢索的新技術(shù)。 統(tǒng) 由美國哥倫比亞大學(xué)圖像和高級電視實驗室開發(fā)。它實現(xiàn)了互聯(lián)網(wǎng)上基于內(nèi)容的圖像 /視頻檢索系統(tǒng) ,提供了一套工具供人們在 檢索圖像和視頻信息。 另外還有許多類似的系統(tǒng) ,例如 ,加利福尼亞 大學(xué) 校的 利諾依大學(xué)的 及哥倫比亞大學(xué)的 。 5 基于內(nèi)容的多媒體檢索技術(shù)的發(fā)展趨勢 基于內(nèi)容的多媒體信息檢索技術(shù)與傳統(tǒng)數(shù)據(jù)庫技術(shù)、 索引擎技術(shù)相結(jié)合 ,可以方便地實現(xiàn)海量多媒體信息資源的存儲和管理 ,并可以檢索 頁中豐富的多媒體信息。在可預(yù)見的將來 ,基于內(nèi)容的多媒體檢索技術(shù)將會在數(shù)字圖書館建設(shè)中得到廣泛應(yīng)用。 但隨著多媒體內(nèi)容的增多和存儲技術(shù)的提高 ,目前的技術(shù)開發(fā)還遠遠不夠 ,有待于進行更深層次的研究和探索?;趦?nèi)容的 多媒體檢索技術(shù)的發(fā)展趨勢主要集中在以下幾方面 : 合的多特征檢索技術(shù) 多媒體具有各種視覺和聽覺特征以及其他時間和空間關(guān)系 ,對于同一種特征 ,也有不同的表示方法 ,例如 ,同樣是顏色特征 ,可以有直方圖特征、顏色距 (顏色集(主顏色等多種特征表示法 ,它們從不同的角度表示媒體的特征。而如何有機地組織多種特征 ,并按照用戶的查詢要求合并各種特征的檢索結(jié)果 ,將是一個值得研究的問題。 綜合還意味著采納其他學(xué)科領(lǐng)域的成果 ,如傳統(tǒng)的基于文本的信息檢索技術(shù)、人工智能技術(shù)等?;趦?nèi)容的檢索系統(tǒng)并不排斥傳統(tǒng)常規(guī)的檢索途徑 ,相反 ,要充分利用現(xiàn)有的文本檢索功能 ,并集成到基于內(nèi)容的檢索系統(tǒng)中 ,向用戶提供完備的檢索能力。 層概念和低層特征的關(guān)聯(lián) 人們在日常生活中習(xí)慣使用的事物概念 ,例如 ,樓房、汽車、海灘 等是用以表達具體含義的概念 ,在多媒體信息查詢中也經(jīng)常使用 ,而且屬于多媒體數(shù)據(jù)的高層語義內(nèi)容。目前 ,基于低層特征的檢索技術(shù)已基本成熟 ,如果能夠建立這些低層特征與高層語義概念的關(guān)聯(lián) ,將實現(xiàn)媒體語義的計算機自動抽取。針對多媒體信息檢索系統(tǒng)而言 ,在響應(yīng)時間和大容量 數(shù)據(jù)庫約束的前提下 ,可以采用語義模板、用戶交互、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法 ,突破從低層特征獲取高層語義的壁壘。 維索引技術(shù) 對于大容量的多媒體數(shù)據(jù)庫 ,在基于內(nèi)容的檢索過程中 ,特征矢量常常高達 102量級 ,大大多于常規(guī)數(shù)據(jù)庫的索引能力 ,因此 ,需要研究新的索引結(jié)構(gòu)和算法 ,以支持快速檢索。目前 ,一般采用先減少維數(shù) ,再用適當(dāng)?shù)亩嗑S索引結(jié)構(gòu)的方法。雖然過去已經(jīng)取得了一些進展 ,例如 ,但仍然需要研究和探索有效的高維索引方法 ,以支持多特征、異構(gòu)特征、權(quán)重、主鍵特征方面的查 詢要求。 序媒體的內(nèi)容結(jié)構(gòu)化 典型的時序媒體是視頻和音頻。它們是一種非結(jié)構(gòu)化的連續(xù)媒體流數(shù)據(jù) ,需要進行結(jié)構(gòu)化分析和處理 ,才能進行特征的提取。目前鏡頭分割技術(shù)相對成熟 ,計算機可以基于鏡頭進行瀏覽。但是 ,對于一段鏡頭非常多的視頻 ,瀏覽起來很不方便。另外 ,鏡頭并不是人們關(guān)心的語義單元 ,而是些零散的剪切單元。因此 ,目前的研究熱點是結(jié)合多類特征 (音頻、視頻、文本等 )抽取視頻的語義和敘事結(jié)構(gòu) ,在多個層次上組織視頻內(nèi)容。 戶查詢接口 現(xiàn)代多媒體信息系統(tǒng)的一個重要特征就是信息獲取過程的可 交互性 ,用戶在系統(tǒng)中是主動的。除了提供示例和描繪查詢的基本接口之外 ,用戶的查詢接口應(yīng)提供豐富的交互能力 ,使用戶在主動的交互過程中表達對媒體語義的感知 ,調(diào)整查詢參數(shù)及其組合 ,最終獲得滿意的查詢結(jié)果。 第二部分 基于內(nèi)容的圖像檢索技術(shù) 近年來,隨著多媒體技術(shù)和計算機網(wǎng)絡(luò)的飛速發(fā)展,全世界的數(shù)字圖像的容量正以驚人的速度增長。無論是軍用還是民用設(shè)備,每天都會產(chǎn)生容量相當(dāng)于數(shù)千兆字節(jié)的圖像。這些數(shù)字圖像中包含了大量有用的信息。然而,由于這些圖像是無序地分布在世界各地,圖像中包含的信息無法被有效地訪問和利用。這就 要求有一種能夠快速而且準(zhǔn)確地查找訪問圖像的技術(shù),也就是所謂的圖像檢索技術(shù)。自從 20世紀(jì) 70 年代以來,在數(shù)據(jù)庫系統(tǒng)和計算機視覺兩大研究領(lǐng)域的共同推動下,圖像檢索技術(shù)已逐漸成為一個非常活躍的研究領(lǐng)域。數(shù)據(jù)庫和計算機視覺兩大領(lǐng)域是從不同的角度來研究圖像檢索技術(shù)的,前者基于文本的,而后者是基于視覺的。 基于文本的圖像檢索技術(shù)( 歷史可以追溯到 20 世紀(jì)70 年代末期。當(dāng)時流行的圖像檢索系統(tǒng)是將圖像作為數(shù)據(jù)庫中存儲的一個對象,用關(guān)鍵字或自由文本對其進行描述。查詢操作 是基于該圖像的文本描述進行精確匹配或概率匹配,有些系統(tǒng)的檢索模型還是有詞典支持的。另外,圖像數(shù)據(jù)模型、多維索引、查詢評價等技術(shù)都在這樣一個框架之下發(fā)展起來。然而,完全基于文本的圖像檢索技術(shù)存在著嚴(yán)重的問題。首先,目前的計算機視覺和人工智能技術(shù)都無法自動對圖像進行標(biāo)注,而必須依賴于人工對圖像做出標(biāo)注。這項工作不但費時費力,而且手工的標(biāo)注往往是不準(zhǔn)確或不完整的,還不可避免地帶有主觀偏差。也就是說,不同的人對同一幅圖像有不同的理解方法,這種主觀理解的差異將導(dǎo)致圖像檢索中的失配錯誤。此外,圖像中所包含的豐富的視覺特 征(顏色或紋理等)往往無法用文本進行客觀地描述的。 90年代初期,隨著大規(guī)模數(shù)字圖像庫的出現(xiàn),上述的問題變得越來越尖銳。為克服這些問題,基于內(nèi)容的圖像檢索技術(shù)( 運而生。區(qū)別于原有系統(tǒng)中對圖像進行人工標(biāo)注的做法,基于內(nèi)容的檢索技術(shù)自動提取每幅圖像的視覺內(nèi)容特征作為其索引,如色彩、紋理、形狀等。此后幾年中,這個研究領(lǐng)域中的許多技術(shù)發(fā)展起來,一大批研究性的或商用的圖像檢索系統(tǒng)被建立起來。這個領(lǐng)域的發(fā)展主要來歸功于計算機視覺技術(shù)的進步,在文獻 中有對 這一領(lǐng)域的詳細介紹。 應(yīng)該認(rèn)識到,基于內(nèi)容的圖像檢索系統(tǒng)具有與傳統(tǒng)基于文本的檢索系統(tǒng)完全不同的構(gòu)架。首先,由于圖像依賴其視覺特征而非文本描述進行索引,查詢將根據(jù)圖像視覺特征的相似度進行。 用戶通過選擇具有代表性的一幅或多幅例子圖像來構(gòu)造查詢,然后由系統(tǒng)查找與例子圖像在視覺內(nèi)容上比較相似的圖像,按相似度大小排列返回給用戶。這就是所謂的通過例子圖像的檢索( by 另外,基于內(nèi)容的檢索系統(tǒng)一般通過可視化界面和用戶進行頻繁的交互,以便于用戶能夠方便地構(gòu)造查詢、評估檢索結(jié)果和改進檢索結(jié)果。 基于內(nèi)容圖像檢索的體系結(jié)構(gòu)劃分為兩個子系統(tǒng):特征抽取子系統(tǒng)和查詢子系統(tǒng),如圖 2 圖像數(shù)據(jù) 目標(biāo)標(biāo)識 特征提取 索引 / 過 濾 檢索引擎 查詢接口 知識輔助 圖像 庫 特征 庫 知識 庫 用戶 特征提取子系統(tǒng) 查詢子系統(tǒng) 預(yù)處理 2于內(nèi)容圖像檢索的體系結(jié)構(gòu) 各個模塊的主要功能如下: 1預(yù) 處理 包括圖像格式的轉(zhuǎn)換、尺寸的統(tǒng)一,圖像的增強與去 噪 等功能,為圖像的特征提取打下基礎(chǔ)。 2 目標(biāo)標(biāo)識 目標(biāo)標(biāo)識為用戶提供一種工具,以全自動或半自動(需要用戶 干預(yù))的方式標(biāo)識圖像中用戶感興趣的區(qū)域或目標(biāo)對象,以便針對目標(biāo)進行特征提取并查詢。當(dāng)進行整體內(nèi)容檢索時,利用全局特征,這時不用目標(biāo)標(biāo)識功能。目標(biāo)標(biāo)識是可選的。 3特 征提取 對圖像數(shù)據(jù)庫進行特征提取,提取用戶感興趣的、適合檢索要求的特征。特征提取可以是全局性的,即整幅圖像,也可以是針對某個目標(biāo)的,即圖像中的子區(qū)域,如人臉等。 4. 數(shù)據(jù) 庫 生成的數(shù)據(jù)庫由圖像庫、特征庫和知識庫組成。圖像庫為數(shù)字化的圖像信息 , 特征庫包含用戶輸入的特征和預(yù)處理自動提取的內(nèi)容特征。知識庫包含專門和通用知識 , 有利于查詢優(yōu)化和快速匹配 ,知識庫中知識表達可以更換以適用各種不同的應(yīng)用領(lǐng)域。 接口 友好的人機交互界面是一個成功檢索系統(tǒng)不可缺少的條件,它可以大大提高檢索的效率。在基于內(nèi)容檢索中,由于特征值為高維向量,不具有直觀性,因此必須為其提供一個可視化的輸入手段??刹捎玫姆绞接腥N:操縱交互輸入方式、模板選擇輸入方式和用戶提交特征樣板的輸入方式。同時應(yīng)支持多種特征的組合。另外,查詢 返 回的結(jié)果需要瀏覽,應(yīng)在用戶界面提供瀏覽功能。 檢索是利用特征之間的距離函數(shù)來進行相似性檢索。模仿人的認(rèn)知過程,近似得到數(shù)據(jù)庫的認(rèn)知排隊,存 在一些不同的相似性測度算法,檢索引擎中包括一個較為有效可靠的相似性測度函數(shù)集。 7. 索引 /過濾 檢索引擎通過索引 /過濾模塊達到快速搜索的目的,從而可以應(yīng)用到大型數(shù)據(jù)庫中。過濾器作用于全部數(shù)據(jù),過濾出的數(shù)據(jù)集合再用高維特征匹配來檢索。索引用于低維特征,可以用 在這一部分中,我們將主要討論有關(guān)基于內(nèi)容的圖像檢索方面的一些相關(guān)問題和方法。第 2章中給出了一系列圖像視覺特征的提取、表達和索引方法。第 3章中討論了圖像相似度衡量方法和其它檢索相關(guān)技術(shù)。在第 4章中,我們介紹了圖像檢索中相關(guān)反饋的機制 和途徑。最后,第 5章中總結(jié)了現(xiàn)有的一些圖像檢索系統(tǒng),并對這一領(lǐng)域的未來方向作出展望。 第 2 章 圖像特征的提取與表達 圖像特征的提取與表達是基于內(nèi)容的圖像檢索技術(shù)的基礎(chǔ)。從廣義上講,圖像的特征包括基于文本的特征(如關(guān)鍵字、注釋等)和視覺特征(如色彩、紋理、形狀、對象表面等)兩類。由于基于文本的圖像特征提取在數(shù)據(jù)庫系統(tǒng)和信息檢索等領(lǐng)域中已有深入的研究,本章中我們主要介紹圖像視覺特征的提取和表達。 視覺特征又可分為通用的視覺特征和領(lǐng)域相關(guān)的視覺特征。前者用于描述所有圖像共有的特征,與圖像的具體類型或內(nèi)容無關(guān) ,主要包括色彩、紋理和形狀;后者則建立在對所描述圖像內(nèi)容的某些先驗知識(或假設(shè))的基礎(chǔ)上,與具體的應(yīng)用緊密有關(guān),例如人的面部特征或指紋特征等。由于領(lǐng)域相關(guān)的圖像特征主要屬于模式識別的研究范圍,并涉及許多專業(yè)的領(lǐng)域知識,在此我們就不再詳述,而只考慮通用的視覺特征。 對于某個特定的圖像特征,通常又有多種不同的表達方法。由于人們主觀認(rèn)識上的千差萬別,對于某個特征并不存在一個所謂的最佳的表達方式。事實上,圖像特征的不同表達方式從各個不同的角度刻畫了該特征的某些性質(zhì)。在本章中,我們主要介紹那些由實踐證明對圖像檢索比 較有效的特征和相應(yīng)的表達方法。本章的第 1、 2、 3節(jié)中我們將分別介紹圖像的顏色、紋理和形狀特征,第 4節(jié)中介紹包含有空間信息的圖像特征,最后一節(jié)簡述了多維索引技術(shù)和降低維度技術(shù)。 色特征的提取 顏色特征是在圖像檢索中應(yīng)用最為廣泛的視覺特征,主要原因在于顏色往往和圖像中所包含的物體或場景十分相關(guān)。此外,與其他的視覺特征相比,顏色特征對圖像本身的尺寸、方向、視角的依賴性較小,從而具有較高的魯棒性。 面向圖像檢索的顏色特征的表達涉及到若干問題。首先,我們需要選擇合適的顏色空間來描述顏色特征;其次,我們 要采用一定的量化方法將顏色特征表達為向量的形式;最后,還要定義一種相似度(距離)標(biāo)準(zhǔn)用來衡量圖像之間在顏色上的相似性。在本節(jié)中,我們將主要討論前兩個問題,并介紹顏色直方圖、顏色矩、顏色集、顏色聚合向量以及顏色相關(guān)圖等顏色特征的表示方法。 色直方圖 顏色直方圖是在許多圖像檢索系統(tǒng)中被廣泛采用的顏色特征。它所描述的是不同色彩在整幅圖像中所占的比例,而并不關(guān)心每種色彩所處的空間位置,即無法描述圖像中的對象或物體。顏色直方圖特別適于描述那些難以進行自動分割的圖像。 當(dāng)然,顏色直方圖可以是基于不同 的顏色空間和坐標(biāo)系。最常用的顏色空間是 因在于大部分的數(shù)字圖像都是用這種顏色空間表達的。然而, 此,有人提出了基于 為它們更接近于人們對顏色的主觀認(rèn)識。其中 的三個分量分別代表色彩( 飽和度( 值( 從 給定 色空間的值 (r,g,b),r,g,b0,1, ,255, 則轉(zhuǎn)換到 間的 (h,s,v)值計算如下: 設(shè) ), 定義 , : ),m i n ( ,),m i n ( ,),m i n ( 則 ),m 2 5 5/ 60),5(),m i n (),m ),3(),m i n (),m ),3(),m i n (),m ),1(),m i n (),m ),1(),m i n (),m ),5(其它和和和和和其中 r, g, b 0 1 , h 0 6, s, v 0 1 。從 1中找到。 計算 色的距離由多種不同的方法。例如在 2中提出了如下的顏色距離計算公式: 其中 ( (分別代表兩種 種相似度量方法相當(dāng)于一個圓柱形顏色空間中的歐拉距離,該空間中的顏色值表示為 (v)。在 3中這樣的圓柱空間被進一步變形稱為圓錐性空間,其中的顏色表示為 (v)。這些改變使 低了直方圖對 h和 計算顏色直方圖需要將顏色空間劃分成若干個小的顏色區(qū)間,每個小 區(qū)間成為直方圖的一個 個過程稱為顏色量化( 然后,通過計算顏色落在每個小區(qū)間內(nèi)的像素數(shù)量可以得到顏色直方圖。顏色量化有許多方法,例如向量量化、聚類方法或者神經(jīng)網(wǎng)絡(luò)方法。最為常用的做法是將顏色空間的各個分量(維度)均勻地進行劃分。相比之下,聚類算法則會考慮到圖像顏色特征在整個空間中的分布情況,從而避免出現(xiàn)某些 量化更為有效。另外,如果圖像是 們可以預(yù)先建立從量化的 查找表( 從而加快直方圖的計算過程。 上述的顏色量化方法會產(chǎn)生一定的問題。設(shè)想兩幅圖像的顏色直方圖幾乎相同,只是互相錯開了一個 時如果我們采用 算兩者的相似度,會得到很小的相似度值。為了克服這個缺陷,需要考慮到相似但不相同的顏色之間的相似度。一種方法是采用二次式距離 4(見 另一種方法是對顏色直方圖事先進行平滑過濾,即每個 樣,相似但不相同顏色之間的相似度對直方圖的相似度 也有所貢獻。 選擇合適的顏色小區(qū)間(即直方圖的 目和顏色量化方法與具體應(yīng)用的性能和效率要求有關(guān)。一般來說,顏色小區(qū)間的數(shù)目越多,直方圖對顏色的分辨能力就越強。然而,不利于在大型圖像庫中建立索引。而且對于某些應(yīng)用來說,使用非常精細的顏色空間劃分方法不一定能夠提高檢索效果,特別是對于不能容忍對相關(guān)圖像錯漏的那些應(yīng)用。另一種有效減少直方圖 像素數(shù)目最多)的 為這些表示主要顏色的 中大部分像素的顏色。實驗證明這種方法并不會降低顏色直方圖的檢索效果。事實上,由于忽略了那些數(shù)值較小的 色直方圖對噪聲的敏感程度降低了,有時會使檢索效果更好。兩種采用主要顏色構(gòu)造直方圖的方法可以在文獻 5,6中找到。 色矩 另一種非常簡單而有效的顏色特征使由 7。這種方法的數(shù)學(xué)基礎(chǔ)在于圖像中任何的顏色分布均可以用它的矩來表示。此外,由于顏色分布信息主要集中在低階矩中,因此僅采用顏色的一階矩( 、二階矩( 三階矩( 足以表達圖像的顏色分布。與顏色直方圖相比,該方法的另一個好處在于無需對特征進行向量化。顏色的三個低次矩在數(shù)學(xué)上表達為: 其中 此,圖像的顏色矩一共只需要 9個分量( 3個顏色分量,每個分量上 3個低階矩),與其他的顏色特征相比是非常簡潔的。在實際應(yīng)用中為避免低次矩較弱的分辨能力,顏色矩常和其它特征結(jié)合使用,而且一般在使用其它特征前起到過濾縮小范圍( 作用。 色集 為支 持大規(guī)模圖像庫中的快速查找, 為對顏色直方圖的一種近似 8。他們首先將 并將顏色空間量化成若干個 后,他們用色彩自動分割技術(shù)將圖像分為若干區(qū)域,每個區(qū)域用量化顏色空間的某個顏色分量來索引,從而將圖像表達一個二進制的顏色索引集。在圖像匹配中,比較不同圖像顏色集之間的距離和色彩區(qū)域的空間關(guān)系(包括區(qū)域的分離、包含、交等,每種對應(yīng)于不同得評分)。因為顏色集表達為二進制的特征向量,可以構(gòu)造二分 查找樹來加快檢索速度,這對于大規(guī)模的圖像集合十分有利。 色聚合向量 針對顏色直方圖和顏色矩?zé)o法表達圖像色彩的空間位置的缺點, 提出了圖像的顏色聚合向量( 它是顏色直方圖的一種演變,其核心思想是將屬于直方圖每一個 果該 該區(qū)域內(nèi)的像素作為聚合像素,否則作為非聚合像素。假設(shè) i個 像的顏色聚合 向量可以表達為 。而 就是該圖像的顏色直方圖。由于包含了顏色分布的空間信息,顏色聚合向量相比顏色直方圖可以達到更好的檢索效果。 色相關(guān)圖 顏色相關(guān)圖( 圖像顏色分布的另一種表達方式 16。這種特征不但刻畫了某一種顏色的像素數(shù)量占整個圖像的比例,還反映了不同顏色對之間的空間相關(guān)性。實驗表明,顏色相關(guān)圖比顏色直方圖和顏色聚合向量具有 更高的檢索效率,特別是查詢空間關(guān)系一致的圖像。 假設(shè) i) 則表示顏色為 c(i)的所有像素。顏色相關(guān)圖可以表達為: 其中 i, j 1, 2, , N, k 1, 2, , d, | 表示像素 色相關(guān)圖可以看作是一張用顏色對 索引的表,其中 的第 c(i)的像素和顏色為 c(j)的像素之間的距離小于 果考慮到任何顏色之間的相關(guān)性,顏色相關(guān)圖會變得非常復(fù)雜和龐大 (空間復(fù)雜度為 O(。一種簡化的變種是顏色自動相關(guān)圖( 它僅僅考察具有相同顏色的像素間的空間關(guān)系,因此空間復(fù)雜度降到 O( 理特征的提取 紋理特征是一種不依賴于顏色或亮度的反映圖像中同質(zhì)現(xiàn)象的視覺特征 12。它是所有物體表面共有的內(nèi)在特性,例如云彩、樹木、磚、織物等都有各自的紋理特征。紋理特征包含了物體表面結(jié)構(gòu)組織排列的重要信息以及它們與周圍環(huán)境的聯(lián)系 13。正因為如此,紋理特征在基于內(nèi)容的圖像檢索中得到了廣泛的應(yīng)用,用戶可以通過提交包含有某種紋理的 圖像來查找含有相似紋理的其他圖像。 由于紋理特征對模式識別和計算機視覺等領(lǐng)域的重要意義,對紋理的分析研究在過去的三十年中取得了重大的成果。在本節(jié)中,我們將著重介紹那些在基于內(nèi)容的圖像檢索中所常用的那些紋理特征,主要有 回歸紋理模型、方向性特征、小波變換和共生矩陣等形式。 基于人類對紋理的視覺感知的心理學(xué)的研究, 14。別是粗糙度( 對比度( 方向度( 線像度( 規(guī)整度( 粗略度( 其中,前三個分量對于圖像檢索尤其重要5。接下來我們就著重討論粗糙度、對比度和方向度這三種特征的定義和數(shù)學(xué)表達。 粗糙度。粗糙度的計算可以分為以下幾個步驟進行。首先,計算圖像中大小為 2k 2有 其中 k = 0, 1, , 5 而 g(i, j)是位于 (i, j)的 像素強度值。然后,對于每個像素,分別計算它在水平和垂直方向上互不重疊的窗口之間的平均強度差。 其中對于每個像素,能使 E 值達到最大(無論方向)的 k 值用來設(shè)置最佳尺寸x,y)=2k。最后,粗糙度可以通過計算整幅圖像中 達為 粗糙度特征的另一種該進形式是采用直方圖來描述 不是像上述方法一樣簡單地計算 種改進后的粗糙度特征能夠表達具有多種不同紋理特征的圖像或區(qū)域,因此對圖像檢索更為有利。 對比度。對比度是通過對像素強度 分布情況的統(tǒng)計得到的。確切地說,它是通過 4 = 4/ 4來定義的,其中 4 是四次矩而 2 是方差。對比度是通過如下公式衡量的 : 該值給出了整個圖像或區(qū)域中對比度的全局度量。 方向度。方向度的計算需要首先計算每個像素處的梯度向量。該向量的模和方向分別定義為 其中 別是通過圖像卷積下列兩個 3 當(dāng)所有像素的梯度向量都被計算出來后,一個直方圖 值。該直方圖首先對 的值域范圍進行離散化,然后統(tǒng)計了每個 于給定閾值的像素數(shù)量。這個直方圖對于具有明顯方向性的圖像會表現(xiàn)出峰值,對于無明顯方向的圖像則表現(xiàn)得比較平坦。最后,圖像總體的方向性可以通過計算直方圖中峰值的尖銳程度獲得,表示如下 : 上式中的 于某個峰值 p, 表該峰值所包含的所有的 p 是具有最高值的 回歸紋理模型 最近二十年中有大量的研究集中在應(yīng)用隨機場模型表達紋理特征,這方面 型取得了很大的成功。自回歸紋理模型( 是 在 個像素的強度被描述成隨機變量,可以通過與其相鄰的像素來描述。如果 其強度值 g(s)可以表達為它的相鄰像素強度值的線性疊加與噪音項 (s)的和,如下所示: 其中 是基準(zhǔn)偏差,由整幅圖像的平均強度值所決定, (r) 是一系列模型參數(shù),用來表示不同相鄰位置上的像素的權(quán)值。 (s) 是均值為 0而方差為 2 的高斯隨機變量。通過上式可以用回歸法計算 參數(shù) 和標(biāo)準(zhǔn)方差 的值,它們反映了圖像的各種紋理特征。例如較高的 表示圖像具有很高的精細度,或較低的粗糙度。又比如,如果 很高,表明圖像具有垂直的方向性。最小誤差法( 極大似然估計( 以用來計算模型中的參數(shù)。此外, 具有與圖像的旋轉(zhuǎn)無關(guān)的特點。 定義合適的 的范圍。然而,固定大小的相鄰像素集合范圍無法很好地表達各種紋理特征。為此,有人提出過多維度的自回歸紋理模型( 16,能夠在多個不同的相鄰像素集合范圍下計算紋理特征。文獻 17,18中給出了 驗結(jié)果表明 波變換 小波變換( 是一種常用的紋理分析和分類方法 19,20。小波變換指的是將信號 分解為一系列的基本函數(shù) mn(x)。這些基本函數(shù)都是通過對母函數(shù) (x)的變形得到,如下所示: 其中 m和 樣,信號 f (x) 可以被表達為: 二維小波變換的計算需要進行遞歸地過濾和采樣。在每個層次上,二維的信號被分解為四個子波段,根據(jù)頻率特征分別稱為 H。有兩種類型的小波變換可以用于紋理分析,其中是金字塔結(jié)構(gòu)的小波變換( 樹樁結(jié)構(gòu)的小波變換( 歸地分解 是對于那些主要信息包含在中頻段范圍內(nèi)的紋理特征,僅僅分解低頻的 此, 會分解其它的 小波變換表示的紋理特征可以用每個波段的每個分解層次上能量分布的均值和標(biāo)準(zhǔn)方差。例如 三層的分解, 般來說,由 子集。此外,根據(jù)在文獻 21中所作的性能對比,不同的小波變換在對紋理分析方面沒有很顯著的差別。 它紋理特征 除了上述的 有許多其它的紋理特征。早在 70年代, 示紋理特征的方法 13。該方法對從數(shù)學(xué)角度研究了圖像紋理中灰度級的空間依賴關(guān)系。它首先建立一個基于象素之間方向性和距離的共生矩陣,然后從矩陣中提取有意義的統(tǒng)計量作為紋理特征。許多其他研究人 員沿著這個方向提出了擴展的方案。例如 13中提出的統(tǒng)計特征,在實驗中得出能量、相關(guān)性、慣量和熵是最有效的特征 22。 23能夠最大程度地減少空間和頻率的不確定性,同時還能夠檢測出圖像中不同方向和角度上的邊緣和線條。 24,25中提到了很多方法根據(jù)過濾輸出結(jié)果來描述圖像特征。 此外,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論