已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 碩士研究生學(xué)位論文 題目: 基于文本的 片搜索引擎的研究 姓 名: 學(xué) 號: 10108093 系 別: 計算機(jī)科學(xué)技術(shù)系 專 業(yè): 計算機(jī)應(yīng)用 研究方向: 網(wǎng)絡(luò)與通訊 導(dǎo) 師: 宋再生 教授 二零零四年五月 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - I - 版 權(quán) 聲 明 任何收存和保管本論文各種版本的單位和個人,未經(jīng)本論文作者同意,不得將本論文轉(zhuǎn)借他人,亦不 得隨意復(fù)制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔(dān)法律責(zé)任。 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - 摘 要 本文研究工作是針對 片搜索引擎 的 應(yīng)用背景,以構(gòu)建 大型 片搜索引擎為目標(biāo), 提出基于文本檢索方式的 片搜索引擎設(shè)計方案。 文中介紹和研究了一系列與 片搜索引擎相關(guān)的技術(shù),包括網(wǎng)頁抓取、相關(guān)性排序( 信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計方案中。 本文重點(diǎn) 地研究如何從 檔中提取圖片相關(guān)信息,保證高效和準(zhǔn)確的實(shí)現(xiàn)圖片檢索 。 在 對 真實(shí)數(shù)據(jù) 進(jìn)行 實(shí) 驗和分析的基礎(chǔ)上 , 提出了若干關(guān)鍵技術(shù),用于系統(tǒng)的設(shè)計 , 現(xiàn)歸納如下: 1) 本文提出的方法通過 細(xì)致地 分析 件的 標(biāo)記、 標(biāo)記、網(wǎng)頁標(biāo)題、網(wǎng)頁的超鏈接文本、圖片 標(biāo)記、關(guān)聯(lián)的 和結(jié)構(gòu)、 結(jié)構(gòu)、圖片周圍文本等部分的結(jié)構(gòu)特點(diǎn),并利用真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗 驗證 ,總結(jié)了 9 條提取模式,用于從這些結(jié)構(gòu)中提取 與圖片相關(guān)的信息 ,以保證提取到的信息相關(guān)性程度較高。研究了三種具體的提取方法:基于 方法、基于字符串的方法和基于 2) 提出了過濾無用圖片的方法, 提高 了系統(tǒng)中 圖片的 可用度。該方法將圖片文件大小小于某一閾值,圖片的長或?qū)捫∮谀骋婚撝担瑘D片的長寬比例超過某一閾值以及同一網(wǎng)頁內(nèi)通過 引用次數(shù)超過某一閾值的圖片作為無用圖片剔除。 3) 通過統(tǒng)計 分析 總結(jié) 出 件 中表現(xiàn)出的一些潛在規(guī)律 ,比如 區(qū)別、 和 標(biāo)記的不同意義以及圖片引用次數(shù)的不同意義。得到如下結(jié)論: 要性大于 標(biāo)記來源圖片的重要性大于 標(biāo)記的圖片; 引用次數(shù)越高的圖片重要性越高,而 引用次數(shù)高的圖片需要經(jīng)過過濾才能保證重要性較高。 4) 粗略地探討了將 法應(yīng)用于圖片搜索引擎來整合文字和內(nèi)容信息的方法,并通過簡單實(shí)驗進(jìn)行了效果驗證 。 5) 設(shè)計 并實(shí)現(xiàn) 了一個 基于文本的 片搜索引擎 ,給出了系統(tǒng)的總體結(jié)構(gòu)圖,并對獲取網(wǎng)頁、提取信息、圖片抓取和死鏈檢查、生成縮略圖、建立索引和提供查詢這 6 個工作流程進(jìn)行了詳細(xì)的描述,最后對系統(tǒng)的使用效果和性能進(jìn)行了簡單評測 。 關(guān)鍵詞: 片搜索引擎 圖像檢索 基于文本 基于內(nèi)容 信息提取 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - n we a to a eb We a of eb as be in We on to to to on we as 1) We of of of up to to We 2) We to to of of 3) of We as PG of 4) SI to of 5) We a eb of of of in a is 京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - 目 錄 第 1 章 引言 . 1 景 . 1 片檢索系統(tǒng)概述 . 3 統(tǒng)應(yīng)用領(lǐng)域 . 3 戶檢索方式 . 3 統(tǒng)評價 . 4 究現(xiàn)狀 . 5 有圖片檢索系統(tǒng)簡介 . 5 文的主要工作 . 8 第 2 章 相關(guān)技術(shù) . 10 頁抓取技術(shù) . 10 本原理 . 10 型 問題 . 10 關(guān)性排序技術(shù) . 11 . 12 改良: . 13 息提取技術(shù) . 15 于內(nèi)容的提取技術(shù) . 15 于文本的提取技術(shù) . 17 息索引技術(shù) . 17 引方式 . 18 高索引的性能 . 19 它相關(guān)技術(shù) . 20 章小結(jié) . 21 第 3 章 的圖片信息提取 . 22 介 . 22 片信息提取模式 . 23 息提取方法 . 27 檔的規(guī)范化 . 27 于 提取方法 . 27 于字符串的提取方法 . 28 于 提取方法 . 28 用圖片過濾 . 30 掘 潛在規(guī)律 . 31 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - V - 區(qū)別 . 31 的 不同意義 . 32 片引用次數(shù)的分析 . 32 于文本和基于內(nèi)容的整合模式 . 34 章小結(jié) . 37 第 4 章 片搜索引擎的設(shè)計和實(shí)現(xiàn) . 38 統(tǒng)簡介 . 38 統(tǒng)詳細(xì)工作流程 . 40 取網(wǎng)頁 . 40 取信息 . 40 片抓取和死鏈檢查 . 42 成縮略圖 . 42 立索引 . 43 供查詢 . 47 統(tǒng)評測 . 50 章小結(jié) . 51 第 5 章 總結(jié)和展望 . 52 要工作總結(jié) . 52 術(shù)發(fā)展方向 . 52 參 考 文 獻(xiàn) . 54 致 謝 . 58 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - 圖 表 圖表 1 網(wǎng)頁數(shù)及網(wǎng)頁字節(jié)數(shù)情況 . 2 圖表 2 近三年中國網(wǎng)頁數(shù)對比 . 2 圖表 3 網(wǎng)頁的內(nèi)容分類情況(按多媒體形式) . 2 圖表 4 關(guān)于 重要性調(diào)查 . 31 圖表 5 不同來源標(biāo)記的圖片統(tǒng)計 . 32 圖表 6 不同來源標(biāo)記的引用統(tǒng)計 . 33 圖表 7 不同來源標(biāo)記的統(tǒng)計折線圖 . 33 圖表 8 系統(tǒng)總體結(jié)構(gòu)圖 . 38 圖表 9 系統(tǒng)工作過程 . 39 圖表 10 網(wǎng)頁庫訪 問模式 . 40 圖表 11 圖片內(nèi)容重復(fù)百分比統(tǒng)計 . 43 圖表 12 建索引流程圖 . 46 圖表 13 內(nèi)容相同圖片的拉鏈結(jié)構(gòu) . 47 圖表 14 查詢過程 . 47 圖表 15 查詢線程流程圖 . 49 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - 1 - 第 1章 引言 景 目前的 用已經(jīng)取得了長足的發(fā)展,隨著網(wǎng)絡(luò)帶寬和終端計算能力的不斷增強(qiáng),圖片被越來越多的應(yīng)用于內(nèi)容的表達(dá)和信息的承載,特別是在 經(jīng)成為一個巨大的、分布的、動態(tài)的、快速增長的資源庫。然而, 身是一個極度分散的系統(tǒng),數(shù)以億計的圖片分布在各個角落,人工尋找并獲取需要的圖片已經(jīng)變得越來越困難,因此,如何通過自動化的手段有效的獲取和再利用這些圖片資源成為信息共享的一個重要課題。 圖片的再利用問題涉及到圖片信息的收集和檢索問題。圖片的信息是指圖片的內(nèi)容所表征的意義,這種的信息承載方式與傳統(tǒng)的文本的信息是不一樣的。由于文本的直觀性和簡單性,文本的信息即包含于本身;而圖片的信息可以通 過圖片本身的內(nèi)容傳達(dá)出來,也可以通過相關(guān)文字的描述傳達(dá)出來,于是圖片便有了雙重的信息載體。因而,圖片在信息的獲取上便有了不同于文本的技術(shù)。 按照圖片信息來源的載體的不同,圖片信息的獲取技術(shù)被分為兩大類:基于內(nèi)容和基于文本。基于內(nèi)容的技術(shù)是對圖片的內(nèi)容本身(像素)進(jìn)行分析和檢索,而基于文本的技術(shù)利用圖片的相關(guān)文字信息作為分析對象,并提供類似于傳統(tǒng)文本檢索的工作方式。 邊緣化特點(diǎn)使得信息組織非常自由化,大量的圖片文件被按照不同的方式,不同的風(fēng)格組織到不同的地方。文字和圖片之間幾乎是可以按照完全隨意的方式自由安置。但是統(tǒng)計的結(jié)果顯示,大量的組織方式具有某些共同的特點(diǎn),這些特點(diǎn)符合人類獲取信息的習(xí)慣。這就為提供一個通用的信息提取框架提供了可能。在 ,通常圖片和文本被有機(jī)的組織在一起,最常見的組織形式就是 頁,于是通過 掘可以獲取到大量的關(guān)于圖片的信息。 頁是 應(yīng)用最廣泛的信息組織方式,是搜索引擎獲取信息的最主要來源。 頁數(shù)量及其所包含的多媒體資源相當(dāng)豐富。 根據(jù) 2003 中國互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量調(diào)查報告 1顯示(截至到 2003 年 12 月 31 日): 網(wǎng)頁數(shù) 全國網(wǎng)頁總數(shù) 311,864,590 個 其中:靜態(tài)網(wǎng)頁數(shù) 226,725,557 個 動態(tài)網(wǎng)頁數(shù) 85,139,033 個 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - 2 - 靜動態(tài)網(wǎng)頁數(shù)比例 平均每個網(wǎng)站的網(wǎng)頁數(shù) 網(wǎng)頁字節(jié)數(shù) 全國網(wǎng)頁總 字節(jié)數(shù) 6,059,431,526個網(wǎng)頁平均 字節(jié)數(shù) 均每個網(wǎng)站的網(wǎng)頁 字節(jié)數(shù) 10,表 1 網(wǎng)頁數(shù)及網(wǎng)頁 字節(jié)數(shù) 情況 近三年中國網(wǎng)頁數(shù)對比159460056 1570912203118645905 %9 8 0500000001000000001500000002000000002500000003000000003500000002001 年 2002 年 2003 年 %10%40%70%100%130%網(wǎng)頁數(shù) 增長比率圖表 2 近三年 中國網(wǎng)頁數(shù)對比 圖像 音頻 視頻 圖表 3 網(wǎng)頁的內(nèi)容分類情況 (按 多媒體 形式) 從以上統(tǒng)計數(shù)字可以看到,目前國內(nèi)的 息資源數(shù)量已經(jīng)相當(dāng)可觀,并且隨著 在 2003 年的逐漸復(fù)蘇,網(wǎng)頁數(shù)量比 2002 年增長了一倍。網(wǎng)絡(luò)上的多媒體內(nèi)容絕大部分以圖像的形式存在,這對于圖片搜索引擎的資源獲取無疑具有相當(dāng)?shù)膬r值。 索引擎技術(shù)已經(jīng)被廣泛的引用到 ,每天要抓取海量的頁,這是一個寶貴的資源庫,但目前 索基本上只利用到其中的文本信息。如果充分的挖掘資 源庫中的潛在價值,可以建構(gòu)出很多增值的搜索系統(tǒng),比如圖片搜索, 索, 索等等。因此,本文的切入點(diǎn)就是如何有效的利用這些 頁來構(gòu)建 片搜索引擎。 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - 3 - 片檢索系統(tǒng)概述 統(tǒng)應(yīng)用領(lǐng)域 隨著圖片使用的日趨廣泛和圖片搜索技術(shù)的不斷發(fā)展,圖片檢索系統(tǒng)的應(yīng)用范圍變得越來越廣。目前使用最廣泛的是通用 片搜索引擎,比如 面向通用領(lǐng)域的用戶提供服務(wù)。除此之外,有大量的專用領(lǐng)域使用到了圖片檢索,比較常見的領(lǐng)域有: 醫(yī)藥領(lǐng)域。許多的醫(yī)學(xué)和健康相關(guān)的專業(yè)需要使用例如 X 光、掃描 影像之類的一些可視信息資料,用于診斷和檢測疾病。圖片檢索技術(shù)能夠有效的用于這類信息的表示、存儲、傳輸和分析,針對該領(lǐng)域的研究主要集中在圖像處理上,例如邊界或者特征檢測,可用于跟蹤腫瘤的生長等。該領(lǐng)域已經(jīng)有成功的系統(tǒng)使用案例。 圖形設(shè)計領(lǐng)域。對于已有的設(shè)計的重用,可以為該領(lǐng)域的工作者提供大量的素材和靈感,圖片檢索系統(tǒng)可以為這些工作提供大量幫助,同時,對于用戶尋找特定要求的作品也提供了很大的便利。 出版領(lǐng)域。出版社、報社、雜志社等機(jī)構(gòu)對于圖片的需求是相當(dāng)多的,基本上都有自己的圖片庫,傳統(tǒng)方式利用多種歸類方式來進(jìn) 行存儲和查找。該領(lǐng)域的工作者需要花費(fèi)大量的時間來查找和挑選合適的圖片,利用圖片檢索系統(tǒng)能夠提供有效的幫助。 其它的一些領(lǐng)域還包括建筑設(shè)計、天文學(xué)、地理學(xué)、歷史研究、犯罪取證等。 戶檢索方式 在檢索方式上,圖片檢索相對于網(wǎng)頁檢索來說,有很大的不同。目前的網(wǎng)頁檢索系統(tǒng)幾乎僅有關(guān)鍵字查詢一種,因為當(dāng)前考慮范圍內(nèi)用于網(wǎng)頁內(nèi)容的唯一描述只有文字。而圖片可以有相關(guān)的文字描述,同時圖片本身還具有自描述性(內(nèi)容本身提供了語義信息)。因此,圖片通常具有多種檢索方式,從用戶檢索的角度看,可以分為如下幾類: 目錄式檢索: 圖片搜索集成了其網(wǎng)頁搜索的特點(diǎn),將圖片進(jìn)行分類,用戶按照分類結(jié)構(gòu)逐漸細(xì)化查詢范圍。目錄式檢索方式經(jīng)常需要人工來進(jìn)行大部分的分類工作,因此代價是相當(dāng)高的。 關(guān)鍵字查詢: 目前使用中的大型圖片搜索引擎使用的方式。用戶給出與所需的圖片相關(guān)的文字,系統(tǒng)根據(jù)之前建立的文字到圖片的匹配來查找包含有查詢詞的文本對應(yīng)的北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - 4 - 圖片。關(guān)鍵字檢索方式最顯著的優(yōu)點(diǎn)是其檢索速度非???,并且基于文本的索引技術(shù)已經(jīng)很成熟。信息和文字的匹配上有兩種方法,一種是人工標(biāo)引,一種是自動提取。 人工標(biāo)引對于信息的準(zhǔn)確度方面是效果比較好的。但是也 面臨幾個主要的缺點(diǎn):一是人工標(biāo)引工作量太大,在海量系統(tǒng)中幾乎是不現(xiàn)實(shí)的。二是人工標(biāo)引的信息主觀性比較強(qiáng),有時候不能恰當(dāng)?shù)姆从硤D片的真實(shí)信息或者反映的信息不完全(后者幾乎總是存在)。 自動提取方法的難點(diǎn)在于如何為圖片提取正確的文字信息。由于信息組織的多樣化以及難于判定具體的組織方式,很難確定哪些信息是與圖片相關(guān)的。這種方法通常采用啟發(fā)式規(guī)則來進(jìn)行信息提取,使用比較常用的模式來獲取信息,并通過無用信息過濾等技術(shù)來盡可能的提高信息的準(zhǔn)確性。 實(shí)例式檢索: 目前的基于內(nèi)容的圖片搜索引擎大多是這一類。方法是提供一張圖 片實(shí)例或者由用戶繪制一個大概的形狀,系統(tǒng)根據(jù)某些可視特征去尋找在該特征上相似的圖片。這種檢索方式的優(yōu)勢在于發(fā)現(xiàn)相似圖片的效果比較好,缺點(diǎn)在于需要用戶提供圖片實(shí)例,這一點(diǎn)通常使系統(tǒng)變得很不友好。雖然基于內(nèi)容的檢索系統(tǒng)可以提供一些分類信息,但也僅限于戶內(nèi)或者戶外,風(fēng)景或者人物等粒度比較大的分類。 屬性式檢索: 這種檢索方式多用于小規(guī)模的專門的圖片數(shù)據(jù)庫,比如攝影圖片庫,用戶可以根據(jù)作者,拍攝日期等一些圖片的外在特征來進(jìn)行檢索。該類數(shù)據(jù)庫具有集中式管理的特點(diǎn),信息往往比較規(guī)范,建立索引和檢索過程都相對簡單,可以使 用現(xiàn)有的關(guān)系數(shù)據(jù)庫來實(shí)現(xiàn)。 統(tǒng)評價 檢索系統(tǒng)中很重要的系統(tǒng)評價指標(biāo)是查準(zhǔn)率( 查全率( 查準(zhǔn)率表示查詢結(jié)果中相關(guān)的文檔數(shù)所占結(jié)果文檔總數(shù)的比例;查全率表示查詢到的相關(guān)文檔數(shù)占整個文檔集合中所有相關(guān)文檔數(shù)的比例。假設(shè)對于特定的查詢, D+為整個文檔集合中相關(guān)文檔的數(shù)量, R 為查詢結(jié)果文檔集合, R+為結(jié)果文檔中相關(guān)文檔集合,則查準(zhǔn)率和查全率可以形式化的定義為: 查準(zhǔn)率: 系統(tǒng)中,對于這兩項指標(biāo)的度量比較困難,因為對于圖片與文本的相關(guān)性評價是相當(dāng)主觀的,基本上只能得到一個很粗略的統(tǒng)計結(jié)果。 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - 5 - 除了以上兩項指標(biāo)以外,還有一個評價指標(biāo)是性能,即系統(tǒng)提供服務(wù)的能力度量,可以包含系統(tǒng)的吞吐量,響應(yīng)時間等。 系統(tǒng)的可擴(kuò)展性也是需要考慮的,當(dāng)查詢數(shù)量和頻率增加以后,可以通過增加服務(wù)的主機(jī)數(shù)來滿足性能的要求。比較好的期望是系統(tǒng)能夠接近線性可擴(kuò)展性。 究現(xiàn)狀 基于文本的圖片檢索最早可以追溯到 20 世紀(jì) 70 年代早期,當(dāng)時的檢索系統(tǒng)使用人工對圖片的內(nèi)容進(jìn)行文字信息標(biāo)引,利用 儲文字信息, 并利用文本檢索技術(shù)提供查詢。當(dāng)時的研究多集中在數(shù)據(jù)建模、多維索引、查詢評估等數(shù)據(jù)庫技術(shù)上。當(dāng)圖片庫的規(guī)模急劇增大以后,人工標(biāo)引需要耗費(fèi)大量的人力,依然使用這種方法變得不切實(shí)際,需要提供一種自動的技術(shù)來完成信息的索引,另一方面,人工標(biāo)引提供的信息相當(dāng)主觀,而且往往只反映了圖片某一方面的內(nèi)容。 為了克服這些缺點(diǎn),在 20 世紀(jì) 90 年代早期,提出了基于內(nèi)容的圖片檢索技術(shù)。該技術(shù)不需要進(jìn)行文字標(biāo)引,而是通過圖片本身的可視化內(nèi)容來進(jìn)行索引,例如顏色、紋理、形狀等。自此,很多的學(xué)者針對基于內(nèi)容的技術(shù)進(jìn)行了大量的研究,提出了 很多的算法,并開發(fā)了很多的實(shí)驗系統(tǒng)。當(dāng)前大量研究熱點(diǎn)集中在基于內(nèi)容的檢索上。但是目前基于內(nèi)容的檢索在實(shí)際使用中不盡人意,單純的使用誤識率較高,主要的原因在于這類技術(shù)僅僅使用圖片的相似關(guān)系來進(jìn)行檢索,并不符合人們檢索信息的習(xí)慣,而且目前的相似性度量方法還比較粗淺,效果并不太好。 鑒于此,有學(xué)者提出了基于語義的圖像檢索 43,該技術(shù)試圖建立一種高層次的語義到低層次的可視特征之間的映射關(guān)系,實(shí)際上是試圖將可視特征識別為語義概念,使之類似于人類識別事物的方式 。例如當(dāng)分析出上半部分為白色,下半部分為藍(lán)色的圖景時,能夠理解為“海平面”。該技術(shù)需要使用到知識庫,用于存儲語義網(wǎng)絡(luò)和映射關(guān)系。關(guān)于可視特征的識別需要深入的理解人類的視覺機(jī)制,這方面的進(jìn)展還不太大。 在所有的圖像檢索技術(shù)中,無疑基于文本的檢索是效率最高的一種,很多的圖片搜索引擎都全部或部分的運(yùn)用了基于文本的檢索機(jī)制。目前 檔得到,從而克服了人工標(biāo)引的不足。因此,這一類的系統(tǒng)在實(shí)際應(yīng)用中取得了不錯的效果。 有圖片檢索系統(tǒng)簡介 目前,許多大 型的搜索引擎公司和研究機(jī)構(gòu)都先后推出了圖片搜索功能。其北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - 6 - 中比較重要的幾個商業(yè)圖片搜索引擎包括國外的 ,國內(nèi)的有。同時,還有很多研究性的圖片搜索引擎,具有代表意義幾個是: 像搜索 像搜索 7是 頁搜索的一個增值系統(tǒng),提供目前全球最大的圖片庫,擁有 張 圖片可供檢索。 過對網(wǎng)頁的分析,提取與圖片相關(guān)的文字信息,提供基于關(guān)鍵字的檢索,支持復(fù)雜的布爾查詢表達(dá)式。采用一定的基于內(nèi)容的分析手段,提供基于色彩類型(黑白,灰階和全彩)的過濾。針對英文可以提供敏感圖片過濾功能。利用復(fù)雜算法實(shí)現(xiàn)圖片的消重,并利用在排序技術(shù)方面的優(yōu)勢提供較好的圖片排序輸出。 是波士頓大學(xué)( 算機(jī)系開發(fā)的一個圖片搜索引擎。其 采用了圖片內(nèi)容和文本信息結(jié)合的方式進(jìn)行處理,分別計算出兩種特征向量,結(jié)合起來提供查詢。 過 法來計算圖片與文字之間的相關(guān)性,生成文字特征向量。文字從圖片所在的 檔中提取,權(quán)值的大小由幾個因素決定:文本在 檔中的出現(xiàn)頻率,文本與圖片的距離和文本的形式(比如 )。 通過對圖片內(nèi)容的分析來生成內(nèi)容特征向量。特征的提取包括顏色柱狀圖( 主方向柱狀圖( 及紋理( 并利用了 盡可能少丟失信息的情況下降低向量的維數(shù)。 系統(tǒng)提供兩種方式的查詢:關(guān)鍵詞查詢和相似查詢,并提供逐漸提純查詢結(jié)果的功能。 由芝加哥大學(xué)( 算機(jī)系開發(fā)。采用圖片內(nèi)容與文本信息結(jié)合的方式進(jìn)行處理。 不對整個網(wǎng)頁的信息建立索引,而是從多個可能的來源提取文 數(shù)字 北京大學(xué)碩士研究生學(xué)位論文 基于文本的 片搜索引擎的研究 - 7 - 字,同時對 不同的來源確定不同的權(quán)值。系統(tǒng)同時對圖片內(nèi)容進(jìn)行比較簡單的分析,能夠辨別出照片和其他圖像。系統(tǒng)還對圖片的一些屬性(例如圖片維數(shù),灰度級,文件類型等)進(jìn)行了索引。用戶通過提供關(guān)鍵字以及指定圖片屬性值進(jìn)行查詢。 0由哥倫比亞大學(xué)( 發(fā)。系統(tǒng)可以提供圖片和視頻的查詢。 含一個 理( ,通過遍歷一系列 表并發(fā)現(xiàn)其中的圖片和視頻,獲取并儲存到本地用于下一階段的分析。 對圖片和視頻的分析過程包括: 提取可視化特征(顏色柱狀圖); 提取附帶屬性,比如文件類型,圖片的長寬,視頻的幀數(shù)等等; 對圖片和視頻進(jìn)行壓縮,生成縮略圖或代表幀; 從 提取相關(guān)的文字信息,比如文件名等 供了一個分類的目錄,提供層次結(jié)構(gòu),用于按目錄方式檢索圖片。系統(tǒng)提供關(guān)鍵字檢索方式,輸入關(guān)鍵字得到一個初始的結(jié)果集,之后可以通過文字或者內(nèi)容的提純。 提供了相關(guān)反饋機(jī)制,用戶可以通過對結(jié)果 圖片按照相關(guān)度排序來提純進(jìn)一步的檢索結(jié)果。 1由荷蘭的萊頓大學(xué)( 算機(jī)系開發(fā),可以查詢可視化的多媒體文件,可以通過關(guān)鍵字、圖例或者用戶手繪草圖來查詢。 系統(tǒng)從 獲取文本,圖片和視頻,并利用模式識別算法來分析圖片內(nèi)容,例如識別人臉等。并將這些可視化特征利用 來索引,可以達(dá)到近似 n)級的檢索性能。相似度利用基于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年大學(xué)(傳播學(xué))傳播學(xué)概論試題及答案
- 2025年高職(中藥學(xué))中藥學(xué)基礎(chǔ)試題及答案
- 2025年高職(測繪地理信息技術(shù))地形測量試題及答案
- 2025年高職(環(huán)境規(guī)劃與管理)環(huán)境規(guī)劃編制綜合測試題及答案
- 2025年中職舞蹈表演(舞蹈表演基礎(chǔ))試題及答案
- 2025年高職物流(冷鏈物流技術(shù))試題及答案
- 2025年大學(xué)小學(xué)教育(語文教學(xué))模擬試題
- 2025年高職輪機(jī)工程技術(shù)(船舶輪機(jī)管理)試題及答案
- 2025年中職(儲能產(chǎn)品銷售)續(xù)航能力階段測試卷
- 2026年廣西金融職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試參考題庫帶答案解析
- 昆山鈔票紙業(yè)有限公司2026年度招聘備考題庫附答案詳解
- 2025年巴楚縣輔警招聘考試備考題庫附答案
- GB/T 46793.1-2025突發(fā)事件應(yīng)急預(yù)案編制導(dǎo)則第1部分:通則
- 老人再婚協(xié)議書
- 膽管惡性腫瘤病例分析
- 甲方土建工程師述職報告
- 基于多源數(shù)據(jù)融合與智能算法的存量房交易價格評估系統(tǒng)構(gòu)建與實(shí)踐
- 2025至2030磁懸浮空壓機(jī)行業(yè)項目調(diào)研及市場前景預(yù)測評估報告
- 放射科放射影像診斷演練培訓(xùn)
- 全國公路養(yǎng)護(hù)標(biāo)準(zhǔn)操作手冊
- (2025年)(新)住院醫(yī)師麻醉科出科考試試題(+答案)
評論
0/150
提交評論