基于Java技術(shù)的搜索引擎基本組成和數(shù)據(jù)結(jié)構(gòu)探究_第1頁
基于Java技術(shù)的搜索引擎基本組成和數(shù)據(jù)結(jié)構(gòu)探究_第2頁
基于Java技術(shù)的搜索引擎基本組成和數(shù)據(jù)結(jié)構(gòu)探究_第3頁
基于Java技術(shù)的搜索引擎基本組成和數(shù)據(jù)結(jié)構(gòu)探究_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于Java技術(shù)的搜索引擎根本組成和數(shù)據(jù)構(gòu)造探究基于Java技術(shù)的搜索引擎根本組成和數(shù)據(jù)構(gòu)造探究隨著互聯(lián)網(wǎng)信息技術(shù)的快速開展,搜索引擎在全文檢索技術(shù)上開場逐步開展起來。全文檢索技術(shù)是搜索引擎的技術(shù)基矗全文檢索通常指文本全文檢索,它包括信息的存儲、組織、表現(xiàn)、查詢、存取等各個方面,其核心為文本信息的索引和檢索,自20世紀(jì)60年代,國外對全文檢索技術(shù)就開場著手研究。下文主要針對全文檢索搜索引擎的根本組成和數(shù)據(jù)構(gòu)造進展分析。搜索引擎的根本組成與工作流程一搜索引擎的根本組成搜索引擎主的組成可以分為三個局部:由網(wǎng)絡(luò)蜘蛛(ebspider/raler)、索引器(Indexer)和檢索器(Seareher)

2、,以下分別加以介紹和分析。1、網(wǎng)絡(luò)蜘蛛的主要功能是從指定的IP地址或網(wǎng)頁相關(guān)信息出發(fā)搜集網(wǎng)頁,并沿著任何網(wǎng)頁中的所有URL(UnifrResureeLeatr)爬到其它網(wǎng)頁,并且重復(fù)這過程,從而把爬過的所有網(wǎng)頁搜集到頁面存儲庫中。2、索引器對搜集回來存放在存儲庫中的網(wǎng)頁進展分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、編碼類型、生成時間、大孝與其它網(wǎng)頁的鏈接關(guān)系等),然后再根據(jù)一定的相關(guān)度算法對其進展大量復(fù)雜的計算,從而得到每一個網(wǎng)頁(針對頁面內(nèi)容)以及超級鏈接中每一個關(guān)鍵詞的相關(guān)程度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。3、當(dāng)用戶根據(jù)目的關(guān)鍵詞開

3、場搜索后,首先搜索懇求經(jīng)過分解,然后由檢索器從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。接著是所有相關(guān)網(wǎng)頁比對該關(guān)鍵詞的相關(guān)信息并綜合相關(guān)信息和網(wǎng)頁級別形成相關(guān)度數(shù)值,最后對搜索結(jié)果根據(jù)相關(guān)度進展排序,相關(guān)度越高那么排名越靠前并由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。二搜索引擎的工作流程搜索引擎的工作流程可以概括為以下4個步驟:1、網(wǎng)上抓取網(wǎng)頁;2、建立索引數(shù)據(jù)庫;3、在索引數(shù)據(jù)庫中搜索;4、對搜索結(jié)果進展處理和排序。儲存構(gòu)造根據(jù)搜索的整個流程來看,由于搜索引擎需要對海量文件進展存儲,然而操作系統(tǒng)的內(nèi)存和對大型文件的支持具有局限性,因此,搜索引擎有必要進

4、展自行定義和管理大型文件(Bigfiles)系統(tǒng)。這里的大型文件(Bigfiles)指的是跨多文件系統(tǒng)的虛擬文件,并可支持64位尋址方式。大型文件(Bigfiles)可自動處理多文件系統(tǒng)的分配和尋址,同時可支持文件描繪符(fieldesriptr)的分配以及回收,此外,它還支持根本的壓縮功能。索引構(gòu)造一旦用戶在搜索引擎中鍵入關(guān)鍵詞并提交查詢命令后,搜索引擎會瞬間返回搜索結(jié)果。然而為了更有效進步搜索效率,檢索器先查找索引庫,而并不對存儲庫中的信息進展直接查找。因此,索引庫在搜索引擎中占有相當(dāng)重要的地位,它將直接影響搜索效率、查找精度等。以下,本文將對搜索引擎中用到的索引構(gòu)造做一分析。一文檔索引庫

5、文檔索引庫(DeuentIndex)的作用在于查找、定位每個eb頁面文檔,它是一種固定長度的ISA索引,ISA的全稱為IndexedSequentialAeeessethd,是索引順序存取形式。它按照文檔標(biāo)識號DID關(guān)鍵字排序。該索引條目記錄了當(dāng)前文檔狀態(tài)、文檔校驗、頁面存儲器中的位置和和其他一些統(tǒng)計數(shù)據(jù)。假如一旦文檔已經(jīng)被抓取,那么文檔索引條目中的therStatistis包含一個指向名為dinf的可變長度文件的位置指針,該文件包含了文檔的URL和標(biāo)題信息。然而,假如文檔未被抓取,那么該指針指向URL列表,其中僅包含了URL信息。數(shù)據(jù)構(gòu)造這樣的設(shè)計的目的是獲得合理緊縮的數(shù)據(jù)存儲構(gòu)造,并且僅通

6、過單次磁盤搜索就可獲得所需記錄的才能。此外,還有一個用于將URL轉(zhuǎn)化為文檔標(biāo)識號DID的對照表文件。它是將相應(yīng)的文檔標(biāo)識號DID和URL校驗進展一一對應(yīng)的對照表。為了查找某一個URL對應(yīng)的文檔標(biāo)識號DID,首先需要對URL計算校驗和,然后應(yīng)用二分查找法在對照表文件中進展查找,直到找到相對應(yīng)的文檔標(biāo)識號DID。它的算法時間復(fù)雜度為(lg(表目條數(shù))。然而,假如當(dāng)需將大量的URL與相應(yīng)的文檔標(biāo)識號DID存入對照表中時,為防止在數(shù)以十億計的龐大的鏈接庫中進展屢次磁盤搜索操作,那么需要采取先將增量局部進展排序,然后采用外部合并有序文件的算法,再將新增局部添加到原對照表中的方法。URL分析器(URLRe

7、slver)正是采用了這一方法。二前向索引表為了說明索引表中位長構(gòu)造情況,首先對關(guān)鍵性的DID字段位長和rdID字段長度情況進展說明。DID字段長度設(shè)計為40位(5字節(jié)),總?cè)萘繛?240=1.1萬億個網(wǎng)頁頁面。前向索引表事實上己經(jīng)完成了局部的排序,存儲在一系列的存儲桶中。存儲桶的數(shù)量設(shè)計為64個,每個存儲桶保存了一定范圍內(nèi)的單詞標(biāo)識號rdID。當(dāng)一個頁面文檔包含有某個存儲桶內(nèi)的單詞時,該頁面文檔的標(biāo)識號DID就被存儲到該存儲桶中,同時將相關(guān)的單詞列表及其hist列表一并存入其中。三后向索引表后向索引表正是利用已經(jīng)存在的前向索引表,經(jīng)過排序器(srter)處理后形成的。然而,后向索引表與前向索引表的主要區(qū)別在主于關(guān)鍵字:前向索引表的主關(guān)鍵字為DID,而后向索引表的主關(guān)鍵字為rdID。后向索引表的作用是為了搜索引擎可以通過某個關(guān)鍵詞單詞查找到與之關(guān)的頁面文檔,所以需要以單詞標(biāo)識號rdID為主關(guān)鍵字;而前向索引表是以每個頁面文檔為根底,對其包含的單詞進展分析后而形成的,所以它以頁面標(biāo)識號DlD為主鍵字。由于DID全部位長為40位,然而在一段時間內(nèi)并不需要全部位長,因此在需要時可以從中借出局部位長給nhist。當(dāng)前可以采用nhits6位位長和DID34位位長方式,這樣使得其與前向索引表存儲位長就完全一致,此時,需要的額外處理降到最少。而當(dāng)DID34位位長缺乏時,可以增加1位

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論