xml網站搜索引擎服務的設計與實現_第1頁
xml網站搜索引擎服務的設計與實現_第2頁
xml網站搜索引擎服務的設計與實現_第3頁
xml網站搜索引擎服務的設計與實現_第4頁
全文預覽已結束

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

xml網站搜索引擎服務的設計與實現

1超文本標記語言隨著web的快速發(fā)展,網絡信息的增長率正在快速增長。我國互聯(lián)網網頁數至2006年12月已達4.47×109個,網頁字節(jié)數達122305737MB。因此,必須利用一定手段從海量信息中獲取有價值的信息。目錄式搜索引擎、關鍵詞搜索引擎及混合型搜索引擎在傳統(tǒng)信息檢索系統(tǒng)的基礎上得到快速發(fā)展。在信息集散地從圖書館和資料室逐漸遷移到互聯(lián)網的過程中,第1代Web語言——超文本標記語言(HyperTextMarkupLanguage,HTML)發(fā)揮了重要作用。作為一種頁面描述語言,HTML的簡潔及跨平臺特性極大方便了用戶獲取信息,但HTML過于精簡的語法導致其難以表現復雜形式,且存在難以擴展、交互性差、語義性差及單向超鏈接等缺點,難以在電子數據交換、數據庫或搜索引擎等領域被深入應用。萬維網聯(lián)盟(WorldWideWebConsortium,W3C)于1998年2月推出可擴展性標記語言(eXtensibleMarkupLanguage,XML)作為因特網上數據表示與交換的標準。XML自推出以來,在數據交換、數據存儲等多個領域得到全面發(fā)展,但在Web表示方面,XML仍處于初級階段。大部分Web網站仍使用HTML作為客戶端描述語言。W3C在2007年3月發(fā)表的章程中提到,互聯(lián)網的發(fā)展方向是以XML取代HTML,并提出將加速該進化過程。在互聯(lián)網從HTML向XML發(fā)展的過程中,現有搜索引擎技術將出現重大變革,適應并充分利用純XML的網絡環(huán)境將是搜索引擎發(fā)展重要方向之一。2文檢索和檢索XML信息檢索(InformationRetrival,IR)是近期發(fā)展最迅速的IR領域之一,INEX是現有最著名的XML檢索與評價組織。文獻論述了INEX中的相關課題。INEX的議題主要包括XMLAd-hoc檢索、交互式XML檢索、多媒體XML信息檢索、XML相關反饋檢索、異構XML檢索、XML文檔挖掘和基于自然語言處理的XML檢索。目前大量研究集中在傳統(tǒng)信息檢索領域,以INNEX2005為例,有近一半的論文集中在XMLAd-hoc領域,即對圖書館館藏靜態(tài)文檔集檢索的一種模擬,XML的作用是實現數據存儲。XML信息檢索是實現內容和結構的雙重檢索,文獻提出一種基于XPath的結構化查詢方法,增加類似“about”的模糊查詢函數來滿足XML信息檢索的非結構化查詢全文檢索要求。XML網站全文搜索引擎實現的相關資料很少,主要原因如下:(1)一些商業(yè)性XML搜索引擎的相應技術暫時沒有被公布;(2)由于各種原因(如一些瀏覽器對XML網頁及XSL的支持滯后等),當前的純XML網站較少,因此多數實踐是基于類似圖書館館藏靜態(tài)XML文檔等實驗集開展的。3ml頁面設計由于瀏覽器只能識別HTML標簽,無法識別JSP或ASP的標簽,因此無論JSP,ASP或PHP,服務器端接收用戶端request后,參數化頁面變量并返回給客戶端的仍然是HTML頁面。而HTML的根本缺陷是它既包含需要顯示的數據,又包含這些數據應如何展示的頁面設計,造成數據和外觀混合,直接影響了一些非桌面互聯(lián)網終端,如手機、PDA等,網頁瀏覽效果很差。XML網站可以很好地實現文檔內容和外觀設計的完全分離。XML文檔只負責存儲數據,外觀顯示由可擴展樣式表語言(eXtensibleStylesheetLanguage,XSL)或CSS負責。不同上網終端接收到相同的XML文檔,只是針對不同客戶端的樣式文件不同。如果要打印一份網頁清單,只要替換一份樣式文檔,無須重新排版一個新的網頁。3.1xolt和xelXSL最早由W3C于1999年提出,在XSL標準的發(fā)展過程中,原始XSL標準被劃分為2個單獨的規(guī)范文檔:可擴展樣式表語言轉換(eXtensibleStylesheetLanguageTransformations,XSLT)和XSL。XSL是一種高級格式化語言,用于定義如何顯示數據;XSLT提供一套規(guī)則,用于將一組元素描述的XML數據轉換為另一組元素描述的文檔,或將該數據轉換為一種自定義文本格式(如需要打印的工資單)。XSLT的根本設計目的是轉換文檔的詞匯表,如圖1,將XSLT樣式表應用于XML源文檔上,將產生一個結果文檔。3.2織物和網頁內容本次實驗模擬的純XML網站是一個部署在Tomcat6.0.10上的靜態(tài)Web網站,包括33個相互鏈接的XML網頁、1個XSL樣式表、1個DTD文檔和1幅gif圖片。XML網頁的內容來自SUN的JavaEE5的教材,首頁的部分內容如下:通過給源文件指定相應的XSL樣式表,用戶可以使用瀏覽器看到一個由標題、摘要和正文3部分組成的首頁,頁面風格與/javaee/5/docs/tutorial/doc/相似。其他XML頁面可通過首頁鏈接訪問,它們具有相似外觀。4兩種分離的設計程序Nutch是基于全文檢索模塊Lucene的一個開源搜索引擎。其中,Lucene是Apache軟件基金會下的一個開源全文檢索引擎工具包,提供了查詢引擎和索引引擎。Nutch可分為如下3個部分:(1)網頁收集(fetch)。網頁收集程序通過定期收集方式或增量收集方式從URL列表中選擇要收集頁面的URL,通過此URL訪問網頁并將網頁抓取到本地。(2)建立索引(index)。索引建立程序將抓取的網頁進行分詞和過濾,將文檔分隔成一個詞干的集合,以關鍵詞作為索引建立或動態(tài)維護倒排文檔,即關鍵詞A出現在哪些文檔中的對應關系。在Nutch中,這樣的索引文檔由很多個小索引文檔組合而成。(3)查詢(searcher)。查詢模塊接收用戶的查詢輸入,通過分詞和過濾,分隔成查詢關鍵詞組合,根據這些關鍵詞到索引庫中匹配相應網頁,并按排序算法對匹配結果進行排序,返回結果。Nutch的整體框架如圖2所示。5國家期網頁信息獲取雖然Nutch自2003年推出以來發(fā)展迅速且受到開源社區(qū)的廣泛關注,但Nutch本身不能直接完成純XML網站的檢索。主要原因是純XML網頁的各個標簽是自定義的一組標簽。傳統(tǒng)網頁搜集模塊(又稱為Spider或Bot等)通過HTML標簽建立網頁的DOMTree。當網頁變成了XML后,DOMTree仍然可以建立,但其中的標簽無法被網頁搜集模塊識別。筆者在使用Nutch0.9對之前建立的純XML模擬網站進行檢索實驗時,以首頁http://localhost:8080/xml/javaeetutorial.xml作為檢索初始頁,只能獲得首頁,網頁搜集模塊無法識別首頁中<lochref=”somepage.xml”>元素的含義,因此,無法自動爬行到下一鏈接中,導致抓取失敗。文獻提出一種基于文檔類型定義(DocumentTypeDefine,DTD)的XML內容檢索方法,通過DTD的上下文關系幫助用戶提高檢索效率。本文借助XML之外的信息(如XSL中的信息)幫助網頁抓取程序理解XML網頁中自定義標簽的含義。任何XML網頁最終都需要結合一定樣式來生成瀏覽器可以理解的視圖。有如下3種方式可以使網頁抓取程序正確理解XML網頁中的標簽含義:(1)人工分析+硬編碼。Nutch的HTMLParser采用此方式,因為HTML的標簽是固定的,所以哪些標簽代表鏈接關系,哪些標簽代表顯示邏輯,可以硬編碼到代碼中。但用這種機制處理XML網頁會使代碼難以被維護,特別是當樣式表發(fā)生變化時。(2)人工分析+配置文件。使用配置文件方式維護XML網頁標簽的詞匯表,可以使程序更靈活地應對標簽的增刪變更,且無須重新編譯源代碼。但這種方案依賴人工分析,當XML網頁采用相同的XSL樣式文件時可以應對,但如果各個XML網頁采用不同XSL樣式文件和不同標簽體系,則人工分析基本不可能實現,而對于XML搜索引擎而言,這種情況相當普遍。(3)程序動態(tài)解析。程序動態(tài)解析是最靈活的處理方式,即在網頁抓取程序解析XML網頁的同時解析XSL樣式文件,從而獲得各個標簽的語義。比如,在本文模擬網站的樣式文件中,可以找到標簽<loc>的含義,代碼如下:網頁抓取程序可以根據上述標簽代表鏈接關系而獲得網頁的鏈接關系,從而遍歷整個網站。本實驗采用第(3)種方式,通過增加一個XSLParser來解析樣式文件。對于相同的樣式文件,采用緩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論