已閱讀5頁,還剩74頁未讀, 繼續(xù)免費閱讀
【畢業(yè)學(xué)位論文】基于XML 的網(wǎng)頁信息抽取-模式識別與智能系統(tǒng).pdf 免費下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于生姓名:周津 學(xué) 號:導(dǎo)教師:朱明 (教授) 單位名稱:自動化系 專業(yè)名稱:模式識別與智能系統(tǒng) 中國科學(xué)技術(shù)大學(xué) 二零零四年五月 摘要 1 摘 要 隨著互聯(lián)網(wǎng)的迅猛發(fā)展,“信息過載”已經(jīng)成為一個亟待解決的問題。為了使用戶準確獲取他想要的信息,信息抽取成為必要。從網(wǎng)頁中抽取信息的程序稱為鍵的任務(wù)是:需要過多人為地參與,并且,構(gòu)造出的適應(yīng)網(wǎng)頁的變化,同時,還要盡可能通用,與具體網(wǎng)站無關(guān)。 針對們提出了各種各樣的方法。這些方法的抽取模式語言基本上都是自己定制的,往往很簡單、難以描述精確或者復(fù)雜的信息抽取模式。盡管通過人為標記的樣本可以自動歸納出抽取規(guī)則,但這些抽取規(guī)則很難達到很高的精度、健壯性和通用性。 本文使用標準的 于標準的 以利用它強大而且靈活的特性編寫簡單、健壯和通用的抽取規(guī)則。為了快速的構(gòu)造抽取規(guī)則,我們開發(fā)了一個信息抽取平臺。 除了手工編寫抽取規(guī)則外,本文提出了新穎的方法自動歸納網(wǎng)頁模板和記錄模板,以及相應(yīng)的抽取規(guī)則。網(wǎng)頁模板可以用來抽取網(wǎng)頁的主要內(nèi)容。這對很多基于網(wǎng)頁內(nèi)容的工作很重要,比如網(wǎng)頁信息檢索,網(wǎng)頁聚類與分類等等。記錄模板可以用來抽取網(wǎng)頁中的列表數(shù)據(jù)。另外,由于使用的是取模式可以很容易理解和修改。 最后,我們還開發(fā)了多網(wǎng)頁信息抽取框架。實際的應(yīng)用經(jīng)常需要對多個網(wǎng)頁進行抽取?;诒疚乃O(shè)計開發(fā)的 息抽取平臺,可以很快的構(gòu)建出健壯和通用的網(wǎng)頁信息抽取關(guān)鍵詞:信息抽取,互聯(lián)網(wǎng), “a To of he is is a be be to of be as as it is on to of to or be or We ML to we of to We a to In to we to be to of a is to on as be to in be At we we 錄 1 目錄 1. 概 述.言. 背景. 網(wǎng)頁信息抽取. .文的工作.文的組織. 相關(guān)研究.于自然語言理解的方法.于機器學(xué)習(xí)的方法.于.面三種方法的討論.于. . . . 小結(jié).全自動化的方法. . . 小結(jié).法總結(jié)和本文的工作. 相關(guān)標準. . . 元素(標記(. 屬性(. . 樣式單. . 查詢. 定位路徑(. 表達式. 模板. 取得節(jié)點值.錄 2 用模板. 默認模板規(guī)則. 循環(huán). 選擇. 變量. 按名稱調(diào)用模板. 用.0 . 網(wǎng)頁信息抽取平臺.頁信息抽取的難點.頁信息抽取平臺的目標.于抽取模式.例:利用. 抽取天氣信息. 抽取規(guī)則健壯性研究.據(jù)定位健壯性研究. 完全基于文本的定位. 使用屬性模式定位. 不同定位模式的討論.于縮略路徑的數(shù)據(jù)抽取.造通用的鏈接組抽取模式. 自動歸納網(wǎng)頁模板.言.關(guān)工作.型和假定.納樹模板.一步的過濾與轉(zhuǎn)換.驗結(jié)果.結(jié). 自動歸納網(wǎng)頁記錄模板.言.關(guān)工作.型和假定. 數(shù)據(jù)類型. 模板. 抽取模型. 簡化后的模型.納記錄模板. 列表數(shù)據(jù)的路徑模式. 樹路徑聚類與歸納.驗結(jié)果.結(jié). 多網(wǎng)頁信息抽取.錄 3 言.型和框架. 問題描述. 抽取框架.結(jié). 總結(jié)和未來的工作.結(jié).來的工作.考文獻. 謝. 概述 1 1. 概 述 言 景 毫無疑問,互聯(lián)網(wǎng)已經(jīng)成為最為流行的信息發(fā)布媒介?;ヂ?lián)網(wǎng)使得人們無論是發(fā)布還是閱讀信息都變得極為方便。然而,隨著互聯(lián)網(wǎng)信息爆炸性的增長,人們想要獲取一條自己想要的信息卻變得像大海撈針一般困難。如何有效、快速的搜索所需信息,成為亟待解決的問題。 在這種背景下,搜索引擎出現(xiàn)了。它幫助人們通過給定的關(guān)鍵詞來獲取相關(guān)的頁面。然而,搜索引擎只是部分的緩解了信息搜索的問題,結(jié)果并不能令人滿意。不足之處表現(xiàn)在三個方面: 1. 只是給出了相關(guān)頁面的鏈接,用戶還是需要手工瀏覽網(wǎng)頁才能找到相關(guān)信息。 2. 結(jié)果不準確。大量的搜索結(jié)果都是用戶不想要的。 3. 檢索模式簡單。無法提供類似 樣強大的查詢語言。由于無法定制精確的查詢,想要獲取精確的結(jié)果是不可能的。 最理想的情景是:互聯(lián)網(wǎng)作為一個信息源能像數(shù)據(jù)庫一樣被查詢。然而,互聯(lián)網(wǎng)上文本信息的格式是半結(jié)構(gòu)化的 是無法被機器直接處理的。因此,一種想法是將網(wǎng)頁中的信息抽取出來并存放到數(shù)據(jù)庫中這樣,用戶就可以利用數(shù)據(jù)庫的各種特性來查詢數(shù)據(jù)了。 頁信息抽取 信息抽取的目標是將文本中的信息抽取出來并表示為結(jié)構(gòu)化、自描述的數(shù)據(jù)結(jié)構(gòu)。從而將難以操縱的文本數(shù)據(jù)轉(zhuǎn)化為容易處理和分析的結(jié)構(gòu)化數(shù)據(jù)。 傳統(tǒng)的信息抽取是針對純文本,主要使用自然語言理解的技術(shù)。但由于純文本沒有任何文本之外可利用的信息,這項工作極為困難,進展也很緩慢。隨著互聯(lián)網(wǎng)的出現(xiàn),個 檔就是一個網(wǎng)頁,網(wǎng)頁與純文本的結(jié)構(gòu)差別很大,主要表現(xiàn)為網(wǎng)頁中存在大量的標記,這些標記將網(wǎng)頁要顯示的文本內(nèi)容分隔開來。大量的標記為網(wǎng)頁信息抽取提供了更多可利用的信息,從而可以開發(fā)各種不同于傳統(tǒng)信息抽取的方法對網(wǎng)頁進行信息抽取。 標記為文檔引入了結(jié)構(gòu)信息。根據(jù)標記可以將一個文檔表示為一棵樹的結(jié)構(gòu)。但是,網(wǎng)頁并不是結(jié)構(gòu)化的。網(wǎng)頁所使用的的語言是記大部分都是用于顯示的,并不能描述文本的含義。因而,網(wǎng)頁只能算是半結(jié)構(gòu)化的文檔。信息抽取也成為必要。 從網(wǎng)頁中抽取信息的程序成為網(wǎng)頁的特殊性帶來了新的挑戰(zhàn)。主要表現(xiàn)為網(wǎng)頁的易變性。一個網(wǎng)頁由是網(wǎng)頁內(nèi)容變化很頻繁。不僅如此,網(wǎng)頁的結(jié)構(gòu)也可能變化。這使得何構(gòu)造健壯的ML(擴展置標語言)由 概述 2 聯(lián)網(wǎng)聯(lián)合組織)于 1998 年 2 月發(fā)布的一種標準,同 樣是 準通用置標語言)的一個簡化子集。與只關(guān)心數(shù)據(jù)的描述。一個使得它非常適合數(shù)據(jù)描述、數(shù)據(jù)交換和數(shù)據(jù)互操作。 推出以來就開始迅猛的發(fā)展和被廣泛的應(yīng)用。各種圍繞 相關(guān)標準和工具不斷被開發(fā)出來。這使得基于加健壯,更加通用,更加容易維護。 此,完全可以利用各種們開發(fā)了基于且還在平臺基礎(chǔ)之上開發(fā)了幾個應(yīng)用。實際證明,基于效、健壯、通用和易維護的目標。 文的工作 本文主要進行了以下幾項工作: 1. 開發(fā)了網(wǎng)頁信息抽取平臺,包括一個幫助構(gòu)造抽取模式的用戶圖形界面。使用本文的平臺和圖形用戶界面,開發(fā)一個網(wǎng)頁信息抽取程序只需要幾分鐘。 2. 研究了幾種健壯的抽取模式構(gòu)造方法。 3. 開發(fā)了一個通用的鏈接組抽取模式。 4. 網(wǎng)頁模板的自動歸納。相同網(wǎng)站一般存在外表相似的網(wǎng)頁。這些相似的網(wǎng)頁都是由同一個網(wǎng)頁模板所生成。相似網(wǎng)頁除了主要內(nèi)容不同外,其它的部分完全一樣。這些相同的部分都屬于網(wǎng)頁模板中的內(nèi)容。歸納模板,獲取網(wǎng)頁主要內(nèi)容對各種基于網(wǎng)頁內(nèi)容的分析處理(比如信息檢索、網(wǎng)頁分類與聚類)有著極大的意義。本文通過比較相似網(wǎng)頁結(jié)構(gòu)完全自動的歸納出網(wǎng)頁模版并生成網(wǎng)頁主要內(nèi)容的抽取模式。 5. 記錄模板的自動歸納。根據(jù)數(shù)據(jù)庫查詢結(jié)果所生成的頁面往往包含多條相似的信息塊,比如 檢索結(jié)果頁面。每條記錄都具有相似的外觀和結(jié)構(gòu),因為它們都是由相同的記錄模板所生成的。本文根據(jù)記錄的相似性完全自動的歸納出一個網(wǎng)頁的記錄模板并生成相應(yīng)的抽取模式。 6. 開發(fā)了多網(wǎng)頁信息抽取框架。基于這個框架,本文還開發(fā)了一個實際的 文的組織 第一章是概述,介紹本文的研究背景和貢獻。第二章簡要介紹了本文方法所涉及到的相關(guān)標準技術(shù)。這些技術(shù)將是支撐整個系統(tǒng)的基礎(chǔ)。第三章介紹系統(tǒng)架構(gòu)以及基于健壯和通用的模式編寫方法。第四章介紹兩種類型的模板自動歸納方法。第五章介紹了多網(wǎng)頁信息的抽取。在實際應(yīng)用中,單獨的從一個網(wǎng)頁中抽取所有必要的信息往往是不可能的。因此,如何有效地進行多網(wǎng)頁的信息抽取成為一個關(guān)鍵的問題。最后,是對本文所做工作的一個總結(jié)和對未來工作的一些展望。 2 相關(guān)研究 3 2. 相關(guān)研究 傳統(tǒng)構(gòu)造種方式費時費力,容易出錯,需要專家完成,而且這種方式難以維護,如果站點結(jié)構(gòu)一變,所有代碼就得重新編寫。為了更好的解決這個問題,人們提出了各種各樣半自動或自動化的方法 對各種方法進行分類的角度可以有多種。比如根據(jù)自動化程度,可以分為手工、半自動和全自動根據(jù)方法的原理可以分為及其機器方法、自然語言理解方法、還可以根據(jù)結(jié)果是否是否可以抽取復(fù)雜數(shù)據(jù)結(jié)構(gòu)這些角度考慮。本文將主要從方法的原理進行分類,同時著重從實用角度分析每種方法或者系統(tǒng)的各種特性。關(guān)于幾個和本文方法類似的系統(tǒng)將會詳細介紹和分析。 于自然語言理解的方法 基于自然語言理解的方法采用了過濾、詞性和詞匯語義標識來建立短語和語句元素間的關(guān)聯(lián),通過給定的例子學(xué)習(xí)抽取規(guī)則。這些規(guī)則通過語法和語義上的約束來定位元素主要有三種工具于機器學(xué)習(xí)的方法 基于機器學(xué)習(xí)的方法的抽取規(guī)則是基于分隔符來定位要抽取的數(shù)據(jù)。也是通過人為標記的樣本自動學(xué)習(xí)抽取規(guī)則。它和前面一種方法主要不同之處在于它們并不依賴于語言上的約束,而是描繪數(shù)據(jù)的隱式的格式特性主要有三種工具 且還不能抽取復(fù)雜格式的數(shù)據(jù)。于于 方法9主要依賴一個完全的知識庫。知識庫定義了各個元素的抽取模式,還有它們之間的聯(lián)系。在抽取之前,需要將包含數(shù)據(jù)的紀錄塊分隔開來,然后依次對每個記錄塊進行信息抽取。抽取模式?jīng)]有使用依賴于特定文檔的分隔符或者詞性這樣的自然語言理解技術(shù),而是主要使用通用的詞法模式,比如姓名的模式是“s+(.s+)?”。這種方法不依賴于任何結(jié)構(gòu)和表現(xiàn)形式。它使用過,這事先需要構(gòu)造一個完整的構(gòu)造這樣一個庫要由專家花很長時間。而且,有時很多信息很難給出對應(yīng)的面三種方法的討論 基于自然語言理解的方法和基于機器學(xué)習(xí)的方法都需要人為給定樣本來學(xué)習(xí)抽取規(guī)則。而給定樣本很耗精力。這兩種方法的抽取規(guī)則都與具體網(wǎng)頁密切相關(guān),因此,如果網(wǎng)頁結(jié)構(gòu)2 相關(guān)研究 4 改變了,得重新提供樣本并生成抽取規(guī)則。 雖然 法很通用,但是構(gòu)建通用的知識庫并不是一件容易的事情。有時一個簡單的任務(wù)并不需要很高的通用性。 另外,上面這些方法都是線性的處理 檔,通過字符串模式定位到關(guān)鍵信息,而完全忽略了字符串模式有時很難保證定位的精確性。 于過利用于當(dāng)然,這種方法無法被用到非既然本文的工作集中于網(wǎng)頁信息的抽取,那么很大程度上可以忽略這個缺點。下面將介紹幾個重要的基于4F 含一組自定義的語言用來描述網(wǎng)頁獲取規(guī)則,信息抽取規(guī)則以及到 取規(guī)則還包含正則表達式來幫助從純文本中抽取信息。就像它的名字,這個工具還包含一個圖形用戶界面來幫助用戶生成抽取規(guī)則。4里,本文將主要關(guān)注 圖 示。抽取規(guī)則使用了樹路徑和正則表達式。而這些都可以通過標準的到。不僅如此,提供了更為豐富的數(shù)據(jù)定位方法。 2 相關(guān)研究 5 4 一個半自動化的先獲取后利用了如及它們被用作數(shù)據(jù)表現(xiàn)時的含義作為啟發(fā)式。通過啟發(fā)式,它會幫助自動尋找關(guān)鍵信息。并生成由 說用戶只要簡單的點擊幾次就可以獲得一個站點的 動化程度應(yīng)該算很高了。但是,實際生成的為很多站點并不符合那些特定的啟發(fā)式。而且,對于大部分定制的信息抽取任務(wù),通過幾次簡單的點擊和啟發(fā)式的搜索并不能準確捕捉用戶的需求,因而,盡管人為參與很少,但結(jié)果反而并不精確。另外,由于使得用樹路徑定位要抽取的區(qū)域,一般是一個表。然后根據(jù)一個模板規(guī)則對抽取區(qū)域中的數(shù)據(jù)。模板規(guī)則語言自定義的語言,用 一些簡單的循環(huán)和提取指令。 相關(guān)研究 6 用最新的標準的技術(shù)過取規(guī)則可以很容易的被構(gòu)造出來,而且很有效。用文本搜索和相對路徑相結(jié)合的方法,可以使所產(chǎn)生的位模式如下: 小結(jié) 種抽取規(guī)則基于據(jù)樹結(jié)構(gòu)可以精確的定位數(shù)據(jù)。因此它們都包含了圖形用戶界面以幫助生成抽取規(guī)則。用戶使用圖形用戶界面圈定自己想要抽取的內(nèi)容,系統(tǒng)可以自動生成對應(yīng)的抽取規(guī)則。但是,簡單的點擊并不能描述復(fù)雜數(shù)據(jù)的抽取模式,因此自動生成的抽取規(guī)則可能需要重新改寫。使得修改起來很困難。 2 相關(guān)研究 7 自己設(shè)計的抽取模式語言一般都比較簡單,與特定的系統(tǒng)綁定到一起。缺乏維護和更新,容易過時。術(shù)來進行信息抽取。被廣泛支持的標準語言,功能強大。利用標準技術(shù)不僅可以快速的構(gòu)造抽取規(guī)則,而且還可以編寫更加健壯的抽取規(guī)則。因此本文也采用為抽
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年關(guān)于庫爾勒梨城建設(shè)有限公司公開選聘副總經(jīng)理的備考題庫及答案詳解1套
- 2026年山西電機制造有限公司招聘備考題庫帶答案詳解
- 2026年中國旅游集團崗位招聘備考題庫及參考答案詳解
- 2026年中建西部建設(shè)新材料科技有限公司招聘備考題庫及完整答案詳解1套
- 2026年東莞證券股份有限公司河源分公司招聘備考題庫含答案詳解
- 2026年寧波市鄞州區(qū)公立學(xué)校招聘編外員工備考題庫及完整答案詳解1套
- 2026年南昌華路建設(shè)咨詢監(jiān)理有限公司招聘備考題庫及答案詳解1套
- 2026年北京市海淀區(qū)富力桃園幼兒園招聘備考題庫及參考答案詳解一套
- 2026年嶺南國防教育基地備考題庫技術(shù)員招聘備考題庫及完整答案詳解一套
- 2026年四會市建筑安裝工程有限公司公開招聘工作人員備考題庫附答案詳解
- 安全評估培訓(xùn)體會課件
- 生產(chǎn)安全操作安全培訓(xùn)模板
- 課題班級自主管理申報書
- 國際貨運代理公司合伙協(xié)議書
- 質(zhì)量安全環(huán)保保證協(xié)議書
- 北京市朝陽區(qū)2023-2024學(xué)年七年級上學(xué)期期末質(zhì)量監(jiān)測歷史試卷及答案
- 教代會提案工作培訓(xùn)指南
- 飛行營地建設(shè)項目可行性研究報告
- 2025年副高衛(wèi)生職稱-臨床醫(yī)學(xué)檢驗學(xué)技術(shù)-臨床醫(yī)學(xué)檢驗臨床化學(xué)技術(shù)(副高)代碼:058歷年參考題庫典型考點含答案解析
- 電大??扑姽こ趟ㄒ?guī)與行政執(zhí)法試題及答案
- 2025年四川單招試題及答案普高
評論
0/150
提交評論