已閱讀5頁,還剩74頁未讀, 繼續(xù)免費(fèi)閱讀
【畢業(yè)學(xué)位論文】垂直搜索引擎中Web 信息抽取技術(shù)研究-計算機(jī)軟件與理論.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
分類號 密級 U D C 編號 士學(xué)位論文 論文題目 垂直搜索引擎中 息抽取技術(shù)研究 學(xué)科、專業(yè) 計算機(jī)軟件與理論 研究生姓名 胡國晴 導(dǎo)師姓名及 專業(yè)技術(shù)職務(wù) 李建華 教授 2008 年 7 月 I 摘 要 目前 的資源日益增多,為更有效地利用這些資源,近年來產(chǎn)生了垂直搜索引擎。它是面向?qū)I(yè)或主題的搜索引擎,只采集與專業(yè)或主題相關(guān)的信息,這樣就需要從 面等資源中抽取出特定的主題信息,本文的研究重點(diǎn)正是從 面中抽取與特定主題相關(guān)的信息。 針對目前 息抽取方法實(shí)現(xiàn)復(fù)雜等問題,設(shè)計了一種基于標(biāo)簽序列的 面主題信息抽取方法。該方法通過設(shè)定的策略和樣本建立抽取規(guī)則,構(gòu)建規(guī)則庫,借助規(guī)則庫實(shí)現(xiàn)對頁面主題信息抽取,這樣降低了處理 面過程的復(fù)雜性,并減少了頁面處理時間。通過應(yīng)用本方法抽取部分網(wǎng)站的手機(jī)參數(shù)頁面,表明該方法召回率和準(zhǔn)確率都比較高。 當(dāng)需要抽取的 面結(jié)構(gòu)發(fā)生變化而出現(xiàn)主題的新屬性時,目前已有的方法建立的分裝器并不能隨著這 種變化準(zhǔn)確地發(fā)現(xiàn)主題的新屬性。針對該問題,提出了一種基于可信度的 面主題新屬性發(fā)現(xiàn)方法,通過對待抽取屬性和 已抽取屬性的特點(diǎn)進(jìn)行分析,引入可信度理論,通過一系列規(guī)則和證據(jù),量化待抽取屬性需要抽取的可信度,以判斷待抽取屬性是否為主題的新屬性。并將其應(yīng)用到部分網(wǎng)站頁面手機(jī)參數(shù)主題屬性發(fā)現(xiàn)中, 實(shí)驗(yàn)證明該方法能夠較為準(zhǔn)確發(fā)現(xiàn)頁面中主題的新屬性。 最后設(shè)計了一種垂直搜索引擎原型系統(tǒng) ,主要完成了專業(yè)網(wǎng)絡(luò)蜘蛛模塊的詳細(xì)設(shè)計,它綜合了本文提出的 面主題信息抽取方法和 面主題新屬性發(fā)現(xiàn)方法,以實(shí)現(xiàn)對頁面主題信息的采集。 關(guān)鍵詞 息抽取,垂直搜索引擎,主題信息,新屬性 on eb by of to of Its or or it is on eb At eb is a on in a we to eb it of eb of to eb we a in it is of t to of on eb a to eb on of be of it of to be of on is to be to it At a is we in It eb eb is in to in eb 錄 第一章 緒論 .究背景 .究現(xiàn)狀 . 息抽取技術(shù)研究現(xiàn)狀 . 搜索引擎發(fā)展現(xiàn)狀 .究內(nèi)容 .文組織結(jié)構(gòu) .二章 息抽取及垂直搜索引擎技術(shù) .術(shù) . . 件 .裝器 .息抽取評價指標(biāo) .本預(yù)處理 . 文本分類 . 中文分詞 .具包 .直搜索引擎原理 .章小結(jié) .三章 基于標(biāo)簽序列的 面主題信息抽取方法研究 .言 .關(guān)概念與分析 . 相關(guān)概念 . 頁面結(jié)構(gòu)分析 . 主題屬性頁面顯示格式特征分析 . 主題屬性頁面表示方式特征分析 .種基于標(biāo)簽序列的 面主題信息抽取方法 . 相關(guān)策略 . 相關(guān)定義 . 基于標(biāo)簽序列的 面主題信息抽取模型 .本訓(xùn)練 . 主題信息抽取 .驗(yàn) . 實(shí)驗(yàn)過程 . 實(shí)驗(yàn)分析 .章小結(jié) .四章 基于可信度的 面主題新屬性發(fā)現(xiàn) .言 .信度 .種基于可信度的 面主題新屬性發(fā)現(xiàn)方法 . 證據(jù)定義 . 基于可信度的 面主題新屬性發(fā)現(xiàn)模型 . 字體關(guān)系可信度 . 背景關(guān)系可信度 . 待抽取屬性名與已抽取屬性名擁有相同父節(jié)點(diǎn)可信度 . 待抽取屬性名與已抽取屬性名格式相同可信度 . 待抽取屬性名與用戶感興趣范圍關(guān)系可信度 .驗(yàn) . 實(shí)驗(yàn)過程 . 實(shí)驗(yàn)分析 .章小結(jié) .五章 垂直搜索引擎原型系統(tǒng)設(shè)計 .統(tǒng)整體框架 .體結(jié)構(gòu) . 模塊介紹 . 系統(tǒng)處理流程 .業(yè)網(wǎng)絡(luò)蜘蛛 .體設(shè)計 . 列管理子模塊 . 主題信息抽取與新屬性發(fā)現(xiàn)子模塊 .章小結(jié) .六章 總結(jié)和展望 .文工作總結(jié) .一步展望 . 謝 .讀學(xué)位期間主要的研究成果 .碩士學(xué)位論文 第一章 緒論 1第一章 緒論 究背景 近年來,隨著信息時代的到來,互聯(lián)網(wǎng)在我們的生活中的地位變得越來越重要,就中國而言,在 07年 1月的中國互聯(lián)網(wǎng)發(fā)展報告中,全國網(wǎng)頁總數(shù)估計為 ,而這一總數(shù)在 07年 12月的調(diào)查中,中國網(wǎng)頁總數(shù)已經(jīng)達(dá)到 個2。 互聯(lián)網(wǎng)上的海量信息,如果能有效利用起來,對人類的發(fā)展必然能做出突出的貢獻(xiàn)。然而隨著互聯(lián)網(wǎng)的迅速發(fā)展,當(dāng)今社會并沒有有效的管理互聯(lián)網(wǎng)上的信息,從而造成目前網(wǎng)上信息混亂不堪,這極大的影響了用戶快速、準(zhǔn)確、完整的找到所需要的信息,搜索引擎正是為解決這種情況而誕生。 搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計 算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索 服務(wù)的系統(tǒng)。目前搜索引擎已成為網(wǎng)民在汪洋中搜尋信息的工具,是互聯(lián)網(wǎng)上不可 或缺的工具和基礎(chǔ)應(yīng)用之一,在中國使用搜索引擎的比例已達(dá)到 而美國已經(jīng)達(dá)到 91%2。 根據(jù)搜索引擎定義,如何從互聯(lián)網(wǎng)上采集 信息成為搜索引擎的主要任務(wù), 一。而目前的搜索引擎主要是通用搜索引擎,如 。但是在用戶大部分查詢條件下,通用搜索引擎返回的數(shù)據(jù)量太大,并且大部分查詢的信息都與用 戶真正想要的信息無關(guān);而且隨著采集數(shù)據(jù)量的增大,這些信息的索引維護(hù)對系統(tǒng) 的壓力也不斷的增大,這樣必然損害用戶查找信息的效率3。 針對通用搜索引擎的弊端,垂直搜索引擎的出 現(xiàn)部分緩解了這種壓力,垂直搜索引擎是針對某一個行業(yè)的專業(yè)搜索引擎,是 通用搜索引擎的細(xì)分和延伸,它通過對網(wǎng)頁庫中某類專門信息進(jìn)行一次整合,定向 分字段抽取出需要的數(shù)據(jù),并將該數(shù)據(jù)進(jìn)行處理后以某種形式返回給用戶3,它的基本原理與通用搜索引擎相同。 垂直搜索引擎和傳統(tǒng)通用搜索引擎一個重要的 區(qū)別是它對網(wǎng)頁信息進(jìn)行了結(jié)構(gòu)化信息抽取,它屬于 息抽取范疇。 息抽取是通過對特定網(wǎng)頁的結(jié)構(gòu)和數(shù)據(jù)項(xiàng)特征進(jìn)行分析,將網(wǎng)頁預(yù)定義數(shù)據(jù)抽取 出來,并為其增加一定的語義和模式信息4,如科技論文網(wǎng)頁中可以抽取標(biāo)題、作者、論文摘要、發(fā)布時間、關(guān)鍵字、正文等網(wǎng)頁預(yù)定義數(shù)據(jù)。垂直搜索引擎是以結(jié)構(gòu) 化數(shù)據(jù)為最小單位,然后將這些數(shù)據(jù)存儲到數(shù)據(jù)庫中;而傳統(tǒng)的通用搜索引擎 是以網(wǎng)頁或網(wǎng)頁塊為最小單位。所以 質(zhì)量的重要技術(shù)指標(biāo), 息抽取技術(shù)成為了垂直搜索引擎的關(guān)鍵技術(shù)之一。 碩士學(xué)位論文 第一章 緒論 究現(xiàn)狀 息抽取技術(shù)研究現(xiàn)狀 目前, 組成頁面的標(biāo)簽除了用于顯示頁面的數(shù)據(jù)外,并沒有表達(dá)用戶感興趣的其他信息,如果沒有人工或者先驗(yàn)知識的指導(dǎo),電腦或程序很難發(fā)現(xiàn)用戶感興趣的信息。為了解決這個問題, 它屬于信息抽取的一個分支。 自 20世紀(jì) 90年代 內(nèi)外已經(jīng)對 文根據(jù)抽取方法實(shí)現(xiàn)原理不同,具體分為以下四種。 1)基于自然語言理解的方法 基于自然語言理解的方法需要比較強(qiáng)的先驗(yàn)知識,需要事先通過訓(xùn)練樣本建立自然語言語料庫,并對語料庫中詞項(xiàng)等基本元素進(jìn)行語義標(biāo)注,在抽取時根據(jù)語料庫建立需要抽取文檔中短語或句子之間的關(guān)系,并歸納出抽取的規(guī)則,從而抽取所需要的信息5。 自然語言理解屬于人工智能范疇,最先是用于機(jī)器翻譯領(lǐng)域,在 于自然語言處理的方法通常應(yīng)用于由語義信息構(gòu)成的網(wǎng)頁的抽取,如抽取公寓出租廣告信息等。 是由 在 過事先給定一系列的訓(xùn)練集,對訓(xùn)練集中的樣本進(jìn)行手工標(biāo)注,并通過自主學(xué)習(xí)生成抽取規(guī)則; ,它是一種面向自由文本的抽取數(shù)據(jù)的工具,利用了一系列機(jī)器學(xué)習(xí)的方法,通過關(guān)系學(xué)習(xí)生成抽取規(guī)則,以抽取感興趣的信息; 是由 適合于各種形式的文本的抽取,同 也需要一系列的訓(xùn)練集,通過一個圖形化接口對訓(xùn)練集樣本中感興趣的信息進(jìn)行手工標(biāo)注,并將被標(biāo)注過的樣本用來指導(dǎo)生成抽取規(guī)則。 2)基于 于 以實(shí)現(xiàn)對頁面中相關(guān)信息的抽取。這種方法一般都將 過對樹分析實(shí)現(xiàn)抽取 目前該方法已經(jīng)比較成熟,國內(nèi)外已經(jīng)對它進(jìn)行了多方面研究,在國外 ,它先對 對樹中的節(jié)點(diǎn)進(jìn)行標(biāo)記,并通過一系列啟發(fā)式規(guī)則實(shí)現(xiàn)頁面信息的抽取。 0,該方法分為兩個階段,第一個階段是機(jī)械學(xué)習(xí)標(biāo)識樣本頁面中感興趣的信息,第二個階段是通過模式匹配發(fā)現(xiàn)頁面中需要抽取的信息。 第一章 緒論 3離( 法測量頁面相似度,最后把相似度大于某個閡值的頁面聚為同一類11,實(shí)現(xiàn)相似頁面的信息抽取。在國內(nèi),李效東等人提出了一種基于 2,該方法找出要抽取的信息在 通過歸納學(xué)習(xí)生成抽取規(guī)則;陳瓊等人提出了一種基于網(wǎng)頁結(jié)構(gòu)樹的 3,他們通過在網(wǎng)頁結(jié)構(gòu)樹中定位模式庫中的待抽取信息,將對網(wǎng)頁的信息抽取轉(zhuǎn)化為對網(wǎng)頁結(jié)構(gòu)樹的葉結(jié)點(diǎn)信息查找過程, 進(jìn)而實(shí)現(xiàn)對相關(guān)信息的抽??; 微軟亞洲研究院 4,該算法結(jié)合了 從一定程度上彌補(bǔ)了單獨(dú)使用 3)基于 于 著人們的理解得不斷完善,對 供對該領(lǐng)域知識的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式化模式上給出這些詞匯(術(shù)語)和詞匯之間相互關(guān)系的明確定義。 該類信息抽取方法先對抽取頁面的類型進(jìn)行描述,并根據(jù)待抽取信息特點(diǎn)設(shè)計出數(shù)據(jù)框架,并歸納出抽取規(guī)則,實(shí)現(xiàn)對頁面信息的抽取,它對網(wǎng)頁的結(jié)構(gòu)依賴性比較低。主要代表有 息抽取小組開發(fā)的信息抽取工具15,在 由領(lǐng)域知識專家采用人工的方式書寫某一主題的 后根據(jù) 從而抽取出感興趣的信息; 6,該方法主要有兩個步驟,一是構(gòu)建一個主題相關(guān)的 是設(shè)計了三種基于國內(nèi),張成洪等人利用正則表達(dá)式對文本處理的方便性,并結(jié)合 7;廖樂健等人對線性模板表示做出了改進(jìn),提出了基于二測樹結(jié)構(gòu)的模板規(guī)則表示方法,并將 功的應(yīng)用到招聘廣告信息抽取中18。 4)基于隱馬爾可夫模型的信息抽取方法 基于隱馬爾可夫模型 (信息抽取方法抽取信息查準(zhǔn)率較高,但是需要較多的人工參與,并且隱馬爾可夫模型中狀態(tài)轉(zhuǎn)移矩陣初始化比較困難。 基于隱馬爾可夫模型方法最先是由 000年提出的, 在該方法中以待抽取信息的每一個屬性作為馬爾可夫模型中的一個狀態(tài),利用隱式馬爾可夫模型進(jìn)行信息抽取,它適用于結(jié)構(gòu)化信息的抽取19; 將該方法應(yīng)用到生物醫(yī)學(xué)領(lǐng)域20。在國內(nèi),王勝等人提出了一種基于熵的馬爾可夫模型算法,他們利用該算法抽取頁面中的地址信息21;鐘敏娟等人提出了一種基于多模板的隱馬爾可夫模型信息抽取算法,它利用聚類的方法將訓(xùn)練集中的樣本分類,以每個類為一個模板,然后利用馬碩士學(xué)位論文 第一章 緒論 4爾可夫模型進(jìn)行信息抽取22。 索引擎發(fā)展現(xiàn)狀 第一代搜索引擎大約出現(xiàn)在 1994 年, 它們的代表。當(dāng)時的互聯(lián)網(wǎng)還沒有這樣龐大的信息,網(wǎng)絡(luò)傳輸?shù)乃?度也沒有現(xiàn)在這么快,且網(wǎng)頁類型主要以靜態(tài)頁面為主,頁面中的數(shù)據(jù)類型也沒有 現(xiàn)在復(fù)雜,當(dāng)時這類搜索引擎的主要目標(biāo)是提高對整個 覆蓋率,他們主要是以關(guān)鍵字搜索和目錄式搜索的形式提供服務(wù)23,這類搜索引擎被定義為目錄式搜索引擎( 它主要是以人工或者半自動的方式搜集信息,由 編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。 它的信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù),該類搜索引擎因?yàn)樵?處理過程中人工參與較多,所以信息準(zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、信息量少、信息更新不及時24。 隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)的信息量越來越大 ,傳統(tǒng)的目錄式搜索引擎已經(jīng)不能很好的滿足用戶要求,其中最主要的原因是 由于目錄式搜索引擎需要人工參與,在處理信息速度方面遠(yuǎn)不能滿足日益增長的數(shù) 據(jù)量要求,這樣對用戶提交的查詢請求,搜索引擎的雖然返回成千上萬的查詢結(jié)果 ,但是用戶依然難以在查詢結(jié)果中找出完整的需要的信息,從一定程度上影響了用 戶查詢信息的完整性和準(zhǔn)確性。為保證能夠及時返回對用戶真正有價值的網(wǎng)頁,第 二代搜索引擎引入了超級鏈接分析技術(shù),并通過網(wǎng)絡(luò)蜘蛛來自動采集 的信息,從而有效地加快信息處理速度,它們的主要代表是 出了 序技術(shù),其目標(biāo)是盡可能的使搜索引擎用戶能夠在返回的查詢結(jié)果最前面部分找到他們感興趣的信息。 到目前為止,主流的搜索引擎多屬于橫向的水 平型搜索,在現(xiàn)有的技術(shù)水平基礎(chǔ)上,屬于橫向水平的搜索引擎在滿足搜索信 息量完整性的同時卻難以兼顧查詢的準(zhǔn)確性,這樣在查詢結(jié)果中出現(xiàn)了大量與用戶 需要信息無關(guān)的查詢結(jié)果,從而影響了搜索引擎的查找效率。新出現(xiàn)的第三代搜索引擎力求在自然語言處理、數(shù)據(jù)挖掘、機(jī)器自動學(xué)習(xí)技術(shù)、主題相關(guān)性等方面有所突 破,而垂直搜索引擎正是第三代搜索引擎的代表。目前,有關(guān)垂直搜索引擎的研究 正在成為一個熱點(diǎn)研究領(lǐng)域,具有代表型的垂直搜索引擎系統(tǒng)有: 它是由 人提出的一種面向計算機(jī)科學(xué)研究論文搜索的垂直搜索引擎,它利用 信息抽取方法抽取計算機(jī)科學(xué)研究論文 面中的標(biāo)題、作者和摘要等25。 是一種面向科研的垂直搜索引擎,在該搜索引擎中,它將研究者、科學(xué)論文、會議等都當(dāng)成一種 象,從 字?jǐn)?shù)據(jù)庫、 數(shù)據(jù)源抽取信息26。 碩士學(xué)位論文 第一章 緒論 5是一種從互聯(lián)網(wǎng)抽取商品記錄信息的垂直搜索引擎,主要應(yīng)用的是 的技術(shù)26。 是微軟公司的產(chǎn)品,其中 處于測試階段。他們在對 面中信息抽取中利用了 人提出的基于視覺分析的 法。 究內(nèi)容 本文主要研究如何 面中抽取出用戶感興趣的主題信息,并將它轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)形式,圖 1述了本文的主要工作。 圖 1文工作主要框架 具體的研究的內(nèi)容如下: 1)針對目前 息抽取方法實(shí)現(xiàn)復(fù)雜等問題,本文對頁面結(jié)構(gòu)、主題屬性頁面顯示格式與表示方式特征進(jìn)行分析,設(shè)計了一種基于標(biāo)簽序列的 面主題信息抽取方法。該方法通過設(shè)定的策略,根據(jù)策 略和樣本建立了抽取規(guī)則,構(gòu)建規(guī)則庫,借助規(guī)則庫實(shí)現(xiàn)對頁面主題信息抽取。它降低了處理 面過程的復(fù)雜性,減少了頁面處理時間。 2)目前分裝器已經(jīng)越來越多的應(yīng)用到 息抽取中,當(dāng)需要抽取的 面結(jié)構(gòu)發(fā)生變化而出現(xiàn)主題的新屬性時,采用 目前方法建立的分裝器并不能隨著這種變化準(zhǔn)確地發(fā)現(xiàn)這些新屬性。針對該問題, 本文根據(jù)待抽取屬性與已抽取屬性在頁面中的特點(diǎn),提出了一種基于可信度的 面主題新屬性發(fā)現(xiàn)方法。該方法通過定義一系列規(guī)則和證據(jù),量化待抽取屬性需 要抽取的可信度,再根據(jù)該可信度判斷待抽取屬性是否為主題的新屬性。 碩士學(xué)位論文 第一章 緒論 63)設(shè)計了一種垂直搜索引擎原型系統(tǒng),該原型系統(tǒng)主要特點(diǎn)是結(jié)合本文提出的基于標(biāo)簽序列的 設(shè)計了一種專業(yè)網(wǎng)絡(luò)蜘蛛, 并采用 源軟件將采集的信息建立索引,維護(hù)索引信息庫,同時根據(jù)用戶輸入的條件,返回用戶感興趣的主題信息。 文組織結(jié)構(gòu) 本文共分為六章: 第一章,緒論。本章主要介紹了 息抽取和垂直搜索引擎的研究現(xiàn)狀,以及本文的研究內(nèi)容。 第二章, 息抽取及垂直搜索引擎技術(shù)。本章介紹了本文在 息抽取將用到的部分技術(shù),以及垂直搜索引擎技術(shù)的原理。 第三章,基于標(biāo)簽序列的 面主題信息抽取方法研究。本章主要針對目前息抽取方法實(shí)現(xiàn)復(fù)雜等問題,設(shè)計了一種基于標(biāo)簽序列的 面主題信息抽取方法。 第四章,基于可信度的 面主題新屬性發(fā)現(xiàn)。本章主要是針對目前分裝器的不足,提出一種利用可信度發(fā)現(xiàn) 面主題新屬性的方法。 第五章,垂直搜索引擎原型系統(tǒng)設(shè)計。本章主要介紹了該原型系統(tǒng)的設(shè)計。 第六章,總結(jié)和展望。對本文工作的總結(jié),并 指出將來需要更進(jìn)一步努力的方向。碩士學(xué)位論文 第二章 息抽取及垂直搜索引擎技術(shù) 7第二章 息抽取及垂直搜索引擎技術(shù) 息抽取技術(shù)成為了垂直搜索引擎的關(guān)鍵技術(shù)之一。 本章主要介紹了本文需借鑒的 息抽取關(guān)鍵技術(shù),在本章的最后還對 文搜索引擎開源軟件和垂直搜索引擎技術(shù)的原理進(jìn)行了介紹。 術(shù) 據(jù) 定義, 27是一個允許程序和腳本動態(tài)地獲取和更新文檔內(nèi)容、結(jié)構(gòu)和風(fēng)格的接口。 1998 年, 布了 ,最新的版本是 2004 發(fā)布的 。 范包含兩個關(guān)鍵的抽象:樹狀的層和用來表示文檔文本以及結(jié)構(gòu)的集合。它為有效的 式文件提供了應(yīng)用程序的接口( ,并定義了用來加載 檔的方法,它是一種獨(dú)立于平臺及語言的接口,允許對樹結(jié)構(gòu)的文檔進(jìn)行操作。一般在操縱文檔之前必須在內(nèi)存中生成 ,所以支持高性能的虛擬內(nèi)存對于樹型文檔來說是非常必要的。義了文檔的邏輯結(jié)構(gòu)以及存取和維護(hù)文檔的方法,利用 序員可以建立文檔, 遍歷文檔的結(jié)構(gòu), 還可以增加、 刪除以及修改文檔的元素和內(nèi)容。 件 本文采用 8軟件生成 。 開放源代碼,遵從 可,純 射與 析器,支持對 , 的解析;同時它還支持增量式的 射,也就是一個 檔不需要全部加載它的源代碼到內(nèi)存中進(jìn)行解析, 當(dāng)一個擴(kuò)展的腳本在需要完全解析前加載的時候,這種機(jī)制非常有用。它最新的版本是 2008 年 3 月發(fā)布的 使用比較簡單,系統(tǒng)提供了一個 說明如何在程序中使用 一個 檔建立 。 包含六個包,分別是: 1) :包含在解析過程中需要得到實(shí)施的背景界面,以便使用解析器和渲染器。 2) 包含一系列基于 的實(shí)現(xiàn)接口。 3) : 提供一系列與 件相兼容的接口,碩士學(xué)位論文 第二章 息抽取及垂直搜索引擎技術(shù) 8以便于將顯示 。 4) :這個包比較重要,它實(shí)現(xiàn)了解析 5) :包含了 染器的構(gòu)造接口。 6) :包含 面幾個包中類的測試軟件類和簡單的背景接口實(shí)現(xiàn)。 圖 2利用 百度首頁生成的 : 圖 2頁的 裝器 目前分裝器 (29在信息抽取系統(tǒng)中應(yīng)用的越來越多,一般的理解認(rèn)為分裝器是一個程序, 它包含一系列規(guī)則, 用于從特定的信息源中抽取相關(guān)內(nèi)容,并以特定形式返回抽取結(jié)果。 對于不同的信息源,分裝器的目的并不相同,在 裝器的目的是以分裝器中包含的規(guī)則將網(wǎng)頁中符合規(guī)則的信息抽取出來, 并以結(jié)構(gòu)化的形式儲存起來,以方便進(jìn)一步的處理,它的衡量標(biāo)準(zhǔn)是抽取信息的準(zhǔn)確性和完整性。 分裝器的構(gòu)建主要有人工、半自動和全自動三種方式,人工構(gòu)造的分裝器在信息的抽取方面有比較高的準(zhǔn)確率, 但是消耗人力資源比較多, 利用效率比較低。目前分裝器生成主要以半自動和全自動為主, 典型的應(yīng)用系統(tǒng)有 0、1、 2、 3、 4和 5。碩士學(xué)位論文 第二章 息抽取及垂直搜索引擎技術(shù) 9詢語言去發(fā)現(xiàn)頁面中待抽取的信息,利用 工標(biāo)記頁面中需要抽取的信息,從而構(gòu)造分裝器中的規(guī)則,并將抽取出的信息以 一定程度上降低了人工的參與, 別是主題的指定、收集和標(biāo)注樣本、分裝器構(gòu)造、信息源模式選擇和信息的抽取,其中主題的指定、收集和標(biāo)注樣本這兩個過程需要人工指導(dǎo),以標(biāo)記頁面中需要抽取信息的屬性,信息源模式選擇是選擇待抽取的信息源,在將以的另外一個貢獻(xiàn)是能對網(wǎng)頁源代碼是進(jìn)行語法檢測,并能修正其中的錯誤語法。 先它將 利用一系列子樹抽取算法定位 系統(tǒng)認(rèn)為感興趣的信息就隱藏在子樹中;其次它使用一組實(shí)體抽取算法去發(fā)現(xiàn)合適的實(shí)體分隔標(biāo)記, 這些標(biāo)記將待抽取的信息分離出來; 過對樹中的臨近的節(jié)點(diǎn)進(jìn)行拼接,通過節(jié)點(diǎn)序列對比將文檔分成不同的相似區(qū)域, 它認(rèn)為文檔中的主題信息
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年重慶應(yīng)用技術(shù)職業(yè)學(xué)院單招綜合素質(zhì)考試備考試題附答案詳解
- 2026年阜新高等??茖W(xué)校單招綜合素質(zhì)考試備考題庫帶答案解析
- 外賣平臺商家協(xié)議2025年食品安全條款
- 土地租賃合同(農(nóng)村商業(yè))2025年費(fèi)用明細(xì)
- 2026年廣西教育學(xué)院單招職業(yè)技能筆試參考題庫帶答案解析
- 2026年黑龍江能源職業(yè)學(xué)院單招職業(yè)技能筆試備考試題帶答案解析
- 投資合同協(xié)議(2025年退出機(jī)制約定)
- 2026年廣西建設(shè)職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試備考試題帶答案解析
- 2026年德宏師范高等專科學(xué)校高職單招職業(yè)適應(yīng)性考試備考題庫有答案解析
- 2026年合肥共達(dá)職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)筆試參考題庫帶答案解析
- 初中書香閱讀社團(tuán)教案
- 酒店年終總結(jié)匯報
- 《無人機(jī)地面站與任務(wù)規(guī)劃》 課件 第1-5章 概論 -無人機(jī)航測任務(wù)規(guī)劃與實(shí)施
- 綠色前綴5000畝生態(tài)農(nóng)業(yè)示范園區(qū)建設(shè)規(guī)模及運(yùn)營模式可行性研究報告
- DB42∕T 2078-2023 紅火蟻監(jiān)測與防控技術(shù)規(guī)程
- 2025-2030中醫(yī)養(yǎng)生培訓(xùn)行業(yè)市場格局及增長趨勢與投資價值分析報告
- 污水處理廠管網(wǎng)調(diào)度與優(yōu)化方案
- 新能源汽車租賃服務(wù)在公務(wù)用車市場的應(yīng)用與前景報告
- 《經(jīng)濟(jì)博弈論》課后答案補(bǔ)充習(xí)題答案
- DB37∕T 4355-2021 淺海區(qū)海底重力測量技術(shù)規(guī)程
- 三輪摩托培訓(xùn)知識大全課件
評論
0/150
提交評論