信息抽取及其應(yīng)用課件_第1頁(yè)
信息抽取及其應(yīng)用課件_第2頁(yè)
信息抽取及其應(yīng)用課件_第3頁(yè)
信息抽取及其應(yīng)用課件_第4頁(yè)
信息抽取及其應(yīng)用課件_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息抽取及其應(yīng)用研究信息抽取及其應(yīng)用研究1一、信息抽取概述信息抽?。↖nformationExtraction:IE)是指從一段文本中抽取指定的一類信息(例如事件、事實(shí)),井將其形成結(jié)構(gòu)化的表示形式(比如數(shù)據(jù)庫(kù)等),以供用戶查詢使用的過程。它是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的信息點(diǎn)。信息點(diǎn)從各種各樣的文檔中被抽取出來,然后以統(tǒng)一的形式集成在一起。一、信息抽取概述信息抽?。↖nformationExtra2/rmrb/html/2009-11/09/node_1922.htm/rmr3信息抽取及其應(yīng)用課件4信息抽取及其應(yīng)用課件5MUC和ACE消息理解系列會(huì)議(MessageUnderstandingconference,MUC)和自動(dòng)內(nèi)容抽取評(píng)測(cè)會(huì)議(AutomaticContentExtraction,ACE)對(duì)推動(dòng)信息抽取技術(shù)的發(fā)展起到重要作用。MUC由美國(guó)海軍情報(bào)部門提出舉行,主要目的也是處理大量海軍軍事情報(bào),從1987年開始到1998年,MUC會(huì)議共舉行了七屆。ACE是由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(NIST)組織召開,該會(huì)議2001年5月首次舉辦,到2007年已經(jīng)舉辦7次會(huì)議。MUC和ACE消息理解系列會(huì)議(MessageUnders6/related_projects/muc//rela7http://gate.ac.uk/http://gate.ac.uk/8http://gate.ac.uk/download/index.htmlhttp://gate.ac.uk/download/ind9鄧尚民,孫玉偉.國(guó)內(nèi)外信息抽取研究的義獻(xiàn)計(jì)量分析.圖書情報(bào)工作,2006(12):92-94,108鄧尚民,孫玉偉.國(guó)內(nèi)外信息抽取研究的義獻(xiàn)計(jì)量分析.圖書情報(bào)工10信息抽取及其應(yīng)用課件11信息抽取及其應(yīng)用課件12信息抽取及其應(yīng)用課件13信息抽取及其應(yīng)用課件14二、Web信息抽取Web信息抽取就是從Web頁(yè)面所包含的無結(jié)構(gòu)或半結(jié)構(gòu)的信息中識(shí)別用戶感興趣的數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)和語義更為清晰的格式(XML、關(guān)系數(shù)據(jù)、面向?qū)ο蟮臄?shù)據(jù)等)。整個(gè)抽取過程的工作過程主要包括了如下幾個(gè)步驟:①將Web網(wǎng)頁(yè)進(jìn)行預(yù)處理。②用一組信息模式描述所需要抽取的信息。③對(duì)文本進(jìn)行合理的詞法、句法及語義分析。④使用模式匹配方法識(shí)別指定的信息模式的各個(gè)部分。⑤進(jìn)行上下文分析和推理,確定信息的最終形式。⑥將結(jié)果輸出成結(jié)構(gòu)化的描述形式以便由網(wǎng)絡(luò)集成系統(tǒng)進(jìn)行查詢分析。二、Web信息抽取Web信息抽取就是從Web頁(yè)面所包含的無結(jié)15Web信息抽取的中心—包裝器Web信息抽取工作主要由包裝器(Wrapper)來完成。包裝器是一種軟件過程,這個(gè)過程使用已經(jīng)定義好的信息抽取規(guī)則,將網(wǎng)絡(luò)爬蟲搜集到的Web頁(yè)面的信息數(shù)據(jù)抽取出來,轉(zhuǎn)換為用特定的格式描述的信息。一個(gè)包裝器被認(rèn)為是一個(gè)程序或是理解某一具體信息源的一種規(guī)則,并把信息轉(zhuǎn)化為較為規(guī)則的格式,如XML或關(guān)系表格。包裝器是特定的對(duì)某一個(gè)給定的網(wǎng)站,緊密地與抽取的網(wǎng)頁(yè)結(jié)構(gòu)和標(biāo)記語言相聯(lián)系的。包裝器最具挑戰(zhàn)性的方面就是能從許多不相關(guān)的文本中識(shí)別所要抽取的信息。Web信息抽取的中心—包裝器Web信息抽取工作主要由包裝器(16研究?jī)?nèi)容Web信息抽取原理與方法基于本體的信息抽取基于位置的信息抽取Web信息抽取模型基于歸納學(xué)習(xí)的信息抽取基于ontology的信息抽取基于HMM(隱馬爾可夫模型)的信息抽取研究?jī)?nèi)容Web信息抽取原理與方法17研究?jī)?nèi)容(續(xù))Web信息抽取技術(shù)模糊字符匹配技術(shù)信息樹技術(shù)二相取樣技術(shù)Web信息抽取的評(píng)價(jià)信息抽取結(jié)果的評(píng)價(jià)信息抽取系統(tǒng)的性能評(píng)價(jià)(信息抽取任務(wù)的難易程度、系統(tǒng)所使用的技術(shù)、系統(tǒng)的自動(dòng)程度)研究?jī)?nèi)容(續(xù))Web信息抽取技術(shù)18應(yīng)用實(shí)例Amorphic系統(tǒng)Amorphic系統(tǒng)是一個(gè)集成了基于位置信息抽取、基于本體的信息抽取和包裝器能修復(fù)的特性的信息抽取系統(tǒng)。它能在學(xué)習(xí)領(lǐng)域知識(shí)和網(wǎng)頁(yè)結(jié)構(gòu)的基礎(chǔ)__卜定位感興趣的數(shù)據(jù),能自動(dòng)地生成一個(gè)包裝器,能探測(cè)到網(wǎng)頁(yè)結(jié)構(gòu)的變化,然后能在了解變化的基礎(chǔ)上獲取想要的信息。Lixto系統(tǒng)Lixto系統(tǒng)能生成包裝器將html轉(zhuǎn)換為xml格式,通過提供完全可視和交互的界面,利用側(cè)向外延生長(zhǎng)法,半自動(dòng)地幫助用戶產(chǎn)生包裝器。它提供兩種基本的數(shù)據(jù)抽取規(guī)則,字符抽取和信息樹抽取。應(yīng)用實(shí)例Amorphic系統(tǒng)19鄭彥寧,鄧擘.信息抽取技術(shù)在情報(bào)學(xué)中的應(yīng)用分析.情報(bào)理論與實(shí)踐,2008(5):769-772目前信息抽取的關(guān)鍵技術(shù)主要有實(shí)體識(shí)別、實(shí)體關(guān)系識(shí)別和事件模板構(gòu)造3個(gè)方面。實(shí)體識(shí)別技術(shù):實(shí)體是指在現(xiàn)實(shí)世界中具體或抽象的對(duì)象,而識(shí)別出這些對(duì)象在文本中的表達(dá)形式則為實(shí)體識(shí)別技術(shù)。在該技術(shù)中不僅要識(shí)別并標(biāo)注出一般的命名實(shí)體,如人名、地名、機(jī)構(gòu)名、產(chǎn)品名稱等,還包括一些對(duì)實(shí)體解釋性的描述以及指代實(shí)體的代詞等,有時(shí)在具體應(yīng)用中有關(guān)時(shí)間和數(shù)量表達(dá)式也被作為實(shí)體來識(shí)別。實(shí)體識(shí)別的方法主要分為基于統(tǒng)計(jì)與基于規(guī)則的方法。鄭彥寧,鄧擘.信息抽取技術(shù)在情報(bào)學(xué)中的應(yīng)用分析.情報(bào)理論與實(shí)20信息抽取技術(shù)實(shí)體關(guān)系識(shí)別技術(shù)實(shí)體關(guān)系識(shí)別技術(shù)是識(shí)別句子中出現(xiàn)的成對(duì)實(shí)體間的關(guān)系。例如當(dāng)句子中出現(xiàn)一個(gè)人名和一個(gè)組織實(shí)體名稱時(shí),那么這個(gè)人與組織之間是何種關(guān)系需要辨別;當(dāng)出現(xiàn)機(jī)構(gòu)名稱和地名時(shí),這兩者之間又具有何種關(guān)系;如果出現(xiàn)兩個(gè)人名時(shí),這兩人之間具有何種社會(huì)關(guān)系等。在ACE評(píng)測(cè)中,對(duì)這些關(guān)系進(jìn)行了歸納,把所有關(guān)系劃分為角色關(guān)系、部分與整體的關(guān)系、位置關(guān)系、方位關(guān)系和社會(huì)關(guān)系這5個(gè)基本類型。在實(shí)體關(guān)系識(shí)別方面也有兩種技術(shù)路線,一種是使用規(guī)則的方法,主要是基于模式匹配技術(shù);另一種是統(tǒng)計(jì)的方法,主要基于機(jī)器學(xué)習(xí)的技術(shù)。信息抽取技術(shù)實(shí)體關(guān)系識(shí)別技術(shù)21信息抽取技術(shù)事件模板構(gòu)造技術(shù)在對(duì)具體領(lǐng)域內(nèi)事件或事實(shí)進(jìn)行抽取時(shí),主要根據(jù)事件的組成要素來定義事件描述模板(EventDescriptionTemplate)。事件描述模板是一個(gè)對(duì)事件的要素進(jìn)行綜合概括的有組織的表達(dá)結(jié)構(gòu),它描述了需要抽取的概念及其相互關(guān)系,這些概念與關(guān)系能夠完整地描述事件。例如在公司發(fā)布新產(chǎn)品事件中,它一般需要包括公司名、產(chǎn)品名、發(fā)布時(shí)問、產(chǎn)品性能等一些事件要素。信息抽取技術(shù)事件模板構(gòu)造技術(shù)22三、信息抽取的應(yīng)用信息抽取的信息搜集使用信息抽取技術(shù),按照預(yù)設(shè)的領(lǐng)域,對(duì)網(wǎng)頁(yè)等信息進(jìn)行抽取,并自動(dòng)組織成具有相關(guān)性的整體數(shù)據(jù),這些數(shù)據(jù)在保存到數(shù)據(jù)庫(kù)后就可以形成所預(yù)設(shè)領(lǐng)域的比較全面的信息。例如跨語言的信息抽取系統(tǒng)TREE。如兩種應(yīng)用于分子生物學(xué)的信息抽取系統(tǒng):EMPathIE和PASTA,分別從生物學(xué)期刊中抽取有關(guān)酶、新陳代謝方式和蛋白質(zhì)結(jié)構(gòu)的信息。三、信息抽取的應(yīng)用信息抽取的信息搜集23信息抽取的應(yīng)用(續(xù))IE的信息組織信息抽取技術(shù)從文本內(nèi)容中抽取預(yù)先指定的實(shí)體和關(guān)系即信息片段,所抽取的信息片段從一個(gè)角度反映了文本內(nèi)容的內(nèi)在特征,由于這些抽取的信息片段是同類的,因此,本質(zhì)上是通過這些同類信息片段對(duì)文本進(jìn)行了組織,這種組織方法的價(jià)值在于這些信息片段是結(jié)構(gòu)化信息,因此它可以作為知識(shí)服務(wù)技術(shù)的前端和基礎(chǔ),可以進(jìn)一步使用機(jī)器方法從中發(fā)現(xiàn)知識(shí)、挖掘知識(shí),這就對(duì)人們尋找知識(shí)和利用知識(shí)提供了有力的支持。信息抽取的應(yīng)用(續(xù))IE的信息組織24信息抽取的應(yīng)用(續(xù))信息檢索與信息抽取IE在應(yīng)用中的主要目標(biāo)是如何將用戶需要的信息從各種文本中提取出來并進(jìn)行有效的組織,然后生成簡(jiǎn)潔明了的事件列表,從而提高信息相關(guān)性,用戶可以直接閱讀抽取出的事件內(nèi)容,而不需要先閱讀整篇文獻(xiàn)以進(jìn)一步判斷是否相關(guān),當(dāng)需要閱讀整篇文獻(xiàn)時(shí)再去詳細(xì)閱讀,用戶可節(jié)省閱讀時(shí)間。信息抽取的應(yīng)用(續(xù))信息檢索與信息抽取25劉魯紅,劉力強(qiáng),胡亞軍.信息抽取技術(shù)在數(shù)字圖書館中的應(yīng)用研究.情報(bào)理論與實(shí)踐,2005(3):321-324信息抽取概念與技術(shù)簡(jiǎn)介:信息抽取概念、信息抽取與信息檢索、信息抽取的類型、信息抽取的過程與方法。信息抽取在數(shù)字圖書館中的應(yīng)用構(gòu)建模板挖掘平臺(tái):自動(dòng)建立數(shù)字文獻(xiàn)的引文數(shù)據(jù)庫(kù)、自動(dòng)抽取電子期刊新聞條目信息、自動(dòng)識(shí)別用于研究的資金/贊助機(jī)構(gòu)、利用元數(shù)據(jù)和模板挖掘進(jìn)行信息抽取。劉魯紅,劉力強(qiáng),胡亞軍.信息抽取技術(shù)在數(shù)字圖書館中的應(yīng)用研究26信息抽取在數(shù)字圖書館中的應(yīng)用構(gòu)建情報(bào)自動(dòng)搜集平臺(tái)信息抽取在數(shù)字圖書館中的應(yīng)用構(gòu)建情報(bào)自動(dòng)搜集平臺(tái)27信息抽取在數(shù)字圖書館中的應(yīng)用構(gòu)建問題解答系統(tǒng)信息抽取在數(shù)字圖書館中的應(yīng)用構(gòu)建問題解答系統(tǒng)28信息抽取在數(shù)字圖書館中的應(yīng)用構(gòu)建圖書館大型知識(shí)庫(kù)、數(shù)值庫(kù)信息抽取在數(shù)字圖書館中的應(yīng)用構(gòu)建圖書館大型知識(shí)庫(kù)、數(shù)值庫(kù)29余豐,朱東華.信息抽取技術(shù)在競(jìng)爭(zhēng)情報(bào)研究中的應(yīng)用.情報(bào)雜志,2006(3):25-26.29余豐,朱東華.信息抽取技術(shù)在競(jìng)爭(zhēng)情報(bào)研究中的應(yīng)用.情報(bào)雜志,30信息抽取及其應(yīng)用課件31信息抽取及其應(yīng)用課件32黃永文.信息抽取在竟?fàn)幥閳?bào)中的應(yīng)用研究.圖書情報(bào)工作,2006.50(11):17-20.90信息抽取的特點(diǎn)與類型信息抽取在CI中的應(yīng)用基于信息抽取技術(shù)的CI系統(tǒng)體系架構(gòu)國(guó)外基于信息抽取技術(shù)的CI系統(tǒng)的分析研究標(biāo)準(zhǔn)化和組件化不斷擴(kuò)大信息抽取的范圍更加注重深層次的信息組織和加工利用智能技術(shù)提高自動(dòng)化的程度與特定領(lǐng)域相結(jié)合運(yùn)用各種相關(guān)技術(shù),提高抽取的效果黃永文.信息抽取在竟?fàn)幥閳?bào)中的應(yīng)用研究.圖書情報(bào)工作,20033信息抽取及其應(yīng)用課件34信息抽取及其應(yīng)用研究信息抽取及其應(yīng)用研究35一、信息抽取概述信息抽?。↖nformationExtraction:IE)是指從一段文本中抽取指定的一類信息(例如事件、事實(shí)),井將其形成結(jié)構(gòu)化的表示形式(比如數(shù)據(jù)庫(kù)等),以供用戶查詢使用的過程。它是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的信息點(diǎn)。信息點(diǎn)從各種各樣的文檔中被抽取出來,然后以統(tǒng)一的形式集成在一起。一、信息抽取概述信息抽?。↖nformationExtra36/rmrb/html/2009-11/09/node_1922.htm/rmr37信息抽取及其應(yīng)用課件38信息抽取及其應(yīng)用課件39MUC和ACE消息理解系列會(huì)議(MessageUnderstandingconference,MUC)和自動(dòng)內(nèi)容抽取評(píng)測(cè)會(huì)議(AutomaticContentExtraction,ACE)對(duì)推動(dòng)信息抽取技術(shù)的發(fā)展起到重要作用。MUC由美國(guó)海軍情報(bào)部門提出舉行,主要目的也是處理大量海軍軍事情報(bào),從1987年開始到1998年,MUC會(huì)議共舉行了七屆。ACE是由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所(NIST)組織召開,該會(huì)議2001年5月首次舉辦,到2007年已經(jīng)舉辦7次會(huì)議。MUC和ACE消息理解系列會(huì)議(MessageUnders40/related_projects/muc//rela41http://gate.ac.uk/http://gate.ac.uk/42http://gate.ac.uk/download/index.htmlhttp://gate.ac.uk/download/ind43鄧尚民,孫玉偉.國(guó)內(nèi)外信息抽取研究的義獻(xiàn)計(jì)量分析.圖書情報(bào)工作,2006(12):92-94,108鄧尚民,孫玉偉.國(guó)內(nèi)外信息抽取研究的義獻(xiàn)計(jì)量分析.圖書情報(bào)工44信息抽取及其應(yīng)用課件45信息抽取及其應(yīng)用課件46信息抽取及其應(yīng)用課件47信息抽取及其應(yīng)用課件48二、Web信息抽取Web信息抽取就是從Web頁(yè)面所包含的無結(jié)構(gòu)或半結(jié)構(gòu)的信息中識(shí)別用戶感興趣的數(shù)據(jù),并將其轉(zhuǎn)化為結(jié)構(gòu)和語義更為清晰的格式(XML、關(guān)系數(shù)據(jù)、面向?qū)ο蟮臄?shù)據(jù)等)。整個(gè)抽取過程的工作過程主要包括了如下幾個(gè)步驟:①將Web網(wǎng)頁(yè)進(jìn)行預(yù)處理。②用一組信息模式描述所需要抽取的信息。③對(duì)文本進(jìn)行合理的詞法、句法及語義分析。④使用模式匹配方法識(shí)別指定的信息模式的各個(gè)部分。⑤進(jìn)行上下文分析和推理,確定信息的最終形式。⑥將結(jié)果輸出成結(jié)構(gòu)化的描述形式以便由網(wǎng)絡(luò)集成系統(tǒng)進(jìn)行查詢分析。二、Web信息抽取Web信息抽取就是從Web頁(yè)面所包含的無結(jié)49Web信息抽取的中心—包裝器Web信息抽取工作主要由包裝器(Wrapper)來完成。包裝器是一種軟件過程,這個(gè)過程使用已經(jīng)定義好的信息抽取規(guī)則,將網(wǎng)絡(luò)爬蟲搜集到的Web頁(yè)面的信息數(shù)據(jù)抽取出來,轉(zhuǎn)換為用特定的格式描述的信息。一個(gè)包裝器被認(rèn)為是一個(gè)程序或是理解某一具體信息源的一種規(guī)則,并把信息轉(zhuǎn)化為較為規(guī)則的格式,如XML或關(guān)系表格。包裝器是特定的對(duì)某一個(gè)給定的網(wǎng)站,緊密地與抽取的網(wǎng)頁(yè)結(jié)構(gòu)和標(biāo)記語言相聯(lián)系的。包裝器最具挑戰(zhàn)性的方面就是能從許多不相關(guān)的文本中識(shí)別所要抽取的信息。Web信息抽取的中心—包裝器Web信息抽取工作主要由包裝器(50研究?jī)?nèi)容Web信息抽取原理與方法基于本體的信息抽取基于位置的信息抽取Web信息抽取模型基于歸納學(xué)習(xí)的信息抽取基于ontology的信息抽取基于HMM(隱馬爾可夫模型)的信息抽取研究?jī)?nèi)容Web信息抽取原理與方法51研究?jī)?nèi)容(續(xù))Web信息抽取技術(shù)模糊字符匹配技術(shù)信息樹技術(shù)二相取樣技術(shù)Web信息抽取的評(píng)價(jià)信息抽取結(jié)果的評(píng)價(jià)信息抽取系統(tǒng)的性能評(píng)價(jià)(信息抽取任務(wù)的難易程度、系統(tǒng)所使用的技術(shù)、系統(tǒng)的自動(dòng)程度)研究?jī)?nèi)容(續(xù))Web信息抽取技術(shù)52應(yīng)用實(shí)例Amorphic系統(tǒng)Amorphic系統(tǒng)是一個(gè)集成了基于位置信息抽取、基于本體的信息抽取和包裝器能修復(fù)的特性的信息抽取系統(tǒng)。它能在學(xué)習(xí)領(lǐng)域知識(shí)和網(wǎng)頁(yè)結(jié)構(gòu)的基礎(chǔ)__卜定位感興趣的數(shù)據(jù),能自動(dòng)地生成一個(gè)包裝器,能探測(cè)到網(wǎng)頁(yè)結(jié)構(gòu)的變化,然后能在了解變化的基礎(chǔ)上獲取想要的信息。Lixto系統(tǒng)Lixto系統(tǒng)能生成包裝器將html轉(zhuǎn)換為xml格式,通過提供完全可視和交互的界面,利用側(cè)向外延生長(zhǎng)法,半自動(dòng)地幫助用戶產(chǎn)生包裝器。它提供兩種基本的數(shù)據(jù)抽取規(guī)則,字符抽取和信息樹抽取。應(yīng)用實(shí)例Amorphic系統(tǒng)53鄭彥寧,鄧擘.信息抽取技術(shù)在情報(bào)學(xué)中的應(yīng)用分析.情報(bào)理論與實(shí)踐,2008(5):769-772目前信息抽取的關(guān)鍵技術(shù)主要有實(shí)體識(shí)別、實(shí)體關(guān)系識(shí)別和事件模板構(gòu)造3個(gè)方面。實(shí)體識(shí)別技術(shù):實(shí)體是指在現(xiàn)實(shí)世界中具體或抽象的對(duì)象,而識(shí)別出這些對(duì)象在文本中的表達(dá)形式則為實(shí)體識(shí)別技術(shù)。在該技術(shù)中不僅要識(shí)別并標(biāo)注出一般的命名實(shí)體,如人名、地名、機(jī)構(gòu)名、產(chǎn)品名稱等,還包括一些對(duì)實(shí)體解釋性的描述以及指代實(shí)體的代詞等,有時(shí)在具體應(yīng)用中有關(guān)時(shí)間和數(shù)量表達(dá)式也被作為實(shí)體來識(shí)別。實(shí)體識(shí)別的方法主要分為基于統(tǒng)計(jì)與基于規(guī)則的方法。鄭彥寧,鄧擘.信息抽取技術(shù)在情報(bào)學(xué)中的應(yīng)用分析.情報(bào)理論與實(shí)54信息抽取技術(shù)實(shí)體關(guān)系識(shí)別技術(shù)實(shí)體關(guān)系識(shí)別技術(shù)是識(shí)別句子中出現(xiàn)的成對(duì)實(shí)體間的關(guān)系。例如當(dāng)句子中出現(xiàn)一個(gè)人名和一個(gè)組織實(shí)體名稱時(shí),那么這個(gè)人與組織之間是何種關(guān)系需要辨別;當(dāng)出現(xiàn)機(jī)構(gòu)名稱和地名時(shí),這兩者之間又具有何種關(guān)系;如果出現(xiàn)兩個(gè)人名時(shí),這兩人之間具有何種社會(huì)關(guān)系等。在ACE評(píng)測(cè)中,對(duì)這些關(guān)系進(jìn)行了歸納,把所有關(guān)系劃分為角色關(guān)系、部分與整體的關(guān)系、位置關(guān)系、方位關(guān)系和社會(huì)關(guān)系這5個(gè)基本類型。在實(shí)體關(guān)系識(shí)別方面也有兩種技術(shù)路線,一種是使用規(guī)則的方法,主要是基于模式匹配技術(shù);另一種是統(tǒng)計(jì)的方法,主要基于機(jī)器學(xué)習(xí)的技術(shù)。信息抽取技術(shù)實(shí)體關(guān)系識(shí)別技術(shù)55信息抽取技術(shù)事件模板構(gòu)造技術(shù)在對(duì)具體領(lǐng)域內(nèi)事件或事實(shí)進(jìn)行抽取時(shí),主要根據(jù)事件的組成要素來定義事件描述模板(EventDescriptionTemplate)。事件描述模板是一個(gè)對(duì)事件的要素進(jìn)行綜合概括的有組織的表達(dá)結(jié)構(gòu),它描述了需要抽取的概念及其相互關(guān)系,這些概念與關(guān)系能夠完整地描述事件。例如在公司發(fā)布新產(chǎn)品事件中,它一般需要包括公司名、產(chǎn)品名、發(fā)布時(shí)問、產(chǎn)品性能等一些事件要素。信息抽取技術(shù)事件模板構(gòu)造技術(shù)56三、信息抽取的應(yīng)用信息抽取的信息搜集使用信息抽取技術(shù),按照預(yù)設(shè)的領(lǐng)域,對(duì)網(wǎng)頁(yè)等信息進(jìn)行抽取,并自動(dòng)組織成具有相關(guān)性的整體數(shù)據(jù),這些數(shù)據(jù)在保存到數(shù)據(jù)庫(kù)后就可以形成所預(yù)設(shè)領(lǐng)域的比較全面的信息。例如跨語言的信息抽取系統(tǒng)TREE。如兩種應(yīng)用于分子生物學(xué)的信息抽取系統(tǒng):EMPathIE和PASTA,分別從生物學(xué)期刊中抽取有關(guān)酶、新陳代謝方式和蛋白質(zhì)結(jié)構(gòu)的信息。三、信息抽取的應(yīng)用信息抽取的信息搜集57信息抽取的應(yīng)用(續(xù))IE的信息組織信息抽取技術(shù)從文本內(nèi)容中抽取預(yù)先指定的實(shí)體和關(guān)系即信息片段,所抽取的信息片段從一個(gè)角度反映了文本內(nèi)容的內(nèi)在特征,由于這些抽取的信息片段是同類的,因此,本質(zhì)上是通過這些同類信息片段對(duì)文本進(jìn)行了組織,這種組織方法的價(jià)值在于這些信息片段是結(jié)構(gòu)化信息,因此它可以作為知識(shí)服務(wù)技術(shù)的前端和基礎(chǔ),可以進(jìn)一步使用機(jī)器方法從中發(fā)現(xiàn)知識(shí)、挖掘知識(shí),這就對(duì)人們尋找知識(shí)和利用知識(shí)提供了有力的支持。信息抽取的應(yīng)用(續(xù))IE的信息組織58信息抽取的應(yīng)用(續(xù))信息檢索與信息抽取IE在應(yīng)用中的主要目標(biāo)是如何將用戶需要的信息從各種文本中提取出來并進(jìn)行有效的組織,然后生成簡(jiǎn)潔明了的事件列表,從而提高信息相關(guān)性,用戶可以直接閱讀抽

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論