版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
從Wikipedia中獲取本體:原理與方法研究余傳明/張小青2012-10-2211:01:43來源:《情報學(xué)報》(京)2011年3期【英文標題】GettingOntologyfromWikipedia:PrinciplesandMethods
【作者簡介】余傳明,男,1978年生,E-mail:yuchuanming2003@126.com,畢業(yè)于武漢大學(xué)信息管理學(xué)院信息管理專業(yè),博士,副教授,碩士生導(dǎo)師,研究方向:計算機信息系統(tǒng)工程、知識管理與知識工程,中南財經(jīng)政法大學(xué)信息與安全工程學(xué)院(武漢430073),上海理工大學(xué)管理學(xué)院;張小青,女,1986年生,上海理工大學(xué)管理學(xué)院碩士研究生,研究方向:計算機信息系統(tǒng)工程(上海200093)。
【內(nèi)容提要】Wikipedia作為一個大型的知識庫,正逐漸被人們應(yīng)用于不同的領(lǐng)域。在本體構(gòu)建領(lǐng)域,Wikipedia以其豐富的組織結(jié)構(gòu)為大規(guī)模協(xié)作式的本體學(xué)習(xí)提供了有效的環(huán)境,利用Wikipedia進行本體學(xué)習(xí)逐漸成為一個新的研究熱點。本文從這一角度出發(fā),在剖析Wikipedia基本結(jié)構(gòu)的基礎(chǔ)上,分析和比較了從類別結(jié)構(gòu)圖、信息盒和定義句中獲取本體概念和實例的相關(guān)原理和方法,闡述了利用Wikipedia獲取本體關(guān)系的原理,分析了基于結(jié)構(gòu)特征、基于詞典、基于句法和基于混合方式的模式匹配方法,以及基于結(jié)構(gòu)特征和文本特征的統(tǒng)計學(xué)習(xí)方法,并對利用各種方法獲取本體關(guān)系的效果進行了比較。
Wikipediaisahugeknowledgebasewhichisbeingappliedtoalotoftasks.Fromanontology-buildingperspective,utilizingwikipediaasasourceforontologylearningisbecominganewresearchfocusbecausethecyclopedicnatureofWikipediaprovideaneffectiveenvironmentforlarge-scaleandcollaborativeontologylearning.Fromthispointofview,thepaperfirstdescribesthestructureofWikipedia,thenanalyzesandcomparestheprinciplesandmethodsofacquiringconceptsandinstancesbyutilizingcategorystructuregraph,informationboxanddefinitionsentence.ThepaperanalyzestheprinciplesofrelationextractionfromWikipedia,andcomparestheefficiencyofpatternmatchingmethodandstatisticslearningmethod.
【關(guān)鍵詞】本體學(xué)習(xí)/Wikipedia/概念/實例/關(guān)系Ontologylearning/Wikipedia/Concepts/Instances/Relations
1引言
本體(Ontology)最初是哲學(xué)上的一個概念,是對客觀存在事物的系統(tǒng)解釋和說明。在計算機科學(xué)領(lǐng)域中,最著名并被廣泛引用的定義是由Gruber提出的“本體是概念模型的明確的規(guī)范說明”[1],即本體實際上是對相關(guān)領(lǐng)域中的概念及相互之間關(guān)系的明確定義,并提供人們對該領(lǐng)域知識的共同認可和理解。目前,本體已經(jīng)被廣泛地應(yīng)用于語義網(wǎng)、信息抽取、信息檢索、知識工程以及數(shù)字圖書館等方面。
本體的構(gòu)建是本體研究和應(yīng)用的基礎(chǔ)和前提,因此成為人們研究的重點。然而,手工方式構(gòu)建本體需要耗費大量的時間和精力,且無法及時進行擴充和更新,即使使用現(xiàn)有的本體構(gòu)建工具(如Protégé[2]或OntoEdit[3]),也需要手工依次輸入和編輯領(lǐng)域中每個概念的名字、屬性以及關(guān)系等內(nèi)容。因此,如何利用知識自動獲取技術(shù)降低本體構(gòu)建。開銷、提高構(gòu)建效率成為一個非常重要的研究問題。目的開頭對該主題進行基本的定義和解釋,因此條目開頭的第一條語句又稱為定義句(DefinitionSentence)。后續(xù)內(nèi)容則從各個角度對該主題進行詳細的闡述,這些不同的闡述視角構(gòu)成條目的目錄內(nèi)容(Contents),不同條目的目錄內(nèi)容各不相同,如圖1所示。
圖1條目——條件隨機場(ConditionalRandomField)
2.2信息盒
信息盒是Wikipedia中一種特殊類型的模板結(jié)構(gòu),用來概括條目主題中的常見屬性。圖2顯示了條目編程語言Java中的信息盒以及其對應(yīng)的Wiki語言。首行的{InfoboxProgrammingLanguage}表示該信息盒所屬的類型:編程語言(ProgrammingLanguage)。條目標題也是該信息盒的標題。后面數(shù)行的內(nèi)容則是該條目的常見屬性以及對應(yīng)的屬性值,如圖標、發(fā)布日期、設(shè)計者等。其中,最新發(fā)布日期(Latest_Release_Date)、最新測試版本(Latest_Test_Version)等屬性沒有填充對應(yīng)的屬性值,為空值。
2.3類別
Wikipedia鼓勵用戶將自己撰寫的條目進行歸類,同時也鼓勵用戶為自己創(chuàng)建的類別指定多個父類,因此,條目和類別都可以屬于多個類別。Wikipedia中的類別頁面主要包括兩種類型:TopicCategories和ListCategories。前者主要包含與特定主題相關(guān)的類別和條目,后者主要通過列表列出某個概念下的所有實例。不同類別之間的關(guān)聯(lián)構(gòu)成了具有一定層次性的類別結(jié)構(gòu)圖,但這種層次性不是簡單的樹結(jié)構(gòu),而是一個復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)(圖3)。由于Wikipedia的類別體系主要用于導(dǎo)航,便于用戶從不同的方面或角度進行搜索,所以類別之間的關(guān)聯(lián)缺乏嚴謹性和一致性,存在大量的冗余。因此,很難直接從類別結(jié)構(gòu)圖中判斷某個領(lǐng)域中所有密切相關(guān)的類別和條目。
圖2信息盒——Java(ProgrammingLanguage)
圖3類別結(jié)構(gòu)(NetworkCategoryStructure)
2.4超鏈接
在Wikipedia的條目中,主要包含兩種鏈接:內(nèi)部鏈接(InternalLinks)和外部鏈接(ExternalLinks)。前者是從Wikipedia的一個條目頁面鏈接到另一個條目頁面,后者是從當(dāng)前的條目頁面鏈接到外部的相關(guān)主題網(wǎng)頁。至2009年,Wikipedia(英文版)已包含超過60M的超鏈接,構(gòu)成了一個強大的鏈接體系。
與一般的純文本語料不同,Wikipedia作為一種特殊的半結(jié)構(gòu)化知識資源,其內(nèi)部內(nèi)容雖然在很大程度上也是由文本組成,但同時又包含了類別、信息盒等多種結(jié)構(gòu)特征,充分利用Wikipedia的各種信息可以有效地改善本體學(xué)習(xí)的效果。下文將重點分析利用Wikipedia獲取本體概念與實例以及本體關(guān)系的相關(guān)原理和方法。
3從Wikipedia中獲取本體概念與實例
本體概念又稱為類(Class),其含義非常廣泛,可以指任何具體的或抽象的事物,如工作描述、功能、行為、策略和推理過程等[8]。本體實例則是概念的具體化。從語義角度來講,實例表示的是對象,概念表示的是對象的集合。大多數(shù)的本體學(xué)習(xí)方法在提取概念時,往往不區(qū)分概念和實例,而是直接將術(shù)語識別為概念。從Wikipedia中獲取本體概念則與傳統(tǒng)方法[9~12]不同,不需要利用詞頻統(tǒng)計、詞法結(jié)構(gòu)等特征來區(qū)分普通詞語和概念術(shù)語,而是通過利用豐富的結(jié)構(gòu)信息直接識別出本體概念和實例。
3.1基于類別結(jié)構(gòu)圖的本體概念與實例獲取
在Wikipedia中,條目和類別之間的聯(lián)系反映了實例和概念之間的分屬關(guān)系或者概念和概念之間的上下位關(guān)系,這些關(guān)系可以用類別結(jié)構(gòu)圖表示(如2.3節(jié)圖3所示)。由于Wikipedia的類別結(jié)構(gòu)圖是一個復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),其中各個領(lǐng)域中的概念相互交叉,很難直接從中獲得某一領(lǐng)域本體的概念和實例,因此需要對類別結(jié)構(gòu)圖進行深入分析。一種思路[13]是首先統(tǒng)計類別結(jié)構(gòu)圖中概念到各個領(lǐng)域的路徑數(shù)以及路徑長度等因素,然后根據(jù)隸屬度函數(shù)計算概念的領(lǐng)域隸屬度,即概念向量的每個分量值,最后從概念向量中判斷概念所屬的領(lǐng)域。這種方法充分利用類別結(jié)構(gòu)圖中的結(jié)點和路徑關(guān)系來計算概念的領(lǐng)域隸屬度,概念向量反映了概念與每個領(lǐng)域的相關(guān)性。但對于某個領(lǐng)域本體中的所有相關(guān)概念,概念領(lǐng)域隸屬度的計算量將變得非常大,從而大大降低概念提取的效率。為了減少領(lǐng)域隸屬度的計算量,可以考慮直接從復(fù)雜的網(wǎng)絡(luò)類別結(jié)構(gòu)圖中構(gòu)造出分類樹結(jié)構(gòu)。一種可行的方法是通過對上述分類樹進行遍歷并根據(jù)網(wǎng)絡(luò)圖中結(jié)點的入度和出度給每個結(jié)點打分,得到得分超過一定閾值的結(jié)點,將這些結(jié)點所對應(yīng)的條目作為領(lǐng)域概念[14]。這種方法原理簡單,計算量較小,能夠快速地自動識別領(lǐng)域中的相關(guān)概念,但是各個概念結(jié)點的得分情況與分類樹的根結(jié)點密切相關(guān),因此根結(jié)點的選擇對于算法的效果具有較大影響。
3.2基于信息盒的本體概念與實例獲取
信息盒作為Wikipedia中的一種特殊結(jié)構(gòu),以統(tǒng)一的表格形式出現(xiàn)在條目中。每種類型的信息盒對應(yīng)著一個概念,信息盒標題則對應(yīng)著概念的實例。如2.2節(jié)圖2所示,{InfoboxProgrammingLanguage}對應(yīng)概念“編程語言(ProgrammingLanguage)”,信息盒標題對應(yīng)此概念的一個實例。如果多篇條目中包含的信息盒都指向相同的概念,則表示這些條目是同一個概念的多個實例;如果一篇條目中出現(xiàn)多個不同類型的信息盒,則表示該實例屬于多個概念。利用信息盒的這種結(jié)構(gòu)關(guān)系可以非常準確地識別本體概念和本體實例[15]。但Wikipdeia中只有15%左右的條目包含信息盒,這在較大程度上限制了該方法的通用性。
3.3基于定義句的本體概念與實例獲取
定義句一般出現(xiàn)在條目的開頭,對條目的內(nèi)容進行簡短的描述。例如,在條目“條件隨機場(ConditionalRandomField)”中,第一句為“AConditionalRandomField(CRF)isatypeofdiscriminativeprobabilisticmodelmostoftenusedforthelabelingorparsingofsequentialdata,suchasnaturallanguagetextorbiologicalsequences”。該句對條件隨機場進行了基本定義。通常情況下,定義句中隱含了概念之間的上下位關(guān)系或?qū)嵗?概念關(guān)系。例如,在上述定義句中,可以得到概念“條件隨機場(ConditionalRandomField)”是概念“判別概率模型(DiscriminativeProbabilisticModel)”的一個實例。通過對定義句中隱含的概念上下位關(guān)系和實例-概念關(guān)系進行分析,可以獲取相關(guān)概念與實例。例如,Cui等[16]在對定義句進行預(yù)處理后,利用語法分析從定義句中提取出Be動詞和Non-Be動詞,然后將緊跟其后的名詞或名詞短語識別為該條目的上位概念。這種方法直接利用定義句中的動詞來判斷概念和實例,操作比較簡單,但準確率不夠高。一方面由于部分名詞或名詞短語不能被正確識別,另一方面并非所有定義句中動詞后面的名詞或名詞短語都是本體概念,有些只是與條目主題相關(guān)的普通詞語。
上述三種方法的原理和特點如表1所示。
4從Wikipedia中獲取本體關(guān)系
本體關(guān)系反映了概念之間的相互聯(lián)系,是本體應(yīng)用于其他各個領(lǐng)域的基礎(chǔ)。Maedche和Staab[17]將本體關(guān)系分為分類關(guān)系(TaxonomyRelation)和非分類關(guān)系(Non-TaxonomyRelation)。分類關(guān)系又可稱為IsA關(guān)系,包括上下位關(guān)系(Hyponymy)、實例關(guān)系(Instance-Of)以及部分整體關(guān)系(Part-Of)等。上下位關(guān)系表示概念之間具有繼承關(guān)系,類似于面向?qū)ο笾懈割惡妥宇愔g的關(guān)系,如“教育機構(gòu)”與“學(xué)?!敝g則存在這種關(guān)系。實例關(guān)系表示實例和它所對應(yīng)的概念之間的關(guān)系,如“伊麗莎白一世”是“英國君主”這個概念的實例。“葉子”與“樹”之間則存在部分整體關(guān)系。非分類關(guān)系是指除了IsA關(guān)系以外的概念間的任何關(guān)系,如屬性關(guān)系(Attribute-Of)、同義詞關(guān)系(Synonymy)以及其他NotIsA關(guān)系等。其中,屬性關(guān)系表示某個概念是另外一個概念的屬性,如概念“面料”可作為概念“衣服”的一個屬性。
本體關(guān)系獲取是本體學(xué)習(xí)中的核心問題,大多數(shù)研究主要集中在分類關(guān)系獲取上,而對于非分類關(guān)系的獲取研究則相對較少。從Wikipedia中獲取本體關(guān)系的方法大致可以分為兩種:模式匹配方法和統(tǒng)計學(xué)習(xí)方法。
4.1模式匹配方法
使用模式匹配方法從Wikipedia中獲取本體關(guān)系是指通過分析條目文本、信息盒、類別等相關(guān)內(nèi)容,從中識別出表示語義關(guān)系的模式,然后將待識別的內(nèi)容與模式進行匹配,判斷概念間存在的關(guān)系。例如,在Wikipedia的條目中,關(guān)鍵詞Member和CEO的出現(xiàn)通常蘊含了實體之間的Members-Of關(guān)系,因此可以設(shè)定模式“AistheCEOofB->Members-Of(A,B)”。將該模式應(yīng)用于待識別的語句,可以得到更多的關(guān)系實例。利用模式匹配方法從Wikipedia中獲取本體關(guān)系主要有三種途徑:基于結(jié)構(gòu)特征的模式匹配、基于詞典的模式匹配和基于句法的模式匹配。
4.1.1基于結(jié)構(gòu)特征的模式匹配
所謂基于結(jié)構(gòu)特征的模式匹配,是指利用Wikipedia的結(jié)構(gòu)特征直接獲取本體關(guān)系。例如,利用信息盒結(jié)構(gòu)對非分類關(guān)系中的屬性關(guān)系進行提取[18]。在信息盒中,每行的字段域?qū)?yīng)著一種屬性,對同一概念中所有實例的字段域進行歸納和篩選,可以獲得概念的主要屬性。例如,2.2節(jié)圖2中的DesignedBy字段域?qū)?yīng)著屬性“設(shè)計者(Designer)”,屬性值為“太陽微系統(tǒng)公司(SunMicrosystems)”??梢岳萌M(Java-designedby-SunMicrosystems)來表示這種類型的屬性關(guān)系。然后對概念“編程語言”中所有實例(C++、C#等)的字段域進行歸納和篩選,可以得到“設(shè)計者”是概念“編程語言”的一個重要屬性,即存在語義關(guān)系“Distribute-Of(Designer,ProgramLanguage)”。另外還可以對兩種類別名稱的中心詞和修飾語進行匹配來判斷概念間的關(guān)系[19]。如果兩個類別名稱中的中心詞相互匹配,則它們之間存在IsA關(guān)系;如果一個類別名稱中的修飾語與另一個類別名稱的中心詞相互匹配,則它們之間存在NotIsA關(guān)系。例如,“BritishComputerScientist”和“ComputerScientist”這兩個類別名稱的中心詞相互匹配,均為“ComputerScientist”,這兩個類別名稱之間存在IsA關(guān)系;類別名稱“CrimeComics”的修飾語與類別名稱“Crime”的中心詞相互匹配,均為“Crime”,它們之間存在NotIsA關(guān)系。這類方法可以取得較高的準確率,但Wikipdeia中特殊類型的類別名稱和信息盒的數(shù)量都十分有限,在一定程度上影響了關(guān)系識別的召回率。
4.1.2基于詞典的模式匹配
所謂基于詞典的模式匹配,是指根據(jù)一些現(xiàn)有的詞匯詞典中定義的同義、近義和上下位關(guān)系等知識來獲取本體中概念間的關(guān)系。這種方法利用詞典中概念之間存在的關(guān)系來獲取模式。代表性的方法是借助WordNet詞典[20]進行模式匹配。WordNet中概念之間的關(guān)系主要包含同義關(guān)系、上下位關(guān)系和部分-整體關(guān)系等。使用基于詞典的模式匹配方法,可以先將從Wikipedia中提取的兩個本體概念映射到WordNet中,根據(jù)詞典確定概念之間存在的關(guān)系,然后再對概念所在的語句進行分析并提取模式。例如,從條目語句“LisbonispartofPortugal”中提取出概念“Lisbon”和“Portugal”,將這兩個概念映射到WordNet中,通過對WordNet的遍歷可以識別“Lisbon”和“Portugal”之間存在部分-整體關(guān)系,因此可以生成模式“ENTRYis/VBZpart/NNof/INTARGET->Part-Of(ENTRY,TARGET)”。通過對同種關(guān)系的模式進行合并和歸納,獲得最終的關(guān)系模式集[21]。將關(guān)系模式集應(yīng)用到新的Wikipedia條目中,就可以識別出新的本體關(guān)系實例。這種方法巧妙地借助WordNet來確定具有本體關(guān)系的概念對,并對提取的模式進行合并歸納,增加了模式的通用性。但是,概念的選擇受到WordNet詞匯范圍的局限,影響了關(guān)系模式的提取,并且匹配的效果較大程度上受到了模式的歸納程度以及關(guān)系類型的限制。
4.1.3基于句法的模式匹配
所謂基于句法的模式匹配,是指借助句法分析器識別出語句中的句法結(jié)構(gòu),從句法結(jié)構(gòu)中獲取關(guān)系模式,然后將待識別語句的句法結(jié)構(gòu)與關(guān)系模式進行匹配,從而獲取概念間的關(guān)系。一種方法是利用語法分析器將語句表示成一系列最小語法樹[22],另一種方法則利用基于上下文無關(guān)語法的分析器將語句的句法結(jié)構(gòu)表示成平面無向連接圖[23]。在句法分析的基礎(chǔ)上,將本體關(guān)系表示成語法樹模式或連接圖模式,然后將待識別語句的句法結(jié)構(gòu)與獲得的關(guān)系模式進行匹配,識別出具有本體關(guān)系的概念對。這種方法不需要考慮語句中的詞匯特征,而是充分利用語句中的語法特征,可以識別由不同詞匯表達的同種關(guān)系,但模式獲取的完備性以及句法分析的正確性都會影響到關(guān)系識別的效果。
4.1.4基于混合方式的模式匹配
在上述方法中,模式的合理性在較大程度上決定了本體概念關(guān)系識別的效果。模式的定義如果過于嚴謹,能夠保證關(guān)系識別的準確率,卻降低了召回率;模式的定義如果過于寬泛,可以提高召回率,但同時會大大降低關(guān)系識別的準確率。在實際應(yīng)用中,為了提高模式識別的效果,可以考慮將上述方法綜合利用。在本體項目YAGO(YetAnotherGreatOntology)[24]中,研究者綜合使用了基于結(jié)構(gòu)特征和詞典的方法。首先根據(jù)結(jié)構(gòu)特征,從類別結(jié)構(gòu)圖中識別出葉子類別,并將其映射到WordNet的同義詞分類體系中,構(gòu)建一個龐大的分類體系;接著提取每個類別的中心詞,如在“Category:AmericanPeopleinJapan”中,中心詞為“People”;然后在WordNet中查找該中心詞,如果存在則將其作為該類別的上位概念。該方法共提取了143000個上下位關(guān)系,其效果要優(yōu)于單一的基于結(jié)構(gòu)特征的方法或基于詞典的方法。
4.2統(tǒng)計學(xué)習(xí)方法
使用統(tǒng)計學(xué)習(xí)方法從Wikipedia中獲取本體關(guān)系,是指通過分析條目中各種詞法、句法、語義、結(jié)構(gòu)等特征在上下文中的分布情況,選擇具有較強區(qū)分度的特征構(gòu)造特征向量,然后利用各種機器學(xué)習(xí)算法進行訓(xùn)練和測試,從而識別本體概念間存在的關(guān)系。依據(jù)是否引入監(jiān)督學(xué)習(xí),可以將其分為兩種方法:無監(jiān)督學(xué)習(xí)聚類方法和有監(jiān)督學(xué)習(xí)分類方法。聚類方法主要是利用概念之間特定的語義距離對概念進行聚類,由于具有較為相似語義關(guān)系的概念會被聚集到同一類族中,因此聚類的最終結(jié)果即為概念之間的分類關(guān)系。這種方法較多地應(yīng)用于從一般領(lǐng)域文獻中獲取本體關(guān)系[25,26]。分類方法則將本體關(guān)系獲取看作是一種已知類別的分類問題,通過構(gòu)造分類器對訓(xùn)練語料進行學(xué)習(xí),將學(xué)習(xí)到的模型應(yīng)用于測試語料,進而識別出事先確定的概念關(guān)系。在有關(guān)Wikipedia的研究文獻中,研究者傾向于使用分類方法獲取本體關(guān)系。在上述兩種方法中,如何選擇各種具有較強區(qū)分度的特征決定了本體關(guān)系識別的效果。依據(jù)選擇特征的方法不同,可以將統(tǒng)計學(xué)習(xí)方法分為基于文本特征的統(tǒng)計學(xué)習(xí)和基于結(jié)構(gòu)特征的統(tǒng)計學(xué)習(xí)。
4.2.1基于文本特征的統(tǒng)計學(xué)習(xí)
基于文本特征的統(tǒng)計學(xué)習(xí)方法主要利用有效的詞法、句法和語義等文本特征來構(gòu)造特征向量,通過統(tǒng)計學(xué)習(xí)方法來識別本體關(guān)系。例如,Nguyen等[27]將條目文本中主實體的類型、次實體的類型以及語句的子樹(Subtree)結(jié)構(gòu)作為特征向量,利用支持向量機(SupportVectorMachine)識別兩個實體之間的關(guān)系。其中,子樹結(jié)構(gòu)是一種語法特征,它在語句依存樹(DependencyTree)基礎(chǔ)上進行修剪優(yōu)化,形成核心樹(CoreTree)后再進行統(tǒng)一歸納而形成。這種方法的準確率(29.07%)和召回率(53.86%)較低。Sumida等[28,29]則改進特征選擇的方法,認為條目的目錄內(nèi)容具有一定的層次結(jié)構(gòu),通過分析不同層次的段落名稱的統(tǒng)計特征可以識別出上下位關(guān)系。他們將段落名稱中的相關(guān)詞性、詞素、特殊字符、屬性名、段落層次等作為特征向量,利用支持向量機分類器學(xué)習(xí)概念間的上下位關(guān)系,取得了較高的準確率。這類方法主要以文本特征為對象并結(jié)合自然語言處理技術(shù)獲取所需要的知識,與利用普通文本語料構(gòu)造特征向量進行關(guān)系獲取的方法有相似之處,具有一定的通用性,但準確率和召回率都在較大程度上受到了特征選擇的影響。
4.2.2基于結(jié)構(gòu)特征的統(tǒng)計學(xué)習(xí)方法
基于結(jié)構(gòu)特征的統(tǒng)計學(xué)習(xí)方法主要利用Wikipedia中半結(jié)構(gòu)化數(shù)據(jù)源隱含的結(jié)構(gòu)特征構(gòu)造特征向量,進行統(tǒng)計學(xué)習(xí)。例如,Wang等[30]在構(gòu)造特征向量時綜合考慮多種結(jié)構(gòu)特征,包括定義句特征、類別名稱的中心詞特征、信息盒中的謂語動詞特征以及其他上下文特征等。他們將改進的Rocchio分類器與支持向量機相結(jié)合,從正例的無標簽數(shù)據(jù)中進行自學(xué)習(xí)從而完成分類任務(wù)。這種方法在已知的四種非分類關(guān)系(Album-Artist,F(xiàn)ilm-Directory,University-City,Band-Member)中獲得的準確率為58.5%~90.6%。Wu等[31]則引入更多的結(jié)構(gòu)特征并結(jié)合WordNet詞典構(gòu)造特征向量,包括各種結(jié)構(gòu)相似度、類名包含、信息盒類型、編輯歷史、Hearst關(guān)系模式以及WordNet映射等結(jié)構(gòu)特征,然后分別利用支持向量機和馬爾可夫邏輯網(wǎng)絡(luò)(MarkovLogicNetworks)兩種分類器學(xué)習(xí)概念間的IsA關(guān)系。由于集成了Wikipedia中的各種有效特征,該方法具有非常高的準確率(98.8%)和召回率(92.5%)。
以上各種方法的比較參見表2。
5結(jié)語
本文從本體學(xué)習(xí)中的概念和實例獲取以及關(guān)系獲取這兩個任務(wù)出發(fā),對利用Wikipedia進行本體學(xué)習(xí)的各種方法進行了詳細的分析。可以看出,利用Wikipedia進行本體學(xué)習(xí)是當(dāng)前研究的一個熱點?;赪ikipedia龐大的知識覆蓋面以及豐富的結(jié)構(gòu)特征,采用各種自然語言處理技術(shù)和數(shù)據(jù)挖掘方法,可以自動獲得本體的各種元素,大大提高了本體構(gòu)建的效率,但同時也存在一些有待解決的問題:
(1)在概念的自動獲取過程中,研究者往往不區(qū)分概念和概念的實例,而實際上,概念和概念的實例并不相同,如何自動區(qū)分兩者非常重要。
(2)在獲取關(guān)系時,經(jīng)常會出現(xiàn)相互重疊的關(guān)系,目前對提取的各種關(guān)系類型缺乏較好的統(tǒng)一方法。
(3)每一種方法都有自己的適用范圍,如何將各種方法進行綜合利用從而獲得更好的學(xué)習(xí)效果,仍然是一個研究難點。
值得說明的是,目前國內(nèi)對從Wikipedia中獲取本體的研究和應(yīng)用還較為少見。相信隨著本體工程技術(shù)的深入發(fā)展,將會有更多的研究和應(yīng)用成果出現(xiàn)。
【參考文獻】
[1]GruberTR.Atranslationapproachtoportableontologyspecifications[J].KnowledgeAcquisition,1993,5(2):199-220.
[2]NoyNF,FergersonRW,MusenMA.Theknowledgemodelofprotégé-2000:Combininginteroperabilityandflexibility[C]//Proceedingsofthe12thInternationalConferenceonKnowledgeEngineeringandKnowledgeManagement(EKAW2000).Heidelberg:SpringerVerlag,2000.17-32.
[3]SureY,AngeleJ,ErdmannM,etal.OntoEdit:CollaborativeontologyengineeringforthesemanticWeb[C]//HorrocksI,HendlerJA.ProceedingsoftheISWC2002.Heidelberg:Springer-Verlag,2002:221-235.
[4]PerezG,MachoM.Asurveyofontologylearningmethodsandtechniques[J].OntoWebDeliverableD1,2003(5):1-86.
[5]LeufB,CunninghamW.TheWikiWay:QuickCollaborationontheWeb[M].Boston,London:AddisonWesleyPress,2001.
[6]MedelyanO,MilneD,LeggC,etal.MingmeaningfromWikipedia[J].InternationalJournalofHumanComputerStudies,2009(9):716-754.
[7]JohnsonB.Wikipediaapproachesitslimits[EB/OL].[2009-09-05].http://www.guardian.co.uk/technology/2009/aug/12/wikipedia-deletionist-inclusionist.
[8]CorchoO,Gómez-PérezA.Evaluatingknowledgerepresentationandreasoningcapabilitiesofontologyspecificationlanguages[C/OL].[2009-09-01]//ProceedingsoftheECAI2000WorkshoponApplicationsofOntologiesandProblem-SolvingMethods.http://www.dia.fi.upm.es/~ocorcho/documents/ECAI00WS_CorchoGomezPerez.pdf.
[9]ShamsfardM,BarforoushAA.Learningontologiesfromnaturallanguagetexts[J].Int'lJournalHumanComputerStudies,2004,60(1):17-63.
[10]PatrickP,LinDK.Astatisticalcorpus-basedtermextractor[C]//LectureNotesInComputerScience,Vol.2056,Proceedingsofthe14thBiennialConferenceoftheCanadianSocietyonComputationalStudiesofIntelligence:AdvancesinArtificialIntelligence.London,UK:Springer-Verlag,2001:36-46.
[11]PaolaV,MicheleM,RobertoB.Identificationofrelevanttermstosupporttheconstructionofdomainontologies[C]//ProceedingsofACL-EACLWorkshoponHumanLanguageTechnologies2001.Morristown,NJ,USA:ACLPress,2001:1-11.
[12]NavigliR,VelardiP,GangemiA.Ontologylearninganditsapplicationtoautomatedterminologytranslation[J].IEEEIntelligentSystems,2003,18(1):22-31.
[13]CuiGY,LuQ,LiWJ,etal.CorpusexploitationfromWikipediaforontologyconstruction[C]//ProceedingsoftheSixthInternationalLanguageResourcesandEvaluation(LREC'08).Marrakech:ELRA,2008:2125-2132.
[14]ShirakawaM,NakayamaK,HaraK,etal.ConceptvectorextractionfromWikipediacategorynetwork[C]//Proceedingsofthe3rdInternationalConferenceonUbiquitousInformationManagementandCommunication(2009).NewYork,USA:ACM,2009:71-79.
[15]CuiGY,LuQ,LiWJ,etal.Automaticacquisitionofattributesforontologyconstruction[C]//ProceedingsofComputerProcessingofOrientalLanguages(ICCPOL2009).Berlin,Heidelberg:Springer-Verlag,2009:248-259.
[16]CuiGY,LuQ,LiWJ,etal.MiningconceptsfromWikipediaforontologyconstruction[C]//Proceedingsof2009IEEE/WIC/ACMInternationalConferenceonWebIntelligenceandIntelligentAgentTechnology.WashingtonDC,USA:IEEEComputerSociety,2009:287-290.
[17]MaedcheA,StaabS.Ontologylearningforthesemanticweb[J].IEEEIntelligentSystems,2001,16(2):72-79.
[18]SuchanekFM,KasneciG,WeikumG.YAGO:AlargeontologyfromWikipediaandWordNet[J].ElsevierJournalofWebSemantics,2008,6(3):203-217.
[19]PonzettoSP,StrubeM.DerivingalargescaletaxonomyfromWikipedia[C]//Proceedingsofthe22ndNationalConferenceonArtificialIntelligence.Vancouver:AAAIPress,2007:1440-1445.
[20]MillerGA,WordNet-alexicaldatabasefortheEnglishlanguage[J].CommunicationsoftheACM,1995(38):39-41.
[21]Ruiz-CasadoM,AlfonsecaE,CastellsP.Automaticingthelearningoflexicalpatterns:AnapplicationtotheenrichmentofWordNetbyextractingsemanticrelationshipsfromWikipedia[J].DataKnowledgeandEngineering,2007,61(3):484-499.
[22]HerbelotA,CopestakeA.AcquiringontologicalrelationshipsfromWikipediausingRMRS[C]//ProceedingsoftheInternationalSemanticWebConference2006WorkshoponWebContentMiningwithHumanLanguageTechnologies.Berlin,Heidelberg:Springer-Verlag,2006:1-10.
[23]SuchanekFM,IfrimG,WeikumG.CombininglinguisticandstatisticalanalysistoextractrelationsfromWebdocuments[C]//Proceedingsofthe12thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.NewYork:ACM,2006:712-717.
[24]SuchanekFM,KasneciG,WeikumG.YAGO:Acoreofsemanticknowledge[C]//Proceedingsofthe16thWorldWideWebConference,WWW'07.NewYork:ACM,2007:6
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026湖南郴州市宜章縣婦幼保健院招募見習(xí)生2人考試參考試題及答案解析
- 2026廣東東莞市沙田鎮(zhèn)社區(qū)衛(wèi)生服務(wù)中心第一期招聘納入崗位管理編制外人員4人考試備考試題及答案解析
- 2026湖南張家界桑植縣第一季度縣直事業(yè)單位選調(diào)工作人員9人考試備考試題及答案解析
- 2026貴州銅仁市第二人民醫(yī)院收費室見習(xí)生招募考試參考試題及答案解析
- 2026陜西寶雞市科技創(chuàng)新交流服務(wù)中心招聘高層次人才3人考試備考試題及答案解析
- 2026浙江紹興市口腔醫(yī)院第一次招聘博士研究生1人考試參考試題及答案解析
- 2026重慶市萬州區(qū)太龍鎮(zhèn)人民政府招聘非全日制公益性崗位人員4人考試備考試題及答案解析
- 久治縣醫(yī)共體2026年面向社會公開招聘編外臨聘人員16人考試參考試題及答案解析
- 2026浙江麗水學(xué)院招聘(引進)高層次人才71人(2026年第1號)考試備考試題及答案解析
- 2026上海寶山區(qū)行知科創(chuàng)學(xué)院“蓄電池計劃”招募考試參考試題及答案解析
- 全國高校輔導(dǎo)員素質(zhì)能力大賽試題(談心談話、案例分析)
- 《XXXX煤礦隱蔽致災(zāi)地質(zhì)因素普查報告》審查意見
- 鋼結(jié)構(gòu)制作焊接操作手冊
- 【MOOC】生物材料伴我行-湖南大學(xué) 中國大學(xué)慕課MOOC答案
- 《手機制造流程培訓(xùn)》課件
- 人教版(2024新版)七年級上冊數(shù)學(xué)全冊重點知識點講義
- 砂材料運輸合同模板
- 牧場物語-礦石鎮(zhèn)的伙伴們-完全攻略
- ISO 22003-1:2022《食品安全-第 1 部分:食品安全管理體系 審核與認證機構(gòu)要求》中文版(機翻)
- 電子產(chǎn)品維修作業(yè)規(guī)范
- 綜合管廊租用合同范本
評論
0/150
提交評論