基于.知識的智能問答技術(shù)_第1頁
基于.知識的智能問答技術(shù)_第2頁
基于.知識的智能問答技術(shù)_第3頁
基于.知識的智能問答技術(shù)_第4頁
基于.知識的智能問答技術(shù)_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

/題目:基于知識的智能問答技術(shù)〔PDF作者:許坤.馮巖松〔北京大學(xué)————————————————————作者簡介:許坤.北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所博士生.研究方向?yàn)榛谥R庫的智能問答技術(shù).已連續(xù)三年在面向結(jié)構(gòu)化知識庫的知識問答評測QALD-4,5,6中獲得第一名。馮巖松.北京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)研究所講師。20XX畢業(yè)于英國愛丁堡大學(xué).獲得信息科學(xué)博士學(xué)位。主要研究方向包括自然語言處理、信息抽取、智能問答以及機(jī)器學(xué)習(xí)在自然語言處理中的應(yīng)用;研究小組已連續(xù)三年在面向結(jié)構(gòu)化知識庫的知識問答評測QALD中獲得第一名;相關(guān)工作已發(fā)表在TPAMI、ACL、EMNLP等主流期刊與會(huì)議上。作為項(xiàng)目負(fù)責(zé)人或課題骨干已承擔(dān)多項(xiàng)國家自然科學(xué)基金及科技部863計(jì)劃項(xiàng)目。分別在2014和2015年獲得IBMFacultyAward。引言近年來.信息抽取技術(shù)的快速發(fā)展使得快速構(gòu)建大規(guī)模結(jié)構(gòu)化、半結(jié)構(gòu)化知識庫成為可能。一大批結(jié)構(gòu)化知識庫如雨后春筍般涌現(xiàn)出來.如GoogleKnolwedgeGraph〔Freebase、Yago.DBpedia、微軟ProBase、搜狗知立方及百度等企業(yè)內(nèi)部的知識圖譜等。同時(shí).這些大規(guī)模知識庫也被應(yīng)用于關(guān)聯(lián)檢索、個(gè)性化推薦、知識問答等任務(wù)中。相比于傳統(tǒng)基于文本檢索的問答系統(tǒng).利用知識庫回答自然語言問題可以為用戶提供更精確、簡潔的答案.因此一直受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。目前基于知識庫的問答技術(shù)可以大致分為兩類。第一類基于語義解析的方法。這類方法通過學(xué)習(xí)相關(guān)語法將自然語言轉(zhuǎn)問題轉(zhuǎn)換成可以用來描述語義的形式化語言.如邏輯表達(dá)式等。構(gòu)建這樣的語義解析器需要大量的標(biāo)注數(shù)據(jù).例如.自然語言問題及其對應(yīng)的語義描述形式。然而.針對Freebase這樣大規(guī)模的結(jié)構(gòu)化知識庫.在實(shí)際中很難收集到足夠多的高質(zhì)量訓(xùn)練數(shù)據(jù)。另外.語義描述形式與知識庫的結(jié)構(gòu)之間的不匹配也是這類方法普遍遇到的一個(gè)問題.例如.在Freebase中并沒有"爸爸"或"媽媽"這樣的謂詞關(guān)系.只有"父母".因此.如果想表示"A是B的母親"這樣的關(guān)系.則需明確表示為"<B,父母,A>"并且"<A,性別,女性>"。

另一類知識問答技術(shù)是傳統(tǒng)的基于信息檢索的方法。這類方法不會(huì)將自然語言問題完全轉(zhuǎn)換成形式化的語義描述.而是首先利用實(shí)體鏈接技術(shù)從知識庫中收集候選答案集合.然后構(gòu)建排序模型對候選答案進(jìn)行排序。因?yàn)椴恍枰暾亟馕鲎匀徽Z言問題的語義結(jié)構(gòu).因此.這類方法構(gòu)造訓(xùn)練數(shù)據(jù)的過程相對簡單.只需收集問題答案對即可。實(shí)驗(yàn)表明,基于檢索的方法對語義簡單的自然語言問題比較有效.但是難以處理語義結(jié)構(gòu)復(fù)雜的問題.尤其是包含多個(gè)實(shí)體和關(guān)系的自然語言問題。例如.對于自然語言問題"WhatmountainisthehighestinNorthAmerica?".檢索類的方法由于缺乏對highest的正確解析.通常會(huì)將所有坐落在北美的山脈返回給用戶。事實(shí)上.為了得到正確的答案.問答系統(tǒng)還需要根據(jù)山脈高度對候選答案進(jìn)行排序.并選擇海拔最高的山脈返回給用戶。該過程通常需要人工編寫解析規(guī)則對答案進(jìn)行篩選.費(fèi)時(shí)費(fèi)力。此外.由于自然語言描述的多樣性.人們也無法事先窮舉所有這樣的規(guī)則。

然而事實(shí)上.Freebase這樣的結(jié)構(gòu)化知識庫希望存儲關(guān)于真實(shí)世界的知識條目.而像維基百科頁面這樣的文本百科資源則存儲支持這些事實(shí)的文本描述。例如.在維基百科頁面中.我們可以找到一段與候選答案有關(guān)的文本Denali<alsoknownasMountMcKinley,itsformerofficialname>isthehighestmountainpeakinNorthAmerica,withasummitelevationof20,310feet<6,190m>abovesealevel。很明顯可以看出.這段文本描述可以幫助我們提升Denali或者M(jìn)ountMcKinley作為正確答案的置信度.并過濾掉候選集中的錯(cuò)誤答案。正是受到這個(gè)發(fā)現(xiàn)的啟發(fā).我們提出同時(shí)利用結(jié)構(gòu)化知識庫與可信的文本百科資源.如維基百科頁面.來回答知識類自然語言問題?;诙喾N知識資源的問答技術(shù)框架圖1:針對問題whodidshaqfirstplayfor的流程圖以樣例問題whodidshaqfirstplayfor的處理流程為例.圖1展示了融合多種知識資源的問答框架。該問答系統(tǒng)框架主要包含基于結(jié)構(gòu)化知識庫Freebase的問題求解和基于非結(jié)構(gòu)化知識資源Wikipedia文本的淺層推理。基于結(jié)構(gòu)化知識庫的問題求解基于結(jié)構(gòu)化知識資源的問題求解部分只需給出候選答案集合即可.因此既可采用基于語義解析的方法.也可以直接采用基于檢索的方法來實(shí)現(xiàn)。這里我們采用的是基于檢索的方案.主要包括實(shí)體鏈接.關(guān)系抽取.以及這兩部分的聯(lián)合消解三大部分。1>

實(shí)體鏈接實(shí)體鏈接在知識類問題解析中扮演著十分重要的角色。我們采用詞性POS序列來篩選問題中的所有實(shí)體候選.以前面的問題為例.我們可以利用POS序列NN識別出實(shí)體shaq。對于識別出來的實(shí)體候選.我們使用實(shí)體鏈接工具S-MART獲取可以潛在鏈接到Freebase的5個(gè)候選實(shí)體。具體而言.對給定的實(shí)體候選.S-MART首先根據(jù)字符串相似度從Freebase中獲取一些候選實(shí)體.然后利用統(tǒng)計(jì)模型根據(jù)知識庫實(shí)體與實(shí)體候選之間的共現(xiàn)頻率計(jì)算出一個(gè)得分并排序.最終給出實(shí)體鏈接結(jié)果。2>

關(guān)系抽取關(guān)系抽取用于識別問句中的實(shí)體與答案〔疑問詞之間的語義關(guān)系。我們使用多通道卷積神經(jīng)網(wǎng)絡(luò)來確定自然語言問題中實(shí)體與答案之間存在的關(guān)系。具體地講.我們使用兩個(gè)通道.一個(gè)通道捕捉句法信息.另一個(gè)通道捕捉上下文信息。每個(gè)通道的卷積層接受一個(gè)長度不固定的輸入.但是返回一個(gè)固定長度的向量〔我們使用最大采樣法。這些固定長度的向量被拼接在一起形成最后softmax分類器的輸入.該分類器的輸出向量維度等于關(guān)系類別的總數(shù).每一維的值等于映射到對應(yīng)知識庫謂詞的置信度。3>

實(shí)體和關(guān)系的聯(lián)合消歧通常情況下的實(shí)體鏈接與實(shí)體關(guān)系抽取都是獨(dú)立預(yù)測的.因而不可避免的會(huì)存在流水線框架下常見的錯(cuò)誤傳遞現(xiàn)象。因此.我們提出了一種聯(lián)合優(yōu)化模型從實(shí)體鏈接和關(guān)系抽取的候選結(jié)果中選擇一個(gè)全局最優(yōu)的"實(shí)體-關(guān)系"配置。這個(gè)挑選全局最優(yōu)配置的過程本質(zhì)上可以被視作一個(gè)排序問題.即."合理"的實(shí)體-關(guān)系配置在知識庫中應(yīng)更常見.應(yīng)該有更高的得分。我們主要依賴從知識庫中抽取的三類特征.即實(shí)體特征、關(guān)系特征和答案的特別特征?;赪ikipedia文本描述的淺層推理基于結(jié)構(gòu)化知識庫求解的候選答案集.我們從維基百科文本資源中收集候選答案的支持文本.并訓(xùn)練答案過濾器對候選答案集進(jìn)行篩選.以得到更準(zhǔn)確的答案。1>

數(shù)據(jù)預(yù)處理具體地講.我們首先從維基百科中找出描述自然語言問題中實(shí)體的頁面。我們抽取維基百科頁面的內(nèi)容.并利用Wikifier識別句子中的維基百科實(shí)體.再利用FreebaeAPI將這些實(shí)體映射到Freebase中的實(shí)體。最后在頁面中尋找包含候選答案的句子當(dāng)做支持文本。2>

答案過濾模型

我們將淺層推理的過程抽象為一個(gè)面向候選答案的二分類任務(wù)。在實(shí)驗(yàn)中.我們使用LibSVM來訓(xùn)練該二分類器。該分類器主要使用的特征是詞級別配對特征.其中第一個(gè)部分來自給定的問題.而第二個(gè)部分來自維基百科中的支持文本。更形式化地.給定一個(gè)問題q=<q1,…qn>和一個(gè)作為支持文本的句子s=<s1,…,sm>.其中記q和s中的單詞分別為qi和sj。對每個(gè)問題與支持文本對<q.s>.我們可以生成詞級別配對特征集合{<qi.sj>}.這些詞對出現(xiàn)的次數(shù)作為特征用來訓(xùn)練分類器。需要指出的是.這里僅嘗試了最簡單的二分類方式.主要目的是檢驗(yàn)附加文本資源的作用;而使用線性優(yōu)化、或神經(jīng)網(wǎng)絡(luò)等更精巧的融合方式可能會(huì)帶來更明顯的準(zhǔn)確率提升。實(shí)驗(yàn)我們使用WebQuestions數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn)。該數(shù)據(jù)集一共包含5810個(gè)自然語言問題以及答案。其中訓(xùn)練集包含3778個(gè)問題〔65%.測試集包含2032個(gè)問題〔35%。我們使用答案的平均F1值來評測本框架。表1給出了不同方法在WebQuestions數(shù)據(jù)集上的結(jié)果。方法平均F1<Bastetal.2015>49.4<Berantetal.2015>49.7<Reddyetal.2016>50.3<Yihetal.2015>52.5本研究工作Structured44.1Structured+Joint47.1Structured+Unstructured47.0Structured+Joint+Unstructured53.3表1基于關(guān)系抽取問答技術(shù)在WebQuestions數(shù)據(jù)集上的結(jié)果

為了確定所提出框架中不同模塊的重要性.我們詳細(xì)比較了以下幾種模型變種的結(jié)果。Structured該方法只包含基于結(jié)構(gòu)化知識庫Freebase的問題求解。具體地講.我們首先進(jìn)行實(shí)體鏈接.將自然語言問題中包含的實(shí)體名詞映射到Freebase中的實(shí)體.其中得分最高的實(shí)體被當(dāng)做結(jié)果。然后我們進(jìn)行關(guān)系抽取并從候選關(guān)系中選擇與實(shí)體最匹配的關(guān)系當(dāng)做最終的實(shí)體-關(guān)系配置。最后.我們使用這個(gè)實(shí)體-關(guān)系配置來預(yù)測問題的答案。Structured+Joint與上面的方法略有不同.這個(gè)方法使用聯(lián)合消歧的方法去選擇全局最優(yōu)的實(shí)體-關(guān)系組合.并進(jìn)行基于結(jié)構(gòu)化知識庫的問題解答。Structured+Unstructured這個(gè)方法里.我們使用流水線的實(shí)體鏈接和關(guān)系抽取結(jié)果進(jìn)行基于結(jié)構(gòu)化知識庫的問題求解.進(jìn)而.利用基于維基百科的淺層推理來篩選答案。Structured+Joint+Unstructured這是我們所提出的融合多種知識資源的完整的問答框架。我們首先在結(jié)構(gòu)化知識庫Freebase上進(jìn)行問題求解.即.進(jìn)行實(shí)體鏈接和關(guān)系抽取的聯(lián)合優(yōu)化.并在Freebase上獲得候選答案集合;在此基礎(chǔ)上進(jìn)行基于文本的淺層推理.即.從維基百科中抽取答案支持文本.并對候選答案進(jìn)行篩選.獲得最終答案。從表1中的結(jié)果.我們可以發(fā)現(xiàn)實(shí)體鏈接和關(guān)系抽取的聯(lián)合推理結(jié)果會(huì)優(yōu)于流水線方法.整體效果提高了3%.并且比大部分語義解析的方法要好。另一方面.與〔Yihetal.2015利用人工編寫規(guī)則的工作相比.融合結(jié)構(gòu)化知識庫與文本知識資源的方法在問答準(zhǔn)確率上整體提高了0.8%.這進(jìn)一步說明了恰當(dāng)?shù)氖褂梅墙Y(jié)構(gòu)化的文本知識資源可以在很大程度上代替人工編寫規(guī)則來輔助回答自然語言問題。本文提出的融合不同知識資源的問題解答框架具有較好的可擴(kuò)展性.無論在結(jié)構(gòu)化知識庫求解部分.還是多種資源的融合利用方面都可進(jìn)一步改進(jìn).以更大限度的發(fā)揮不同資源之間的互補(bǔ)作用.提高知識類問題的解答精度。參考文獻(xiàn)HannahBast,ElmarHaussmann.MoreAccurateQuestionAnsweringonFreebase.CIKM.2015,1431-1440JonathanBerant,PercyLiang.ImitationLearningofAgenda-basedSemanticParsers[J].TransactionsoftheAssociationforComputationalLinguistics.2015,3:545–558SivaReddy,OscarT?ckstr?m,MichaelCollins,TomKwiatkowski,DipanjanDas,MarkSteedman,MirellaLapata.TransformingDependencyStructurestoLogicalFormsforSemanticParsing[J].TransactionsoftheAssociationforComputationalLinguistics.2016,4:127-140KunXu;SivaReddy;YansongFeng;SongfangHuang;DongyanZhaoQuestionAnsweringonFreebaseviaRelationExtractionandTextualEvidence.ACL2016,KunXu;YansongFeng;SongfangHuang;DongyanZhao,HybridQuestionAnsweringoverKnowledgeBaseandFreeText,COLING2016YiYang;Ming-Wei

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論