第七講-知識圖譜問答_第1頁
第七講-知識圖譜問答_第2頁
第七講-知識圖譜問答_第3頁
第七講-知識圖譜問答_第4頁
第七講-知識圖譜問答_第5頁
已閱讀5頁,還剩156頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第七講知識圖譜問答浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞教授1NLPNLPAI&MachineInformationExtraction&KnowledgeBasePopulationSemanticSearchInformationExtraction&KnowledgeBasePopulationSemanticSearch&QuestionAnsweringDatabaseKnowledgeRepresentation&RepresentationLearningGraphDatabase&SemanticIntegration第1節(jié)智能問答概述浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞教授345678Das,R.,Zaheer,M.,Reddy,S.,&McCallum,A.(2017).QuestionAnsweringonKnowledgeBasesandTextusingUniversalSchemaandMemoryNetworks.ACL2017問句解析檢索排序 深度學(xué)習(xí)問句解析檢索排序 深度學(xué)習(xí) 知識圖譜問答測評數(shù)據(jù)集-QALDESWC上開展,旨在建立一個統(tǒng)一的知識圖譜測評基準(zhǔn)。每年100個問題左右,從2011年開始。數(shù)據(jù)來源包括Dbpedia、YAGO和MusicBrainz;主要任務(wù)有三類<questionid="36"?ThroughwhichcountriesdoestheYenisei?DurchwelcheL?nderflie?tderYenisei?<questionid="36"?ThroughwhichcountriesdoestheYenisei?DurchwelcheL?nderflie?tderYenisei??PorquépaísesfluyeelríoYenisei??...PREFIXres:</resourcPREFIXdbo:</ores:Yenisei_Riverdbo:country}retrievethecorretheseanswer(s).French,Dutch,Romani知識圖譜問答測評數(shù)據(jù)集-WebQuestionsSimpleQuestions是一個對簡單知識圖譜問答進(jìn)行基準(zhǔn)測試的常用數(shù)據(jù)集。數(shù)據(jù)集總共包含108,442個自然問題,每個問題都與一個對應(yīng)的事實配對,對應(yīng)了知識圖譜中的一個三元組,訓(xùn)練集、驗證集、測試集的比例是7:1:2。MetaQA是一個針對垂直電影領(lǐng)域的知識圖譜問答進(jìn)行基準(zhǔn)測試的常用數(shù)據(jù)集。其知識圖譜包含電影領(lǐng)域中的演員、導(dǎo)演、編劇、電影及其類型等內(nèi)容,總計包含超過40典型特點是關(guān)注多跳問答,1跳、2跳、3跳的樣本大致是1:1:1。目前常見的智能問答技術(shù)包括文本問答、知識圖譜問答、社區(qū)問答(問答對)、表格問答、視覺問答等多種形式,其中,知識圖譜問答是起到各類問答核心橋梁作用的問答形式,通常會與文本、視覺、社區(qū)等問答形式混合搭配起來使用。實現(xiàn)人與機(jī)器之間更為自然的交互方式也是人工智能追求的終極目標(biāo)之一,這涉及怎樣讓機(jī)器理解人的自然語言,以及怎樣讓機(jī)器獲取和表示知識兩個方面的問題。這兩個問題的解決仍然面臨很多挑戰(zhàn)需要解決。第2節(jié)基于問句模板的知識圖譜問答浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞教授SELECTDISTINCT?xWHERE{?yrdf:type?c.}ORDERBYDESC(COUNT(?y))OFFSET0LIMIT1?cCLASS[films]?pPROPERTY[produced]?c=</ontology/Film>?p=</ontology/producer>首先,獲取自然語言問題的POS信息其次,基于POS和語法規(guī)則表示問句然后利用domain-dependent詞匯和domain最后,將語義表示轉(zhuǎn)化為一個SPARQL模板SPARQLtemplate1:SELECTDISTINCT?xWHERE{?yrdf:type?c.}ORDERBYDESC(COUNT(?y))LIMIT1?cCLASS[films]?pPROPERTY[produced]SPARQLtemplate2:SELECTDISTINCT?xWHERE{}ORDERBYDESC(COUNT(?y))LIMIT1?pPROPERTY[films]對于Resources和Classes:對于PropertySPARQLtemplate1:SELECTDISTINCT?xWHERE{?yrdf:type?c.}ORDERBYDESC(COUNT(?y))LIMIT1?cCLASS[films]?pPROPERTY[produced]</ontology/Film></ontology/FilmFestival>?pPROPERTY[produced]</ontology/producer></property/producer><http:///ontology/wineProduced>SELECTDISTINCTSELECTDISTINCT?xWHERE{?x</ontology/producer>?y.?yrdf:type</ontology/Film>.}ORDERBYDESC(COUNT(?y))LIMIT1Score:0.76SELECTDISTINCT?xWHERE{?x</ontology/producer>?y.?yrdf:type</ontology/FilmFestival>.}ORDERBYDESC(COUNT(?y))LIMIT1Score:0.60<http://dbpedia.or模板的學(xué)習(xí)使用遠(yuǎn)程監(jiān)督的方法,支持自動識別問題答使用整數(shù)線性規(guī)劃(ILP)學(xué)習(xí)問句-答案之間的對齊。將問題分解為子句,并用模板回答每一個子句。結(jié)合子句答案獲取最終答案。模板生成-問句依存分析utterance:u=“WhichactressplayedcharacterAmySquirrelonBadTeacher?”模板生成-為問句構(gòu)建查詢子圖utterance:u=“WhichactressplayedcharacterAmySquirrelonBadTeacher?”charactorcharactor模板生成-為問句構(gòu)建對應(yīng)查詢actoractor模板生成-問句與查詢的對齊utterance:u=“WhichactressplayedcharacterAmySquirrelonBadTeacher?”包括LP(Predicatelexicon)和LC(typelexicon)?使用distantsupervision方法構(gòu)建?使用的語料:ClueWeb09-FACC1,500MWebpagesannotatedwithFreebaseentities.LP構(gòu)建:?語料中:“[[AlbertEinstein|AlbertEinstein]]wasbornin[[Ulm|Ulm]]...”?KG中AlbertEinsteinbirthPlaceUlm)Lc構(gòu)建:?語料中:“[[AlbertEinstein|AlbertEinstein]]andotherscientists...”?KG中:(scientiststypec)?添加scientists->c到Lc中,并添加權(quán)重,即在語料中出現(xiàn)的次數(shù)。示例LP和Lc片段將問題分塊,得到多個phrase,然后將問題中短語與KG對齊:下圖的下面部分是查詢子圖中的語義項,來自知識使用詞典L對齊和添加邊,出現(xiàn)歧義(問題歧義,詞典噪聲)使用ILP來確定最優(yōu)邊。semanticitems都需要一條邊。每個phrase只能對應(yīng)一個semanticitems。Type邊其中Wi,j來自詞典的權(quán)重,Xi,j表示是否保留這條邊(0,1)進(jìn)一步依據(jù)問句與查詢對齊的結(jié)果,生成可能的模板模板可能匹配多個實體鏈接可能匹配圖譜中的多個實體可以使用多種方法如RandomForest學(xué)模板查詢響應(yīng)速度快準(zhǔn)確率較高,可以回答相對復(fù)雜的復(fù)合問題人工定義的模板結(jié)構(gòu)經(jīng)常無法與真實的用戶問題進(jìn)行匹配。如果為了盡可能匹配上一個問題的多種不同表述,則需要建立龐大的模板庫,耗時耗第3節(jié)基于語義解析的知識圖譜問答浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞教授邏輯表達(dá)式語義解析算法語義解析模型訓(xùn)練邏輯表達(dá)式語義解析算法ConstantslogicalconnectorsQuantificationadditionalquantifiers姚明的老婆的國籍是?lL分詞POS分詞POSNER…姚明E:姚明?R:?R:配偶R:國籍E:姚明,R:配偶,?y?y,R:國籍E:姚明,R:配偶,?y?y,R:國籍,?xSELECTDISTINCT?xWHERE{res:姚明配偶?y.}短語檢測及與具體知識庫圖譜無關(guān)的短語分類短語依存語法分析短語依存語法分析?WhatgovernmentdoesChilehave??WhatisItaly'slanguage??WhereisBeijing??WhatisthecoverpriceofX-men??WhodidHumphreyBogartmarryin1928?Alignment:buildcoarsemappingfromrawtextBridging:useneighboringpredicates/typeconstraintsOnly2%ofrelationphrasesonReverbcanbealignedtoFreebasetexttextalignedtext?Simplemodelsuggestscandidatelogicalforms?Simplemodelgeneratescanonicalutterances?Rankingofcanonicalutterances與模板方法類似,語義解析最終也希望得到一個可以直接在知識圖譜上查詢的邏輯表達(dá)式。但不同的是,語義解析方法期望直接從問句解析獲得對應(yīng)的邏輯形式。不論采用哪種邏輯表達(dá)式,語義解析都需要經(jīng)過短語檢測、資源映射、語義組合和邏輯表達(dá)式生成四個步驟。不論是模板還是語義解析的方法關(guān)注的重點還是問句本身,最大缺點是對知識圖譜中資源的利用程度不夠,事實上,知識圖譜中的海量知識是可以極大的增強(qiáng)問句的理解過程的。更好的方法應(yīng)該充分深挖問句和知識圖譜兩方面資源所蘊含的信息。第4節(jié)基于檢索排序的知識圖譜問答浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞教授實體鏈接(EntityLinking)是一項在文本等載體中對知識圖譜中的命名實體進(jìn)行識別和將實體鏈接問題的兩部分—識別和消歧—作為一個認(rèn)為識別和消歧是可以互相提升效果。在消歧的過程中考慮所識別的所有候選實體能提高在實際應(yīng)用中,我們經(jīng)常需要把多語言的文本中的實體鏈接到一個或多個不同語種的知識圖譜上,這類型的設(shè)定被稱為是跨語言實體鏈接。當(dāng)語種數(shù)目足夠多時,會出現(xiàn)低資源語種或?qū)嶓w對應(yīng)的訓(xùn)練數(shù)據(jù)極少的情況,因此,需要格外關(guān)注零樣本和少樣這里的模型融合負(fù)樣本挖掘、輔助的實體配對任務(wù),得到一個能對100種語種的2000萬個實體進(jìn)行實體鏈接的模型,取得很好的結(jié)果。基于特征的檢索排序傳統(tǒng)的基于特征工程的方法需要針對每個答案構(gòu)建N維特征表示這些特征反映了問題和檢索所得的答案候選在某個維度上的匹配程度,用于排序疑問詞特征問題實體特征問題類型特征問題動詞特征問題上下文特征常用的答案特征包括謂詞特征類型特種上下文特征Yih等人是一個具有代表性的基于子圖匹配的檢索排序知識圖譜問答方法基于記憶網(wǎng)絡(luò)的檢索排序知識圖譜問答方法除問答模塊之外,引入記憶網(wǎng)絡(luò)模塊記憶網(wǎng)絡(luò)模塊負(fù)責(zé)將有限的記憶單元表示為向量問答模塊從記憶網(wǎng)絡(luò)模塊中尋找與問題有關(guān)的答案Miller等人提出基于Key-valueMemoryNetwork的問答模型,將外部數(shù)據(jù)輸優(yōu)勢框架靈活、實用易于融合多種線索、特征容易與其他方法、框架結(jié)合適用多種類型資源劣勢依賴特征工程易受錯誤傳遞影響不擅長處理語義組合難以處理推理問題第5節(jié)基于深度學(xué)習(xí)的知識圖譜問答浙江大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞教授1.知識圖譜實體在圖中用圓角矩形表示。4.lambda變量(答案),在圖中用灰底圓圈表示。WhofirstvoicedMegonFamilyGuy?候選主題詞:S1和S2周圍長度為1的路徑(S5)MegGriffin)?輸入:自然語言和候選路徑QuestionAnsweringwithSubgraphEQuestionansweringoverfreebNeuralEnd-to-End框架:Attention+GlobalKnowledge?問句語義表示過于簡單?對實體名稱等的訓(xùn)練數(shù)據(jù)不足?Cross-Attention刻畫問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論