版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第四講知識圖譜的抽取與構(gòu)建第1節(jié)重新理解知識工程與知識獲取第2節(jié)知識抽取——實(shí)體識別與分類第3節(jié)知識抽取——關(guān)系抽取與屬性補(bǔ)全第4節(jié)知識抽取——概念抽取第5節(jié)知識抽取——事件識別與抽取第6節(jié)知識抽取技術(shù)前沿浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫1AI&MachineLearningInformationExtractionInformationExtraction&KnowledgeBasePopulationKnowledgeRepresentation&RepresentationLearningGraphGraphDatabase&SemanticSearch&QuestionAnsweringDatabaseDatabase第四講知識圖譜的抽取與構(gòu)建第1節(jié)重新理解知識工程與知識獲取浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫符號主義的核心思想人工智能源于數(shù)理邏輯智能的本質(zhì)是符號的操作和運(yùn)算知識工程的誕生KnowledgeisthepowerinAI4知識工程是以知識為處理對象,研究知識系統(tǒng)的知識表示、處理和應(yīng)用的方法和開發(fā)工具的學(xué)科KnowledgeSoup規(guī)模小成本高知識湯人工干預(yù)部分7成年人腦包含近1000億神經(jīng)元,每個(gè)神經(jīng)元都可能有近1000的連接。模擬這樣的人腦需要約100TB的參數(shù)。假設(shè)這100TB的參數(shù)能完整的存儲人腦中的知識,靠人工編碼可以獲取這樣規(guī)模的知識嗎?單個(gè)人腦中的知識仍然是有限的,如果需要獲取全體人類知識,靠人工編碼是無法完成的。挑戰(zhàn)機(jī)器自主獲取知識的極限感知層面感知層面視覺視覺挑戰(zhàn)機(jī)器自主獲取知識的極限認(rèn)知層面認(rèn)知層面語言語言邏輯邏輯模型模型概念抽取實(shí)體抽取關(guān)系抽取事件抽取規(guī)則抽取數(shù)據(jù)庫數(shù)據(jù)庫知識抽取技術(shù)知識圖譜從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中進(jìn)行知識提取,形成知識存入到知識圖譜。鏈接數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)庫D2R轉(zhuǎn)換語義集成數(shù)據(jù)庫概念Concept實(shí)體Entities半結(jié)構(gòu)化數(shù)據(jù)關(guān)系Relation事實(shí)FactsInfobox事件Events規(guī)則Rules純文本數(shù)據(jù)InformationExtraction純文本數(shù)據(jù)/TR/r2rml/SceneGraphConstruction檢測:庫克非常興奮。[庫克]:實(shí)體[庫克]:人物●術(shù)語抽?。ǜ拍畛槿。恼Z料中發(fā)現(xiàn)多個(gè)單詞組成的相關(guān)術(shù)語。王思聰是萬達(dá)集團(tuán)董事長王健林的獨(dú)子。[王健林]<父子關(guān)系>[王思聰]據(jù)路透社消息,英國當(dāng)?shù)貢r(shí)間9月15日早8時(shí)15分,位于倫敦西南地鐵線DistrictLine的ParsonsGreen地鐵站發(fā)生爆炸,目前已確定有多人受傷,具體傷亡人數(shù)尚不明確。目前,英國警方已將此次爆炸與起火定性為恐怖襲擊。?恐怖襲擊事件--知識圖譜就是新一代的知識工程馮諾依曼曾估計(jì)單個(gè)個(gè)體的大腦中的全量知識馮諾依曼曾估計(jì)單個(gè)個(gè)體的大腦中的全量知識需要2.4*1020字節(jié)存儲,知識工程的根本性科學(xué)問題是知識完備性問題,即規(guī)?;詣踊R獲取與處理能力。人工高階謂詞邏輯自動化以三元組為主謝謝大家!第四講知識圖譜的抽取與構(gòu)建第2節(jié)知識抽取——實(shí)體識別與分類浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫從文本中識別實(shí)體邊界及其類型從文本中識別實(shí)體邊界及其類型北京時(shí)間10月25日,騎士后來居上,在主場以119-112擊退公牛。中新社華盛頓10月24日電美國眾議院三個(gè)委員會24日宣布將分別展開兩項(xiàng)與希拉里·克林頓有關(guān)的調(diào)查,國會民主黨人稱這是共和黨人試圖轉(zhuǎn)移注意力。人物將文本與規(guī)則進(jìn)行匹配來識別出命名實(shí)體“***大學(xué)”、“***醫(yī)院”優(yōu)點(diǎn):準(zhǔn)確,有些實(shí)體識別只能依靠規(guī)則抽取缺點(diǎn):需要大量的語言學(xué)知識需要謹(jǐn)慎處理規(guī)則之間的沖突問題;構(gòu)建規(guī)則的過程費(fèi)時(shí)費(fèi)力、可移植性不好。確定標(biāo)簽體系選擇模型定義特征模型訓(xùn)練□詞本身的特征-邊界特征:邊界詞概率-詞性-依存關(guān)系□前后綴特征-姓氏:李XX、王X-地名:XX省、XX市□字本身的特征-是否是數(shù)字-是否是字符由OO清浙華江大大學(xué)學(xué)的OO的OO李張大小大小迎OO戰(zhàn)OO有向圖模型基于馬爾可夫性,假設(shè)特征之間是獨(dú)立的觀測變量…B-ORGI-ORGI-ORGI-ORGOOB-LOCB隱藏狀態(tài)集合Q,對應(yīng)所有可能的標(biāo)簽集合,大小為N;觀測狀態(tài)集合V,對應(yīng)所有可能的詞的集合,大小為M。對于一個(gè)長度為T的序列,I對應(yīng)狀態(tài)序列(即標(biāo)簽序列),O對應(yīng)觀測序列(即詞組成的句子)。狀態(tài)轉(zhuǎn)移概率矩陣A=[aij]N*N:轉(zhuǎn)移概率是指某一個(gè)隱藏狀態(tài)(如標(biāo)簽“B-Per”)轉(zhuǎn)移到下一個(gè)隱藏狀態(tài)(如標(biāo)簽“I-Per”)的概率。例如,B-ORG標(biāo)簽的下一個(gè)標(biāo)簽大概率是I-ORG,但一定不可能是I-Per。發(fā)射概率矩陣B=[bj(k)]N*M:指在某個(gè)隱藏狀態(tài)(如標(biāo)簽“B-Per”)下,生成某個(gè)觀測狀態(tài)(如詞“陳”)的概率。隱藏狀態(tài)的初始分布Π=[π(i)]N,這里指的是標(biāo)簽的先驗(yàn)概率分布。評估觀察序列概率:給定模型λ=(A,B,Π)和觀測序列O(如一句話“浙江大學(xué)位于杭州”),計(jì)算在模型λ下觀測序列O出現(xiàn)的概率P(O|λ),這需要用到前向后向算法。模型參數(shù)學(xué)習(xí)問題:即給定觀測序列O,估計(jì)模型λ的參數(shù),使該模型下觀測序列的條件概率P(O|λ)最大。這個(gè)問題的求解需要用到基于EM算法的鮑姆-韋爾奇算法。預(yù)測問題:也稱為解碼問題,即給定模型λ和觀測序列O,求最可能出現(xiàn)的對應(yīng)的隱藏狀態(tài)序列(標(biāo)簽序列),這個(gè)問題的求解需要用到基于動態(tài)規(guī)劃的維特比算法。問題:假設(shè)模型參數(shù)全知,要求推斷某個(gè)句子出現(xiàn)的概率問題:假設(shè)模型參數(shù)全知,要求推斷某個(gè)句子出現(xiàn)的概率前向概率(局部狀態(tài)):定義時(shí)刻t時(shí)隱藏狀態(tài)為qi,觀測狀態(tài)的序列為o1,o2,…ot的概率為前向概率。記為:αt(i)=P(o1,o2,…,ot,it=qi|λ)遞推關(guān)系式:從t時(shí)刻遞推t+1時(shí)刻αt+1(i)=[=1~Nαt(j)aji]bi(ot+1)利用遞推關(guān)系式,從t=1時(shí)刻遞推算出t=T時(shí)刻,并計(jì)算最終結(jié)果:P(“浙江大學(xué)位于杭州”|λ)=∑i=1~NαT(i)t前向后向算法比起窮舉搜索的指數(shù)級復(fù)雜度,其復(fù)雜度與序列長度是線性關(guān)系。t+1tαt(i)αt+1(i)26假設(shè)樣本從標(biāo)簽q假設(shè)樣本從標(biāo)簽qi轉(zhuǎn)移到標(biāo)簽qj的頻率計(jì)數(shù)是Aij,那么隱藏狀態(tài)轉(zhuǎn)移矩陣求得>標(biāo)簽轉(zhuǎn)移概率矩陣A=[aij]N*N>>標(biāo)簽轉(zhuǎn)移概率矩陣A=[aij]N*N>詞的生成概率矩陣B=[bj(k)]N*M>標(biāo)簽的初始分布Π=[π(i)]N假設(shè)所有樣本中初始標(biāo)簽為qi的頻率計(jì)數(shù)為C(i),那么初始概率分布為:模型參數(shù)的估計(jì)與學(xué)習(xí)問題:利用訓(xùn)練語料估計(jì)模型參數(shù)問題:利用訓(xùn)練語料估計(jì)模型參數(shù)>標(biāo)簽轉(zhuǎn)移概率矩陣A=[aij]N*N>詞的生成概率矩陣B=[bj(k)]N*M>標(biāo)簽的初始分布Π=[π(i)]N很多時(shí)候我們無法得到句子對應(yīng)的實(shí)體標(biāo)簽序列,因?yàn)檫@需要大量的人工數(shù)據(jù)標(biāo)注工作。如果只有D個(gè)長度為T的句子,即問題:給定訓(xùn)練好的模型,給定一句話,預(yù)測每個(gè)詞對應(yīng)的實(shí)體標(biāo)簽問題:給定訓(xùn)練好的模型,給定一句話,預(yù)測每個(gè)詞對應(yīng)的實(shí)體標(biāo)簽輸入:模型λ=(A,B,Π),觀測序列O=(浙,江,大,學(xué),位,于,杭,州);輸出:最有可能的隱藏狀態(tài)序列I={i1,i2,…iT},即實(shí)體標(biāo)簽序列;這里的優(yōu)化目標(biāo)是使P(I|O)最大化。αt(i)αt+1(i)問題:給定訓(xùn)練好的模型,給定一句話,預(yù)測每個(gè)詞對應(yīng)的實(shí)體標(biāo)簽問題:給定訓(xùn)練好的模型,給定一句話,預(yù)測每個(gè)詞對應(yīng)的實(shí)體標(biāo)簽輸入:模型λ=(A,B,Π),觀測序列O=(浙,江,大,學(xué),位,于,杭,州)輸出:最有可能的隱藏狀態(tài)序列I={i1,i2,…iT},即實(shí)體標(biāo)簽序列2.進(jìn)行動態(tài)規(guī)劃遞推時(shí)刻t=2,3,…T時(shí)刻的局部狀態(tài)3.如此遞推,可計(jì)算最后時(shí)刻T最大的δT(i),即為最可能隱藏狀態(tài)序列出現(xiàn)的概率4.計(jì)算時(shí)刻T最大的Ψt(i),即為時(shí)刻T最可能的隱藏狀態(tài)。5.利用局部狀態(tài)Ψ(i)開始回溯,最終得到解碼的序列,如:“…B-ORG,I-ORG,I-ORG,I-ORG,O,O,B-LOC,B-LOC…”。CRFCRF是無向圖模型隨機(jī)場包含多個(gè)位置,每個(gè)位置按某種分布隨機(jī)賦予一個(gè)值,其全體就叫做隨機(jī)場。馬爾科夫隨機(jī)場假設(shè)隨機(jī)場中某個(gè)位置的賦值僅與和它相鄰位置的賦值有關(guān),和不相鄰位置的賦值無關(guān)。條件隨機(jī)場進(jìn)一步假設(shè)馬爾科夫隨機(jī)場中只有X和Y兩種變量,X一般是給定的,而Y一般是在給定X的條件下的輸出。例如:實(shí)體識別任務(wù)要求對一句話中的十個(gè)詞做實(shí)體類型標(biāo)記,這十個(gè)詞可以從可能實(shí)體類型標(biāo)簽中選擇,這就形成了一個(gè)隨機(jī)場。如果假設(shè)某個(gè)詞的標(biāo)簽只與其相鄰的詞的標(biāo)簽有關(guān),則形成馬科夫隨機(jī)場,同時(shí)由于這個(gè)隨機(jī)場只有兩種變量,令X為詞,Y為實(shí)體類型標(biāo)簽,則形成一個(gè)條件隨機(jī)場,即,我們的目標(biāo)時(shí)求解P(Y|X)優(yōu)化目標(biāo):P(Y|X)ASurveyonDeepLearningforNamedEntityRecognition.(TKDE2020)線性變換預(yù)訓(xùn)練或隨機(jī)初始化CRF層的參數(shù)是一個(gè)(k+2)×(k+2)的矩陣A;Aij表示的是從第i個(gè)標(biāo)簽(如B-LOC)到第j個(gè)標(biāo)簽(如B-Org)的轉(zhuǎn)移得分;加2是因?yàn)橐獮榫渥邮撞刻砑右粋€(gè)起始狀態(tài)以及為句子尾部添加一個(gè)終止?fàn)顟B(tài)。(k+2)(k+2)(k+2)起始標(biāo)簽1標(biāo)簽2標(biāo)簽3…起始標(biāo)簽1標(biāo)簽2標(biāo)簽3…Softmax最大化對數(shù)似然函數(shù)預(yù)測過程ASurveyonDeepLearningforNamedEntityRecognition.(TKDE2020)ASurveyonDeepLearningforNamedEntityRecognition.(TKDE2020)實(shí)體識別仍面臨著標(biāo)簽分布不平衡,實(shí)體嵌套等問題,制約了現(xiàn)實(shí)應(yīng)用;中文的實(shí)體識別面臨一些特有的問題,例如:中文沒有自然分詞、用字變化多、簡化表達(dá)現(xiàn)象嚴(yán)重等等;實(shí)體識別是語義理解和構(gòu)建知識圖譜的重要一環(huán),也是進(jìn)一步抽取三元組和關(guān)系分類的前提基礎(chǔ)。謝謝大家!第四講知識圖譜的抽取與構(gòu)建第3節(jié)知識抽取——關(guān)系抽取與屬性補(bǔ)全浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫從文本中抽取出兩個(gè)或者多個(gè)實(shí)體之間的語義關(guān)系;從文本獲取知識圖譜三元組的主要技術(shù)手段,通常被用于知識圖譜(西湖,位于,杭州浙江省,省會,杭州)封閉域關(guān)系抽取封閉域關(guān)系抽取開放域關(guān)系抽取特征工程深度學(xué)習(xí)深度學(xué)習(xí)人工模板監(jiān)督學(xué)習(xí)遠(yuǎn)程監(jiān)督遠(yuǎn)程監(jiān)督無監(jiān)督跨句推理聯(lián)合抽取聯(lián)合抽取對抗學(xué)習(xí)預(yù)訓(xùn)練模型預(yù)訓(xùn)練模型以動詞為幾點(diǎn),構(gòu)建規(guī)則,對節(jié)點(diǎn)上的詞性和邊上的依存關(guān)系進(jìn)行限定45依存句法分析句子的句法結(jié)構(gòu)1.對句子進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識別、依存分析等處理2.根據(jù)句子依存語法樹結(jié)構(gòu)上匹配規(guī)則,每匹配一條規(guī)則就生成一個(gè)三元組3.根據(jù)擴(kuò)展規(guī)則對抽取到的三元組進(jìn)行擴(kuò)展4.對三元組實(shí)體和觸發(fā)詞進(jìn)一步處理抽取出關(guān)系董卿現(xiàn)身國家博物館看展優(yōu)雅端莊大方董卿現(xiàn)身國家博物館看展優(yōu)雅端莊大方依存分析結(jié)果詞0董卿人名1定語1現(xiàn)身動詞核心詞2國家博物館地名13看動詞1順承4展動詞3補(bǔ)語5優(yōu)雅形容詞7定語6端莊形容詞7定語7大方形容詞4規(guī)則抽取結(jié)果優(yōu)點(diǎn)在小規(guī)模數(shù)據(jù)集上容易實(shí)現(xiàn)構(gòu)建簡單缺點(diǎn)特定領(lǐng)域的模板需要專家構(gòu)建難以維護(hù)可移植性差規(guī)則集合小的時(shí)候,召回率很低AtAt-least-oneHypothesissentencethatmentions建模為一個(gè)分類建模為一個(gè)分類實(shí)體特征實(shí)體前后的詞實(shí)體的類型、語法、語義信息實(shí)體詞的共現(xiàn)特征,e.g.,dogandcat引入外部語義關(guān)系,e.g.,ACEentitytypesWordNetfeatures關(guān)系特征實(shí)體之間的詞窗口及Chunk序列實(shí)體間的依存關(guān)系路徑實(shí)體間樹結(jié)構(gòu)的距離特定的結(jié)構(gòu)信息,如最小子樹BryanRinket.alACL2016的條件下使熵H最大的同關(guān)系句子具有類似的文本特征同關(guān)系句子具有類似的文本特征在關(guān)系抽取任務(wù)中,給定句子空間X,核函數(shù)K:X*X—>[0,∞)表示一個(gè)二元函數(shù),它具體而言,給定輸入文本T中的兩個(gè)實(shí)體e1和e2,核函數(shù)方法采用下述方法計(jì)算它們之間首先從標(biāo)注數(shù)據(jù)中找到文本T’,且T’中包含滿足關(guān)系r的e1’和e2’。然后基于核函數(shù)計(jì)算T和T’之該做法背后體現(xiàn)的思想是:如果兩個(gè)實(shí)體對同時(shí)滿足某個(gè)關(guān)系r,這兩個(gè)實(shí)體對分別所在的文本計(jì)算相似度的方法有基于字符串核(Sequencekernel)和基于樹核函數(shù)(Tree機(jī)器學(xué)習(xí)框架—字符串核舉例給定帶有關(guān)系標(biāo)注的訓(xùn)練樣本集合,該方法首先基于每個(gè)樣本中出現(xiàn)的實(shí)體e1和e2將該樣本切分給定測試樣本,根據(jù)其中出現(xiàn)的實(shí)體e1’和e2’對其進(jìn)行同樣的切分,生成left’、m基于字符串核函數(shù)計(jì)算該樣本與每個(gè)訓(xùn)練樣本在上述三個(gè)上下文上的相似度最后對三個(gè)相似度得分進(jìn)行加和,并用于分類模型的訓(xùn)練與預(yù)測。句法樹核,增加節(jié)點(diǎn)特征句法樹核,增加節(jié)點(diǎn)特征Dependencytreekernelsforrelationextraction.(ACL2004)上下文相關(guān)最短路徑依賴樹核函數(shù)最短依賴路徑樹(上下文相關(guān)最短路徑依賴樹核函數(shù)最短依賴路徑樹(SPT)內(nèi)核機(jī)器學(xué)習(xí)框架—深度學(xué)習(xí)方法基于特征的方法需要人工設(shè)計(jì)特征,這類方法適用于標(biāo)注數(shù)量較少,精度要求較高,人工能夠基于核函數(shù)的方法能夠從字符串或句法樹中自動抽取大量特征,但這類方法始終是在衡量兩段此外,上述兩類方法通常都需要做詞性標(biāo)注和句法分析,用于特征抽取或核函數(shù)計(jì)算,這是典深度學(xué)習(xí)技術(shù)不斷發(fā)展,端到端的抽取方法能大幅減少特征工程,并減少對詞性標(biāo)注等預(yù)處理機(jī)器學(xué)習(xí)框架——基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取2.然后從該子樹對應(yīng)的葉節(jié)點(diǎn)開始,通過自底向上的方4.該方法基于詞向量和句法樹本身的結(jié)構(gòu),有效的考慮了句法和語義信SemanticCompositionalitythroughRecursiveMatrix-VectorSpaces.(EMNLP2012)entenceLevelentenceLevelFeature僅用詞級別的特征提取,是會丟失語序、上下文、句子整體的信息,使用seq_length方向的詞卷積,以盡量提取些機(jī)器學(xué)習(xí)—Piece-wiseCNNModel位置敏感的位置敏感的CNN模型機(jī)器學(xué)習(xí)框架—基于BiLSTM的關(guān)系抽取ttentionttention+BiLST圖神經(jīng)網(wǎng)絡(luò)在圖像領(lǐng)域的成功應(yīng)用證明了以節(jié)點(diǎn)為中心的局部信息聚合同樣可以有效的提利用句子的依賴解析樹構(gòu)成圖卷積中的鄰接矩陣,以句子中的每個(gè)單詞為節(jié)點(diǎn)做圖卷積操GraphConvolutionoverPrunedDependencyTreesImprovesRelationExtraction.(SimpleBERTModelsforRelationExtractionandSemanticRoleLabeling[J],2019.MatchingtheBlanks:DistributionalSimilarityforRelationLearning.(ACL2019)誤差傳播問題關(guān)系抽取實(shí)體識別與分類關(guān)系抽取0.770.850.77實(shí)體識別和關(guān)系抽取任務(wù)之間的關(guān)聯(lián)北京0.9位于北京0.9北京是中國的政治經(jīng)濟(jì)文化中心0.010.01定義一種新穎的實(shí)體關(guān)系聯(lián)合抽取的序列標(biāo)注規(guī)范JointExtractionofEntitiesandRelationsBasedonaNovelTaggingScheme.(ACL2017)級聯(lián)三元組抽取級聯(lián)三元組抽取ANovelCascadeBinaryTaggingFrameworkforRelationalTripleExtraction.(ACL2020)傳統(tǒng)模型主要關(guān)注單標(biāo)簽關(guān)系抽取,但同一個(gè)句子可能包含多個(gè)關(guān)系。采用膠囊神經(jīng)網(wǎng)絡(luò)如圖所示,模型首先通過預(yù)訓(xùn)練的embedding將句子中的詞轉(zhuǎn)化為詞向量;隨后使用BiLSTM網(wǎng)絡(luò)得到粗粒度的句子特征表示,再將所得結(jié)果輸入到膠囊網(wǎng)絡(luò),首先構(gòu)建出primarycapsule,經(jīng)由動態(tài)路由的方法得到與分類結(jié)果相匹配的輸出膠囊。膠囊的模長代表分類結(jié)果的概率大小。Attention-basedcapsulenetworkswithdynamicroutingforrelationextraction.(EMNLP2018)拓展問題—跨句推理提取不同句子中單實(shí)體間的關(guān)系提取不同句子中單實(shí)體間的關(guān)系遠(yuǎn)程監(jiān)督的基本假設(shè):兩個(gè)實(shí)體如果在知識庫中存在某種關(guān)系,則包含該兩個(gè)實(shí)體的非結(jié)構(gòu)化句子均可能表示出這種關(guān)系。(浙江大學(xué),位于,杭州)杭州浙江大學(xué)坐落于杭州浙江大學(xué)浙江大學(xué)通常簡稱浙大,位于中國浙江省杭州市浙江大學(xué)西湖大學(xué)杭州浙大校友會是由杭州市的浙江大學(xué)校友自愿組成的非營利組織西湖大學(xué)Distantsupervisionforrelationextractionwithoutlabeleddata.(ACL2009)包含相同實(shí)體對的句子組成一個(gè)Bag基于注意力機(jī)制選擇樣本NeuralRelationExtractionwithSelectiveAttentionoverInstances.(ACL2016)采取強(qiáng)化學(xué)習(xí)方式在考慮當(dāng)前句子的選擇狀態(tài)下選擇樣例關(guān)系分類器向樣例選擇器反饋,改進(jìn)選擇策略ReinforcementLearningforRelationExtractionfromNoisyData.(AAAI2018)規(guī)則庫X位于Y規(guī)則庫X位于YX坐落于Y……機(jī)構(gòu)位置浙江大學(xué)杭州復(fù)旦大學(xué)上?!谋編煳骱髮W(xué)位于杭州東南大學(xué)坐落于南京生成規(guī)則遍歷文本生成元組(西湖大學(xué),杭州)生成規(guī)則遍歷文本生成元組(西湖大學(xué),杭州)(東南大學(xué),南京)…………入庫NeuralSnowballforFew-ShotRelationLearning.(AAAI2020)新增加的實(shí)例與種子實(shí)例不相關(guān)或不屬于同一類型,稱為Bootstraping的語義漂移問題。限制迭代次數(shù)采用語義類型SemanticType對樣本進(jìn)行過濾和約束(Organization〉’sheadquartersin(Location〉(Location〉-based(Organization〉對抽取結(jié)果進(jìn)行類型檢查耦合訓(xùn)練屬性知識16853.57km2亞熱帶季風(fēng)氣候16853.57km2亞熱帶季風(fēng)氣候氣候?qū)傩匝a(bǔ)全氣候面積人口杭州對實(shí)體擁有的屬性及屬性值進(jìn)行補(bǔ)全方法面積人口杭州1036萬人車牌抽取式1036萬人車牌行政類別?行政類別?浙A基于機(jī)器學(xué)習(xí)模型浙A生成式0371基于機(jī)器學(xué)習(xí)模型0371抽取式屬性補(bǔ)全抽取輸入文本中的字詞,組成預(yù)測的屬性值。預(yù)測出的屬性值一定要在輸入側(cè)出現(xiàn)過生成式屬性補(bǔ)全直接生成屬性值,而這個(gè)屬性值不一定在輸入文本中出現(xiàn),只要模型在訓(xùn)練數(shù)據(jù)中見抽取式只能抽取在輸入文本中出現(xiàn)過的屬性值預(yù)測屬性值一定在輸入中出現(xiàn)過,具有一定可解釋性,準(zhǔn)確性也更高生成式可以預(yù)測不在文本中出現(xiàn)的屬性值只能預(yù)測可枚舉的高頻屬性,導(dǎo)致很多屬性值不可獲取預(yù)測出來的屬性值沒有可解釋性商品關(guān)鍵屬性補(bǔ)全利于買家選擇利于提升導(dǎo)購利于優(yōu)質(zhì)選品方法借助算法的圖文識別能力,通過小結(jié)-關(guān)系抽取方法的演變1990s特征工程SVM,MaxEnt隨著機(jī)器學(xué)習(xí)的發(fā)展,關(guān)系抽取開始了基于特征工程的分類器時(shí)代神經(jīng)網(wǎng)絡(luò)CNN,RNN卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)使得關(guān)系抽取不再需要人工特征工程20092016ELMo,BERT,GPT2基于預(yù)訓(xùn)練語言模型的關(guān)系抽取極大的提升了抽取效果I2000s遠(yuǎn)程監(jiān)督20152018早期關(guān)系抽取基于正則表達(dá)式和依存句法規(guī)則匹配基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法極大的降低了標(biāo)注樣本的成本Attention,RL,GAN多種降噪策略的出現(xiàn)進(jìn)一步降低了遠(yuǎn)程監(jiān)督的噪音,關(guān)系抽取取得了進(jìn)一步的發(fā)展謝謝大家!第四講知識圖譜的抽取與構(gòu)建第4節(jié)知識抽取——概念抽取浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫概念知識圖譜的組成isA關(guān)系、subclassOf關(guān)系通常用于本體構(gòu)建實(shí)體isA(instanceOf)比如“浙江大學(xué)”isA(instanceOf)比如“高?!睂?shí)體和概念之間的關(guān)系(isA)比如“浙江大學(xué)”isA“高校”概念與概念之間的關(guān)系(subClassOf)比如“高?!眎sA“學(xué)?!眎sA(subClassOf)isA(subClassOf)浙江大學(xué)浙江大學(xué)概念是認(rèn)知的基石概念認(rèn)知同類實(shí)體例如,昆蟲這一概念使得我們能夠認(rèn)知各種各樣的昆蟲,無需糾纏細(xì)節(jié)的不同概念可以更好的理解自然語言用小號試探男朋友。小號isA輔助賬號概念可以用于解釋現(xiàn)象遇到老虎為什么要跑?老虎是食肉動物解釋解釋語言認(rèn)知世界認(rèn)知世界實(shí)體、概念通常基于詞匯進(jìn)行表達(dá)實(shí)體與概念,概念與概念之間的關(guān)系屬于自然語言處理中的語言上下位關(guān)系概念抽取并構(gòu)建成無環(huán)圖的過程又被稱為?準(zhǔn)確率高,召回率較低?模板構(gòu)造成本高?無法從復(fù)雜文本抽取概念?無法從復(fù)雜文本抽取概念?準(zhǔn)確率召回率都相對較高?可從復(fù)雜文本抽取概念HearstPatterns:基于固定的句型可以抽取isA關(guān)系左圖列出了一些Hearstpattern的例子右圖舉了一些符合Hearstpattern的例子1)…Sci-fimoviessuchasTerminator…3)China,UnitedStates,Japanandother…TerminatorisASci-fimovies由于構(gòu)造和維護(hù)模板的成本都比較高,人們又發(fā)明了Boostrapping的方法,通常由專家構(gòu)造種子HearstPattern,然后基于Boostrapping半自動產(chǎn)生新模板。概念知識抽取從半結(jié)構(gòu)化數(shù)據(jù)中獲取上下文關(guān)系驗(yàn)證抽取的結(jié)果概念校驗(yàn)91屬性分布相似度實(shí)體相似度概念知識驗(yàn)證屬性分布相似度實(shí)體相似度領(lǐng)域規(guī)則過濾輸入概念知識,判斷是否合法方法領(lǐng)域規(guī)則過濾互斥概念發(fā)現(xiàn)e.g.,劉德華isA香港演員V.S.內(nèi)地演員實(shí)體相似度屬性分布相似度領(lǐng)域規(guī)則過濾從大量文本中獲取概念知識基于序列標(biāo)注模型需要大量標(biāo)注樣本基于模板匹配的弱監(jiān)督OpenConcept:浙江大學(xué)知識引擎實(shí)驗(yàn)室開發(fā)和維護(hù)一個(gè)大規(guī)模的中文開放領(lǐng)域概念知識圖譜賦能推薦、問答、對話等應(yīng)用/概念知識可以幫助機(jī)器理解自然語言地球末日生存回收臺怎么用游戲游戲游戲裝備游戲裝備游戲裝備使用方式概念知識可以幫助理解搜索意圖,獲得更加準(zhǔn)確的結(jié)果重點(diǎn)中學(xué)杭州的中學(xué)重點(diǎn)中學(xué)杭二中杭二中十三中學(xué)軍中學(xué)育新中學(xué)北京四中十三中學(xué)軍中學(xué)育新中學(xué)北京四中人大附中人大附中概念(Concept)是人類在認(rèn)識過程中,從感性認(rèn)識上升到理性認(rèn)識,把所感知的事物的共同本質(zhì)特點(diǎn)抽象出來的一種表達(dá)概念知識一般可以通過基于模板、基于百科和基于序列標(biāo)注等方法進(jìn)行獲取概念知識可以幫助自然語言理解,促進(jìn)搜索、推薦等應(yīng)用的效果第四講知識圖譜的抽取與構(gòu)建第5節(jié)知識抽取——事件識別與抽取浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院陳華鈞、張寧豫世界是所有事實(shí),而不是事物的總和------《邏輯哲學(xué)論》事件是發(fā)生在某個(gè)特定的時(shí)間點(diǎn)或時(shí)間段、某個(gè)特定的地域范圍內(nèi),由一個(gè)或者多個(gè)角色參與的一個(gè)或者多個(gè)動作組成的事情或者狀態(tài)的改變。不同的動作或者狀態(tài)的改變代表不同類型的事件同一個(gè)類型的事件中不同的要素代表了不同的事件實(shí)例同一個(gè)類型的事件中不同粒度的要素代表不同粒度的事件實(shí)例從無結(jié)構(gòu)文本中自動抽取結(jié)構(gòu)化事件知識:什么人/組織,什么時(shí)間,在什么地方,做了什么事事件發(fā)現(xiàn)和分類事件要素的抽取事件發(fā)現(xiàn)和分類識別觸發(fā)詞(Trigger):體現(xiàn)發(fā)生事件的核心詞語,比如這里的quit):事件要素抽取識別事件要素(EventArgument):參與事件的實(shí)體分類要素的角色(ArgumentRole):參與事件的實(shí)體在事件所扮演的角色kidnapped出現(xiàn)在被動結(jié)構(gòu),對應(yīng)的主語被標(biāo)記為victim102基于人工標(biāo)注語料的模式匹配模板的產(chǎn)生完全基于人工標(biāo)注語料,學(xué)習(xí)效果高度依賴于人工標(biāo)注質(zhì)量AutoSloga.事件元素首次提及之處即可確定該元素與事件間的關(guān)系b.事件元素周圍的語句中包含了事件元素在事件中的角色描述pedyesterdayby句法分析觸發(fā)規(guī)則RicardoCastellar是?RicardoCastellar是?RicardoCastellar是victimRichardoCastellar是主語基于弱監(jiān)督的模式匹配人工標(biāo)注耗時(shí)耗力,且存在一致性問題弱監(jiān)督方法不需要對語料進(jìn)行完全標(biāo)注AutoSlog-TS基于模式匹配的方法在特定領(lǐng)域中性能較好,便于理解和后續(xù)應(yīng)用,但對于語言、領(lǐng)域和文檔形式都有不同程度的依賴,覆蓋度和可移植性較差模式匹配的方法中,模板準(zhǔn)確性是影響整個(gè)方法性能的重要因素,主要特點(diǎn)是高準(zhǔn)確率低召回率基于特征的方法詞性實(shí)體類型依存樹N元組觸發(fā)詞識別觸發(fā)詞識別事件分類要素識別角色分類Jointeventextractionviastructuredpredictionwithglobalfeatures.(ACL2013)基于結(jié)構(gòu)預(yù)測的方法JointInference將各模型通過整體優(yōu)化目標(biāo)整合起來,可以通過整數(shù)規(guī)劃等方法進(jìn)行優(yōu)化。JointModeling(Structured)將事件結(jié)構(gòu)看作依存樹,抽取任務(wù)相應(yīng)轉(zhuǎn)化為依存樹結(jié)構(gòu)預(yù)測問題基于神經(jīng)網(wǎng)絡(luò)的事件抽取模型:DMCNNEventExtractionviaDynamicMulti-PoolingConvolutionalNeuralNetworks.(ACL2015)基于神經(jīng)網(wǎng)絡(luò)的事件抽取需要大量標(biāo)注樣本樣本難標(biāo)注遠(yuǎn)程監(jiān)督困難FrameNet和事件抽取有著很高的相似性ACE語料訓(xùn)練的分類器去判定FrameNet中句子的事件類別,再利用全局推斷將FrameNet的語義框架和ACE中的事件類別進(jìn)行映射框架名Execution類型框架名Execution類型AeroPlaneBombedThecourtfinedher40yesterdayLeveragingFrameNettoImproveAutomaticEventDetection.(ACL2016)中文事件抽取數(shù)據(jù)集/broad/subordinate?dataset=duee中文事件
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 內(nèi)分泌亞健康培訓(xùn)課件
- 期末續(xù)費(fèi)活動方案策劃(3篇)
- 窨井設(shè)施維護(hù)和管理制度(3篇)
- 經(jīng)理人俱樂部管理制度(3篇)
- 集團(tuán)施工企業(yè)風(fēng)險(xiǎn)管理制度(3篇)
- 駕駛員量化管理制度(3篇)
- 《GA 891-2010公安單警裝備 警用急救包》專題研究報(bào)告
- 《GA 658.1-2006互聯(lián)網(wǎng)公共上網(wǎng)服務(wù)場所信息安全管理系統(tǒng) 信息代碼 第1部分:上網(wǎng)服務(wù)場所代碼》專題研究報(bào)告
- 2026年及未來5年市場數(shù)據(jù)中國汽車整車物流行業(yè)市場深度分析及投資潛力預(yù)測報(bào)告
- 《GAT 852.8-2009娛樂服務(wù)場所治安管理信息規(guī)范 第8部分:從業(yè)人員類別代碼》專題研究報(bào)告
- 地坪漆施工方案范本
- 【《自適應(yīng)巡航系統(tǒng)ACC的SOTIF風(fēng)險(xiǎn)的識別與評估分析案例》4100字】
- 阿壩州消防救援支隊(duì)2026年面向社會公開招聘政府專職消防員(69人)筆試備考試題及答案解析
- 2025寧波市甬北糧食收儲有限公司公開招聘工作人員2人筆試參考題庫及答案解析
- 供應(yīng)鏈年底總結(jié)與計(jì)劃
- 2026年國有企業(yè)金華市軌道交通控股集團(tuán)招聘備考題庫有答案詳解
- 2025年電子工程師年度工作總結(jié)
- 2026年吉林司法警官職業(yè)學(xué)院單招職業(yè)技能筆試備考題庫帶答案解析
- 2025年高職第三學(xué)年(工程造價(jià))工程結(jié)算與審計(jì)測試題及答案
- 2024年曲阜師范大學(xué)馬克思主義基本原理概論期末考試真題匯編
- 醫(yī)院消毒技術(shù)培訓(xùn)課件
評論
0/150
提交評論