Python自然語言處理 課件07-1-詞義消歧_第1頁
Python自然語言處理 課件07-1-詞義消歧_第2頁
Python自然語言處理 課件07-1-詞義消歧_第3頁
Python自然語言處理 課件07-1-詞義消歧_第4頁
Python自然語言處理 課件07-1-詞義消歧_第5頁
已閱讀5頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

語義分析Python自然語言處理第七章CONTENT目錄

01詞義消歧02詞義角色標注03深層語義推理課前回顧句法分析概述句法分析的數(shù)據(jù)集與評測方法句法分析的常用方法使用StandfordParser的PCFG算法進行句法分析詞義消歧01基于規(guī)則的詞義消歧基于統(tǒng)計的詞義消歧基于實例的詞義消歧基于詞典的詞義消歧語義分析語義分析的重要性和地位語義分析是人工智能(AI)的一個重要分支,也是自然語言處理技術(shù)的核心任務(wù)。一般來說,一個自然語言處理系統(tǒng),如果完全沒有語義分析的參與,很難獲得很好的系統(tǒng)性能。語義分析能夠促進其他自然語言處理任務(wù)的快速發(fā)展。AI中的語義分析技術(shù)近年來發(fā)展迅速,隨著深度學(xué)習(xí)(DeepLearning)技術(shù)的迅猛發(fā)展,在自動駕駛、圍棋對弈、圖像識別以及語音識別等多個領(lǐng)域取得了突破性進展。語義分析語義分析是什么語義分析是指運用各種方法,學(xué)習(xí)與理解一段文本所表示的真實的語義內(nèi)容,任何對語言的理解都可以歸為語義分析的范疇。語義分析的分類一段文本通常由詞、句子和段落來構(gòu)成,根據(jù)理解對象的語言單元不同,語義分析可分為:詞匯級語義分析:關(guān)注如何獲取或區(qū)別單詞的語義句子級語義分析:試圖分析整個句子所表達的語義篇章級語義分析:研究自然語言文本的內(nèi)在結(jié)構(gòu)并能夠理解文本間的語義關(guān)系。語義分析語義分析層次語義分析從分析的深度分為淺表層語義分析和深層語義推理兩個層次。淺層語義分析包括:詞義消歧(WordSenceDisambiguation,WSD)語義角色標注深層語義推理包括:謂詞邏輯語義網(wǎng)絡(luò)概念依存理論詞義消歧詞義消歧概念在進行語義分析時需要解決一個很重要的問題,那就是詞的多義現(xiàn)象。由于詞是能夠獨立運用的最小語言單位,句子中的每個詞的含義及其在特定語境下的相互作用構(gòu)成了整個句子的含義。因此,詞義消歧是句子和篇章語義理解的基礎(chǔ),有時也稱為詞義標注,其任務(wù)是確定一個多義詞在給定語境中的具體含義。詞義消歧詞的多義的三種類型在自然語言處理過程中一般會把詞的多義分為三種類型:意義相關(guān)的多義。如“open”的兩個意義“公開的”和“開著的”意義完全無關(guān)的多義。如“ash”的兩個意義“灰燼”和“梣樹”詞性不同的多義。如“包”的意義“package”和“wrap”,前者是名詞,而后者是動詞

詞義消歧3種詞義消歧的可能因為詞的多義性,所以詞義消歧是非常重要,也是非常困難的。意義相關(guān)的多義:辨識較困難。對于大部分詞匯來說,其多語義間并沒有很清楚的劃分,而且大部分情況下其語義是不確定的,并且內(nèi)容是雜糅在一起的。意義完全無關(guān)的多義:較容易確定。這類詞的多義由于意義區(qū)別較為明顯、場景明顯不同,研究也已經(jīng)比較成熟。詞性不同的多義:較容易確定。這種情況為詞性兼類,也稱為”同詞異類“,目前詞性標注正確率已經(jīng)很高,相對比較容易消除。詞義消歧詞性標注與詞義消歧的區(qū)別詞性標注可以看成是一種詞義消歧問題,詞義消歧也可以看成是一種標注問題,不過詞義消歧中使用的是語義標記而非詞性標記。標記不同:詞義消歧標記的是語義而非詞性問題本質(zhì)區(qū)別:詞性主要通過鄰近的結(jié)構(gòu)信息來確定,語義主要通過相隔較遠的實詞用來確定。處理方法不同:在自然語言處理中詞性標注模型一般可以使用當(dāng)前上下文確定其正確的詞性,而對于語義消歧模型則需要使用規(guī)模較為廣泛的上下文中的實詞。詞義消歧詞義消歧分類本節(jié)將詞義消歧方法分為三類:1基于規(guī)則的詞義消歧1基于規(guī)則的詞義消歧2基于詞典的詞義消歧3基于語料庫的方法基于統(tǒng)計的詞義消歧基于實例的詞義消歧基于規(guī)則的詞義消歧產(chǎn)生背景詞義消歧本身并不是最終目的,而是在大多數(shù)自然語言處理系統(tǒng)的某些層次上都需要的一項中間任務(wù)。20世紀50年代初期,人們在機器翻譯研究中開始關(guān)注詞義的消歧問題。同其他自然語言處理任務(wù)的研究一樣,早期的詞義消歧研究一般采用基于規(guī)則的分析方法?;谝?guī)則的詞義消歧

基于規(guī)則的詞義消歧詞義消歧遇到的問題:(1)因可利用的選擇限制過于空泛而導(dǎo)致不能唯一的選擇出其準確的含義。例如,“他買了蘋果”在這個例子中,則需要利用較多的上下文內(nèi)容或其他方法來解決歧義問題,即“蘋果”在這里的意思是指“水果”還是“一部手機”。(2)明顯違反選擇限制但又是完全良構(gòu)和可以理解的例子。例如,“不要總玩游戲,當(dāng)你餓了的時候,又不能吃游戲充饑?!?3)隱喻和換喻給詞義消歧帶來新的挑戰(zhàn)。例“這輛車真是在喝汽油”,“編制夢想”?;谝?guī)則的詞義消歧問題的解決方法-優(yōu)選語義學(xué)可以把選擇限制看作是優(yōu)先選擇。也就是,將詞語之間的選擇限制降低,視這些限制為優(yōu)選選擇,與此同時也允許其他選擇即“優(yōu)選語義學(xué)”。在優(yōu)選語義學(xué)中,動詞和名詞、形容詞和名詞、介詞和名詞之間都被賦予優(yōu)選數(shù)值,名詞的語義特征和動詞的語義取向距離越遠,則優(yōu)選數(shù)值越小。例,動詞“跑”有以下兩個詞義:(1)快速移動(S,+動物,+9)(S,-動物,+2)(2)行駛(S,+車輛,+9)(S,-車輛,+2)基于規(guī)則的詞義消歧優(yōu)選語義學(xué)如何選擇簡單句子中,句子的語義合理性是由各搭配詞間優(yōu)選數(shù)值之和來表明的。復(fù)雜句子的語義合理性是由個句子優(yōu)選數(shù)值之和來表明的。這種優(yōu)選是指在各種可供選擇的情況下的優(yōu)選。這種優(yōu)選是指在各種可供選擇的情況下的優(yōu)選。如果只能導(dǎo)出一種結(jié)構(gòu),并且這個結(jié)構(gòu)不符合優(yōu)選規(guī)則,那這個結(jié)構(gòu)也會被無條件接受。這樣就可以處理比喻問題。例如,在處理“山頂?shù)氖^都跑了”時,“石頭”既不是動物也不是車輛。是可以符合邏輯的。詞義消歧01基于規(guī)則的詞義消歧基于統(tǒng)計的詞義消歧基于實例的詞義消歧基于詞典的詞義消歧基于統(tǒng)計的詞義消歧產(chǎn)生背景目前語料庫語言學(xué)已經(jīng)成為自然語言處理的研究熱點之一,基于語料庫的方法也成為處理自然語言問題的主流方法。詞義消歧和其它自然語言問題一樣都離不開語料庫的支持?;诮y(tǒng)計的詞義消歧定義基于統(tǒng)計的詞義消歧方法,是在訓(xùn)練語料中運用統(tǒng)計學(xué)技術(shù)自動獲取所需的知識,如歧義詞與上下文詞語之間的語法關(guān)系或語義關(guān)系等,并將這些知識用于詞義的識別和判斷。發(fā)展20世紀90年代初P.F.Brown等人率先提出借助上下文特征和互信息的消歧方法,目前已經(jīng)證實很多常見的機器學(xué)習(xí)方法,如決策樹、支持向量機、最大熵都可以用于統(tǒng)計詞義消歧。1992年W.A.Gale等人提出利用貝葉斯分類器的詞義消歧方法?;诮y(tǒng)計的詞義消歧基于互信息論的詞義消歧方法方法提出核心思想P.F.Brown等人率先提出的基于互信息的詞義消歧方法受統(tǒng)計機器翻譯模型的啟發(fā)是對每一個需要消歧的多義詞進行查找能夠準確的標識該多義詞在特定上下文語境中所使用的語義的特征基于統(tǒng)計的詞義消歧基于互信息論的詞義消歧方法歧義詞條件/指示器例子:值→語義prendreobjectmesure→totakedecision→tomakevouloirtensepresent→towantconditional→tolikecentWordtotheleftper→%number→c.[money]按照統(tǒng)計機器翻譯的思路,對于一個由法語和英語為雙語的語料庫,使用詞語對齊模型每個法語都可以找到對應(yīng)的英語單詞,一個具有多義的法語單詞在不同的上下文語境中會有不同的英語翻譯。如下表:基于統(tǒng)計的詞義消歧基于貝葉斯分類器的消歧方法

詞義消歧01基于規(guī)則的詞義消歧基于統(tǒng)計的詞義消歧基于實例的詞義消歧基于詞典的詞義消歧基于實例的詞義消歧兩個關(guān)鍵的問題基于實例的詞義消歧方法有兩個關(guān)鍵的問題:詞義消歧實例的獲得實例間相似度的計算1996年Ng等人在其LEXAS系統(tǒng)中成功地采用了基于實例的詞義消歧方法。該系統(tǒng)綜合多種知識實現(xiàn)詞義消歧,如上下文的詞性知識、歧義詞的用法、詞語搭配關(guān)系等等?;趯嵗脑~義消歧典型案例-LEXAS系統(tǒng)LEXAS系統(tǒng)為每個歧義詞建立一個分類器。分兩個階段完成:訓(xùn)練階段:

LEXAS接受一個句子集,每個句子都包含標注的待消歧詞,LEXAS提取出待消歧詞周邊詞的詞性、形態(tài)、同現(xiàn)詞。以上特征值組成的序列構(gòu)成一個待消歧詞的實例。測試階段:LEXAS系統(tǒng)從中抽取出特征值序列構(gòu)成待消歧詞的測試實例,將待消歧詞的測試實例與待消歧詞的所有訓(xùn)練實例作對比。則待消歧詞的詞義就是與測試實例最匹配的訓(xùn)練集實例所對應(yīng)的語義。在LEXAS系統(tǒng)對華爾街雜志語料的實驗中,Ng等人選擇了191個常用的歧義詞,共獲得192800個實例,最終測試的正確率達69%。詞義消歧01基于規(guī)則的詞義消歧基于統(tǒng)計的詞義消歧基于實例的詞義消歧基于詞典的詞義消歧基于詞典的詞義消歧基于詞典語義定義的方法1986年M.Lesk首次提出了使用詞典進行語義消歧的思想,即基于詞典語義定義的消歧方法。使用詞典中詞條本身的定義就可以作為判斷其語義的依據(jù)?;谠~典的詞義消歧基于詞典語義定義的方法以單詞ash為例,ash在詞典有兩個定義,一個是指“木犀科梣屬落葉喬木”另一個是指“材料燃燒后留下的固體殘渣,即,灰燼”即,若ash和tree同時出現(xiàn)在上下文是語義即是指“木犀科梣屬落葉喬木”,與burn同時出現(xiàn)則語義為“灰燼”?;谠~典的詞義消歧1.基于詞典語義定義的方法

?

基于詞典的詞義消歧1.基于詞典語義定義的方法M.Lesk對小說《傲慢與偏見》和一個AP新聞專線的文章中選取的較短的樣例,實驗該算法進行詞義消歧,報告的準確率只有50%~70%。這種方法的主要問題在于:詞典中對多義詞的描述一般是由語言學(xué)家完成的,語言學(xué)家根據(jù)多義詞的不同語義使用情況進行歸納、總結(jié),然后概括的進行描述,這些描述與實際使用的情況不完全一樣,因此,詞典信息對于高質(zhì)量的詞義消歧是不夠的。?

基于詞典的詞義消歧2.基于義類辭典方法1987年D.E.Walker提出基于義類辭典的方法,該方法認為多義詞的不同義項在使用時可以通過上下文詞匯的語義范疇大體上確定這個語段的語義范疇,即可以通過上下文的語義范疇可以判斷多義詞的使用義項。基于詞典的詞義消歧2.基于義類辭典的方法

基于詞典的詞義消歧3.基于雙語詞典的方法基于雙語詞典的消歧方法,需要把需要消歧的語言作為第一語言,把需要借助的另一語言作為第二語言,即在雙語詞典中作為目標語言。例如,要借助漢語對英語的多義詞進行詞義消歧,則英語為第一語言,漢語為第二語言。此時則需要一部英漢雙語詞典和一個漢語的語料庫?;谠~典的詞義消歧3.基于雙語詞典的方法假如我們要對英語句子中的單詞(如plant)進行語義消歧,根據(jù)英漢雙語詞典,我們識別出plant有兩個含義,一個是“植物”,另一個是“工廠”。為了對plant進行消歧,我們需要識別出plant所處的短語:若plant所處的短語為“processingplant”,在英漢雙語詞典中,processing翻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論