Python自然語言處理 課件 第6章 句法分析_第1頁
Python自然語言處理 課件 第6章 句法分析_第2頁
Python自然語言處理 課件 第6章 句法分析_第3頁
Python自然語言處理 課件 第6章 句法分析_第4頁
Python自然語言處理 課件 第6章 句法分析_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

句法分析Python自然語言處理第六章CONTENT目錄

01句法分析概述02句法分析的數(shù)據(jù)集與評測方法03句法分析的常用方法04使用StandfordParser的PCFG算法進(jìn)行句法分析回顧詞向量與關(guān)鍵詞提取02OPTION03OPTION詞量算法06OPTION01OPTION05OPTION04OPTIONTF-IDF算法TextRank算法LSA/LSI/LDA算法提取文本關(guān)鍵詞關(guān)鍵詞提取技術(shù)01句法分析概述句法分析的基本概念句法分析的基本方法句法分析概述句法分析(syntacticparsing)是自然語言處理中的關(guān)鍵技術(shù)之一,其基本任務(wù)是確定句子的句法結(jié)構(gòu)(syntacticstructure)或句子中詞匯之間的依存關(guān)系。一般來說,句法分析并不是一個自然語言處理任務(wù)的最終目標(biāo),但是,它往往是實現(xiàn)最終目標(biāo)的重要環(huán)節(jié),甚至是關(guān)鍵環(huán)節(jié)。因此,在自然語言處理研究中,句法分析始終是研究的核心問題之一。句法分析概述句法分析主要有以下兩個難點:1.歧義:自然語言區(qū)別于人工語言的一個重要特點就是它存在大量的歧義現(xiàn)象。2.搜索空間:句法分析是一個極為復(fù)雜的任務(wù),候選樹個數(shù)隨句子增多呈指數(shù)級增長,搜索空間巨大?;靖拍罹浞ǚ治鍪菑膯卧~串得到句法結(jié)構(gòu)的過程,而完成該過程的工具或程序被稱為句法分析器(parser)?;靖拍罹浞ǚ治龅娜蝿?wù):1.判斷輸入的字符串是否屬于某種語言;2.消除輸入句子中詞法和結(jié)構(gòu)等方面的歧義;3.分析輸入句子的內(nèi)部結(jié)構(gòu),如成分構(gòu)成、上下文關(guān)系等?;靖拍罹浞ǚ治龅姆N類很多,根據(jù)側(cè)重目標(biāo)分為:完全句法分析局部句法分析兩者的差別在于:完全句法分析以獲取整個句子的句法結(jié)構(gòu)為目的局部句法分析只關(guān)注于局部的一些成分,常用的依存句法分析就是一種局部分析方法。01句法分析概述句法分析的基本概念句法分析的基本方法句法分析的基本方法句法分析基本方法分類基于規(guī)則的分析方法基于統(tǒng)計的分析方法

基本方法——句法分析的方法分類和依據(jù)基本方法的類型根據(jù)句法分析樹形成方向的區(qū)別,人們通常將這些分析方法劃分為三種類型:自頂向下(top-down)的分析方法自底向上(bottom-up)的分析方法兩者相結(jié)合的分析方法基本方法——基于規(guī)則的分析方法基本思路:由人工組織語法規(guī)則,建立語法知識庫,通過條件約束和檢查實現(xiàn)句法結(jié)構(gòu)歧義的消除。人們先后提出了若干有影響力句法分析算法: CYK分析算法、

歐雷分析算法、

線圖分析算法、

移進(jìn)-規(guī)約算法, GLR分析算法

左角分析算法等等?;痉椒ā谝?guī)則的分析方法基于規(guī)則的句法分析方法的主要優(yōu)點是:分析算法可以利用手工編寫的語法規(guī)則分析出輸入句子所有可能的句法結(jié)構(gòu);對于特定的領(lǐng)域和目的,利用手工編寫的有針對性的規(guī)則能夠較好地處理輸入句子中的部分歧義和一些超語法現(xiàn)象?;痉椒ā谝?guī)則的分析方法基于規(guī)則的分析方法的缺陷:對于一個中等長度的輸入句子,分析過程復(fù)雜;難以在巨大的句法分析結(jié)果集合中實現(xiàn)有效的消歧;手工編寫的規(guī)則一般帶有一定的主觀性;手工編寫規(guī)則本身是一件大工作量的復(fù)雜勞動,編寫的規(guī)則對特定的領(lǐng)域有密切的相關(guān)性。基本方法——基于統(tǒng)計的分析方法基于統(tǒng)計的上下文無關(guān)文法的短語結(jié)構(gòu)分析方法可以說是目前最成功的語法驅(qū)動的統(tǒng)計句法分析方法。主要模型:詞匯化的概率模型非詞匯化的概率模型統(tǒng)計句法分析模型本質(zhì)是一套面向候選樹的評價方法,其會給正確的句法樹賦予一個較高的分值,而給不合理的句法樹賦予一個較低的分值,這樣就可以借用候選句法樹的分值進(jìn)行消歧。在本章中,將著重基于統(tǒng)計的句法分析方法進(jìn)行介紹。句法分析概述句法分析的基本概述是什么;句法分析的基本方法有哪些;基于規(guī)則的分析方法基于統(tǒng)計的分析方法句法分析Python自然語言處理第六章CONTENT目錄

01句法分析概述02句法分析的數(shù)據(jù)集與評測方法03句法分析的常用方法04使用StandfordParser的PCFG算法進(jìn)行句法分析課前回顧基本概念基本方法02句法分析的數(shù)據(jù)集與評測方法句法分析的數(shù)據(jù)集句法分析的評測方法句法分析的數(shù)據(jù)集統(tǒng)計句法分析方法自20世紀(jì)80年代提出以來,受到了眾多學(xué)者的關(guān)注。由于這種方法既有規(guī)則方法的特點,又運用了概率信息,因此,可以認(rèn)為是規(guī)則方法與統(tǒng)計方法的緊密結(jié)合。統(tǒng)計句法分析方法一般都離不開語料數(shù)據(jù)集和相應(yīng)的評價體系的支撐。句法分析的數(shù)據(jù)集相較于分詞或詞性標(biāo)注,句法分析的數(shù)據(jù)集要復(fù)雜的多,其是一種樹形的標(biāo)注結(jié)構(gòu),因此也稱為樹庫,如圖是一個典型的語料標(biāo)注。句法分析的數(shù)據(jù)集根據(jù)所描述句子結(jié)構(gòu)的不同,樹庫大體上可以分為兩類:短語結(jié)構(gòu)樹庫一般采用句子的結(jié)構(gòu)成分描述句子的結(jié)構(gòu),短語結(jié)構(gòu)樹庫顧名思義,可以同來提取短語,其目的是分析句子的產(chǎn)生過程。依存結(jié)構(gòu)樹庫根據(jù)句子的依存結(jié)構(gòu)而建立,依存結(jié)構(gòu)描述的是句子中詞與詞之間直接的句法關(guān)系,相應(yīng)的樹結(jié)構(gòu)也稱為依存樹。句法分析的數(shù)據(jù)集目前使用最多的英文樹庫來自美國賓夕法尼亞大學(xué)加工的英文賓州樹庫(PTB)。PTB的前身為ATIS(AirTravelInformationSystem)和WSJ(WallStreetJourna)樹庫,具有較高的一致性和標(biāo)注準(zhǔn)確率。句法分析的數(shù)據(jù)集近幾年來,中文信息處理技術(shù)發(fā)展很快,進(jìn)行中文樹庫句法自動標(biāo)注研究的條件已基本成熟了,經(jīng)過發(fā)展相繼有了中文賓州樹庫(CTB)、清華樹庫(TCT)、臺灣中研院樹庫等。中文信息處理技術(shù)發(fā)展快的原因如下:經(jīng)過十幾年的研究,漢語自動切分和詞性標(biāo)注的處理技術(shù)已達(dá)到成熟,為進(jìn)一步進(jìn)行句法分析研究打下了基礎(chǔ)。近幾年來對漢語句法分析方法、依存關(guān)系標(biāo)注、基本句型分析等方面的探索,為進(jìn)行比較系統(tǒng)全面的短語分析積累了豐富的經(jīng)驗。句法分析的數(shù)據(jù)集中文賓州樹庫(CTB)、清華樹庫(TCT)、臺灣中研院樹庫等是比較著名的中文樹庫。中文賓州樹庫:是賓夕法尼亞大學(xué)標(biāo)注的漢語句法樹庫,也是目前絕大多數(shù)的中文句法分析研究的基準(zhǔn)語料庫。清華樹庫:經(jīng)過自動句法分析和人工校對,形成的高質(zhì)量的有完整句法結(jié)構(gòu)的中文句法語料庫。臺灣中研院樹庫:中國臺灣中研院詞庫小組從中研院平衡語料庫中抽取句子,經(jīng)過電腦自動分析成句法樹,并加以人工修改、檢驗后所得的成果。句法分析的數(shù)據(jù)集漢語樹庫的構(gòu)建漢語樹庫構(gòu)建的基礎(chǔ)性工作是確定合適的句法標(biāo)記集,不同的樹庫有著不同的標(biāo)記體系。句法分析的數(shù)據(jù)集02句法分析的數(shù)據(jù)集與評測方法句法分析的數(shù)據(jù)集句法分析的評測方法句法分析的評測方法句法分析評測的主要任務(wù):評測句法分析器生成的樹結(jié)構(gòu)與手工標(biāo)注的樹結(jié)構(gòu)之間的相似程度。其主要考慮兩方面的性能:滿意度:句法分析器是否適合或勝任某個特定的自然語言處理任務(wù);效率:主要用于對比句法分析器的運行時間。目前主流的句法分析評測方法是PARSEVAL評測體系,它是一種粒度比較適中、較為理想的評價方法,評價主要指標(biāo)有標(biāo)記準(zhǔn)確率、標(biāo)記召回率、交叉括號數(shù)。句法分析的評測方法--PARSEVAL評測體系標(biāo)記準(zhǔn)確率(labeledprecision,LP)表示分析正確的短語個數(shù)在句法分析結(jié)果中所占的比例,即分析結(jié)果中與標(biāo)準(zhǔn)句法樹中相匹配的短語個數(shù)占分析結(jié)果中所有短語個數(shù)的比例。標(biāo)記召回率標(biāo)記召回率表示分析得到的正確短語個數(shù)占標(biāo)準(zhǔn)分析樹全部短語個數(shù)的比例。句法分析的評測方法--PARSEVAL評測體系交叉括號交

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論