數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案ch05 句法和句義_第1頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案ch05 句法和句義_第2頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案ch05 句法和句義_第3頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案ch05 句法和句義_第4頁
數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu) 教案ch05 句法和句義_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

《數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》課程教案課題:句法和句義教學(xué)目的:知識目標(biāo):掌握句法分析(PSG/依存文法)、語義角色標(biāo)注、抽象語義表示(AMR)。能力目標(biāo):能對比不同句法表示法的優(yōu)劣,解析句子歧義成因。素養(yǎng)目標(biāo):理解樹庫構(gòu)建中語法理論的選擇依據(jù)。課型:新授課課時:本章安排8個課時。教學(xué)重點(diǎn):重點(diǎn):能對比不同句法表示法的優(yōu)劣,解析句子歧義成因。教學(xué)難點(diǎn):難點(diǎn):充分理解樹庫構(gòu)建中語法理論的選擇依據(jù)。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計(jì):本課標(biāo)題句法和句義課次4授課方式理論課□討論課□習(xí)題課□其他□課時安排8學(xué)分共2分授課對象普通高等院校學(xué)生任課教師教材及參考資料1.《數(shù)據(jù)標(biāo)注工程-語言數(shù)據(jù)與結(jié)構(gòu)》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段課程引入借"雞不吃了"等歧義句分析,展示句法結(jié)構(gòu)對語義的決定作用。通過依存句法樹可視化案例,說明計(jì)算機(jī)如何解構(gòu)句子邏輯關(guān)系,引出形式化表示的必要性。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實(shí)例導(dǎo)入7.其他形式5.1句與句處理句子是語言運(yùn)用的基本單位,它由詞、詞組(短語)構(gòu)成,能表達(dá)一個完整的意思,如告訴別人一件事情,提出一個問題,表示要求或者制止,表示某種感慨,表示對一段話的延續(xù)或省略。在形式上,句子的結(jié)尾應(yīng)該用句號、問號、省略號或感嘆號等標(biāo)點(diǎn)符號標(biāo)記。在語言智能中,句子處理面臨的最重要的任務(wù)是句法分析和句義分析(也稱為語義分析)。5.1.1句法分析句法分析是對輸入的文本句子進(jìn)行分析,以得到句子的句法結(jié)構(gòu)的處理過程。實(shí)際上,這一過程是對句子中詞語的句法功能進(jìn)行標(biāo)記。對句法結(jié)構(gòu)進(jìn)行分析,一方面是語言理解的自身需求,另一方面為其他自然語言處理任務(wù)提供支持,如對文檔信息進(jìn)行精確表示。句義分析通常以句法分析的輸出結(jié)果作為輸入,以獲得更多的指示信息。5.1.2句義分析句義分析,或者說句子級語義分析,目的是在詞級語義分析的基礎(chǔ)上獲得整個句子的語義表示。它主要包含兩個任務(wù):淺層語義分析和深層語義分析。1.淺層語義分析2.深層語義分析5.2句子的結(jié)構(gòu)5.2.1句法成分句法成分,或者叫作語法成分,可以通俗地解釋為:句子內(nèi)部根據(jù)用法劃分出來的結(jié)構(gòu)。當(dāng)然,這個結(jié)構(gòu)表現(xiàn)在數(shù)據(jù)層面上,就是一個字符串(句子)的子串。分析語法或句法結(jié)構(gòu),就是對各種語法成分所起的作用及其關(guān)系進(jìn)行考察。1.主語和謂語2.述語和賓語、補(bǔ)語3.定語和狀語4.特殊語法成分5.2.2句子的結(jié)構(gòu)類型1.單句和復(fù)句2.單句的結(jié)構(gòu)類型3.整句和零句4.倒裝句5.2.3句子的特殊類型1.主謂謂語句2.“把”字句3.“被”字句4.連謂句5.兼語句6.雙賓句7.存現(xiàn)句5.2.4句子的語氣類型句子都有語氣,語氣是說話人根據(jù)需要釆取的說話方式。句子根據(jù)語氣可以分為四種類型,即陳述句、疑問句、祈使句和感嘆句。這與句子有四種用途有關(guān)。一般來說,陳述句用平調(diào),平而略降,疑問句多數(shù)用升調(diào),祈使句和感嘆句用不同的降調(diào),祈使句的降調(diào)略為短促,感嘆句的降調(diào)略為舒緩而較長。一種句類可以使用不止一個語氣詞,也可以不用語氣詞。1.陳述句2.疑問句3.祈使句4.感嘆句5.3句法信息的表示形式5.3.1短語結(jié)構(gòu)文法短語結(jié)構(gòu)文法是美國語言學(xué)家喬姆斯基在20世紀(jì)50年代根據(jù)公理化方法提出的一種語言的形式化描述理論。圖5-3是對“大學(xué)學(xué)生喜歡流行歌曲”這句話的短語結(jié)構(gòu)分析。據(jù)此,我們用表格描繪短語結(jié)構(gòu)文法的特點(diǎn),如表5-2所示。1.喬姆斯基層級2.生成和轉(zhuǎn)換5.3.2依存文法依存文法通過分析語言單位內(nèi)成分之間的依存關(guān)系解釋其文法結(jié)構(gòu),主張句子中核心動詞是支配其他成分的中心成分,而其本身不受其他任何成分的支配,所有受支配成分都以某種關(guān)系從屬于支配者。依存文法的結(jié)構(gòu)沒有非終節(jié)點(diǎn),詞與詞之間直接發(fā)生依存關(guān)系,構(gòu)成一個依存對,其中一個是核心詞,也叫支配詞,另一個是修飾詞,也叫從屬詞。依存關(guān)系用一個有向弧表示,叫作依存弧。依存弧的方向?yàn)橛蓮膶僭~指向支配詞。與短語結(jié)構(gòu)文法相比,依存文法沒有詞組這個層次,每一節(jié)點(diǎn)都與句子中的單詞相對應(yīng),它能直接處理句子中詞與詞之間的關(guān)系,而節(jié)點(diǎn)數(shù)目大大減少了,便于直接標(biāo)注詞性,具有簡明清晰的優(yōu)點(diǎn)。特別在語料庫文本的自動標(biāo)注中,依存文法使用起來比短語結(jié)構(gòu)文法方便。1.依存文法的條件(1)一個句子中只有一個成分是獨(dú)立的。(2)句子的其他成分都從屬于某一成分。(3)任何一個成分都不能依存于兩個或兩個以上的成分。(4)如果成分A直接從屬于成分B,而成分C在句子中位于成分A和成分B之間,那么,成分C或者從屬于成分A,或者從屬于成分B,或者從屬于成分A和成分B之間的某一成分。(5)中心成分左右兩邊的其他成分相互不發(fā)生關(guān)系。2.標(biāo)注關(guān)系5.4句子的語義句子的意義即“句義”,句義在語義中占有十分重要的地位。因?yàn)樵趯?shí)際的語言交際和語言信息處理中主要以句子為理解和處理的單位,所以句子可以被看作表達(dá)意義的基本單位,也是實(shí)現(xiàn)更復(fù)雜的語言交際的基礎(chǔ)。5.4.1句子的語義種類一個句子到底能表達(dá)多少種意義?除了句子本身所能表達(dá)的言內(nèi)之意(或叫“語段意義”),在不同的語言環(huán)境中結(jié)合人們不同的知識背景,句子還可以表達(dá)各種各樣的言外之意(或叫“語境意義”“語用意義”)。言外之意實(shí)際上也是要以言內(nèi)之意為基礎(chǔ)的。如果不討論言外之意,句子本身的意義可以依據(jù)不同的表達(dá)形式大致分為語匯意義、關(guān)系意義和語氣意義三種。1.句子的語匯意義2.句子的關(guān)系意義3.句子的語氣意義5.4.2句子的語義結(jié)構(gòu)在句子的語匯意義、關(guān)系意義和語氣意義中,語匯意義與詞語有關(guān),關(guān)系意義和語氣意義中的語法關(guān)系意義主要與語法結(jié)構(gòu)有關(guān),因此語義關(guān)系意義才是最主要的句義問題。語義關(guān)系意義涉及語義結(jié)構(gòu),既然是一種結(jié)構(gòu),就自然涉及結(jié)構(gòu)分析的問題。句子的語義結(jié)構(gòu)主要包括三個方面:一是論元結(jié)構(gòu),二是語義指向,三是語義特征。1.論元結(jié)構(gòu)2.語義指向3.語義特征5.4.3句子中的歧義前面說過,句子的意義可以分為三種,即語匯意義、關(guān)系意義和語氣意義。這三種意義可以在一個句子中同時存在,彼此之間并不沖突,而是分工合作,共同表達(dá)句子各方面的意義。1.歧義和籠統(tǒng)、模糊的關(guān)系歧義本質(zhì)是一種語義現(xiàn)象。歧義必須能夠產(chǎn)生顯著不同的理解,而與具體性、精確性沒有關(guān)系。2.產(chǎn)生歧義的原因歧義可以分為口頭歧義和書面歧義。3.消除歧義的方法5.4.4語義的表現(xiàn)形式:語義角色對語義角色進(jìn)行識別和標(biāo)注是現(xiàn)在語義計(jì)算中最重要的環(huán)節(jié)。語義角色在前文已有涉及,在這里進(jìn)行一些更詳細(xì)的梳理和補(bǔ)充。5.4.5語義的表現(xiàn)形式:語義依存語義依存分析(semanticdependencyparsing,SDP)就是一種深層的語義分析,是目前在自然語言處理中使用最為廣泛的語義表示形式之一。語義依存分析的標(biāo)注任務(wù)也十分常見。5.4.6語義的表現(xiàn)形式:抽象語義表示1.抽象語義表示簡介2.中文抽象語義表示5.4.7語義的表現(xiàn)形式:邏輯命題表示嚴(yán)格來說,這并不是一類在字符串上進(jìn)行標(biāo)注來描述語義的方法。這更多的是對承載語義信息的詞、句子之間的關(guān)系進(jìn)行判斷的任務(wù)。1.蘊(yùn)涵2.預(yù)設(shè)5.5句級數(shù)據(jù)資源5.5.1樹庫資源隨著計(jì)算語言學(xué)的發(fā)展,人們逐漸認(rèn)識到基于規(guī)則的語言學(xué)研究方法的局限性。計(jì)算機(jī)的運(yùn)算速度飛速發(fā)展,也使人們能夠方便地使用統(tǒng)計(jì)學(xué)方法從真實(shí)語料中獲取自然語言的數(shù)據(jù),因此語料庫方法越來越受到人們的重視。這些語料庫中的真實(shí)語料往往經(jīng)過不同層次的加工,包含各種各樣的語言信息,可以使獲取的語言規(guī)律更加客觀和準(zhǔn)確。樹庫(treebank)就是一種經(jīng)過了結(jié)構(gòu)標(biāo)注的語料庫。1.美國賓夕法尼亞大學(xué)漢語樹庫2.“中研院”漢語樹庫3.北京大學(xué)漢語樹庫4.清華大學(xué)漢語樹庫5.國家語委現(xiàn)代漢語樹庫6.其他小型樹庫5.5.2句級語義資源目前常見的漢語語義結(jié)構(gòu)標(biāo)注語料庫,由語義角色標(biāo)注語料庫、語義依存樹庫和抽象語義表示樹庫構(gòu)成。國際語義分析評測會議(SemEval)近年來連續(xù)發(fā)布了關(guān)于中文語義角色標(biāo)注和依存標(biāo)注的技術(shù)評測和相關(guān)資源。公開的平行語料資源還可以在語言資源聯(lián)盟和中國語言資源聯(lián)盟(CLDC)找到。5.5.3平行語料庫平行/對應(yīng)語料庫是由原文文本及其平行對應(yīng)的譯語文本構(gòu)成的雙語/多語語料庫,其對齊程度可有詞級、句級、段級和篇級幾種。所謂對齊程度,就是源語言和目標(biāo)語言之間是按照什么單位對應(yīng)的。例如,從源語言中文到目標(biāo)語言英文的詞級對齊語料,就是在語料中每個詞都標(biāo)明其對應(yīng)英文單詞。在各種平行語料庫中,最常見的是句級平行語料庫,它的內(nèi)容即平行句對。平行語料庫是機(jī)器翻譯研發(fā)的必備資源,其規(guī)模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論