版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
NaturalLanguageProcessing第6章
自然語言處理2035陳勇斌
目錄CONTENTS6.16.26.36.4自然語言處理那些事自然語言處理概述語音識別自然語言理解6.506語音合成6.6擴展:機器翻譯討論:為了能看懂報紙、雜志等書籍,想想我們小時候是怎么學習語文的?先認識字和詞再學習語法最后形成句子,來表達一定的語義6.4.1什么是自然語言理解6.4.2詞法分析6.4.3語法分析6.4.4語義分析6.4.5自然語言理解應用6.4.1什么是自然語言理解
目前為止,我們已經(jīng)完成了將語音轉換成字符。但是,在計算機眼里,這些字符只是一些二進制數(shù)據(jù),它并沒有理解這些字符的具體含義。
自然語言理解(NaturalLanguageUnderstanding,NLU)是人工智能和自然語言處理領域的重要分支,其核心目標是讓計算機理解人類語言的含義,并將其轉化為機器可處理的結構化信息。其核心任務包括詞法分析、語法分析、語義分析等。下面我們分別進行介紹。
6.4.2詞法分析
和人類的學習過程類似,計算機要理解人類的語言也要完成這樣一個過程,第一步是認識字和詞,即識別語言中的基本單位如分詞、詞性標注等。我們先介紹分詞,然后介紹詞性標注。
1.分詞
在自然語言理解的過程中,中文處理有一個獨特的步驟,那就是分詞。分詞就是把在句子中的單詞一個一個找出來。由于漢語句子是由連續(xù)的漢字組成,且詞語間缺乏明顯的分隔標志,因此,當計算機處理中文時,首要任務便是進行分詞。例如,“明天我們去公園”可以切分成“明天\
我們\
去\
公園”
討論:為什么分詞這一步驟在英語處理中則不是必需的?相比中文,英語句子中的單詞由空格明確分隔,例如:Tomorrowwewillgotothepark1.分詞中文分詞大致有三種方法基于語法和規(guī)則的分詞法基于統(tǒng)計的分詞法基于詞典的分詞法我們只討論這種1.分詞基于詞典的分詞法,也被稱為最大匹配法。這種方法依賴于一個預先構建的詞典。在進行分詞時,該方法從左至右掃描句子中的漢字序列,并在詞典中逐一查找這些漢字組成的片段。一旦找到匹配的詞匯,即視為成功識別出一個詞,隨后繼續(xù)對剩余的漢字進行同樣的處理。
1.分詞
基于詞典的分詞法通常選取詞典中漢字詞匯的最大可能片段。如果找到了對應的詞,則將該片段切分為一個詞。否則,去掉該片段的最后一個漢字,繼續(xù)查詞典,重復上述步驟,直到找到對應詞條為止。下面我們使用這個方法對“明天我們去公園”進行分詞,假設詞典(是預先設計好的一個詞庫)最長的詞條有5個漢字,那么分詞過程如下所示。
1.分詞第一輪明天我們去明天我們明天我明天沒有這個詞沒有這個詞沒有這個詞找到了去掉最后一個字去掉最后一個字去掉最后一個字第一輪:1.分詞第二輪:在匹配出“明天”后,我們從剩余字符串“我們去公園”開始繼續(xù)嘗試匹配。第二輪我們去公園我們去公我們去我們沒有這個詞沒有這個詞沒有這個詞找到了去掉最后一個字去掉最后一個字去掉最后一個字1.分詞第三輪:在成功匹配出“明天”、“我們”后,我們從剩余字符串“去公園”開始繼續(xù)嘗試匹配。第三輪去公園去公去沒有這個詞沒有這個詞找到了去掉最后一個字去掉最后一個字1.分詞第四輪:匹配長度從2開始,嘗試匹配“公園”,成功在詞典中找到匹配詞匯。第四輪公園找到了所以,對“明天我們去公園”進行分詞的結果是:“明天\
我們\
去\公園”2.詞性標注
在完成了分詞以后,我們就可以理解了嗎?恐怕還不行!比如“這個門沒鎖”,如果“鎖”是動詞,含義是門沒有鎖上的動作。如果“鎖”是名詞,表示“門上沒有鎖”。因此,計算機為了正確理解自然語言,還必須知道每一個詞的詞性。
詞性標注是指為文本中的每個詞語標注一個詞性標簽,例如名詞、動詞、形容詞等。那么計算機又是如何進行詞性標注的呢?
2.詞性標注
當然是使用機器學習方法。主要分為三個步驟:建立訓練語料庫數(shù)據(jù)集。定義一些標注詞性的符號,用這些符號對語料庫的每一個詞進行人工標注。機器學習。機器學習的方法有很多種,比如可以采用HMM。將人工標注好的語料庫交給HMM學習,HMM將調節(jié)內部的各種概率參數(shù),使之與語料庫匹配。完成學習后,HMM就可以用來進行詞性標注了。
2.詞性標注應用。對于一個未進行標注的語句,HMM利用調節(jié)好的模型內部的各種概率參數(shù)進行計算,就可以計算出每個單詞哪種詞性出現(xiàn)的概率最大,而概率最大的可能就是計算機給出的詞性標注結果。
這個/代詞門/名詞沒/副詞鎖/動詞這個/代詞門/名詞沒/副詞鎖/名詞
以“這個門沒鎖”為例,它的標注結果可以是如上圖所示兩種情況,至于計算機會給出哪種結果呢?就看“鎖”是動詞的概率大還是名詞的概率大。
6.4.3句法分析
首先我們看一個句子:“在2024年國際人工智能大會上,一位身著黑色西裝的年輕學者用流利的英語向全場觀眾深入淺出地闡釋了基于深度學習的圖像識別技術的最新進展?!?/p>
這句話比較復雜,不太好理解。我們可以通過分析句子的結構來理解復雜句子的中心思想。按照中學教的語法分析方法,找出句子中的主、謂、賓等句子成分,就可以得到一個簡單的句子“學者闡釋進展”,這就是這個句子的中心思想。這樣我們才能對這個句子有一個準確的理解。
6.4.3語法分析
同樣道理,如果計算機沒有掌握語法知識就分不清楚句子成分,那么就很難理解上面句子的意思了。計算機要理解一個句子的意思,必須要先掌握語法知識。
怎么讓計算機掌握語法知識呢?我們用一種常見的層次結構——樹,來表示語法,我們稱之為語法樹,下面給出一個例子。
6.4.3語法分析通常情況,我們會把一個句子分成主語、謂語、賓語、定語、狀語、補語等,并表示為一個樹形結構。語法樹用樹形結構展示句子,這種圖形化的分解方式能幫我們更輕松地理解句子是怎樣構成的,特別適合分析復雜的語法關系。一個語法樹我們喜歡人工智能6.4.3語法分析
使用語法樹,可以讓計算機判斷一個句子是否符合語法。根據(jù)語法,從而理解句子的基本含義。
6.4.3語法分析
我們也可以通過語法樹,讓計算機自己生成有意義的句子。語法樹還可以用來做句子結構轉換,比如我們分析出了一個中文句子的語法樹,就可以用英語對應的語法樹,生成這個中文句子對應的英文句子。關于語法分析的方法,此處不做介紹,需要深入探索的,請參考相關資料。
6.4.4語義分析
事實上,經(jīng)過語法分析后的語言離計算機能懂的機器語言還差很遠。因此,還需要將語言轉換成計算機能夠解析的邏輯形式,這樣計算機才能對輸入的語言進行響應,這個過程就是語義分析。
語義分析是指將自然語言句子轉化為反映這個句子語義的形式化表達。例如:“警察逮捕了這個小偷。”“這個小偷被警察逮捕了?!薄熬彀堰@個小偷逮捕了?!边@些句子的結構不相同,但是它們表達的語義卻是一樣的,都可以表示為逮捕(警察,小偷)的意思。
6.4.4語義分析語義角色標注是一種淺層語義分析技術,以句子為單位,分析句子的謂詞-論元結構。在一個句子中,謂詞是對主語的陳述或說明,代表了一個事件的核心,跟謂詞搭配的名詞稱為論元。語義角色標注的任務就是以句子的謂詞為中心,研究句子中各成分與謂詞之間的關系,并且用語義角色來描述他們之間的關系。
6.4.4語義分析語義角色含義施事動作的主動發(fā)出者,決定了事件的狀態(tài)受事動作的承受者,經(jīng)歷了事件的變化系事系動詞連接的對象與事動作的間接承受者漢語中核心語義角色如表所示:
6.4.4語義分析比如:“大家都跑出了教室。”這句話中“大家”作為“跑出”的發(fā)出者,扮演的語義角色就是施事。“張三打破了窗戶?!边@句話中“窗戶”作為“打破”的承受者,扮演的語義角色是受事?!澳銈兪谴髮W生?!边@句話中“是”是系動詞,“你們”是系動詞連接的對象,扮演了系事的語義角色?!袄钏乃臀乙槐緯!边@句話中“我”作為“送”的間接承受者,扮演了與事的語義角色。
6.4.4語義分析這樣,“警察逮捕了這個小偷?!薄斑@個小偷被警察逮捕了?!薄熬彀堰@個小偷逮捕了?!睆倪@三句話中提取出句子中的核心詞,賦予它們相應的語義角色就得到如下所示的結果?!熬齑读诉@個小偷”“這個小偷被警察逮捕了”“警察把這個小偷逮捕了”謂詞:逮捕施事:警察受事:這個小偷語義分析舉例6.4.5自然語言理解應用
至此,我們已經(jīng)能夠分析語言并從中獲取信息,那我們如何將自然語言理解應用到具體的情景中呢?接下來我們就以前面6.1節(jié)的手機智能助手“小悅”為例,介紹一下自然語言理解是如何應用的。
6.4.5自然語言理解應用
智能助手“小悅”本質上是一個智能問答系統(tǒng),這種系統(tǒng)通常是你提出一個問題,然后系統(tǒng)回答你的問題,它們更多的是解決知識型的問題。
問
答中國的首都在哪里?
北京現(xiàn)在外面多少度?
38度(假定現(xiàn)在溫度38)問答系統(tǒng)是通過什么樣的方法得到我們提出問題的答案呢?6.4.5自然語言理解應用首先對語句進行分詞、詞性標注、語法分析、語義分析等,理解問題的意圖,然后從海量文檔中檢索出可能包含問題答案的文檔片段,最后根據(jù)某種原則對候選答案進行打分,把概率最大的候選答案返回。6.4.5自然語言理解應用自然語言理解的應用遠不止問答系統(tǒng),機器翻譯、情感分析、文本摘要、智能推薦等也都屬于自然語言理解的典型應用,這里不做過多介紹。下面給出一個智能問答處理的例子:問:世界上最長的河流是哪個?問答系統(tǒng)在檢索到的前150個文檔句段中統(tǒng)計:尼羅河出現(xiàn)20次;亞馬遜河:出現(xiàn)10次;伏爾加河:出現(xiàn)9次;雅魯藏布江:出現(xiàn)2次所以,選
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學數(shù)學游戲化教學對學生計算能力提升的課題報告教學研究課題報告
- 2025年桂林市逸夫小學招聘教師備考題庫及完整答案詳解一套
- 統(tǒng)編版四年級上冊道德與法治教材解析
- 三明市泰寧縣2026年緊缺急需專業(yè)教師招聘備考題庫及答案詳解參考
- 2025年務川聯(lián)通營業(yè)廳招聘備考題庫及答案詳解1套
- 2025年漢中市新華書店招聘財務人員備考題庫完整參考答案詳解
- 2025年秦皇島市九龍山醫(yī)院第二批公開選聘工作人員備考題庫及一套參考答案詳解
- 黃色銀杏灌木家長會模板
- 2025年廣大附中教育集團黃埔軍校小學招聘備考題庫及答案詳解參考
- 2025年南昌職業(yè)大學圖書館館長崗位公開招聘備考題庫參考答案詳解
- 專題03 細胞呼吸和光合作用-2025年高考《生物》真題分類匯編
- 柳州巴迪二安寵物醫(yī)院有限公司項目環(huán)境影響報告表
- 大連東軟信息學院《Python數(shù)據(jù)采集與處理課程實驗》2024-2025學年第一學期期末試卷
- 不認定為安全生產(chǎn)事故的依據(jù)
- 單位征信管理辦法
- DBJ04-T362-2025 保模一體板復合墻體保溫系統(tǒng)應用技術標準
- 《中小學跨學科課程開發(fā)規(guī)范》
- 注塑廠生產(chǎn)安全培訓課件
- 根尖囊腫護理課件
- 菜鳥驛站合作協(xié)議合同
- 離心風機培訓課件
評論
0/150
提交評論