版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
《人工智能概論》第六章自然語言處理與應(yīng)用目
錄CONTENT01簡述02自然語言處理的發(fā)展概況機器翻譯0304語音識別自然語言處理(NaturalLanguage
Processing,NLP),主要研究對自然語言的認知、理解、執(zhí)行等,是人工智能領(lǐng)域中的一個重要子領(lǐng)域。研究目的是實現(xiàn)人與計算機之間可以用自然語言進行有效通信。自然語言處理的研究需要運用語言學(xué)、計算機科學(xué)、統(tǒng)計技術(shù)。自然語言,即人們?nèi)粘J褂玫恼Z言。自然語言處理并不是一般地研究自然語言,而在于研究設(shè)計能成功實現(xiàn)人機用自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。自然語言已經(jīng)滲透到日常生活中。最常見的自然語言技術(shù)有Alexa、Siri和GoogleAssistant等,這些技術(shù)能夠通過識別語音模式來推斷意義并提供適當(dāng)?shù)捻憫?yīng)。自然語言處理主要應(yīng)用于機器翻譯、輿情監(jiān)測、自動摘要、觀點提取、文本分類、問題回答、文本語義對比、語音識別、中文OCR等方面。PART自然語言處理的相關(guān)研究始于人類對機器翻譯的探索。自然語言處理是以語言為對象,利用計算機技術(shù)來分析、理解和處理自然語言的一門學(xué)科,利用計算機對人類語言進行定量化的研究,實現(xiàn)人類用自然語言和計算機進行信息交互。自然語言處理包括自然語言理解(Natural
Language
Understanding,NLU)和自然語言生成(Natural
Language
Generation,NLG)兩部分。實現(xiàn)人機間自然語言通信意味著要使計算機既能分析理解自然語言的意義,也能以自然語言來表達;前者稱為自然語言理解,后者稱為自然語言生成。它是典型邊緣交叉學(xué)科,涉及語言科學(xué)、計算機科學(xué)、數(shù)學(xué)、認知學(xué)、邏輯學(xué)等,關(guān)注計算機和人類自然語言之間的相互作用的領(lǐng)域。,自然語言處理,遠比人們想象的復(fù)雜,主要是因為自然語言文本和語音廣泛存在的各種各樣的歧義性或多義性。從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語言處理系統(tǒng)還是我們的努力目標(biāo),但是針對一定應(yīng)用,具有相當(dāng)自然語言處理能力的實用系統(tǒng)已經(jīng)出現(xiàn)有些已商品化、產(chǎn)業(yè)化。典型的例子有多語種數(shù)據(jù)庫和專家系統(tǒng)的自然語言接口、各種機器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動文摘系統(tǒng)等。自然語言的形式(字符串)與其意義之間是一種多對多的關(guān)系。但從計算機處理的角度看,我們必須消除歧義,有學(xué)者認為它正是自然語言理解中的中心問題,即要把帶有潛在歧義的自然語言輸入轉(zhuǎn)換成某種無歧義的計算機內(nèi)部表示。歧義現(xiàn)象的廣泛存在使得消除它們需要大量的知識和推理,這就給基于語言學(xué)的方法、基于知識的方法帶來了巨大的困難。幾十年來以這些方法為主流的自然語言處理研究,雖然在理論和方法方面取得了很多成就,但在處理大規(guī)模真實文本的系統(tǒng)研制方面,成績并不顯著。目前研制的一些系統(tǒng)大多數(shù)是小規(guī)模的、研究性的演示系統(tǒng)。目前存在的問題有兩個方面:0102一方面,迄今為止的語法都限于分析一個孤立的句子,上下文關(guān)系和談話環(huán)境對本句的約束及影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規(guī)律可循,需要加強語用學(xué)的研究才能逐步解決。另一方面,人理解一個句子不是單憑語法,還運用了大量的相關(guān)知識,包括生活知識和專業(yè)知識,這些知識無法全部儲存在計算機里。因此,一個書面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi);計算機的儲存量和運轉(zhuǎn)速度大大提高之后,才有可能適當(dāng)擴大范圍。本章主要介紹自然語言處理中機器翻譯、語音識別兩大類內(nèi)容。PART自然語言處理是從20世紀50年代開始發(fā)展的,發(fā)展主要分為三個階段。早期自然語言處理統(tǒng)計自然語言處理神經(jīng)網(wǎng)絡(luò)自然語言處理010203早期自然語言處理第一階段(20世紀60—80年代):最初的研究工作是機器翻譯,基于規(guī)則來進行詞匯、句法語義分析,設(shè)計問答、聊天和機器翻譯系統(tǒng)。起步快速,問題是覆蓋面不足,規(guī)則管理和擴展性一直沒有解決。其中1949年,美國人威弗首先提出了機器翻譯設(shè)計方案。1954年,美國喬治敦大學(xué)(Georgetown
University)在IBM公司協(xié)同下,用IBM-701計算機首次完成了英俄機器翻譯試驗,向公眾和科學(xué)界展示了機器翻譯的可行性,之后問答系統(tǒng)的發(fā)展也有了進展。20世紀60年代,出現(xiàn)了句法分析、語義分析、邏輯推理相結(jié)合的自然語言系統(tǒng)。統(tǒng)計自然語言處理第二階段(20世紀90年代開始):基于統(tǒng)計的機器學(xué)習(xí)開始流行,很多自然語言處理開始用基于統(tǒng)計的方法來做。主要思路是利用帶標(biāo)注的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 疫情防控旅館開業(yè)申請書
- 港口設(shè)備治理方案范本
- 太和縣小孩入學(xué)申請書
- 鄉(xiāng)下道路埋方案范本
- 重大疾病應(yīng)急救助申請書
- 分配方案異議申請書模板
- 離滬返鄉(xiāng)申請書
- 高校補貼申請書
- 2025年物流運輸安全管理規(guī)范指南
- 2025年航運公司船舶運輸合同管理規(guī)范
- 2026屆湖北省黃岡市重點名校數(shù)學(xué)高一上期末質(zhì)量檢測試題含解析
- 甘肅省酒泉市2025-2026學(xué)年高一上學(xué)期期末語文試題(解析版)
- 2026年滬教版初一歷史上冊期末考試題目及答案
- 天津市八校聯(lián)考2025屆高三上學(xué)期1月期末考試英語試卷(含答案無聽力原文及音頻)
- 2026屆遼寧省遼南協(xié)作校高一數(shù)學(xué)第一學(xué)期期末監(jiān)測試題含解析
- 2026瑞眾保險全國校園招聘參考筆試題庫及答案解析
- 2025年山東省棗莊市檢察院書記員考試題(附答案)
- 寒假安全教育課件模板
- 短視頻內(nèi)容版權(quán)協(xié)議2025年執(zhí)行版
- 社區(qū)康養(yǎng)服務(wù)活動方案
- 2025年數(shù)字印刷可行性報告
評論
0/150
提交評論