版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 全信息理論與中文信息處理 鐘義信智能科學技術研究中心2006-8-248/13/20221目 錄一,問題的提出二,解決的方法三,研究的重點8/13/20222一,問題的提出8/13/20223中文信息(自然語言)處理的重大社會需求1,人際交往 - 多種語言的存在 - 全球交往的進程 - 學習語言的困難 - 機器翻譯的前景2,人機合作 - 人類操作能力的局限 - 機器工作性能的威力 - 機器認知能力的潛力 - 人機能力的天然互補8/13/20224中文信息(自然語言)處理的核心目標 表面上看,“中文信息處理”研究工作的著眼點和落腳點應是中文信息的“處理” 如詞語切分,詞形標注,語句分析,專名識
2、別,詞語消岐,等等。 實質(zhì)上看,研究工作的目標是“使機器能夠在一定程度上理解中文信息”,或?qū)χ形男畔崿F(xiàn)一定認知。 無論從 “人際通信” 還是 “人機合作” 的需求來看,處理都是手段,理解(認知)才是目的。 8/13/20225自然語言 “理解” 與人工智能1,智能的核心是思維;語言是思維的表達;因此語 言也是智能的表達。2,理解(認知),是智能的內(nèi)核;因此自然語言理 解是人工智能的基本研究方向。3,自然語言理解本質(zhì)上是人工智能、信息科學、 認 知科學和語言學的交叉科學。4,自然語言理解系統(tǒng)本質(zhì)上是一類智能系統(tǒng)。8/13/20226智能系統(tǒng)的核心機制:信息-知識-智能轉(zhuǎn)換需求/約束信息獲取信息
3、執(zhí)行信息傳遞信息傳遞預處理決策本體信息智能 策略智能行為目標認知知識感覺器官傳導系統(tǒng)思維器官效應器官傳導系統(tǒng)有序信息知識庫需求/約束實得信息8/13/20227信息-知識-智能轉(zhuǎn)換:自然語言理解通用方法論智能行為信息-知識轉(zhuǎn)換知識-智能轉(zhuǎn)換信息知識轉(zhuǎn)換知識庫信息(問題與約束)結果(性能與評價)歸納歸納演繹目的8/13/20228中文信息處理研究的現(xiàn)狀 中文信息處理研究領域取得了許多重要進展和重要成果;但基本理論、基礎資源、基本工具、基本方法和性能水平離實際應用的要求還有相當差距。 中文信息理解的研究基本上突破了純粹語法分析的層次,正在走向語法與語義分析相結合的新階段。 但是,還少有語用要素的考
4、慮:還沒有真正到位。 8/13/20229 統(tǒng)計方法(歸納)基于大數(shù)定律,方法論上是“從眾”,不要求真正達到理解。是初級認知方法。 缺點:假設難滿足;結論平均性;真理常在少數(shù)人手中。 優(yōu)點:容易操作,尤其是有了計算和網(wǎng)絡技術的支持。自然語言“機器認知”的兩種基本方法 兩種方法性質(zhì)互補,誰也不能單獨包打天下。問題是如何實現(xiàn) “統(tǒng)計與規(guī)則方法的有效結合:大統(tǒng)計,小規(guī)則”。 規(guī)則方法(演繹)基于理解和規(guī)則推理,是處理新問題和復雜問題不可避免的高級認知方法。 缺點:規(guī)則難建立;規(guī)則難完備;規(guī)則不靈活。 優(yōu)點:可信(如果規(guī)則和前提均可信)8/13/202210自然語言理解(機器認知)的困難和意義 自然語
5、言理解是世界級難題,至今沒有得到滿意的解決。如果有所進展,將是具有世界意義的貢獻。 自然語言理解是人工智能的典型應用,它的困難充分表現(xiàn)在:一方面是自然語言表達的多樣性、靈活性、復雜性、動態(tài)性,一方面是機器“理解”能力的機械性、被動性與局限性。 即使是人(更不要說機器)對自然語言的理解也需要經(jīng)過長時間的訓練和學習,需要在大量“記憶+模仿”實踐的基礎上才能逐漸生長出“自主理解”的能力。8/13/202211二,解決的方法8/13/202212全信息理論與自然語言理解 語言是信息的載體;信息是語言的內(nèi)核。理解自然語言的本質(zhì)是理解它所載荷的信息,因此要用信息論。 但現(xiàn)有信息論不能解決問題。 “全信息理
6、論”是北京郵電大學智能研究中心創(chuàng)建的信息理論1, 2, 3,擁有自主知識產(chǎn)權。1 鐘義信,全信息理論,北京郵電大學學報,19842 鐘義信,信息科學原理,北京郵電大學出版社, 1988第一版,1996 第二版,2002第三版3 鐘義信等,信息科學教程,北京市研究生教育重點 精品教材,北京郵電大學出版社,20048/13/202213Shannon信息論只關心“噪聲中的信號波形復制” 問題: X = xn 信號狀態(tài)(是0還是1?)P = pn 各種信號狀態(tài)的出現(xiàn)方式n (1,N)YDI(X;Y) = H(X) H(X|Y) H(X) = - pn log pnXn為什么Shannon Infor
7、mation不能解決問題?8/13/202214全信息與“認知能力要素”符號客體主體語法信息 符號序列(形式結構)序列內(nèi)容序列價值語義信息語用信息 在給定語境(包括主體、客體、文本、環(huán)境和常識)下,語言理解要包含該語境下的語法、語義、語用三要素。 只當語境足夠深廣,語法、語義、語用分析才有唯一解。人的認知能力包括:觀察力,理解力,目的性。觀察事物的外部形式,理解事物的內(nèi)在含義,判斷與自身的利害關系。8/13/202215全信息自然語言理解的“認知機理” 幼兒識字教學過程:如,教學生認識“樹”這個字。 先教怎么寫(符號的筆劃結構);再告訴“樹”的真實樣子(事物的形態(tài)結構) ,接著告訴“樹”的基本
8、特征及樹與草、與花的區(qū)別(語義);再告訴“樹”的用途(語用)。 明確了用途或害處(語用),人們才會去關注它。 此后,見到“樹”這個字或真的樹(語法),就會在腦海中聯(lián)想到它的語義和語用;才算理解了這個字。 這就是由“語法”調(diào)用“全信息詞典”的過程。機器可以模擬這種認知過程。8/13/202216An Example for “Understanding”SensingExperiencingThinkingFormValueContentLearning the Concept “Tree” The Mechanism of Understanding Form Value Content8/1
9、3/202217全信息與語言理解的層次 對于自然語言的理解,存在三個相依的層次: (1)了解它的語法信息 (2)了解它的語義信息 (3)了解它的語用信息 語法、語義、語用“三位一體”的分析是自然語言理解方法的基本要求(門檻);“兩位一體”還不夠。 從語法分析走向語義分析,是自然語言處理的重要進步;但對自然語言理解而言,仍然沒有到位!淺層理解中層理解深層理解8/13/202218骨架捕獲 自然語言認知的基本技巧 人類對自然語言的理解(認知)過程既有層次性,又有靈活性。重要的方法是“快速捕獲骨架”(剪枝技巧)。 (1)對淺顯而熟悉的部分一掃而過(其實就是剪枝),只對重要而又困難的部分才做必要的分析
10、。 (2)“必要的分析”主要是“骨架分析”:篇章的骨架,段落的骨架,語句的骨架。 (3)對于人來說,“一掃而過”也做了“語法-語義-語用”分析,只是因為熟悉和容易,做的極快(由下意識處理),以致自己都沒有意識到。8/13/202219全信息自然語言理解的基本模型預處理后處理語用分析語義分析語法分析全信息-知識庫合法骨架?符合目的?真實邏輯?+學習擴展人工奠基8/13/202220 “基本模型”的特色1,目的性 明確地面向“理解”需求。4,開放性: 模型能夠適應各種“理解”應用;能夠隨著信息表示與處 理方法的進步而不斷改進自己的性能。2,包容性 包容了規(guī)則方法和統(tǒng)計方法兩種規(guī)范。在規(guī)則模式下,
11、序列是語句;在統(tǒng)計模式下,序列是特征集合。 而且可以包容其它基于語言行為特征的方法。3,靈活性 整體框架是語言學風格,包含語法分析、語義分析和語 用分析;實際分析深度可依問題需求而有所不同。 模塊實現(xiàn)可以是規(guī)則的、統(tǒng)計的、規(guī)則統(tǒng)計交互補足的。 8/13/202221關于靈活性的一個說明統(tǒng)計分析OK?規(guī)則分析NY 根據(jù)實際問題求解的需要,規(guī)則方法與統(tǒng)計方法兩者可以靈活地互相調(diào)用和互相支持(嵌套)。OK?8/13/202222Applications of CIM-NLUInternetMobile Service IR AbstractContent Analyzer ML- DialogIE8
12、/13/202223三,研究的重點8/13/202224基本特色1,以中文為起始對象2,以“全信息自然語言理解”為基本方法3,以領域相關為研究基點4,以超越Semantic Web為基本目標8/13/202225An Example for “The Base”Recalling The Concept “Tree” Form Content; Value The Structure of Information Base for RetrievalForm | Content; Value8/13/202226項語法特征語義特征語用特征#1#m#1#n#1#p項(概念,詞)以語句為單位以骨架為對象樹的深度有限(一)全信息的表示:全信息資源庫建設的框架8/13/202227(三)應用:特定領域的智能網(wǎng) (基于理解/認知的信息檢索網(wǎng)) CI-Web = CI-base NLU-SE(二)基于全信息理解的搜索引擎 核心技術參考基本模型:p.20 8/13/20
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《GA 1016-2012槍支(彈藥)庫室風險等級劃分與安全防范要求》專題研究報告
- 2026福建省面向西南交通大學選調(diào)生選拔工作參考題庫附答案
- 紀檢監(jiān)察筆錄培訓課件
- 2026貴州安順市平壩區(qū)糧油收儲經(jīng)營有限公司招聘5人考試備考題庫附答案
- 2026郵儲銀行信用卡銷售團隊社會招聘參考題庫附答案
- 2026陜西省面向電子科技大學招錄選調(diào)生參考題庫附答案
- 四川省岳池銀泰投資(控股)有限公司公開招聘急需緊缺專業(yè)人才備考題庫附答案
- 松潘縣2025年公開考調(diào)機關事業(yè)單位工作人員的備考題庫附答案
- 雅安市發(fā)展和改革委員會關于雅安市發(fā)展和改革委員會所屬事業(yè)單位2025年下半年公開選調(diào)工作人員的(4人)備考題庫附答案
- 紀檢監(jiān)察信息員培訓課件
- 2025年廣東省中考語文試卷真題(含答案解析)
- 燙熨治療法講課件
- 2025至2030中國模塊化變電站行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 電廠清潔生產(chǎn)管理制度
- 2025年江蘇省事業(yè)單位招聘考試教師招聘體育學科專業(yè)知識試題
- 機械設計年終述職報告
- 可信數(shù)據(jù)空間解決方案星環(huán)科技
- 建筑工程監(jiān)理服務承諾書范文
- 知榮明恥主題班會課件
- 職業(yè)技術學院工業(yè)機器人技術高職技能考核標準1022(簡化版)
- 聲學基礎課后題答案
評論
0/150
提交評論