中文信息處理ChineseInformationProcessing課件_第1頁
中文信息處理ChineseInformationProcessing課件_第2頁
中文信息處理ChineseInformationProcessing課件_第3頁
中文信息處理ChineseInformationProcessing課件_第4頁
中文信息處理ChineseInformationProcessing課件_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、中文信息處理Chinese Information Processing張宇哈爾濱工業(yè)大學計算機科學與技術學院9/23/20221中文信息處理-緒論中文信息處理Chinese Information Pro主要教材朱巧明,李培峰,吳嫻,朱曉旭等編著。中文信息處理技術教程,清華大學出版社。2019年9月第一版Christopher D.Manning,Hinrich Schutze。統(tǒng)計自然語言處理基礎,電子工業(yè)出版社。2019年1月第一次印刷9/23/20222中文信息處理-緒論主要教材朱巧明,李培峰,吳嫻,朱曉旭等編著。中文信息處理技術9/23/20223中

2、文信息處理-緒論9/23/20223中文信息處理-緒論主要內(nèi)容信息處理中文信息處理計算機中文信息處理主要研究對象現(xiàn)代漢語的特點中文信息處理的發(fā)展中文信息處理技術發(fā)展問題的探討9/23/20224中文信息處理-緒論主要內(nèi)容信息處理9/23/20224中文信息處理-緒論信息控制論創(chuàng)始人(維納 Norbert Wiener)信息既不是物質(zhì)也不是能量,是人類在適應外部世界時以及在感知外部世界時而作出協(xié)調(diào)時與外部環(huán)境交換內(nèi)容的總和。信息論奠基者(香農(nóng) Clause Shannon)信息就是能夠用來消除不確定性的東西,是一個事件發(fā)生概率的對數(shù)的負值Robert M. Losee信息可以被定義為一個處理過程

3、的特征,這些特征就是輸入和處理過程中產(chǎn)生的信息9/23/20225中文信息處理-緒論信息控制論創(chuàng)始人(維納 Norbert Wiener)9/2信息的分類按照計算機處理的信息形式文本信息多媒體信息超媒體信息按照信息的結構化程度結構化信息半結構化信息非結構化信息按照信息的保密程度公開信息一般保密信息絕密信息9/23/20226中文信息處理-緒論信息的分類按照計算機處理的信息形式9/23/20226中文信信息處理信息處理就是對信息的接收、存儲、轉(zhuǎn)化、傳送和發(fā)布信息的接收:包括信息的感知、信息的測量、信息的識別、信息的獲取以及信息的輸入等;信息的存儲:把接收到的信息或轉(zhuǎn)換、傳送或發(fā)布中間的信息通過存

4、儲設備進行緩沖、保存、備份等處理;信息的轉(zhuǎn)化:把信息根據(jù)人們的特定需要進行分類、計算、分析、檢索、管理和綜合等處理;信息的傳送:把信息通過計算機內(nèi)部的指令或者計算機之間構成的網(wǎng)絡從一地傳送到另外一地;信息的發(fā)布:把信息通過各種表示形式展示出來。9/23/20227中文信息處理-緒論信息處理信息處理就是對信息的接收、存儲、轉(zhuǎn)化、傳送和發(fā)布9/中文信息處理中文信息處理是用計算機對漢語的音、形、義等語言文字信息進行的加工和操作,包括對字、詞、短語、句、篇章的輸入、輸出、識別、轉(zhuǎn)換、壓縮、存儲、檢索、分析、理解和生成等各方面的處理技術。計算機科學技術百科全書清華大學出版社,20199/23/20228

5、中文信息處理-緒論中文信息處理中文信息處理是用計算機對漢語的音、形、義等語言文計算機中文信息處理主要研究對象漢字鍵盤輸入技術漢字輸出技術軟件漢化技術漢字字形識別技術漢語語音識別技術激光照排技術中文平臺文本分類信息檢索9/23/20229中文信息處理-緒論計算機中文信息處理主要研究對象漢字鍵盤輸入技術9/23/20漢字鍵盤輸入技術漢字鍵盤輸入技術是一種通過鍵盤使?jié)h字進入計算機的技術漢字編碼采用四位十進制數(shù)把常用的漢字用“0”9”十個數(shù)字按照次序進行編碼四角碼(字形碼)用“0”9”十個數(shù)字鍵對漢字的四個角的形狀進行編碼機內(nèi)碼用2字節(jié)、3字節(jié)、4字節(jié)來表示一個漢字的機器內(nèi)部碼國際標準化組織(ISO)

6、、Unicode聯(lián)盟以及IEEE下屬的專門委員會研究制訂的字符編碼標準9/23/202210中文信息處理-緒論漢字鍵盤輸入技術漢字鍵盤輸入技術是一種通過鍵盤使?jié)h字進入計算漢字輸出技術漢字輸出是指把存儲在計算機內(nèi)的漢字字形信息轉(zhuǎn)換成符合顯示或打印需要的形式,并送輸出設備輸出漢字字庫點陣字庫GB5199.1-2019和GB5007-2019是典型的16點陣和24點陣字庫矢量字庫采用矢量的方法,對每個漢字信息用一組矢量進行描述9/23/202211中文信息處理-緒論漢字輸出技術漢字輸出是指把存儲在計算機內(nèi)的漢字字形信息轉(zhuǎn)換成軟件漢化技術軟件漢化是把西文軟件直接改造成中文軟件的一種技術西文操作系統(tǒng)漢化

7、成中文操作系統(tǒng)內(nèi)核漢化外掛漢化西文應用軟件經(jīng)過漢化后能夠具備處理中文的能力界面的漢化應用程序中中文的通行9/23/202212中文信息處理-緒論軟件漢化技術軟件漢化是把西文軟件直接改造成中文軟件的一種技術漢字字形識別技術漢字識別技術是利用計算機技術對漢字靜態(tài)圖形和動態(tài)漢字信息進行特征提取,與預先存儲在計算機內(nèi)的標準漢字特征信息進行匹配,并選擇符合特征的漢字作為所需識別的漢字內(nèi)碼聯(lián)機識別脫機識別漢字字形識別過程漢字識別前處理漢字分類和判別漢字識別后處理9/23/202213中文信息處理-緒論漢字字形識別技術漢字識別技術是利用計算機技術對漢字靜態(tài)圖形和漢語語音識別技術漢語語音識別技術是自然語言處理

8、的一個重要組成部分,包括語音的識別、處理、合成等語音識別的過程語音識別單元的選取特征參數(shù)提取技術模式匹配及模型訓練技術9/23/202214中文信息處理-緒論漢語語音識別技術漢語語音識別技術是自然語言處理的一個重要組成激光照排技術激光照排,即電子排版系統(tǒng)1946年,美國人發(fā)明了手動光學照相排版機20世紀60年代,德國人制造了陰極射線管式照排1975年,英國人開始了激光照排的研究1974年8月,國家設立了748工程9/23/202215中文信息處理-緒論激光照排技術激光照排,即電子排版系統(tǒng)9/23/202215中中文平臺中文平臺是指處理中文信息的軟件系統(tǒng)的集合,包括支持中文的系統(tǒng)軟件、支撐軟件和

9、應用軟件漢化平臺:西文系統(tǒng)上外掛一層軟件,使系統(tǒng)可以接收和輸出漢字API平臺:操作系統(tǒng)提供有關中文信息處理所需要的一套API接口中文平臺:在API平臺上再增加一些典型的與中文信息處理有關的應用軟件工具或產(chǎn)品9/23/202216中文信息處理-緒論中文平臺中文平臺是指處理中文信息的軟件系統(tǒng)的集合,包括支持中文本分類文本分類是一種確定文章所屬類別的情報分析方法基于詞的歸類技術基于知識的歸類技術基于信息的歸類技術9/23/202217中文信息處理-緒論文本分類文本分類是一種確定文章所屬類別的情報分析方法9/23信息檢索文本檢索包括了文本信息的存儲、組織、表現(xiàn)、查詢及存取等各個方面索引的建立自動分類自

10、動聚類文摘(單文檔文摘、多文檔文摘)檢索結果的排序(ranking)分布式信息檢索9/23/202218中文信息處理-緒論信息檢索文本檢索包括了文本信息的存儲、組織、表現(xiàn)、查詢及存取現(xiàn)代漢語的特點語音字形詞匯句子字頻詞頻9/23/202219中文信息處理-緒論現(xiàn)代漢語的特點語音9/23/202219中文信息處理-緒論語音漢字讀音的標記方法直音法用一個漢字給另一個漢字進行注音“厶”“司”,“翯” “賀”反切法用兩個漢字給另外一個漢字注音“魯” “郎古切”,第一個漢字為聲母,第二個漢字是韻母和聲調(diào)注音字符漢語拼音21個聲母,35個韻母,4聲調(diào)9/23/202220中文信息處理-緒論語音漢字讀音的標

11、記方法9/23/202220中文信息處理-字形漢字結構筆畫漢字字形最小連筆單位五種基本筆畫:橫、豎、撇、點、折部首字形歸類的部件,是字典根據(jù)漢字形體偏旁所分的門類繁體字和簡體字“進”“進”,“裏” “里”繁體字和簡體字并不是一一對應的關系字序義序、音序、形序9/23/202221中文信息處理-緒論字形漢字結構9/23/202221中文信息處理-緒論詞匯1詞匯是語言中所有的詞和短語的總和漢語的詞根和詞綴詞根:意義實在、在合成內(nèi)位置不固定的粘著語素(不能單獨構成詞的語素,如偉、豐、型)和自由語素(能獨立成詞的語素,如金、木、水、火、土)詞綴:意義不實在、在合成內(nèi)位置固定在前或后的粘著語素“筷子”“

12、筷”是詞根語素,“子”是詞綴語素9/23/202222中文信息處理-緒論詞匯1詞匯是語言中所有的詞和短語的總和9/23/202222詞匯2詞的種類單純詞由一個語素構成的詞,如人、走、天雙音節(jié)連綿詞,如鴛鴦、垃圾、琳瑯、葡萄音譯詞,如沙發(fā)(sofa),咖啡(coffee)譯自少數(shù)民族的地名,如哈爾濱、呼和浩特合成詞重疊詞:兩個相同的詞根相疊構成的詞,如哥哥、姐姐、星星附加詞:由詞根和詞綴構成,如老虎、石頭、刀子、桌子復合詞:內(nèi)部結構基本上是和句法結構一致的,有主謂、偏正、聯(lián)合等,如質(zhì)量、體制、開關9/23/202223中文信息處理-緒論詞匯2詞的種類9/23/202223中文信息處理-緒論句子句

13、子:能夠表達一個相對完整意思的并且有一個特定語調(diào)的語言單位漢語句子是“以意為本”的,生成的第一要素是語義無論是否是主謂結構的,只要完成表意功能,就是一個句子9/23/202224中文信息處理-緒論句子句子:能夠表達一個相對完整意思的并且有一個特定語調(diào)的語言字頻字頻:就是一個漢字的相對使用頻率,也就是一個漢字使用次數(shù)與所統(tǒng)計的材料的總字數(shù)的比例如果在一篇2000字的文章中,“的”使用了78次,則“的”的頻率就是78/2000*100%=3.9%在信息檢索中有著重要的應用文本分類信息檢索中索引表的建立9/23/202225中文信息處理-緒論字頻字頻:就是一個漢字的相對使用頻率,也就是一個漢字使用次

14、數(shù)詞頻詞頻:就是一個詞的相對使用頻率對于詞典的編撰、中文信息處理有著重要的作用新詞的出現(xiàn):非典、超女、網(wǎng)友信息檢索9/23/202226中文信息處理-緒論詞頻詞頻:就是一個詞的相對使用頻率9/23/202226中文中文信息處理的發(fā)展學習和理論探索的萌芽階段這一階段以介紹國外計算語言學領域的理論方法為主對國外相關領域的介紹,理論內(nèi)容相對較少,主要偏重在各種上機實現(xiàn)的系統(tǒng)方面。范繼淹、徐志敏、李家治、陳永明、馮志偉等人的介紹及其所研制的實驗系統(tǒng)報告,是這方面的代表早期將國外的理論方法進行全面系統(tǒng)漢化的主要刊物有:86年底創(chuàng)刊的中文信息學報、語言學界的國外語言學和語言文字應用學者們在介紹國外先進的理

15、論和方法同時,也有不少人結合漢語自身的特點,對這些理論和方法做了深入一步的探索,極少數(shù)人對自然語言理解做了深層次的帶有哲學色彩的思考80年代中期寧春巖發(fā)表的自然語言理解中的幾個根本問題,以及他譯介的美國哲學家休伯特.德雷福斯(Hubert L.Dreyfus)的專著計算機不能做什么-人工智能的極限語言學界袁毓林1993年發(fā)表了自然語言理解的語言學假設這些早期的的研究和探索對確立中文信息處理的宏觀格局起到了決定性的作用,奠定了中文信息處理后期的理論基礎9/23/202227中文信息處理-緒論中文信息處理的發(fā)展學習和理論探索的萌芽階段9/23/2022中文信息處理的發(fā)展?jié)h字信息處理為主的早期階段1

16、974年周恩來總理親自批準了“七四八”工程它標志著計算機中文信息處理技術受到了國家高度重視并且進入了他的第一個發(fā)展階段漢字信息處理時代9/23/202228中文信息處理-緒論中文信息處理的發(fā)展?jié)h字信息處理為主的早期階段9/23/202中文信息處理的發(fā)展字、詞等表層處理為特征的初級階段北京大學開發(fā)的華光排版系統(tǒng)被評為1985年中國十大科技成就之一,并榮獲中國發(fā)明協(xié)會發(fā)明獎“六五”期間(1981-1985),北京航空學院主持,中國人民大學等十幾個院校,研究機構參加的“現(xiàn)代漢語詞頻統(tǒng)計”工程是這一階段代表性的重大科研成果,這是國內(nèi)首次使用計算機進行大規(guī)模語料(2000萬字)的詞頻統(tǒng)計研究的大型語言工

17、程第一個漢語自動分詞系統(tǒng)CDWS,建立了一個有13萬余詞條的計算機詞典,研制了一個有52個屬性的漢字信息庫1988年初,北京航空航天大學在承擔國家“七五”科技攻關項目信息處理用規(guī)范現(xiàn)代漢語詞庫的同時,制定了信息處理用規(guī)范現(xiàn)代漢語分詞規(guī)范9/23/202229中文信息處理-緒論中文信息處理的發(fā)展字、詞等表層處理為特征的初級階段9/23/中文信息處理的發(fā)展句法和語義等深層處理為代表的中期階段“八五”期間,中文信息處理技術的研究開發(fā)重點逐步由字,詞的表層處理轉(zhuǎn)向了以句法,語義分析為核心的深層處理9/23/202230中文信息處理-緒論中文信息處理的發(fā)展句法和語義等深層處理為代表的中期階段9/2中文信

18、息處理的發(fā)展語料庫統(tǒng)計方法興起的近期階段1979年,武漢大學建設的漢語現(xiàn)代文學作品語料庫,共計527萬字,是我國最早的機器可讀語料庫人民日報收集了48年的全部文字和圖像內(nèi)容,公開發(fā)行北京大學計算語言學研究所與富士通公司(Fujitsu)合作,加工2700萬字的人民日報語料庫2019年,清華大學建立了1億漢字的語料庫,著重研究歧義切分問題,現(xiàn)在生語料庫已達7-8億字香港城市理工大學語言資訊科學研究中心建立了LIVAC(Linguistic variety in Chinese communities)語料庫,其宗旨在于研究使用中文的各個地區(qū)使用語言的異同??傋謹?shù)為15,234,551字,經(jīng)過自動切詞和人工校對之后總詞數(shù)約為8,869,900詞用來翻譯和研究各種不同語言對比的語料庫北大、哈工大、東北大學建立的英漢雙語語料庫北京外國語大學的北京日本學研究中心建立了2000萬字的漢語和日語并行語料庫9/23/202231中文信息處理-緒論中文信息處理的發(fā)展語料庫統(tǒng)計方法興起的近期階段9/23/20中文信息處理的發(fā)展以Internet為主要應用對象,大規(guī)模真實文本,智能信息訪問的現(xiàn)階段 Internet迅猛發(fā)展,根據(jù)中國互聯(lián)網(wǎng)絡信息中心發(fā)布的報告,截止到2019年6月30日,中國上網(wǎng)計算機總數(shù)1613萬,上網(wǎng)用戶總數(shù)4580萬主要需求有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論