《漢語分詞簡介》PPT課件.ppt

上傳人：x*** IP屬地：四川上傳時(shí)間：2020-08-07 格式：PPT 頁數(shù)：19 大?。?06.46KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩14頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、漢語分詞,1,漢語分詞簡介,2011.12,漢語分詞,2,分詞的定義,中文分詞 (Chinese Word Segmentation) 指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。我們知道，在英文的行文中，單詞之間是以空格作為自然分界符的，而中文只是字、句和段能通過明顯的分界符來簡單劃界，唯獨(dú)詞沒有一個(gè)形式上的分界符，雖然英文也同樣存在短語的劃分問題，不過在詞這一層上，中文比之英文要復(fù)雜的多、困難的多。通俗的說，中文分詞就是要由機(jī)器在中文文本中詞與詞之間加上標(biāo)記。,漢語分詞,3,分詞的意義,正確的機(jī)器自動(dòng)分詞是正確的中文信息處理的基

2、礎(chǔ) 文本檢索和服 | 務(wù) | 于三日后裁制完畢，并呈送將軍府中。王府飯店的設(shè)施 | 和 | 服務(wù) | 是一流的。如果不分詞或者“和服務(wù)”分詞有誤，都會(huì)導(dǎo)致荒謬的檢索結(jié)果。文語轉(zhuǎn)換他們是來 | 查 | 金泰 | 撞人那件事的。(“查”讀音為cha）行俠仗義的 | 查金泰 | 遠(yuǎn)近聞名。（“查”讀音為zha) 詞頻統(tǒng)計(jì)(漢語中最常用的詞是哪個(gè)？) 句法分析、語義分析、機(jī)器翻譯、語音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對等,漢語分詞,4,主要的分詞方法（一）,基于字符串匹配的分詞方法：按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配，若在詞典中找到某個(gè)字符串，則匹配成功

3、?？梢郧蟹? 否則不予切分。實(shí)現(xiàn)簡單, 實(shí)用性強(qiáng), 但機(jī)械分詞法的最大的缺點(diǎn)就是詞典的完備性不能得到保證。 a. 正向最大匹配（由左到右的方向） b. 逆向最大匹配法（由右到左的方向） c. 最少切分（使每一句中切出的詞數(shù)最小） d. 雙向匹配法（進(jìn)行由左到右、由右到左兩次掃描）,漢語分詞,5,正向最大匹配分詞,基本思想：設(shè)自動(dòng)分詞詞典中最長詞條所含漢字個(gè)數(shù)為I；取被處理材料當(dāng)前字符串序數(shù)中的I個(gè)字作為匹配字段，查找分詞詞典。若詞典中有這樣的一個(gè)I字詞，則匹配成功，匹配字段作為一個(gè)詞被切分出來，轉(zhuǎn)6；如果詞典中找不到這樣的一個(gè)I字詞，則匹配失敗；匹配字段去掉最后一個(gè)漢字，I-；重復(fù)

4、2-4，直至切分成功為止； I重新賦初值，轉(zhuǎn)2，直到切分出所有詞為止。,漢語分詞,6,分析,“市場/中國/有/企業(yè)/才能/發(fā)展/” 對交叉歧義和組合歧義沒有什么好的解決辦法錯(cuò)誤切分率為1169 往往不單獨(dú)使用，而是與其它方法配合使用,漢語分詞,7,逆向最大匹配分詞,分詞過程與FMM方法相同，不過是從句子(或文章)末尾開始處理，每次匹配不成功時(shí)去掉的是前面的一個(gè)漢字 “市場/中/國有/企業(yè)/才能/發(fā)展/ 實(shí)驗(yàn)表明：逆向最大匹配法比最大匹配法更有效，錯(cuò)誤切分率為1245,漢語分詞,8,雙向匹配法,比較FMM法與BMM法的切分結(jié)果，從而決定正確的切分可以識(shí)別出分詞中的交叉歧義算法時(shí)間、空間復(fù)雜

5、性較高,漢語分詞,9,主要的分詞方法（二）,基于理解的分詞方法：通過讓計(jì)算機(jī)模擬人對句子的理解，達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象。由于漢語語言知識(shí)的籠統(tǒng)、復(fù)雜性，難以將各種語言信息組織成機(jī)器可直接讀取的形式，因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。,漢語分詞,10,主要的分詞方法（三）,基于統(tǒng)計(jì)的分詞方法：基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計(jì)頻率來決定其是否構(gòu)成詞無詞典分詞法也有一定的局限性, 會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字符串, 如“這一”、“之一”以及“提供了”等等。在實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)中都

6、要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞, 即將字符串的詞頻統(tǒng)計(jì)和字符串匹配結(jié)合起來, 既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn), 又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。,漢語分詞,11,三種分詞方法綜述,到底哪種分詞算法的準(zhǔn)確度更高，目前并無定論。對于任何一個(gè)成熟的分詞系統(tǒng)來說，不可能單獨(dú)依靠某一種算法來實(shí)現(xiàn)，都需要綜合不同的算法。例如，海量科技的分詞算法就采用“復(fù)方分詞法”，所謂復(fù)方，就是像中西醫(yī)結(jié)合般綜合運(yùn)用機(jī)械方法和知識(shí)方法。對于成熟的中文分詞系統(tǒng)，需要多種算法綜合處理問題。,漢語分詞,12,分詞面臨的主要難題,有了成熟的分詞算法，是否就能容易的解決中文分

7、詞的問題呢？事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語言，讓計(jì)算機(jī)理解中文語言更是困難。在中文分詞過程中，有兩大難題一直沒有完全突破：歧義詞的識(shí)別和新詞的識(shí)別,漢語分詞,13,切分歧義（1）,交集型歧義對于漢字串AJB，AJ、JB同時(shí)成詞例：結(jié)合/成，結(jié)/合成美/國會(huì)，美國/會(huì) 組合型歧義對于漢字串AB，A、B同時(shí)成詞例：門/把手/壞/了，請/把/手/拿/開將來，現(xiàn)在，學(xué)生會(huì) 混合型歧義同時(shí)包含交集型歧義和組合型歧義例：這樣的/人/才能/經(jīng)受住考驗(yàn) 這樣的/人才/能/經(jīng)受住考驗(yàn) 這樣的/人/才/能/經(jīng)受住考驗(yàn) 中文文本中，交集型歧義與組合型歧義出現(xiàn)的比例約為1:22。,漢語分詞,1

8、4,切分歧義（2）,真歧義歧義字段在不同的語境中確實(shí)有多種切分形式例：地面積這塊/地/面積/還真不小地面/積/了厚厚的雪偽歧義歧義字段單獨(dú)拿出來看有歧義，但在所有真實(shí)語境中，僅有一種切分形式可接受例：挨批評挨/批評（）挨批/評（）如“建設(shè)/有”、“中國/人民”、“各/地方”、 “本/地區(qū)”等對于交集型歧義字段，真實(shí)文本中偽歧義現(xiàn)象遠(yuǎn)多于真歧義現(xiàn)象,漢語分詞,15,歧義的消解,基于記憶的歧義消解偽歧義所占比例很大遠(yuǎn)大于真歧義現(xiàn)象。鑒于偽歧義的消解與上下文無關(guān)，可以把它們的正確（唯一）的切分形式預(yù)先記錄在一張表中，其歧義消解通過直接查表即可實(shí)現(xiàn)。基于規(guī)則的歧義消解在大規(guī)模

9、真實(shí)語料庫中，通過對大量歧義字段的提取和分析，把它們按某種指標(biāo)或?qū)傩赃M(jìn)行分類，然后給出每類歧義字段的切分規(guī)則，組成歧義切分規(guī)則庫。基于字典的歧義消解利用單詞在詞典中不同義項(xiàng)的定義，計(jì)算歧義詞的各詞義的定義和上下文詞匯的詞義定義覆蓋量，選擇覆蓋量最大者作為當(dāng)前詞義。基于語料庫的歧義消解以語料庫作為知識(shí)源，核心是從語料庫自動(dòng)或半自動(dòng)學(xué)習(xí)決定單詞詞義的上下文.,漢語分詞,16,未登錄詞（OOV）,雖然一般的詞典都能覆蓋大多數(shù)的詞語，但有相當(dāng)一部分的詞語不可能窮盡地收入系統(tǒng)詞典中，這些詞語稱為未登錄詞或新詞分類：專有名詞：人名、地名、機(jī)構(gòu)名稱、商標(biāo)名網(wǎng)絡(luò)語：“給力”、“神馬” 重疊詞：

10、“高高興興”、“研究研究” 派生詞：“一次性用品” 與領(lǐng)域相關(guān)的術(shù)語：“互聯(lián)網(wǎng)”、“排氣量 ”,漢語分詞,17,未登錄詞識(shí)別的方法,統(tǒng)計(jì)的方法：根據(jù)相鄰詞同現(xiàn)的次數(shù)來統(tǒng)計(jì)得到各類用字、詞的頻率。優(yōu)點(diǎn)：占用的資源少、速度快、效率高；缺點(diǎn)：準(zhǔn)確率較低、系統(tǒng)開銷大、搜集合理的有代表性的統(tǒng)計(jì)源的工作本身也較難。基于規(guī)則的方法：核心是根據(jù)語言學(xué)原理和知識(shí)制定一系列規(guī)則。優(yōu)點(diǎn)：識(shí)別較準(zhǔn)確；缺點(diǎn)：很難列舉所有規(guī)則，規(guī)則之間往往會(huì)顧此失彼，產(chǎn)生沖突，系統(tǒng)龐大、復(fù)雜，耗費(fèi)資源多但效率卻不高兩者融合：取長補(bǔ)短。即在規(guī)則中加入了統(tǒng)計(jì)信息或在統(tǒng)計(jì)方法過后又用到過濾規(guī)則以提高新詞總體的識(shí)別效果,漢語分詞,18,結(jié)束語,從上面的分析來看，隨著中文分詞技術(shù)研究的不斷深入，單獨(dú)利用規(guī)則的方法會(huì)由于規(guī)則獲取的限制，將越來越不能滿足逐漸加快的信息的產(chǎn)生速度和

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《漢語分詞簡介》PPT課件.ppt

文檔簡介

溫馨提示

最新文檔

評論

《漢語分詞簡介》PPT課件.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔