《漢語分詞簡介》PPT課件.ppt_第1頁
《漢語分詞簡介》PPT課件.ppt_第2頁
《漢語分詞簡介》PPT課件.ppt_第3頁
《漢語分詞簡介》PPT課件.ppt_第4頁
《漢語分詞簡介》PPT課件.ppt_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、漢語分詞,1,漢語分詞簡介,2011.12,漢語分詞,2,分詞的定義,中文分詞 (Chinese Word Segmentation) 指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨(dú)詞沒有一個(gè)形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復(fù)雜的多、困難的多。 通俗的說,中文分詞就是要由機(jī)器在中文文本中詞與詞之間加上標(biāo)記。,漢語分詞,3,分詞的意義,正確的機(jī)器自動(dòng)分詞是正確的中文信息處理的基

2、礎(chǔ) 文本檢索 和服 | 務(wù) | 于三日后裁制完畢,并呈送將軍府中。 王府飯店的設(shè)施 | 和 | 服務(wù) | 是一流的。如果不分詞或者“和服務(wù)”分詞有誤,都會(huì)導(dǎo)致荒謬的檢索結(jié)果。 文語轉(zhuǎn)換 他們是來 | 查 | 金泰 | 撞人那件事的。(“查”讀音為cha) 行俠仗義的 | 查金泰 | 遠(yuǎn)近聞名。(“查”讀音為zha) 詞頻統(tǒng)計(jì)(漢語中最常用的詞是哪個(gè)?) 句法分析、語義分析、機(jī)器翻譯、語音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對等,漢語分詞,4,主要的分詞方法(一),基于字符串匹配的分詞方法:按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功

3、??梢郧蟹? 否則不予切分。 實(shí)現(xiàn)簡單, 實(shí)用性強(qiáng), 但機(jī)械分詞法的最大的缺點(diǎn)就是詞典的完備性不能得到保證。 a. 正向最大匹配(由左到右的方向) b. 逆向最大匹配法(由右到左的方向) c. 最少切分(使每一句中切出的詞數(shù)最小) d. 雙向匹配法(進(jìn)行由左到右、由右到左兩次掃描),漢語分詞,5,正向最大匹配分詞,基本思想: 設(shè)自動(dòng)分詞詞典中最長詞條所含漢字個(gè)數(shù)為I; 取被處理材料當(dāng)前字符串序數(shù)中的I個(gè)字作為匹配字段,查找分詞詞典。若詞典中有這樣的一個(gè)I字詞,則匹配成功,匹配字段作為一個(gè)詞被切分出來,轉(zhuǎn)6; 如果詞典中找不到這樣的一個(gè)I字詞,則匹配失敗; 匹配字段去掉最后一個(gè)漢字,I-; 重復(fù)

4、2-4,直至切分成功為止; I重新賦初值,轉(zhuǎn)2,直到切分出所有詞為止。,漢語分詞,6,分析,“市場/中國/有/企業(yè)/才能/發(fā)展/” 對交叉歧義和組合歧義沒有什么好的解決辦法 錯(cuò)誤切分率為1169 往往不單獨(dú)使用,而是與其它方法配合使用,漢語分詞,7,逆向最大匹配分詞,分詞過程與FMM方法相同,不過是從句子(或文章)末尾開始處理,每次匹配不成功時(shí)去掉的是前面的一個(gè)漢字 “市場/中/國有/企業(yè)/才能/發(fā)展/ 實(shí)驗(yàn)表明:逆向最大匹配法比最大匹配法更有效,錯(cuò)誤切分率為1245,漢語分詞,8,雙向匹配法,比較FMM法與BMM法的切分結(jié)果,從而決定正確的切分 可以識(shí)別出分詞中的交叉歧義 算法時(shí)間、空間復(fù)雜

5、性較高,漢語分詞,9,主要的分詞方法(二),基于理解的分詞方法:通過讓計(jì)算機(jī)模擬人對句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。 由于漢語語言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。,漢語分詞,10,主要的分詞方法(三),基于統(tǒng)計(jì)的分詞方法 :基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計(jì)頻率來決定其是否構(gòu)成詞 無詞典分詞法也有一定的局限性, 會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字符串, 如“這一”、“之一”以及“提供了”等等。 在實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)中都

6、要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞, 即將字符串的詞頻統(tǒng)計(jì)和字符串匹配結(jié)合起來, 既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn), 又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。,漢語分詞,11,三種分詞方法綜述,到底哪種分詞算法的準(zhǔn)確度更高,目前并無定論。對于任何一個(gè)成熟的分詞系統(tǒng)來說,不可能單獨(dú)依靠某一種算法來實(shí)現(xiàn),都需要綜合不同的算法。例如,海量科技的分詞算法就采用“復(fù)方分詞法”,所謂復(fù)方,就是像中西醫(yī)結(jié)合般綜合運(yùn)用機(jī)械方法和知識(shí)方法。對于成熟的中文分詞系統(tǒng),需要多種算法綜合處理問題。,漢語分詞,12,分詞面臨的主要難題,有了成熟的分詞算法,是否就能容易的解決中文分

7、詞的問題呢?事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語言,讓計(jì)算機(jī)理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破:歧義詞的識(shí)別和新詞的識(shí)別,漢語分詞,13,切分歧義(1),交集型歧義 對于漢字串AJB,AJ、JB同時(shí)成詞 例:結(jié)合/成,結(jié)/合成 美/國會(huì),美國/會(huì) 組合型歧義 對于漢字串AB,A、B同時(shí)成詞 例:門/把手/壞/了,請/把/手/拿/開 將來,現(xiàn)在,學(xué)生會(huì) 混合型歧義 同時(shí)包含交集型歧義和組合型歧義 例: 這樣的/人/才能/經(jīng)受住考驗(yàn) 這樣的/人才/能/經(jīng)受住考驗(yàn) 這樣的/人/才/能/經(jīng)受住考驗(yàn) 中文文本中,交集型歧義與組合型歧義出現(xiàn)的比例約為1:22。,漢語分詞,1

8、4,切分歧義(2),真歧義 歧義字段在不同的語境中確實(shí)有多種切分形式 例:地面積 這塊/地/面積/還真不小 地面/積/了厚厚的雪 偽歧義 歧義字段單獨(dú)拿出來看有歧義,但在所有真實(shí)語境中,僅有一種切分形式可接受 例:挨批評 挨/批評()挨批/評() 如“建設(shè)/有”、“中國/人民”、“各/地方”、 “本/地區(qū)”等 對于交集型歧義字段,真實(shí)文本中偽歧義現(xiàn)象遠(yuǎn)多于真歧義現(xiàn)象,漢語分詞,15,歧義的消解,基于記憶的歧義消解 偽歧義所占比例很大遠(yuǎn)大于真歧義現(xiàn)象。鑒于偽歧義的消解與上下文無關(guān),可以把它們的正確(唯一)的切分形式預(yù)先記錄在一張表中,其歧義消解通過直接查表即可實(shí)現(xiàn)。 基于規(guī)則的歧義消解 在大規(guī)模

9、真實(shí)語料庫中,通過對大量歧義字段的提取和分析,把 它們按某種指標(biāo)或?qū)傩赃M(jìn)行分類,然后給出每類歧義字段的切分規(guī)則,組成歧義切分規(guī)則庫。 基于字典的歧義消解 利用單詞在詞典中不同義項(xiàng)的定義,計(jì)算歧義詞的各詞義的定義和上下文詞匯的詞義定義覆蓋量,選擇覆蓋量最大者作為當(dāng)前詞義。 基于語料庫的歧義消解 以語料庫作為知識(shí)源,核心是從語料庫自動(dòng)或半自動(dòng)學(xué)習(xí)決定單詞詞義的上下文.,漢語分詞,16,未登錄詞(OOV),雖然一般的詞典都能覆蓋大多數(shù)的詞語,但有相當(dāng)一部分的詞語不可能窮盡地收入系統(tǒng)詞典中,這些詞語稱為未登錄詞或新詞 分類: 專有名詞:人名、地名、機(jī)構(gòu)名稱、商標(biāo)名 網(wǎng)絡(luò)語:“給力”、“神馬” 重疊詞:

10、“高高興興”、“研究研究” 派生詞:“一次性用品” 與領(lǐng)域相關(guān)的術(shù)語:“互聯(lián)網(wǎng)”、“排氣量 ”,漢語分詞,17,未登錄詞識(shí)別的方法,統(tǒng)計(jì)的方法:根據(jù)相鄰詞同現(xiàn)的次數(shù)來統(tǒng)計(jì)得到各類用字、詞的頻率。優(yōu)點(diǎn):占用的資源少、速度快、效率高;缺點(diǎn):準(zhǔn)確率較低、系統(tǒng)開銷大、搜集合理的有代表性的統(tǒng)計(jì)源的工作本身也較難。 基于規(guī)則的方法:核心是根據(jù)語言學(xué)原理和知識(shí)制定一系列規(guī)則。優(yōu)點(diǎn):識(shí)別較準(zhǔn)確;缺點(diǎn):很難列舉所有規(guī)則,規(guī)則之間往往會(huì)顧此失彼,產(chǎn)生沖突,系統(tǒng)龐大、復(fù)雜,耗費(fèi)資源多但效率卻不高 兩者融合:取長補(bǔ)短。即在規(guī)則中加入了統(tǒng)計(jì)信息或在統(tǒng)計(jì)方法過后又用到過濾規(guī)則以提高新詞總體的識(shí)別效果,漢語分詞,18,結(jié)束語,從上面的分析來看,隨著中文分詞技術(shù)研究的不斷深入,單獨(dú)利用規(guī)則的方法會(huì)由于規(guī)則獲取的限制,將越來越不能滿足逐漸加快的信息的產(chǎn)生速度和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論