版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、漢語分詞,1,漢語分詞簡介,2011.12,漢語分詞,2,分詞的定義,中文分詞 (Chinese Word Segmentation) 指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨(dú)詞沒有一個(gè)形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復(fù)雜的多、困難的多。 通俗的說,中文分詞就是要由機(jī)器在中文文本中詞與詞之間加上標(biāo)記。,漢語分詞,3,分詞的意義,正確的機(jī)器自動(dòng)分詞是正確的中文信息處理的基
2、礎(chǔ) 文本檢索 和服 | 務(wù) | 于三日后裁制完畢,并呈送將軍府中。 王府飯店的設(shè)施 | 和 | 服務(wù) | 是一流的。如果不分詞或者“和服務(wù)”分詞有誤,都會(huì)導(dǎo)致荒謬的檢索結(jié)果。 文語轉(zhuǎn)換 他們是來 | 查 | 金泰 | 撞人那件事的。(“查”讀音為cha) 行俠仗義的 | 查金泰 | 遠(yuǎn)近聞名。(“查”讀音為zha) 詞頻統(tǒng)計(jì)(漢語中最常用的詞是哪個(gè)?) 句法分析、語義分析、機(jī)器翻譯、語音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對等,漢語分詞,4,主要的分詞方法(一),基于字符串匹配的分詞方法:按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功
3、??梢郧蟹? 否則不予切分。 實(shí)現(xiàn)簡單, 實(shí)用性強(qiáng), 但機(jī)械分詞法的最大的缺點(diǎn)就是詞典的完備性不能得到保證。 a. 正向最大匹配(由左到右的方向) b. 逆向最大匹配法(由右到左的方向) c. 最少切分(使每一句中切出的詞數(shù)最小) d. 雙向匹配法(進(jìn)行由左到右、由右到左兩次掃描),漢語分詞,5,正向最大匹配分詞,基本思想: 設(shè)自動(dòng)分詞詞典中最長詞條所含漢字個(gè)數(shù)為I; 取被處理材料當(dāng)前字符串序數(shù)中的I個(gè)字作為匹配字段,查找分詞詞典。若詞典中有這樣的一個(gè)I字詞,則匹配成功,匹配字段作為一個(gè)詞被切分出來,轉(zhuǎn)6; 如果詞典中找不到這樣的一個(gè)I字詞,則匹配失敗; 匹配字段去掉最后一個(gè)漢字,I-; 重復(fù)
4、2-4,直至切分成功為止; I重新賦初值,轉(zhuǎn)2,直到切分出所有詞為止。,漢語分詞,6,分析,“市場/中國/有/企業(yè)/才能/發(fā)展/” 對交叉歧義和組合歧義沒有什么好的解決辦法 錯(cuò)誤切分率為1169 往往不單獨(dú)使用,而是與其它方法配合使用,漢語分詞,7,逆向最大匹配分詞,分詞過程與FMM方法相同,不過是從句子(或文章)末尾開始處理,每次匹配不成功時(shí)去掉的是前面的一個(gè)漢字 “市場/中/國有/企業(yè)/才能/發(fā)展/ 實(shí)驗(yàn)表明:逆向最大匹配法比最大匹配法更有效,錯(cuò)誤切分率為1245,漢語分詞,8,雙向匹配法,比較FMM法與BMM法的切分結(jié)果,從而決定正確的切分 可以識(shí)別出分詞中的交叉歧義 算法時(shí)間、空間復(fù)雜
5、性較高,漢語分詞,9,主要的分詞方法(二),基于理解的分詞方法:通過讓計(jì)算機(jī)模擬人對句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。 由于漢語語言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。,漢語分詞,10,主要的分詞方法(三),基于統(tǒng)計(jì)的分詞方法 :基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計(jì)頻率來決定其是否構(gòu)成詞 無詞典分詞法也有一定的局限性, 會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字符串, 如“這一”、“之一”以及“提供了”等等。 在實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)中都
6、要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞, 即將字符串的詞頻統(tǒng)計(jì)和字符串匹配結(jié)合起來, 既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn), 又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。,漢語分詞,11,三種分詞方法綜述,到底哪種分詞算法的準(zhǔn)確度更高,目前并無定論。對于任何一個(gè)成熟的分詞系統(tǒng)來說,不可能單獨(dú)依靠某一種算法來實(shí)現(xiàn),都需要綜合不同的算法。例如,海量科技的分詞算法就采用“復(fù)方分詞法”,所謂復(fù)方,就是像中西醫(yī)結(jié)合般綜合運(yùn)用機(jī)械方法和知識(shí)方法。對于成熟的中文分詞系統(tǒng),需要多種算法綜合處理問題。,漢語分詞,12,分詞面臨的主要難題,有了成熟的分詞算法,是否就能容易的解決中文分
7、詞的問題呢?事實(shí)遠(yuǎn)非如此。中文是一種十分復(fù)雜的語言,讓計(jì)算機(jī)理解中文語言更是困難。在中文分詞過程中,有兩大難題一直沒有完全突破:歧義詞的識(shí)別和新詞的識(shí)別,漢語分詞,13,切分歧義(1),交集型歧義 對于漢字串AJB,AJ、JB同時(shí)成詞 例:結(jié)合/成,結(jié)/合成 美/國會(huì),美國/會(huì) 組合型歧義 對于漢字串AB,A、B同時(shí)成詞 例:門/把手/壞/了,請/把/手/拿/開 將來,現(xiàn)在,學(xué)生會(huì) 混合型歧義 同時(shí)包含交集型歧義和組合型歧義 例: 這樣的/人/才能/經(jīng)受住考驗(yàn) 這樣的/人才/能/經(jīng)受住考驗(yàn) 這樣的/人/才/能/經(jīng)受住考驗(yàn) 中文文本中,交集型歧義與組合型歧義出現(xiàn)的比例約為1:22。,漢語分詞,1
8、4,切分歧義(2),真歧義 歧義字段在不同的語境中確實(shí)有多種切分形式 例:地面積 這塊/地/面積/還真不小 地面/積/了厚厚的雪 偽歧義 歧義字段單獨(dú)拿出來看有歧義,但在所有真實(shí)語境中,僅有一種切分形式可接受 例:挨批評 挨/批評()挨批/評() 如“建設(shè)/有”、“中國/人民”、“各/地方”、 “本/地區(qū)”等 對于交集型歧義字段,真實(shí)文本中偽歧義現(xiàn)象遠(yuǎn)多于真歧義現(xiàn)象,漢語分詞,15,歧義的消解,基于記憶的歧義消解 偽歧義所占比例很大遠(yuǎn)大于真歧義現(xiàn)象。鑒于偽歧義的消解與上下文無關(guān),可以把它們的正確(唯一)的切分形式預(yù)先記錄在一張表中,其歧義消解通過直接查表即可實(shí)現(xiàn)。 基于規(guī)則的歧義消解 在大規(guī)模
9、真實(shí)語料庫中,通過對大量歧義字段的提取和分析,把 它們按某種指標(biāo)或?qū)傩赃M(jìn)行分類,然后給出每類歧義字段的切分規(guī)則,組成歧義切分規(guī)則庫。 基于字典的歧義消解 利用單詞在詞典中不同義項(xiàng)的定義,計(jì)算歧義詞的各詞義的定義和上下文詞匯的詞義定義覆蓋量,選擇覆蓋量最大者作為當(dāng)前詞義。 基于語料庫的歧義消解 以語料庫作為知識(shí)源,核心是從語料庫自動(dòng)或半自動(dòng)學(xué)習(xí)決定單詞詞義的上下文.,漢語分詞,16,未登錄詞(OOV),雖然一般的詞典都能覆蓋大多數(shù)的詞語,但有相當(dāng)一部分的詞語不可能窮盡地收入系統(tǒng)詞典中,這些詞語稱為未登錄詞或新詞 分類: 專有名詞:人名、地名、機(jī)構(gòu)名稱、商標(biāo)名 網(wǎng)絡(luò)語:“給力”、“神馬” 重疊詞:
10、“高高興興”、“研究研究” 派生詞:“一次性用品” 與領(lǐng)域相關(guān)的術(shù)語:“互聯(lián)網(wǎng)”、“排氣量 ”,漢語分詞,17,未登錄詞識(shí)別的方法,統(tǒng)計(jì)的方法:根據(jù)相鄰詞同現(xiàn)的次數(shù)來統(tǒng)計(jì)得到各類用字、詞的頻率。優(yōu)點(diǎn):占用的資源少、速度快、效率高;缺點(diǎn):準(zhǔn)確率較低、系統(tǒng)開銷大、搜集合理的有代表性的統(tǒng)計(jì)源的工作本身也較難。 基于規(guī)則的方法:核心是根據(jù)語言學(xué)原理和知識(shí)制定一系列規(guī)則。優(yōu)點(diǎn):識(shí)別較準(zhǔn)確;缺點(diǎn):很難列舉所有規(guī)則,規(guī)則之間往往會(huì)顧此失彼,產(chǎn)生沖突,系統(tǒng)龐大、復(fù)雜,耗費(fèi)資源多但效率卻不高 兩者融合:取長補(bǔ)短。即在規(guī)則中加入了統(tǒng)計(jì)信息或在統(tǒng)計(jì)方法過后又用到過濾規(guī)則以提高新詞總體的識(shí)別效果,漢語分詞,18,結(jié)束語,從上面的分析來看,隨著中文分詞技術(shù)研究的不斷深入,單獨(dú)利用規(guī)則的方法會(huì)由于規(guī)則獲取的限制,將越來越不能滿足逐漸加快的信息的產(chǎn)生速度和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 河道環(huán)保施工方案(3篇)
- 花園裝修施工方案(3篇)
- 過期口紅活動(dòng)方案策劃(3篇)
- 2025年智能交通系統(tǒng)設(shè)計(jì)與運(yùn)營手冊
- 高二生物(穩(wěn)態(tài)專題)2025-2026年下學(xué)期試題及答案
- 2025年高職勞動(dòng)與社會(huì)保障(社會(huì)保障基金管理)試題及答案
- 2025年大學(xué)第三學(xué)年(食品科學(xué)與工程)烹飪基礎(chǔ)研發(fā)試題及答案
- 2025年高職(老年保健與管理)老年人健康管理綜合測試題及答案
- 2025年高職會(huì)展策劃與管理(會(huì)展執(zhí)行)試題及答案
- 2026年注冊造價(jià)工程師(造價(jià)工程實(shí)務(wù))考題及答案
- 《數(shù)據(jù)庫設(shè)計(jì)》課件
- 牽引供電計(jì)算專題(面向交流)
- 杭州市失業(yè)人員登記表
- 新員工入職背景調(diào)查表 (職員)
- 云計(jì)算環(huán)境下中小企業(yè)會(huì)計(jì)信息化建設(shè)問題
- 15D501建筑物防雷設(shè)施安裝圖集
- 社區(qū)老人心理疏導(dǎo)服務(wù)記錄表
- 屈光不正診療規(guī)范
- 國際貿(mào)易采購合同(中英文)
- 建設(shè)部環(huán)衛(wèi)勞動(dòng)定額
- 金蝶云星空 V7.2-產(chǎn)品培訓(xùn)-PLM領(lǐng)域-文檔管理
評論
0/150
提交評論