中文詞頻統(tǒng)計系統(tǒng)設計分析_第1頁
中文詞頻統(tǒng)計系統(tǒng)設計分析_第2頁
中文詞頻統(tǒng)計系統(tǒng)設計分析_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、中文詞頻統(tǒng)計系統(tǒng)設計分析摘要 隨著互聯(lián)網(wǎng)時代的到來,網(wǎng)絡信息呈極速增長態(tài)勢,互聯(lián)網(wǎng)讓人們的生活 更加“碎片化”,有用信息的獲取變更越來越不容易,中文詞頻統(tǒng)計系統(tǒng)有效解決 這一難題,幫助人們從一堆雜亂無章的文本數(shù)據(jù)中快速準確獲取有價值的信息。 本文通過分析中文詞頻統(tǒng)計的關鍵技術,即中文分詞技術,并經(jīng)過對比分析幾種 常用的中文分詞工具后,最終通過開源的IK Analyzer完成中文詞頻統(tǒng)計系統(tǒng)的實 現(xiàn)。關鍵詞:中文詞頻統(tǒng)計關鍵技術綜述;中文詞頻統(tǒng)計系統(tǒng)設計.、一 、-前言目前我們正處于一個互聯(lián)網(wǎng)時代,而信息量的高速增長帶來的復雜性,需要 我們對其進行有效處理。如何利用計算機來進行有效地信息處理就產

2、生了中文信 息處理技術。中文信息處理是計算機對中文的音、形、義等信息進行處理和加工的過程, 它是自然語言處理的一個分支,是一門與計算機科學、語言學、數(shù)學等多種學科相 關聯(lián)的綜合性學科。從20世紀80 年代開始,中文信息處理進入了快速發(fā)展階段, 具體研究內容只要包括對字、詞、句、段、篇、章的輸入輸出、壓縮存儲、檢索 傳輸、分析理解和智能生成等方面的技術。隨著網(wǎng)絡信息的極速增長,有用信息的獲取變得越來越不容易,中文詞頻統(tǒng)計 系統(tǒng)的誕生為人們解決這一難題,幫助人們從一堆雜亂無章的中文文本數(shù)據(jù)中獲 取高頻詞或關鍵詞,有助于準確把握文章的要義,從而深入了解其核心思想,獲 得有用的信息。1. 中文詞頻統(tǒng)計

3、關鍵技術1.1中文分詞技術中文分詞是中文詞頻統(tǒng)計首要解決的問題,也是中文詞頻統(tǒng)計的關鍵技術。中文文本信息與英文文本信息存在一個明顯差別,即在英文文本中,單詞與單詞之 間有空格分隔;而中文文本中,詞與詞之間不存在天然分隔符,同時中文詞語沒有清 晰的定義。這些文本信息區(qū)別,要求在對中文文本信息進行處理前,必須將成段的 文本分隔成更小的詞匯單元,這個過程即是中文分詞。中文自動分詞是指使用自計算機自動對中文文本進行詞語的切分,即像英文 那樣使得中文句子中的詞之間有空格以標識,達到被計算機自動識別語義的效果。 常用的基于詞典分詞的算法流程圖如圖1 所示:圖1 基于詞典的分詞算法流程圖1.2常用的中文分詞

4、工具常用的中文分詞工具有:CDWS中文分詞系統(tǒng)、SCWS中文分詞引擎、ICTCLAS漢語分詞系統(tǒng)和IK Analyzer中文分詞工具。(1)CDWS 中文分詞系統(tǒng)CDWS(The Moder n Chi nese Dist in guishi ng Words System)是我國第一個實用性 的中文分詞系統(tǒng),它是由北京航空大學的梁南元教授于 1984年設計并實現(xiàn)的。 CDWS采用的是直接匹配的分詞算法,即查字典”,通過從左到右的直接掃描句 子,遇到字典里有的詞就標示出來,遇到復合詞,則取最長匹配。比如“南京市市 長”,切分為一個整詞,而不是“南京/市/市長”。而遇到詞典里沒有的詞,則全部 切

5、分為單個字,這樣簡單的分詞就完成了。(2)SCWS 中文分詞引擎由 Hightman 開發(fā)的一套基于詞頻詞典的機械中文分詞引擎,它能將一整段 的漢字基本正確的切分成詞。采用的是采集的詞頻詞典,并輔以一定的專有名稱, 人名,地名,數(shù)字年代等規(guī)則識別來達到基本分詞,經(jīng)小范圍測試大概準確率在 90% 95% 之間,已能基本滿足一些小型搜索引擎、關鍵字提取等場合運用。 45Kb 左右的文本切詞時間是 0.026 秒,大概是 1.5MB 文本/秒,支持 PHP4 和 PHP 5。(3)ICTCLAS 漢語分詞系統(tǒng)ICTCLAS 漢語詞法分析系統(tǒng)是目前應用最廣泛的分詞系統(tǒng),該系統(tǒng)由中科院的 兩位研究員開發(fā)

6、,深受用戶好評。ICTCLAS分詞系統(tǒng)采用層疊隱馬爾科夫模型將中 文分詞、未登錄詞識別、歧義詞處理和詞性標注集成在一個完整的系統(tǒng)中。該系 統(tǒng)支持用戶詞典、繁體中文、GBK、UTF-8、UTF-7、Unicode等多種編碼格式。目 前已升級到ICTCLAS3.0, CTCLAS3.0分詞速度單機996KB/S,分詞精度98.45%, API不超過200KB,各種詞典數(shù)據(jù)壓縮后不到3M,是當前世界上最好的漢語詞法 分析器。(4)IK Analyzer 中文分詞工具IKAnalyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。 從2006年12月推出1.0版開始,IKAnalyze

7、r已經(jīng)推出了 3個大版本。最初,它 是以開源項目 Luence 為應用主體的,結合詞典分詞和文法分析算法的中文分詞組 件。新版本的 IKAnalyzer3.0 則發(fā)展為面向 Java 的公用分詞組件,獨立于 Lucene 項目,同時提供了對Lucene的默認優(yōu)化實現(xiàn)。IKAnalyzer3.0 方面采用了特有的 “正向迭代最細粒度切分算法“,具有60萬字/秒的高速處理能力;另一方面采用 了多子處理器分析模式,支持英文字母(IP地址、Email、URL)、數(shù)字(日期, 常用中文數(shù)量詞,羅馬數(shù)字,科學計數(shù)法),中文詞匯(姓名、地名處理)等分 詞處理。2 中文詞頻統(tǒng)計系統(tǒng)設計2.1中文詞頻統(tǒng)計系統(tǒng)設

8、計架構圖本文基于IK Analyzer開源工具實現(xiàn)中文詞頻統(tǒng)計系統(tǒng)。在技術實現(xiàn)過程中, 主要按圖2的順序進行3個階段操作:(1)專業(yè)術語導入:由于一般的中文分詞系統(tǒng)都是基于自帶的詞典進行識 別分詞,但于詞典容量有限,特別是對于分詞組件應用場景所涉及的領域不同, 需要各類專業(yè)詞庫的支持,以提高中文分詞的準確性。(2)中文分詞實現(xiàn):導入專業(yè)術語后,利用中文分詞技術將文本數(shù)據(jù)劃分 為更小的詞匯單元。(3)詞頻統(tǒng)計輸出:在中文分詞完成后,通過普通的數(shù)學統(tǒng)計方法即可得 到原文本數(shù)據(jù)中各單詞的出現(xiàn)頻數(shù),進而輸出詞頻統(tǒng)計結果。圖2基于IK Analyzerk中文詞頻統(tǒng)計系統(tǒng)設計架構圖2.2 中文分詞技術實現(xiàn)

9、本文主要采用了 IK Analyzer 實現(xiàn)文本的分詞。 IK Analyzer 是一個開源的、基 于 Java 語言開發(fā)的輕量級的中文分詞工具包,采用了特有的 “ 正向迭代最細粒度 切分算法”,支持細粒度和智能分詞兩種切分模式,同時支持用戶詞典擴展定義。 具體操作由以下幾個部分組成:(1)分詞詞典擴展。在中文分詞前,首要需要進行分詞詞典庫的擴展,將 95598 的專業(yè)術語如“抄表”、 “單筆”、“劃扣”、“代扣”、“戶號”等導入詞典庫,通 過配置字典文件 extendwords.txt 實現(xiàn)。(2)切分模式選擇。IK Analyzer支持智能分詞和最細粒度兩種切分模式,以 下是兩種切分方式的

10、演示樣例:a)文本原文:客戶咨詢網(wǎng)上營業(yè)廳為何無法使用手機號碼注冊”b)智能分詞結果:客戶/咨詢/網(wǎng)上/營業(yè)廳/為何/無法/使用/手機號碼/注冊/c)最細粒度分詞結果:客戶/咨詢/網(wǎng)上/營業(yè)廳/營業(yè)/廳/為何/無法/使用/用手 /手機號碼/手機號/手機/手/機號碼/號碼/注冊/。3 結束語 中文詞頻統(tǒng)計能實現(xiàn)從一篇冗余的文章或一堆雜亂無章的文本數(shù)據(jù)中獲得高 詞頻,而高頻詞往往蘊含著該文章的核心思想以及重點內容,使人們快速獲取有 用的信息。本文通過分析中文詞頻統(tǒng)計的關鍵技術,即中文分詞技術,并經(jīng)過深 入分析幾種常用的中文分詞工具后,最終通過開源的IK Analyzer完成中文詞頻統(tǒng) 計系統(tǒng)的實現(xiàn)。參考文獻李曉笛.Web文本挖

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論