第4章 自然語言_第1頁
第4章 自然語言_第2頁
第4章 自然語言_第3頁
第4章 自然語言_第4頁
第4章 自然語言_第5頁
已閱讀5頁,還剩82頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、1,第四章 自然語言與信息組織,2,4.1 自然語言是一種發(fā)展趨勢 4.2 自然語言的應用方式 4.3 漢語自然語言的特殊問題及分詞技術 4.4 單漢字檢索 4.5 后控詞表 4.6 自然語言檢索的效率問題 4.7 自然語言與分類主題語言的比較 4.8 大眾分類法TAG,3,4.1 概述,自然語言在信息組織與檢索方面的應用是以計算機檢索為前提的; 自然語言本身有突出的優(yōu)點; 研究廣泛; 漢語分詞技術的發(fā)展; 節(jié)省時間,建檢索系統(tǒng)速度快; 多數(shù)數(shù)據(jù)庫都具有自然語言檢索功能。,4,4.2 自然語言的應用方式,自然語言在信息組織與檢索中大致有三種應用方式: 不標引(無標引)方式 自動抽詞標引方式 人

2、工標引方式,5,4.2 自然語言的應用方式,不標引(無標引)方式 文本關鍵詞匹配檢索 單漢字檢索 文本檢索作為輔助檢索途徑,標引 對信息單元的內容進行調查,形成其相應概念概念標引,主題分析; 將概念轉換為檢索語言標識符號標引,6,文本關鍵詞匹配,數(shù)據(jù)庫中存儲的是文本(全文、摘要、標題),不進行任何標引,檢索時用關鍵詞進行匹配,多稱為文本檢索; 如果是針對全文數(shù)據(jù)庫,則稱為全文檢索; 檢索表達式可以是詞、詞的組配; 最普通的應用方式。,7,字符串匹配檢索算法,精確匹配檢索 假設兩個串t和p: t=t0t1t2tn-1 目標 p=p0p1pm-1 模式 其中,1mn(通常mn)。從目標t中查找與模

3、式p完全相同的子串的過程叫做模式匹配。匹配結果有兩種:如果t中存在等于p的子串,就指出該子串在t中的位置,稱為匹配成功;否則稱為匹配失敗。,8,(1)樸素模式匹配 用p中的字符依次與t中的字符比較。每次順序比較p和t的對應字符,如果所有得字符都相同,就說明發(fā)現(xiàn)了一個匹配。 這種算法效率不高,主要原因在于執(zhí)行中有回溯,一旦比較不等,就將p所指的串右移一個字符,并從p0開始比較。最壞的情況是,每次比較都在最后出現(xiàn)不等,最多比較n-m1趟,總比較次數(shù)為m*(n-m+1)。,9,(2)KMP算法 每當匹配過程中出現(xiàn)字符串比較不等時,不需回溯i指針,而是利用已經(jīng)得到的“部分匹配”結果將模式向右“滑動”盡

4、可能遠的一段距離后,繼續(xù)進行比較。,10,(3)BM算法,11,模糊匹配 模糊匹配檢索的效率與精確匹配檢索相比要低很多,當進行二叉樹搜索時耗費時間將隨著數(shù)據(jù)庫的增長呈現(xiàn)出對數(shù)增長; 模糊檢索提高了檢全率; 其原理簡單來說就是給定兩個字符串,如何找到一個最經(jīng)濟的操縱序列,使得一個字符串可以轉換為另一個字符串。這組操作的成本就是兩個字符串的相似度。也就是說,轉換成本越低,兩個字符串的相似度就越高;反之就相似度越低?;镜霓D換操作是插入、刪除和替換。,12,13,單漢字檢索,漢語自然語言檢索的特有方式; 原理類似與文本關鍵詞匹配;處理單位是“字”,不是“詞”; 數(shù)據(jù)庫采用“全標引”,即所有漢字(除禁

5、用詞)都做倒排索引; 單個漢字表達概念能力較弱,因此幾乎等同于不標引。,14,15,文本檢索作為輔助途徑,信息單元用檢索語言進行標引; 但是題名,摘要等用自然語言提供自由匹配檢索。,16,全文檢索是指計算機索引程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當用戶查詢時,檢索程序就根據(jù)事先建立的索引進行查找,并將查找的結果反饋給用戶的檢索方式。這個過程類似于通過字典中的檢索字表查字的過程。 全文檢索的方法主要分為按字檢索和按詞檢索兩種。 按字檢索是指對于文章中的每一個字都建立索引,檢索時將詞分解為字的組合。 按詞檢索指對文章中的詞,即語義單位建立索引,檢

6、索時按詞檢索,并且可以處理同義項等。,17,18,4.2 自然語言的應用方式,2. 自動抽詞標引方式 自動抽詞標引 自動賦詞標引 自動賦分類號標引 自動聚類標引 人機結合抽詞標引,19,自動抽詞標引,最早出現(xiàn)的自動標引方式; 從標題摘要全文中抽詞; 拼寫文字中,從空格識別詞;而漢語則存在分詞問題; 根據(jù)非關鍵詞表篩選抽取出的詞; 抽取出的關鍵詞做倒排索引。,20,自動賦詞標引,在自動抽詞的基礎上,根據(jù)自然語言詞與規(guī)范的檢索詞之間的對應關系,將自然語言詞轉換為規(guī)范詞,并建立倒排索引; 是自然語言與檢索語言的結合; 檢索時可以從自然語言詞、規(guī)范詞入手。,21,自動賦分類號,一種自動分類方法; 根據(jù)

7、自動抽詞結果,對照自然語言詞與分類號的對照關系以及自動分類規(guī)則,將抽取出的自然語言詞轉換為分類號,并建立倒排文件; 兩種語言的結合; 檢索有兩個入口:分類號和自然語言詞。,22,自動聚類,自動分類的一種方法; 這里的類是語義上描述同一類事物的一組詞的語詞類集; 在自動抽詞的基礎上,進行詞頻分析和語詞共現(xiàn)頻率的統(tǒng)計分析,判別出若干最能表達信息單元內容的詞; 與語詞類集進行相似性比較,確定信息單元屬于那個類;從而實現(xiàn)相關文獻的聚集,23,人機結合抽詞標引,采取一定措施,提高自動抽詞的質量。 人工鑒別抽詞結果; 對文本添加抽詞標識; ,24,4.2 自然語言的應用方式,3. 人工標引方式 自由標引

8、標引人員根據(jù)信息單元內容分析結果,按照一定規(guī)則自擬標引詞;快、準、低成本、質量高 自由詞補充標引 一個信息單元,首先使用規(guī)范詞標引,然后有自由詞補充,多為專指詞,25,4.3 漢語自然語言檢索的特殊問題漢語分詞技術(擴展知識),基于詞典和規(guī)則的方法 切分標記分詞法 基于大規(guī)模語料庫的統(tǒng)計方法 規(guī)則和統(tǒng)計結合的方法 基于字的切分法,跳轉至46頁,26,分詞的提出和定義,漢語文本是基于單字的,漢語的書面表達方式也是以漢字作為最小單位的,詞與詞之間沒有顯性的界限標志,因此分詞是漢語文本分析處理中首先要解決的問題 添加合適的顯性的詞語邊界標志使得所形成的詞串反映句子的本意,這個過程就是通常所說的分詞,

9、27,分詞的意義,正確的機器自動分詞是正確的中文信息處理的基礎 文本檢索 和服 | 務 | 于三日后裁制完畢,并呈送將軍府中。 王府飯店的設施 | 和 | 服務 | 是一流的。如果不分詞或者“和服務”分詞有誤,都會導致荒謬的檢索結果。 文語轉換 他們是來 | 查 | 金泰 | 撞人那件事的。(“查”讀音為cha) 行俠仗義的 | 查金泰 | 遠近聞名。(“查”讀音為zha),28,交集型切分歧義,漢字串AJB被稱作交集型切分歧義,如果滿足AJ、JB同時為詞(A、J、B分別為漢字串)。此時漢字串J被稱作交集串。 例 “結合成分子” 結合 | 成 分|子 | 結合|成|分子| 結 | 合成 |分子

10、| 例 “美國會通過對臺售武法案” 例 “乒乓球拍賣完了”,29,組合型切分歧義,漢字串AB被稱作組合型切分歧義,如果滿足條件:A、B、AB同時為詞 例組合型切分歧義:“起身” 他站 | 起 | 身 | 來。 他明天 | 起身 | 去北京。,30,下雨天留客天留我不留,下雨天留客,天留,我不留。 下雨天留客,天留我不留。 下雨天,留客,天留,我不留。 下雨天,留客,天留我,不留。 下雨天留客,天留我不?留! 下雨天,留客天,留我不留? 下雨天,留客天,留我?不留! 下雨天留客,天!留我不?留! 下雨天,留客!天!留我不留?,31,“真歧義”和“偽歧義”,真歧義指存在兩種或兩種以上的可實現(xiàn)的切分

11、形式,如句子“必須/加強/企業(yè)/中/國有/資產(chǎn)/的/管理/”和“中國/有/能力/解決/香港/問題/”中的字段“中國有”是一種真歧義 偽歧義一般只有一種正確的切分形式,如“建設/有”、“中國/人民”、“各/地方”、 “本/地區(qū)”等,32,未登錄詞,雖然一般的詞典都能覆蓋大多數(shù)的詞語,但有相當一部分的詞語不可能窮盡地收入系統(tǒng)詞典中,這些詞語稱為未登錄詞或新詞 分類: 專有名詞:中文人名、地名、機構名稱、外國譯名、時間詞 重疊詞:“高高興興”、“研究研究” 派生詞:“電腦化” 與領域相關的術語:“互聯(lián)網(wǎng)” 縮略詞:“日韓”,33,分詞規(guī)范,詞是自然語言的一種客觀存在 漢語書寫過程中并不分詞連寫,對詞

12、組和詞、單字語素和單字詞的劃分因人而異,甚至因時而異 漢語信息處理現(xiàn)在需要制訂統(tǒng)一的分詞標準,否則將嚴重影響計算機的處理 信息處理用現(xiàn)代漢語分詞規(guī)范及自動分詞方法:結合緊密、使用頻繁,34,基于詞典和規(guī)則的方法,最大匹配 正向最大匹配、反向最大匹配和雙向最大匹配 實現(xiàn)簡單,而且切分速度快。但無法發(fā)現(xiàn)覆蓋歧義,對于某些復雜的交叉歧義也會遺漏。 全切分 利用詞典匹配,獲得一個句子所有可能的切分結果。 時空開銷非常大。 基于理解的分詞算法 模擬人的理解過程,在分詞過程中加入句法和語義分析來處理歧義問題。 難以將各種語言信息組織成機器可直接讀取的形式,還處在試驗階段,35,基于詞典和規(guī)則的方法,基于規(guī)

13、則的消歧和未登錄詞識別 規(guī)則消歧 CONDITION FIND(R,NEXT,X)%X.ccat=wSELECT 1 CONDITION FIND(L,NEAR,X)%X.yx=聽|相信|同意SELECT 1 CONDITION FIND(L,NEAR,X)%X.yx=假如|如果|假設|要是|若SELECT 2 OTHERWISE SELECT 1 用規(guī)則識別未登錄詞 LocationName Person Name LocationNameKeyWord LocationName Location Name LocationNameKeyWord OrganizationName Organ

14、ization Name OrganizationNameKeyWord OrganizationName Country Name D|DD OrganizationNameKeyWord,36,基于大規(guī)模語料庫的統(tǒng)計方法,N元語法(N-gram)模型 隱馬爾可夫模型(HMM) 對于一個隨機事件,有一個狀態(tài)序列X1X2,Xn,還有一個觀察值序列Y1Y2,Yn。隱馬模型可以形式化為一個五元組(S,O,A,B),其中: S =q1,q2,qn:狀態(tài)值的有限集合 O=v1,v2,vm:觀察值的有限集合 A=aij,aij =p(Xt+1=qj|Xt=qi):轉移概率 B=bik,bik =p(Ot

15、=vk| Xt=qi):輸出概率 = , =p(X1=qi):初始狀態(tài)分布,37,基于大規(guī)模語料庫的統(tǒng)計方法,互信息(MI, Mutual Information) MI越大,表示兩個字之間的結合越緊密。反之,斷開的可能性越大。當x 與y 關系強時,MI(x , y )= 0;x與y關系弱時,MI (x , y )0;而當MI(x , y ) 0時,x與y稱為“互補分布”。 最大熵模型(ME, Max Entropy) 在已知條件下選擇一個合適的概率分布來預測事件。,38,規(guī)則和統(tǒng)計結合的方法,通常利用詞典進行初切分,然后用其它的概率統(tǒng)計方法和簡單規(guī)則消歧和進行未登錄詞識別。 比如: 利用詞典

16、匹配進行初切分得到一個切分詞圖,然后利用詞頻信息求詞圖N條最短路徑的N-最短路徑法。 最大匹配算法、state-of-the-art分類器和支持向量機的結合。 通過詞典匹配找出所有交叉歧義,利用Bigram語言模型或其變形來消除歧義。,39,基于字的切分方法,N元切分法(N-gram) :對一個字符串序列以N為一個切分單位進行切分。 如二元切分法: “ABCDEFG” “ABCDEFG” 交叉二元切分法(Overlapping Bigram):“ABCDEFG” “ABBCCDDEEFFG” 簡單快速,但會產(chǎn)生大量無意義的標引詞,導致標引產(chǎn)生的索引文件的空間,以及檢索和進行標引的時間都大大增加

17、。同時,因為它的切分單位并非語言學意義上的詞語,所以也會導致檢索的查準率下降。,40,中文自然語言處理開放平臺(CNLP),41,42,43,44,45,輸入句子: 信息組織與檢索是信息管理專業(yè)的專業(yè)基礎課程之一。 分析結果: $ S ( IP ( NP ( n(信息) n(組織) ) VP ( ADVP ( c(與) ) VP ( v(檢索) NP ( CP ( IP ( VP ( vl(是) NP ( n(信息) vn(管理) n(專業(yè)) ) ) ) dec(的) ) ADJP ( n(專業(yè)) ) NP ( n(基礎) n(課程) r(之一) ) ) ) ) w。(。) ) ),46,4.

18、1 自然語言是一種發(fā)展趨勢 4.2 自然語言的應用方式 4.3 漢語自然語言的特殊問題及分詞技術 4.4 單漢字檢索 4.5 后控詞表 4.6 自然語言檢索的效率問題 4.7 自然語言與分類主題語言的比較 4.8 大眾分類法folksonomy & TAG,47,4.4 單漢字檢索,適應漢語的特點 字面成族 專指度極其高的漢字 單漢字檢索的優(yōu)缺點 速度快,查全率高,如“西電科大”和“西安電子科技大學”; 回避分詞問題,模糊檢索性好;,長跑,短跑,慢跑,變速跑,鉈,48,與文本字詞匹配檢索相比,占用存儲空間大 無標引用詞,因此在構造檢索式時,不能提供瀏覽詞匯的條件 關于單漢字檢索系統(tǒng)配備后控制詞

19、表的問題,49,4.5 后控制詞表,“后控制”與“后控制詞表” 控制:對語詞規(guī)范化;顯示概念之間關系。 組織階段控制與檢索階段控制 標引控制檢索控制 (檢索語言檢索語言) 標引控制檢索不控制 (檢索語言檢索/自然語言) 標引不控制檢索控制 (自然語言自然語言/詞表) 標引不控制檢索不控制 (自然語言自然語言),后控制詞表,50,后控制詞表是提供自然語言檢索效率的有效措施 自然語言檢索存在構造檢索策略困難,檢全率低的問題; 自然語言表達概念的自由度大,同義詞、近義詞;無概念關系顯示 對檢準率的影響 選詞與真實內容之間的差異 后控制方法:截詞檢索,后控制詞表,51,控制機理 類似于入口詞(非規(guī)范詞

20、到規(guī)范詞); 一種轉換工具; 一種擴檢工具; 一種羅列自然語言檢索標識供選擇的工具。 檢索詞 新檢索詞 匹配,后控制 詞表,52,控制程度 對檢索系統(tǒng)中自然語言標識的覆蓋率 因此后控制詞表的通用性不大 顯示自然語言標識間概念關系的深入程度和顯示的系統(tǒng)性 顯示等同關系/等級關系、字順顯示/分類顯示,53,編制特點 詞表不斷增長; 分類體系是逐步細化的; 分類體系變化靈活; 顯示方式多樣,可以逐步增加; 可以同時配備入口詞表; 可以區(qū)分控制詞與自然語詞; 詞間關系應該由人工判定。,54,后控制詞表的編制 在被抽出的詞的基礎上編制, 將自然語言檢索標識與某種詞表或分類表對應 利用計算機自動收集檢索表

21、達式中的用詞加以積累, 然后由人工判別整理成詞表 方式與方式的結合, 或方式與方式的結合 利用現(xiàn)成的、詞量較多的一般詞表作為后控制詞表的代用品,55,AA大類 AAaa小類 AAaa01控制詞 AAaa01.01 Y自然語言1 AAaa01.02 F自然語言2 AAaa01.03 C自然語言3 AAaa03控制詞 AAaa03.01 Y自然語言 AAaa03.02 F自然語言 AAaa03.03 Y自然語言 AAac小類,56,后控制詞表的應用 數(shù)據(jù)庫檢索 例如,在Dialog系統(tǒng)中,通過“Expand”命令,可以實現(xiàn)詞表輔助功能。 后控制技術在網(wǎng)絡檢索中的應用 Excite的Zoom In概

22、念檢索助手; AltaVista檢索系統(tǒng),57,58,Dialog:expand,EXPAND Use the EXPAND command to display the indexes of searchable terms associated with a particular database. This is one of the most valuable commands available, particularly when you are unsure about how a particular term might be listed. EXPAND works lik

23、e a window into a database: it allows you to see exactly how a term (word, phrase, author, journal, etc.) is indexed, and lets you SELECT your term directly out of the index.,59,To view the Basic Index: ?expand exponential Ref Items Index-term E1 5 EXPONENTIABILITY E2 20 EXPONENTIABLE E3 19414 *EXPO

24、NENTIAL E4 1 EXPONENTIAL ACCURACY Enter P or PAGE for more,60, To view an Additional Index: ?expand au=einstein, a Ref Items Index-term E1 7 AU=EINSPRUCH, NORMAN G. E2 1 AU=EINSTEIN KRAHN, DOROTHEE E3 0 *AU=EINSTEIN, A E4 33 AU=EINSTEIN, A ,61,4.6 自然語言檢索中的效率問題,作為檢索依據(jù)的文本類型 標題、小標題、章節(jié)名、摘要、正文 檢準 檢全,62,檢

25、索用語的專指度 無標引系統(tǒng) 單漢字檢索,檢全率高,單檢準率有時極其低; 漢字詞檢索,檢準率提高,但檢索結果可能極少 自然語言詞標引 詞標引,單個詞檢索,則高檢全,低檢準; 詞標引,多詞組配檢索,則高檢準,低檢全; 若標引詞非常專指,則保證檢準,影響檢全,63,在不同范圍內進行組配檢索 句、段、節(jié)、篇 隨著范圍擴大,誤組配率增加 文本用詞的不規(guī)范性 不同標引方式 不標引、自動抽詞標引、人機結合抽詞、自動賦詞、自由標引 對自然語言進行詞表控制,64,4.7 自然語言 VS 人工語言,65,66,總之,應用自然語言進行信息內容的組織與檢索,應該注意: 對文本的不同部分(標題、小標題、章節(jié)、摘要、正文

26、),應該予以標注; 對文本抽詞,盡量選擇專指詞; 檢索時,優(yōu)先使用專指詞;一般不用單漢字檢索; 組配盡量在一定范圍內; 構造檢索式,盡量羅列同義詞、近義詞、反義詞; 后控制詞表注意與特定系統(tǒng)相結合; 如果要求較高的質量,采用自由標引文本字詞匹配檢索。,67,4.8 folksonomy,2005年初,自由分類法,大眾分類法,民俗分類法(folksonomy)作為一種由用戶參與和主導的信息組織方式,在Yahoo等門戶網(wǎng)站迅速流行,與長尾(The Long Tail)、簡單信息同步(RSS)、博客、Ajax和播客共同構成下一代因特網(wǎng)Web2.0的核心要素。,68,長尾理論VS二八定律(帕雷托法則)

27、,只要存儲和流通的渠道足夠大,需求不旺或銷量不佳的產(chǎn)品共同占據(jù)的市場份額就可以和那些數(shù)量不多的熱賣品所占據(jù)的市場份額相匹敵甚至更大。 Google AdSense,69,RSS,RSS是基于XML標準,用以實現(xiàn)站點之間共享內容的數(shù)據(jù)交換規(guī)范。這一技術起源于網(wǎng)景通訊公司。目前對這一技術有三種解釋:(1)Really Simple Syndication (真正簡單聚合);(2)RDF(Resource Description Framework)Site Summary (資源描述架構站點摘要);Rich Site Summary(豐富站點摘要),70,blog,Blog是目前最受關注、使用人數(shù)

28、最多的一種Web2.0應用。Blog是個人或群體以時間順序所作的一種不斷更新的記錄。Blog之間的交流主要是通過回溯引用(TrackBack)和廣播/留言/評論的方式來進行的。,71,Podcast,發(fā)布聲音和圖像的“博客”,在Web2.0家族中被稱為播客(Podcast)。 是收音機、iPod、博客和寬帶互聯(lián)網(wǎng)的集體產(chǎn)物。用最簡單的方式描述,播客就是用嘴寫,用耳朵看的博客。播客與網(wǎng)絡電臺最大的不同在于,它采用rss2.0可以訂閱模式,不再是單純地音頻文件,任何p2p文件都可以成為播客,任何個人都可以制作節(jié)目發(fā)布廣播,任何擁有mp3、智能手機的人都可以自由的收聽播客節(jié)目。,72,AJAX,Asynchronous JavaScript and XML(異步JavaScript和XML),是指一種創(chuàng)建交互式網(wǎng)頁應用的網(wǎng)頁開發(fā)技術。 主要包含了以下幾種技術: Ajax(Asynchronous JavaScript + XML)的定義 基于web標準(standards-based presentation)XH

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論