已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀
[碩士論文精品]web中文信息抽取中命名實體識別的研究及應(yīng)用.pdf 免費下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
摘要隨著信息產(chǎn)業(yè)的不斷發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們工作生活中不可缺少的重要工具。WEB也隨之成為人類獲取信息的主要來源。WEB中的數(shù)據(jù)正以每天新增一百萬個頁面的速度增長。到目前為止,頁面的數(shù)量已經(jīng)超過10億【11。面對海量的、非結(jié)構(gòu)化的文本信息、如何快速有效地獲得我們所需要的在信息成為當(dāng)前信息處理的熱點問題。信息檢索IR,INFORMATIONRETRIEVAL和信息抽取IE,INFORMATIONEXTRACTION的技術(shù)研究F是為了解決這一問題。信息抽取的任務(wù)是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,把非結(jié)構(gòu)化及半結(jié)構(gòu)化的信息變成類似表格一樣結(jié)構(gòu)化的組織形式,以便人們可以像查詢數(shù)據(jù)庫一樣獲取自己需要的信息。在實現(xiàn)信息抽取過程中,命名實體識別是一項具有關(guān)鍵作用的技術(shù)。命名實體NAMEDEMITY,NE識別是指識別出文本中特定的實體。它在信息抽取、文本分類、信息檢索和自動問答等多種自然語言處理技術(shù)中起著至關(guān)重要的作用,是這些技術(shù)實現(xiàn)的基礎(chǔ)。本文主要以從若干有關(guān)名人傳記的網(wǎng)頁中抽取名人的姓名、籍貫以及與他們有關(guān)的機構(gòu)名為例,研究了中文信息抽取中人名、地名和機構(gòu)名的識別方法及其應(yīng)用。本文主要采用基于規(guī)則和統(tǒng)計相結(jié)合的方法進(jìn)行命名實體識別。同時指出傳統(tǒng)的隱馬爾科夫統(tǒng)計模型割裂了詞與詞之間的關(guān)系,忽略了上下文對當(dāng)前詞的影響這一局限性,通過改進(jìn)的隱馬爾科夫模型提高了地名實體識別的準(zhǔn)確率和召回率。同時,在利用隱馬爾科夫統(tǒng)計模型進(jìn)行機構(gòu)名實體識別的基礎(chǔ)上,通過構(gòu)建一元模型來識別那些縮寫的以及沒有標(biāo)志詞的機構(gòu)名。實驗證明取得了更好的識別效果。關(guān)鍵詞信息抽取,命名實體識別,隱馬爾科夫模型,局限性,一元模型HTTP/INFO3DOUCOM/網(wǎng)絡(luò)推廣ABSTRACTWITHTHEDEVELOPMENTOFINFORMATIONINDUSTRY,THEINTERNETHASBECOMEAIMPORTANTANDINDISPENSABLETOOLINOURSWORKANDLIFETHEWEBHASBECOMETHEPRIMARYSOURCEFORPEOPLETOGETTHEINFORMATION,BUTTHEDATAONTHEINTERNETINCREASESEXPONENTIALLYATTHESPEEDOFONEMILLIONPAGESEVERYDAYATPRESENT,THEQUANTITYOFTHEPAGESHASEXCEEDTENHUNDREDMILLIONSINTHEFACEOFTHEVASTINFORMATION,HOWTOGETTHEINFORMATIONTHATWENEEDEDFLEETLYANDEFFECTIVELYHASBECOMETHEFOCALPROBLEMININFORMATIONPROCESSINGTHEPURPOSEOFTHERESEARCHABOUTINFORMATIONRETRIEVALIRANDINFORMATIONEXTRACTIONIEISTOSOLVETHISPROBLEMTHEASSIGNMENTOFINFORMATIONEXTRACTIONISTOPROCESSTHEINFORMATIONINTEXTWHITCHLEADSTOTHATTHETINSTRUCTUREANDHALFSTRUCTUREINFORATIONBECOMESTRUCTUREFORMINTHISWAY,PEOPLECANGETTHENEEDEDINFORMATIONTHROUGHQUERYINGTHEINFORMATIONONTHEVCWWJUSTLIKEADATABASEINTHEPROCESSOFIE,THENAMEDENTITYRECOGNITIONNERISPIVOTALTECHNIQUETHEINTENTIONOFTHENERISTORECOGNISETHESPECIFICALLYENTITIESITHASAMAJOREFFECTONTHENATURELANGUAGEPROCESSINGNLPABOUTIE、TEXTCLASSIFICATION、IR、QUESTIONANSWERINGSYSTEMANDSOON,ANDITISTHETHEBASICOFTHESETECHNOLOGYINTHISARTICLE,WESETANEXAMPLEOFTRYINGTORECOGNISETHEENTITIESINTHOSEWEBPAGESABOUTTHEBIOGRAPHYOFTHECELEBRITIESTORESEARCHTHEMETHODSANDAPPLICATIONOFTHERECOGNITIONABOUTPERSON、LOCATION、ORGANIZATIONMAINLYINTHISTEXT,ITADOPTSTHEMETHODTHATRULESANDSTATISTICSCOMBINATIVEMAILYITPOINTSOUTTHELIMITATIONOFTHETRADITIONALHIDDENMARKOVMODELHMMTHELIMITATIONISTHATITDISSEVERSTHERELATIONSHIPAMONGWORDSANDNEGLECTSTHEINFLUENCEOFTHECONTEXTONCURRENTWORDTHROUGHTHEIMPROVEDHMMTHEPRECISIONANDRECALLOFTHELOCATIONENTITIESHAVEBEENRAISEDATTHESAMETIME,ONTHEBASEOFTHEORGANIZATIONENTITIESRECOGNITIONUSINGHMM,THROUGHCONSTRUCTINGTHEONEELEMENTMODELTORECOGNISETHOSEABBREVIATIVEANDUNMARKEDORGANIZATIONSTHEEXPERIMENTSDEMONSTRATETHATITHASOBTAINEDBETTERPERFORMANCEKEYWORDSINFORMATIONEXTRACTION,NAMEDENTITYRECOGNITION,THEHIDDENMARKOVMODEL,LIMITATION,ONEELEMENTMODELII西北大學(xué)學(xué)位論文知識產(chǎn)權(quán)聲明書本人完全了解西北大學(xué)關(guān)于收集、保存、使用學(xué)位論文的規(guī)定。學(xué)校有權(quán)保留并向國家有關(guān)部門或機構(gòu)送交論文的復(fù)印件和電子版。本人允許論文被查閱和借閱。本人授權(quán)西北大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。同時授權(quán)中國科學(xué)技術(shù)信息研究所等機構(gòu)將本學(xué)位論文收錄到中國學(xué)位論文全文數(shù)據(jù)庫或其它相關(guān)數(shù)據(jù)庫。保密論文待解密后適用本聲明。學(xué)位論文作者簽名壺11壘指導(dǎo)教師簽名07年易月,掃1年吖月7日西北大學(xué)學(xué)位論文獨創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成果。據(jù)我所知,除了文中特別加以標(biāo)注和致謝的地方外,本論文不包含其他人已經(jīng)發(fā)表或撰寫過的研究成果,也不包含為獲得西北大學(xué)或其它教育機構(gòu)的學(xué)位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻(xiàn)均已在論文中作了明確的說明并表示謝意。學(xué)位論文作者簽名L念汐7年易月,日HTTP/INFO3DOUCOM/網(wǎng)絡(luò)推廣西北大學(xué)碩十學(xué)位論文11研究背景與意義第一章引言隨著INTEMET技術(shù)的發(fā)展,大量的信息以電子文檔的方式出現(xiàn),而且信息數(shù)量每天都以幾何級數(shù)激增,使得人們想從網(wǎng)上獲取需要的信息日趨困難。那么面對這些海量的數(shù)據(jù),人們?nèi)绾尾拍芸焖贉?zhǔn)確的獲取自己需要的信息成為目自I信息技術(shù)的主要挑戰(zhàn)。信息抽取IEINFORMATIONEXTRACTION技術(shù)正是在這個背景下出現(xiàn)的。在WWW上,同一主題的信息通常分散存放在不同網(wǎng)頁上,而且表現(xiàn)的形式也各不相同。信息抽取的任務(wù)就是把文本里那些非結(jié)構(gòu)化及半結(jié)構(gòu)化的信息變成結(jié)構(gòu)化的組織形式。所以WEB信息抽取技術(shù)就成為當(dāng)前的研究熱點問題口】。在實現(xiàn)信息抽取過程中,命名實體的識別是一項具有關(guān)鍵作用的技術(shù)之一。計算機語言學(xué)所研究的命名實體是指句子中有確定含義的名詞。中文命名實體CHINESENAMEDENTITY,NE識別是指識別出文本中這些特定的實體。它在信息抽取、自動問答、機器翻譯和信息檢索等多種自然語言處理技術(shù)中起著至關(guān)重要的作用,是這些技術(shù)實現(xiàn)的基礎(chǔ)。由于命名實體是信息的主要載體而且包含了文本中重要信息,因此能否高質(zhì)量高效率地識別這些命名實體成為影響信息抽取的關(guān)鍵環(huán)節(jié)。一方面,文本中頻繁出現(xiàn)的命名實體是制約提高分詞精度最主要的原因,其識別的好壞將直接影響分詞精度以及其后的詞性標(biāo)注和句法分析的精度;另一方面,命名實體的識別也是漢語分詞的關(guān)鍵問題和熱點問題。因此研究命名實體的識別具有重要的理論意義和實踐價值【3】。12國內(nèi)外研究現(xiàn)狀信息抽取中的命名實體識別是一類特殊的模式識別問題。近年來國內(nèi)外有關(guān)這一問題的研究非?;钴S。由美國國防高級研究計劃委員會資助的消息理解系列會議MUCMESSAGEUNDERSTANDINGCONFERENCE,從1987年開始到1998年共舉行了七屆。在1995年9月舉行的第六屆MUC會議中,引入了命名實體識別評測任務(wù),主要包含中文、英文和同文等三個語種的評測。在1998年召開的MUC7中命名實體被分成人名PERSON、地名LOCATION、機構(gòu)名ORGANIZATION、日期DAM、時間TIME、百分?jǐn)?shù)PERCENTAGE和貨幣第一章引言MONETARYVALUE等七類TLL【5】。國外對于英文命名實體識別的研究開始比較早。英文命名實體的識別主要采用基于統(tǒng)計模型和機器學(xué)習(xí)的方法。英文命名實體的識別中只需考慮詞本身的特征而不涉及分詞問題,因此實現(xiàn)難度相對較低,目前已經(jīng)達(dá)到了一個較高的水平。根據(jù)IVIUC評測結(jié)果,測試的準(zhǔn)確率和召回率可以達(dá)到97左右【5】。中文命名實體識別起步較晚和中文內(nèi)在的特殊性兩方面的原因?qū)е轮形拿麑嶓w識別的水平相對于國外顯得比較落后。中文內(nèi)在的特殊性決定了在文本處理時首先必須進(jìn)行詞法分析,這就加大了中文命名實體識別的難度。國內(nèi)外關(guān)于中文命名實體識別的準(zhǔn)確率和召回率的報告一般在90左右。20世紀(jì)90年代初期開始,國內(nèi)外一些學(xué)者對中文通用命名實體如地名、人名、組織結(jié)構(gòu)名等識別進(jìn)行了一些研究。如清華大學(xué)的孫茂松是國內(nèi)最早做中文人名識別的,他主要采用統(tǒng)計的方法計算姓氏和人名用字概率。復(fù)旦大學(xué)的吳立德對中文人名、組織機構(gòu)名的識別進(jìn)行過研究,他們采用的都是統(tǒng)計或規(guī)則的方法,或者是統(tǒng)計和規(guī)則相結(jié)合的方法,取得了不錯的效果。INTEL中國研究中心的ZHANGYIMIN和ZHOUJOEF等人在ACL2000上演示了他們開發(fā)的一個抽取中文命名實體以及這些實體間相互關(guān)系的信息抽取系統(tǒng),該系統(tǒng)利用基于記憶的學(xué)習(xí)MBL,MEMORY,BASED1E刪NG算法獲取規(guī)則用以抽取命名實體及它們之間的關(guān)系【6】【71。13本文的內(nèi)容安排WEB信息抽取的一個直接應(yīng)用就是幫助人們在海量的數(shù)據(jù)中找到自己需要的信息。而實現(xiàn)這一目標(biāo)的關(guān)鍵技術(shù)就是如何快速準(zhǔn)確地進(jìn)行命名實體識別。本課題研究了中文命名實體識別的方法在WWW中抽取中華名人有關(guān)信息中的應(yīng)用,幫助人們快速準(zhǔn)確地將分散在不同動態(tài)網(wǎng)頁中中華名人的有關(guān)信息抽取出來。在目前信息抽取的研究中,對于命名實體識別的研究仍然是一個有待進(jìn)一步完善和提高的關(guān)鍵技術(shù)。雖然目前已經(jīng)有大量的關(guān)于命名實體識別方法的研究,但是沒有哪一種方法在所有類別的命名實體識別中都取得很高的準(zhǔn)確率和召回率,各種方法在識別不同類別的命名實體時都有其自身的缺陷,甚至同一種方法在不同的應(yīng)用領(lǐng)域都表現(xiàn)出不同的識別效果。因此在具體應(yīng)用中我們需要采取適當(dāng)?shù)霓k法彌補這些方法的不足從而提高識別的準(zhǔn)確率和召回率。2HTTP/INFO3DOUCOM/網(wǎng)絡(luò)推廣西北人學(xué)碩十學(xué)位論文本課題以從若干有關(guān)于名人傳記的網(wǎng)頁中抽取出名人的姓名、籍貫以及所在的機構(gòu)為例研究中文命名實體中人名、地名和機構(gòu)名的識別方法及其具體應(yīng)用。在中文命名實體中數(shù)字、日期和時間等命名實體,結(jié)構(gòu)特征明顯,識別相對簡單,利用有限自動機就可以實現(xiàn)并取得較好的識別效果,本文對此不再做專門的討論。在人名實體識別中,本文按照人名的內(nèi)部組成規(guī)律將入名實體分類,主要采取概率統(tǒng)計的方法進(jìn)行識別,為了彌補單一概率統(tǒng)計方法的不足,借助劃分的人名類別構(gòu)造出相應(yīng)的規(guī)則,然后按照規(guī)則匹配來進(jìn)行識別,取得了較好的識別效果。在地名實體識別中,主要采用了構(gòu)造地名識別的規(guī)則與隱馬爾科夫統(tǒng)計模型相結(jié)合的識別方法,同時指出傳統(tǒng)的隱馬爾科夫模型割裂了詞與詞之間的關(guān)系,忽略了上下文對當(dāng)前詞影響的弊端,改進(jìn)后的模型考慮到了前后若干詞字對當(dāng)前詞的影響,有助于對句子的正確切分和詞性標(biāo)注從而提高了識別的準(zhǔn)確率和召回率。在機構(gòu)名的識別中,在利用基于隱馬爾科夫統(tǒng)計模型的識別方法基礎(chǔ)上還構(gòu)建了一元模型,從而實現(xiàn)了對那些縮寫的以及沒有標(biāo)志詞的機構(gòu)名實體的識別,實驗證明取得了更好的識別效果。14本文結(jié)構(gòu)安排本文主要分為五章,各章節(jié)的內(nèi)容安排如下第一章引言部分。介紹本課題的研究背景與國內(nèi)外的發(fā)展現(xiàn)狀,指出本課題的研究內(nèi)容及意義。第二章信息抽取與中文命名實體識別。闡述有關(guān)信息抽取技術(shù)和命名實體識別。本文從信息抽取開始,引出信息抽取中的關(guān)鍵技術(shù)即命名實體的識別,闡述了中文命名實體識別的特點、難點及其常用的方法,并且給出了常用的語言模型。第三章基于規(guī)則與統(tǒng)計相結(jié)合的中文人名的識別及應(yīng)用。以從有關(guān)于名人傳記的WEB頁面中識別名人的姓名以及與他們相關(guān)的人名為例,闡述了基于規(guī)則與統(tǒng)計相結(jié)合的人名的識別方法及其在實際信息抽取中的應(yīng)用。本文按照人名的內(nèi)部組成規(guī)律將人名實體分類,主要采取概率統(tǒng)計的方法進(jìn)行識別,為了彌補單一概率統(tǒng)計方法的不足,借助劃分的人名類別夠造出相應(yīng)的規(guī)則,然后按照規(guī)則匹配來進(jìn)行識別。通過對測試數(shù)掘和語料庫的試驗測試,該方法取得了較好的識別效果。第四章基于規(guī)則和統(tǒng)計相結(jié)合的地名的識別及應(yīng)用。以從有關(guān)于名人傳記的WEB3第一章引言頁面中識別名人的籍貫及與其有關(guān)的地名為例,闡述基于規(guī)則和統(tǒng)計相結(jié)合的地名實體的識別方法及應(yīng)用。本章主要采用了構(gòu)造地名識別規(guī)則與隱馬爾科夫統(tǒng)計模型相結(jié)合的識別方法,指出傳統(tǒng)的隱馬爾科夫模型割裂了詞與詞之間的關(guān)系,忽略了上下文對當(dāng)前詞影響的弊端,改進(jìn)后的模型考慮到了前后若干詞字對當(dāng)前詞的影響,有助于提高識別的準(zhǔn)確率和召回率。第五章基于統(tǒng)計的中文機構(gòu)名的識別及應(yīng)用。以從有關(guān)于名人的WEB頁面中識別出與名人相關(guān)的單位機構(gòu)名為例闡述機構(gòu)名的識別方法在現(xiàn)實問題中的應(yīng)用。本章在利用基于隱馬爾科夫統(tǒng)計模型的識別方法基礎(chǔ)上還構(gòu)建了一元模型,從而實現(xiàn)了對那些縮寫的和沒有標(biāo)志詞的機構(gòu)名實體的識別,在一定程度上彌補了采用單一統(tǒng)計模型在識別過程中的不足。最后是結(jié)束語??偨Y(jié)本課題的研究工作,并指出未來工作的進(jìn)一步研究以及發(fā)展前景。4HTTP/INFO3DOUCOM/網(wǎng)絡(luò)推廣西北人學(xué)碩十學(xué)位論文第二章信息抽取與中文命名實體識別21信息抽取IE,INFORMATIONEXTRACTION211WEB信息抽取概述文本是網(wǎng)上信息的主要載體。人們要從這些海量的文本數(shù)據(jù)中快速準(zhǔn)確地找到自己需要的數(shù)據(jù)就迫切需要通過信息抽取從中進(jìn)行篩選。WEB的信息抽取和瀏覽器上的信息檢索和查詢有著本質(zhì)上的差異,并且處理信息的粒度也不相同?,F(xiàn)有的搜索引擎只能根據(jù)用戶提交的關(guān)鍵詞返回一組URLS而不能直接定位到所需的數(shù)據(jù),用戶必須逐一瀏覽URL對應(yīng)的WEB頁,采用人工的方式定位最終信息,而信息抽取的目標(biāo)是把HTML文檔中的半結(jié)構(gòu)化文本信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式并將它們轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),并且保存數(shù)據(jù)庫中【81。WEB信息抽取系統(tǒng)就可以看作是把信息從不同文檔中轉(zhuǎn)換成數(shù)據(jù)庫記錄的系統(tǒng)。212信息抽取技術(shù)的發(fā)展信息抽取的前身是文本理解。它最早開始于20世紀(jì)60年代中期,從自然語言文本中獲取結(jié)構(gòu)化信息,這被看作是IE技術(shù)的初始研究。八十年代以來,美國政府一直支持MUC對信息抽取技術(shù)進(jìn)行評測。MUC會議使IE發(fā)展成為自然語言處理領(lǐng)域一個重要分支I6】。過去的十年,IE研究取得了豐碩的研究成果【91。通過MUC現(xiàn)有的技術(shù)水平,我們已有能力建造全自動的IE系統(tǒng),在有些方面的性能已經(jīng)達(dá)到了人類專家的水平。目前,信息抽取的研究重點主要集中在英文領(lǐng)域,日文的研究也有一部分,而且大部分的研究都是圍繞書面文本。213信息抽取技術(shù)的分類WEB信息抽取技術(shù)有多種分類方式,根據(jù)自動化程度可以分為人工方式的信息抽取、半自動方式的信息抽取和全自動方式的信息抽取。根據(jù)各種工具所采用的原理不同,可分為五類基于自然語言處理方式的信息抽取、基亍OMOLOGY方式的信息抽取、基于包裝器歸納方式的信息抽取、基于HTML結(jié)構(gòu)的信息抽取和基于WEB查詢的信息抽取【LO】【LL】1121131141。1、基于自然語言處理方式的信息抽取基于自然語言理解的信息抽取技術(shù)是將WEB文檔視為文本進(jìn)行處理的。這種方式5第二章信息抽取與中文命名實體識別是先將文本分解成多個句子,然后對這些句子成分進(jìn)行標(biāo)記,最后將得到的語法結(jié)構(gòu)與定制的規(guī)則進(jìn)行匹配,從而獲得句子的內(nèi)容。這些規(guī)則可以由人工編制,也可從人工標(biāo)注的語料庫中自動學(xué)習(xí)獲得。但是由于抽取規(guī)則的表達(dá)能力有限,因此缺乏健壯性,要獲取有效規(guī)則需要進(jìn)行大量學(xué)習(xí),另外這種方法不支持復(fù)雜對象的抽取,所以適用范圍有限。本文的應(yīng)用對象也是包含大量文本的網(wǎng)頁,同樣也要將這些文本中的句子進(jìn)行切分,然后進(jìn)行詞性標(biāo)注。不同的是,本文并不僅僅只采用制定有效規(guī)則的來實現(xiàn)信息抽取,而是在構(gòu)造抽取規(guī)則的同時引入了統(tǒng)計模型,通過計算概率來彌補基于自然語言處理進(jìn)行信息抽取的不足。2、基于ONTOLOGY方式的信息抽取這種由BRIGHAMYONGUNIVERSITYBYU提出的信息抽取方法主要是利用對數(shù)據(jù)本身的描述信息實現(xiàn)抽取,這種方式對網(wǎng)頁結(jié)構(gòu)依賴少。但是需要事先由知識專家采用人工的方式書寫某一應(yīng)用領(lǐng)域ONTOLOGY【LL】。并且根據(jù)ONTOLOGY中的信息產(chǎn)生一系列抽取規(guī)則。系統(tǒng)根據(jù)邊界分隔符和啟發(fā)信息將源文檔分割為多個無結(jié)構(gòu)的文本塊,通過抽取規(guī)則對這些文本塊進(jìn)行抽取,最后將抽取的結(jié)果放入數(shù)據(jù)庫中。雖然對網(wǎng)頁依賴較少,但是增加了對網(wǎng)頁中內(nèi)容數(shù)據(jù)結(jié)構(gòu)的要求,同時不支持超鏈接。另一方面,要創(chuàng)建該領(lǐng)域的詳細(xì)清晰的ONTOLOGY,工作量很繁重。3、基于包裝器歸納方式的信息抽取由NICHOLASKUSHMERICK于1996年提出的基于包裝器歸納方式的信息抽取的主要思想是采用歸納式學(xué)習(xí)方法生成抽取規(guī)則自動分析出待抽取信息在網(wǎng)面中的結(jié)構(gòu)特征并實現(xiàn)抽取。包裝器由一系列的抽取規(guī)則以及應(yīng)用這些規(guī)則的程序代碼組成。由于包裝器有很強的針對性和對網(wǎng)頁結(jié)構(gòu)很強的依賴性,自然缺少可擴(kuò)展性和可重用性。4、基于HTML結(jié)構(gòu)的信息抽取該類信息抽取技術(shù)的特點是根據(jù)WEB頁面的結(jié)構(gòu)定位信息。在信息抽取之前通過解析器將WEB文檔解析成語法樹,通過自動或半自動的方式產(chǎn)生抽取規(guī)則從而將信息抽取轉(zhuǎn)化為對語法樹的操作從而實現(xiàn)信息抽取。5、基于WEB查詢的信息抽取上述的四種抽取方式,采用了不同的原理,抽取規(guī)則的形式和信息定位方式也各不6HTTP/INFO3DOUCOM/網(wǎng)絡(luò)推廣兩北大學(xué)碩十學(xué)位論文相同,因此均不具有通用性。使用WEB的相關(guān)技術(shù)解決WEB的問題稱為WEB技術(shù)規(guī)范。具有WEB技術(shù)規(guī)范的信息抽取,將WEB信息抽取轉(zhuǎn)化為使用標(biāo)準(zhǔn)的WEB查詢語言對WEB文檔的查詢,具有通用性。本文中實體識別的應(yīng)用對象是有關(guān)名人傳記網(wǎng)頁中的文本。要識別出文本中的命名實體首先要將文本中的句子經(jīng)過詞語切分,然后進(jìn)行詞性標(biāo)注。一方面,根據(jù)識別對象制定相應(yīng)的抽取規(guī)則。另一方面,利用統(tǒng)計模型計算識別對象對應(yīng)于該類別的生成概率。然后進(jìn)行模式匹配從而識別出文本中特定的命名實體,實現(xiàn)信息抽取。這種規(guī)則與統(tǒng)計相結(jié)合的抽取方法既克服了要書寫大量有效規(guī)則而且規(guī)則的表達(dá)能力有限的弊端,又可以通過基于統(tǒng)計模型的概率計算來減少規(guī)則的復(fù)雜性與盲目性,因而這種規(guī)則與統(tǒng)計相結(jié)合的識別方法在具體實踐中得到了廣泛的應(yīng)用。214信息抽取中的關(guān)鍵技術(shù)1、命名實體識別命名實體是文本中基本的信息元素。命名實體識別就是要判斷一個文字串是否代表一個命名實體,并確定它的類別。識別這些命名實體是正確理解文本的基礎(chǔ)。目前,中文信息抽取的主要工作就集中在中文命名實體的識別方面。命名實體識別是自然語言處理中最有實用價值也是最關(guān)鍵的一項技術(shù)。2、句法分析需要抽取的信息通常只是某一領(lǐng)域中數(shù)量有限的事件或關(guān)系。因此文本中可能只有4,部分與抽取任務(wù)有關(guān)。并且對于每一個句子,并不需要得到它的完整的結(jié)構(gòu)表示,只要識別出部分片段間的某些特定關(guān)系就行了。通過句法分析得到輸入的某種結(jié)構(gòu)表示,如完整的分析樹或分析樹片段集合,這是計算機理解自然語言的基礎(chǔ)。3、篇章分析與推理一般說來,用戶關(guān)心的事件和關(guān)系往往散布于文本的不同位置,其中涉及到的實體也有多種不同的表達(dá)方式,并且還有許多事實信息隱含于文本之中。為了準(zhǔn)確無遺漏地從文本中抽取相關(guān)信息,信息抽取系統(tǒng)必須能夠識別文本中的共指現(xiàn)象,進(jìn)行必要的推理,以合并描述同一事件或?qū)嶓w的信息片段。因此,篇章分析、推理能力對信息抽取系統(tǒng)來說是必不可少的。在文本來源比較廣泛的情況下,很可能有多篇文本描述了同一個事件、同一個實體,不同文本間還會存在語義歧義,如相同的詞有不同的含義、不同的7第二章信息抽取與中文命名實體識別詞代表一個意思。因此信息抽取系統(tǒng)除了要解決文本內(nèi)的共指問題外,還需要解決文本間的跨文本的共指問題。為了避免信息的重復(fù)、沖突,信息抽取系統(tǒng)需要有識別、處理這些現(xiàn)象的能力。由MUC6和MUC7對信息抽取系統(tǒng)部分篇章處理能力即指稱短語的共指消解的評測結(jié)果看,篇章處理能力是目前信息抽取系統(tǒng)的弱項,是一個瓶頸,急需深入研究與改進(jìn)【15】。4、知識獲取作為一種自然語言處理系統(tǒng),信息抽取系統(tǒng)需要強大知識庫的支撐。在不同的信息抽取系統(tǒng)中知識庫的結(jié)構(gòu)和內(nèi)容自然也是不同的。要實現(xiàn)抽取,開發(fā)者必須要為不同的系統(tǒng)編制大量的對應(yīng)于該領(lǐng)域的知識,不但費時費力,而且只有具備專業(yè)知識的人員才能勝任這種工作。另一方面,人工編制的知識庫很難達(dá)到很高的語言覆蓋面。因此,知識獲取問題除了影響系統(tǒng)的可移植性外,也是影響系統(tǒng)性能的主要因素,已經(jīng)成為制約信息抽取技術(shù)廣泛應(yīng)用的一個主要障礙【151。22中文命名實體識別。221命名實體識別的任務(wù)根據(jù)MUC的定義,命名實體被分成了七類。命名實體的確切含義,只能根據(jù)具體應(yīng)用來確定。命名實體識別就是判斷文本中的一個字符串是否代表一個命名實體,并確定它的類別。命名實體識別中人名、地名、機構(gòu)名是最難識別的三類。下文以從有關(guān)名人傳記的網(wǎng)頁中識別出人名、地名和機構(gòu)名為例來講述命名實體識別的研究與應(yīng)用。222中文命名實體識別的特點及難點1、中文命名實體識別的特點由于中文內(nèi)在的語言特點,使得中文命名實體識別不同于英文。中文文本中沒有明顯的切分標(biāo)記,因而在進(jìn)行中文處理時,就必須要面對分詞的問題。例如“云克咧去商場了“和致剛?cè)ド虉隽藘蓚€句子中,對詞的切分會影響識別結(jié)果。另外,中文命名實體和普通詞一樣,而且常包含其他普通詞,增加識別的難度。比如“民主大街”和“爭取民主”。詞語“民主”在前一個短語中表示地名,而在后一個短語中它則是名詞,意義相差很遠(yuǎn)。2、中文命名實體識別的難點8HTTP/INFO3DOUCOM/網(wǎng)絡(luò)推廣兩幻K學(xué)碩十學(xué)位論文由于中文語法及詞法自身的特點決定了識別的難度較大。其難點在于15】110】FL6】1在不同的領(lǐng)域和場景下,命名實體的外延有差異例如“今天,這個景區(qū)迎來了第一個旅游高峰”,這里的“高峰”是名詞,表示頂峰。“高峰是個不錯的學(xué)生”,這里的“高峰”是人名。同樣的詞在不同的場景中含義截然不同。2中文命名實體的數(shù)量巨大,不能枚舉3實體的名稱變化頻繁而且表達(dá)形式多種多樣,沒有嚴(yán)格的規(guī)律可以遵循;4還有一些實體在首次出現(xiàn)后往往采用縮寫形式。223中文命名實體識別的方法中文命名實體的識別方法大體上可分為三類基于規(guī)則的方法、基于統(tǒng)計的方法和統(tǒng)計與規(guī)則相結(jié)合的方法。后兩種方法目前占主導(dǎo)地位。L、基于規(guī)則的方法基于規(guī)則的方法是指通過分析命名實體的內(nèi)部和外部特征,人工構(gòu)造規(guī)則模板然后通過規(guī)則匹配來實現(xiàn)不同類型的命名實體的識別。這種方法在小規(guī)則中測試準(zhǔn)確率較高而且速度快。但是單一的基于規(guī)則的方法在實際應(yīng)用中有很大的局限性。一方面,規(guī)則覆蓋率有限,因此可移植性較差另一方面,只有在不同領(lǐng)域的語言專家深入理解語言知識的基礎(chǔ)上才能編寫及構(gòu)造正確規(guī)則,因此需要很大的人力物力。比如紐約大學(xué)的PROTEUS系統(tǒng)【17】等。2、基于統(tǒng)計的方法基于統(tǒng)計的方法主要是利用標(biāo)注語料庫來訓(xùn)練某個字作為命名實體組成部分的概率,并用它們來計算某個候選字段作為命名實體的概率值,若大于某一閾值,則識別為該命名實體。與規(guī)則方法相比,基于統(tǒng)計的方法具有更好的健壯性和靈活性,且實現(xiàn)的代價較小,便于移植。目前,越來越多的統(tǒng)計模型被用于命名實體識別,比如隱馬爾科夫模型、最大熵模型等。本文中的機構(gòu)名實體識別就采用基于統(tǒng)計模型的識別方法。在利用基于隱馬爾科夫統(tǒng)計模型的識別方法基礎(chǔ)上還構(gòu)建了一元模型,從而實現(xiàn)了對那些縮寫的以及沒有標(biāo)志詞的機構(gòu)名實體的識別。實驗證明取得了較好的識別效果。3、統(tǒng)計與規(guī)則相結(jié)合的方法單一的基于統(tǒng)計的方法受語料庫規(guī)模的約束,對于語料庫中的命名實體識別效果不9第二章信息抽取與中文命名實體識別錯。但語料庫外的實體識別的準(zhǔn)確率和召回率將受到較大的影響。單一的基于規(guī)則的方法準(zhǔn)確率較高,但是由于受規(guī)則的約束,召回率普遍較低。利用規(guī)則與統(tǒng)計相結(jié)合的方法,一方面通過概率計算來減少規(guī)則方法的復(fù)雜性與盲目性,另一方面通過規(guī)則的復(fù)用來降低統(tǒng)計方法對大規(guī)模語料庫的要求。本文中的人名識別和地名識別中,都采用規(guī)則與統(tǒng)計相結(jié)合的方法。在人名識別中,按照人名的內(nèi)部組成規(guī)律將人名實體分類,在采取概率統(tǒng)計的方法進(jìn)行識別的同時,借助于構(gòu)造相應(yīng)的規(guī)則,然后按照規(guī)則匹配來進(jìn)行補充識別,取得了較好的識別效果。在地名識別中根據(jù)地名出現(xiàn)的語境構(gòu)造其內(nèi)部和外部規(guī)則實現(xiàn)簡單地名的抽取,對于那些復(fù)合的和隱含的地名采取基于統(tǒng)計模型的方法進(jìn)行識別,從而彌補規(guī)則的有限性。224語言模型本文中用到的統(tǒng)計模型是一種語言模型。語言模型LANGUAGEMODEL是描述自然語言內(nèi)在規(guī)律的數(shù)學(xué)模型。語言模型可分為傳統(tǒng)的文法型語言模型和基于統(tǒng)計的語言模型?;诮y(tǒng)計的語言模型通常是概率模型。計算機借助于統(tǒng)計語言模型的概率參數(shù),可以估計出自然語言中每個句子出現(xiàn)的可能性,從而描述自然語言的統(tǒng)計屬性。例如在本文的人名、地名和機構(gòu)名實體的識別中用到的馬爾可夫模型刪、隱馬爾可夫模型HMM、N元模型等。在本文中,由于傳統(tǒng)的隱馬爾可夫模型只考慮詞本身的發(fā)生概率而忽視了上下文對當(dāng)前詞的影響和詞之間的聯(lián)系,很容易造成詞的錯誤切分進(jìn)而造成錯誤識別,因此還介紹了改進(jìn)的隱馬爾科夫模型,通過它來彌補傳統(tǒng)的該模型的這一弊端。1、馬爾科夫模型MM,MARKOVMODEL統(tǒng)計模型的基本假設(shè)是自然語言可以用隨機過程來刻畫,而隨機過程中的參數(shù)可以精確地估計。俄國化學(xué)家MARKOVNIKOV于1870年提出的馬爾科夫MARKOV模型,是一種描述隨機變量序列信息的統(tǒng)計模型F18】。在該統(tǒng)計模型中,每一個狀態(tài)轉(zhuǎn)換都有一個相應(yīng)的概率。如果一個系統(tǒng)有N個狀態(tài)SL,S2,SN,隨著時間的推移,該系統(tǒng)從某一狀態(tài)轉(zhuǎn)移到另一狀態(tài),我們將在時間T的狀態(tài)記為Q。對該系統(tǒng)的描述通常需要給出系統(tǒng)的當(dāng)前狀態(tài)時間為T的狀念及其之前的所有狀念系統(tǒng)在時間T處于狀念S的概率取決于其在時間L,2,T1的狀念【13】,該概率為10HTTP/INFO3DOUCOM/網(wǎng)絡(luò)推廣西北大學(xué)碩士學(xué)位論文PQ,S,IQ,LS,Q,2SK,公式21如果在特定情況下,系統(tǒng)在時間T的狀態(tài)只與其在時間T1的狀態(tài)相關(guān),則該系統(tǒng)構(gòu)成一個離散的一階馬爾科夫鏈PQ,SLQ,1S,Q,_2S”。PQ,SLQ,_1S,公式22進(jìn)一步,我們只考慮獨立于時間T的隨機過程PQ,SJQ,_1S,AIJ,I1,歹N公式23該隨機過程為馬爾科夫模型。其中狀態(tài)轉(zhuǎn)移概率粕必須滿足馬爾科夫模型是描述隨機過程的統(tǒng)計學(xué)習(xí)方法。它提供了一種基于訓(xùn)練數(shù)據(jù)的概率而自動構(gòu)造識別系統(tǒng)的技術(shù),被廣泛應(yīng)用到自然語言處理的各個領(lǐng)域,成為基于統(tǒng)計的自然語言處理的重要方法,是自然語言處理領(lǐng)域的重要成果之一。2、隱馬爾科夫模型HMM,HIDDENMARKOVMODEL隱馬爾科夫模型【13】是一雙重隨機過程。該模型中,觀察到的事件是狀態(tài)的隨機函數(shù)。模型的狀態(tài)轉(zhuǎn)移過程是不可觀察隱蔽的,我們只能看到各時刻的輸出值。HMM可以用一個五元組來表示S,K,兀,A,B,其中SS1,SM表示狀態(tài)的有限集合;KKI,KN表示觀察序列;兀兀I,IS表示初始狀態(tài);A_AIJ,I、JS表示從狀態(tài)SI到狀態(tài)SJ的轉(zhuǎn)移概率;BBIK,IS,KEK表示從狀態(tài)SI觀察到KJ的輸出概率。假設(shè)長度為L的觀測序列為O01,OC,在模型PS,K,兀,A,B下,對應(yīng)隨機狀態(tài)XX1,XL為一個由L個隨機變量組成的隨機過程,即隱藏狀態(tài)序列。在隱馬爾科夫模型P下,該狀態(tài)序列的發(fā)生概率可表示為,|PJIO,尸X。LD,兀PX,XID,Z公式24J1VITERBI算法求解過程實際上就是在給定的HMM中,已知觀測序列O,采用VITERBI算法求出最優(yōu)的狀態(tài)序列。當(dāng)前位置在莉個節(jié)點時,隱藏狀態(tài)為I的概率萬,MAX尸X1Z,1,01O,】,X,WFI公式25V口盧且0一一矽口第二章信息抽取與中文命名實體識另IJ1、8,0萬I262、TF1MAX,TAB講,1I,1。L膏曼NO,3、存儲BEST過程哆U1LMS女ASXN8,TAJ,6J七,1F,14、如果未結(jié)束轉(zhuǎn)到2,否則轉(zhuǎn)到55、得到緲MAX6FT1,1IN3、改進(jìn)的隱馬爾科夫模型公式26公式27公式28公式29傳統(tǒng)的隱馬爾科夫模型是基于后一個狀態(tài)依賴于前一個狀態(tài)及當(dāng)前事件的假設(shè),僅僅考慮了當(dāng)前詞對當(dāng)前標(biāo)注的影響,只在此詞性上尋找詞之問的聯(lián)系而忽略了上下文對于該詞的直接影響。J下是由于沒有考慮當(dāng)前詞與上下文的相關(guān)性,因此很容易導(dǎo)致分詞錯誤,進(jìn)而造成詞性標(biāo)注和實體識別的錯誤。在HMM中,觀察事件的隨機過程是隱藏狀態(tài)轉(zhuǎn)換的隨機函數(shù),對應(yīng)于HMM模型中狀態(tài)到事件的輸出概率矩陣BIK。假設(shè)觀測事件是受其前后的N個狀態(tài)的影響,是這N個狀態(tài)的隨機函數(shù)。同樣,一個隱藏狀態(tài)對其前后N個觀測事件產(chǎn)生影響。假設(shè)隱藏狀態(tài)的影響空間N2SL,前后窗口為2S1個事件影響,分別為前S個狀態(tài),當(dāng)前事件和后S個狀態(tài)。觀測序列為OOL,OL,在模型肚下,隱臧狀態(tài)序列為XXL,XL該狀態(tài)序列的發(fā)生概率可表示為L尸XLO,PX,O,兀PX,IX,D,公式210查找最可能的計算路徑,即ARGMAXPX0,。當(dāng)隨機事件序列0確定后求最大值A(chǔ)RGM,AXPX,D陋。本文假設(shè)當(dāng)前狀態(tài)受前后N22S1個事件OISOIS、的影響,利用VIERBI算法計算最佳狀態(tài)序列,將VIERBI算法中的第二步轉(zhuǎn)化為下面的形式4F1MAX6JTAB地公式2116成Z包鈾木棗ZL九木術(shù)五川眈加公式21212HTTP/INFO3DOUCOM/網(wǎng)絡(luò)推廣西北火學(xué)碩學(xué)位論文石吖南ZLBI量BIK六州包。脅,南公式213公式214公式215與傳統(tǒng)的HMM相比,改進(jìn)后的HMM是針對當(dāng)前狀態(tài)的前后多個事件作輸出。在這個模型中除了考慮詞本身特性以外還考慮到上下文對該詞的影響,有助于進(jìn)行J下確的分詞和詞性標(biāo)注,從而提高了命名實體識別的準(zhǔn)確度【31。4、N元模型N元模型是一種典型的基于統(tǒng)計的模型。可以用來統(tǒng)計在給定詞組序列WLW2W。作為句子存在的概率PWP形尸WLW2PW1尸W2W1PW3WW2尸IWLW2川公式216PWNIWLW2WN。1表示詞組串WLW2WN1后跟上詞組WN的概率。在N元模型中,它假設(shè)一個單詞出現(xiàn)的概率分布只與這個單詞前面的N1個單詞有關(guān),而與更早出現(xiàn)的單詞無關(guān)。這樣,為了描述這個概率分布,我們需要使用一個N維數(shù)組,其中元素AN的含義為在單詞串WIW2WNI后面出現(xiàn)單詞WN的概率,也就是PWNLWIW2WN1。如果我們使用一元模型即N1,也就是說每個詞出現(xiàn)的概率只與其本身有關(guān),那么該詞的概率就是它出現(xiàn)的頻次,參數(shù)就等于總的單詞個數(shù)這里假設(shè)為X。當(dāng)使用二元模型即N2時,那么每個詞的出現(xiàn)概率依賴于它前一個詞的出現(xiàn)概率。這時就構(gòu)成了一階馬爾科夫鏈,參數(shù)個數(shù)就是X2。以此看來可以通過N的值來描述長距離的語言約束關(guān)系,但是同時隨著N的增長,該模型的參數(shù)呈N的指數(shù)性增長,所以在實際應(yīng)用中,一般取N元凱現(xiàn)北京南洋顧問有限公司總裁,曾任教于節(jié)中國科技大學(xué),還曾擔(dān)任安徽省教委主任、全國人人主席團(tuán)成員。他憑借在化學(xué)方面杰出的成就晉升為當(dāng)時中國最年輕的教授。1977年8,Q,向剛剮復(fù)出只有幾天的鄧小平同志提出恢復(fù)全國高考和出國留學(xué)制度,使千百萬有志青年進(jìn)入火學(xué)和出國深造。圖L進(jìn)行詞性標(biāo)注后的文本14HTTP/INFO3DOUCOM/網(wǎng)絡(luò)推廣兩北大學(xué)碩十學(xué)位論文第三章基于規(guī)則與統(tǒng)計相結(jié)合的中文人名識別及應(yīng)用在信息抽取的研究中,命名實體的識別起著關(guān)鍵性的作用。目IJI對命名實體的識別方法研究有很多,也取得了很大的進(jìn)展。但是針對不同的應(yīng)用領(lǐng)域,每種方法都有其自身的局限性。因此要根據(jù)實際的應(yīng)用對象,選取合適的識別方法才能取得較好的識別效果。本文主要通過識別若干個關(guān)于名人傳記的網(wǎng)頁中的人名實體來研究基于規(guī)則和統(tǒng)計相結(jié)合的方法在中文人名實體識別中的具體應(yīng)用。31中文人名的識別現(xiàn)狀在MUC中劃分的七類命名實體中,關(guān)于對中文人名的識別研究最多。據(jù)統(tǒng)計,對于中文人名識別的準(zhǔn)確率和召回率都大多達(dá)到了90以上。大多使用了基于統(tǒng)計的方法【24】【251,例女IMILLER的基于HMM的方“澌LBORTHWICH提出利用極大熵實現(xiàn)命名實體識別的方法【2Q等。另外還有基于規(guī)則的方法和采用概率統(tǒng)計和規(guī)則相結(jié)合的方法【27】128】。32中文人名的識別特點和難點1中文人名用字具有很大的任意性,而且是一個丌放的集合,數(shù)量大,范圍廣。因此無論人名詞典如何龐大都不可能用窮舉的辦法將它們完全囊括進(jìn)去。2中文人名中部分姓氏和名字存在兼類現(xiàn)象,還可能與上下文成詞產(chǎn)生歧義。如果不對姓名進(jìn)行特別的處理,許多人名就會被切開,降低識別的準(zhǔn)確率。據(jù)統(tǒng)計由于人名的切分引起的識別錯誤,可以高達(dá)50以上【191。例如軹PER國家罩出了突發(fā)事件。季乎歆尸ER家里出了突發(fā)事件。3中文人名的長短不一,一般由24個漢字組成,而且表現(xiàn)形式多樣。常見的有以下形式1、由姓氏和人名用字組成;如李東、劉海、王建設(shè)、趙和平等。2、由人名|J綴和姓氏組成;如老王、小高等。3、由姓氏和身份簡稱組成;如劉總、宋局等。4、由姓氏和人名后綴稱謂組成如劉老師、張教授等。15第三章基丁規(guī)則與統(tǒng)計相結(jié)合的中文人名識別及應(yīng)用5、省略姓氏;如小明、大寶等。33中文人名的識別方法國內(nèi)進(jìn)行中文命名實體識別主要分為兩個方向一種充分考慮各類命名實體特點,并根據(jù)各種實體的不同特點采用不同的方法進(jìn)行識別;另一種策略采用一體化方法,對命名實體進(jìn)行整體識別。將命名實體按照人名,地名,機構(gòu)名等進(jìn)行劃分,按照識別目的分別進(jìn)行識別的方法在研究中占主導(dǎo)地位【3】。目前,人名識別的方法主要分為兩類基于規(guī)則的方法和基于概率統(tǒng)計的方法。如果單一采用基于概率統(tǒng)計的的方法,對于語料庫內(nèi)的人名識別有較好的效果,但是收集規(guī)模巨大的中文人名庫和真實語料庫是一項巨大又困難的工作。如果僅僅使用基于規(guī)則的辦法,一方面如何提取有效的識別規(guī)則將是影響識別效果的決定性因素,由于受規(guī)則約束,召回率普遍較低;另一方面,從大規(guī)模的語料庫中提取規(guī)則也是一個巨大的費時而且費力的工程。隨著大量已標(biāo)注的實體語料出現(xiàn)和計算機計算速度的大幅度提高,利用機器學(xué)習(xí)方法和規(guī)則相結(jié)合的方法進(jìn)行人名識別成為主流。本文采用規(guī)則和統(tǒng)計互補的方法進(jìn)行識別測試。34基于規(guī)則與統(tǒng)計相結(jié)合的人名識別3。41人名用字詞的結(jié)構(gòu)分析根據(jù)對語料庫的分析,中文人名用詞字在組成結(jié)構(gòu)上看,經(jīng)過總結(jié)可以分為以下幾類1、姓氏人名單字;例如王浩、張三等。2、姓氏人名雙字;例如李和平,王小麗等。3、姓氏人名后綴;例如李教授、宋局長等。4、形容詞姓氏;例如老李、小劉等。5、省略姓氏的人名例如小明、大寶等。根據(jù)對98年1月份人民日報語料庫中中文人名實體的統(tǒng)計F23】91,中文人名實體共計16567個,其中“姓氏人名用字姓氏包含復(fù)姓,人名用字包括單字和雙字“表示的人名一共有15210個,占至LJ9181,“前綴姓氏或姓名”或“姓名或姓氏后綴”表示的人名實體共有714個,占到431,省略姓氏的人名643個,占N388。從統(tǒng)計結(jié)果來看,我們對中文人名的識別重點在“姓氏人名用字“的格式上。16HTTP/INFO3DOUCOM/網(wǎng)絡(luò)推廣西北大學(xué)碩學(xué)位論文342有關(guān)定義對于“姓氏人名用字的格式,我們可以定義為下面兩種格式,分別為“姓氏人名單字“和“姓氏人名雙字“,可以表示為NSCI,NSCIC2,其中N表示人名實體,S表示姓氏,CL表示單字,CLC2表示兩個單字或一個雙字詞。1姓氏的使用概率用PS表示,即啡為姓氏在語料L牢中出現(xiàn)的次數(shù)尸S2麗蜀籜阡作翔甄研僻哼詞邵飄碾形蔽公式3I2CL作為人名用字使用的概率用PN,E1表示,即C1作為人名用字時在語料庫中出現(xiàn)的次數(shù),TLLJ2石茬國腎研霞頂磊雨事耵霸麗蕊麗蹶公式323C2作為人名用字使用的概率用PN,C2表示,即G作為人名用字時在語料庫巾出現(xiàn)的次數(shù)尸C22瓦磊痹阿兩砑函肝稀潭羈可覡勰公式33從姓氏和人名用字的概率,我們可以得到人名產(chǎn)生概率PFN,即對于單字人名來說尸尸S毒EC對于雙字人名來說公式34公式354在“前綴姓名“這種格式例如“經(jīng)理王浩中,該自綴詞字作為人名實體的一部分時的概率為PQZ即PT妒,塑筆煞旒黧糯嬲裂茅堅C公式3剮5在“姓名后綴”這種格式例如“李如德教授”中,該后綴詞字作為人名實體的一部分時的概率為PHZ,即該后綴詞作蔓F人名后綴時在語料庫中出現(xiàn)的次數(shù)PHZ二該而麗雨甄酥W兩雨恧羼盯一公式37將計算出的PN與給定的閾值6經(jīng)過多次對不同語料庫進(jìn)行測試,取閾值60001時效果最好相比,如果大于給定的閾值,則我們認(rèn)為該候選姓名是一個人名實體,反之需要進(jìn)一步采用規(guī)則匹配的方法進(jìn)一步判斷。343識別預(yù)處理17第三章基于規(guī)則與統(tǒng)計相結(jié)合的中文人名識別及應(yīng)用1姓氏和人名用字的統(tǒng)計分析對于中文的姓氏,總體上可以分為兩類,一類是使用概率很小的特殊姓氏,對于這一類人名實體,我們采用規(guī)則的方法。另一類就是使用概率較大的常用姓氏,我們采用概率統(tǒng)計的方式進(jìn)行識別。根據(jù)對98年1月份標(biāo)注的新聞?wù)Z料進(jìn)行了分析統(tǒng)計【9】,其中常用姓氏317個,在這些常用姓氏中有217個姓氏在人名實體中大約占到7223,中文人名用字1376個,其中有598個人名用字出現(xiàn)在人名實體中的概率達(dá)到70以上,另外還有人名前綴371個和人名后綴185個。2姓氏判別在識別“姓氏人名用字這種格式的人名實體時,從文本中識別出姓氏是最關(guān)鍵的一步。但是在實際文本中,并不是所有的姓氏都可以用基于規(guī)則和統(tǒng)計的方法識別出來,因為有一些字在具體的上下文之中并沒有作為姓氏使用,例如句子在“繼黃金周后,這個景區(qū)又迎來了又一個高峰”,這里的“高”雖然在姓氏中也常用,但是根據(jù)語境,在這個句子中它并不能作為一個姓氏。由此看來在識別之前必須作出判斷,不然容易導(dǎo)致識別錯誤。對于很容易與上下文的語境密切相關(guān)的姓氏,如“張、高、段、任、余、尚、賀”等姓氏不管用統(tǒng)計的方法還是規(guī)則的方法都很容易引起錯誤的識別,因此在人名識別時根據(jù)其所處語境判斷該字在文本中是否作為姓氏。例如“任“作為姓氏時,其后不能是“意、何、務(wù)“等字,再比如對于“余”字,其后如果跟“種、元、年、人、萬”等字時,它就不能被識別為姓氏。對于姓氏判別的錯誤往往也是導(dǎo)致識別錯誤的主要原因。344構(gòu)建知識庫1語料庫本文選取由北京大學(xué)計算語言學(xué)研究所和日本富士通公司合作產(chǎn)生的98年1月的人民同報標(biāo)注語料庫。人民日報語料庫從1999年開始,到2002年完成,原始語料取自1998年全年的人民日報,共約2700萬字,到2003年又?jǐn)U充到3500萬字。它是我國第一個大型的現(xiàn)代漢語標(biāo)注語料庫。這個語料庫加工的項目有詞語切分和詞性標(biāo)注,還有專有名詞人名、地名、團(tuán)體機構(gòu)名稱等標(biāo)注、語素子類標(biāo)注、動詞、形容詞的特殊用法標(biāo)注和短語型標(biāo)注。2人名前綴和后綴詞庫18HTTP/INFO3DOUCOM/網(wǎng)絡(luò)推廣兩北大學(xué)碩士學(xué)位論文人名前綴和后綴通常是表示某個人身份的詞或字,一般出現(xiàn)在人名實體的前面或后面。例如“趙磊總經(jīng)理”、“歌星劉德華”等。根據(jù)本文的應(yīng)用目的,本文中涉及的人名前綴和后綴主要包含“董事長”、“廠長”、“主任“等50個,詳細(xì)列表見附錄二。345算法描述1掃描文本并從文本中提取可能的候選字,判斷其是否為姓氏,若是,轉(zhuǎn)向2,若不是,則轉(zhuǎn)向6;2假設(shè)是一個以該姓氏為首后面跟兩個字的人名實體雙字人名,即表示為NSCIC2,先用統(tǒng)計的方法計算PN,判斷是否為人名,若是轉(zhuǎn)向6。若不是,再用規(guī)則的方法判斷該字串是否為人名,若是,轉(zhuǎn)向6,若也不是,則轉(zhuǎn)向3;3假設(shè)是一個以該姓氏為首后面跟一個字的人名實體單字人名,即表示為NSCI,先用統(tǒng)計的方法計算PN1,判斷是否為人名,若是,則轉(zhuǎn)向6,若不是,再用規(guī)則的方法判斷該字串是否為人名,若是,轉(zhuǎn)向6,反之則轉(zhuǎn)向4;4利用規(guī)則的方法對“人名前綴詞字姓氏”的格式人名進(jìn)行識別,若是,轉(zhuǎn)向6,反之則轉(zhuǎn)向5;5利用規(guī)則的方法對“姓氏人名后綴詞字”格式人名的識別,若與某條配則匹配,轉(zhuǎn)向6;6本次識別結(jié)束。346基于規(guī)則的方法根據(jù)人名的組成特征,構(gòu)造出下列規(guī)則,用于識別那些省略姓氏的人名以及格式為“人名前綴姓氏”和“姓氏人名后綴詞字”的人名實體規(guī)則一“小“|老”I其他前綴見附錄二姓氏;例如D,文TJ、老李等。規(guī)N姓氏“老L某”L廠長L其他后綴詞見附錄二;例如王某、張廠長在占守。規(guī)則三“小|大”I“阿”人名用字例如阿飛、小杰等。347模型及規(guī)則訓(xùn)練例如對句子“趙局長對曹磊說“老何已經(jīng)辭職了“進(jìn)行識別測試,其步驟表示如下19第三章基丁二規(guī)則與統(tǒng)計相結(jié)合的中文入名識別及應(yīng)用1先對句子進(jìn)行從左到右掃描,產(chǎn)生第一個候選姓氏“趙“;2假設(shè)“趙局長是一個雙字人名,可以表示為NSCLC2,則按照統(tǒng)計的方法,計算出尸戶S歸瓦麗。根據(jù)對測試數(shù)據(jù)和語料庫的統(tǒng)計,可以得到以下結(jié)果JPJJP“趙”“趙”在測試語料中做姓氏出現(xiàn)次琴氣,在語料中出現(xiàn)的總次數(shù)46700993PC1JP局“局”在黼扣燃蝴總次形局,在黼中做人名和單字出刪次數(shù)79132X10_4EC,尸長“長”在語料庫中做人名出現(xiàn)的總次琴長,在語料庫中做人名和單字出現(xiàn)的總次數(shù)3740005則PM000086860001,識別“曹磊”人名實體,而且本次識別
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025華電(寧夏)能源有限公司新能源分公司面向系統(tǒng)內(nèi)外公開招聘筆試參考題庫附帶答案詳解
- 2025北京都杰安防科技有限公司南昌分公司人員招聘地鐵安全保衛(wèi)員130人筆試參考題庫附帶答案詳解
- 2025中遠(yuǎn)海運博鰲有限公司“啟明星”等你來筆試參考題庫附帶答案詳解
- 2025上海申通地鐵集團(tuán)招聘筆試參考題庫附帶答案詳解
- 產(chǎn)品質(zhì)量檢測與報告標(biāo)準(zhǔn)化流程
- 《小學(xué)科學(xué)探究實驗操作教學(xué)教案》
- 2024年陜西航空職業(yè)技術(shù)學(xué)院馬克思主義基本原理概論期末考試題附答案解析(奪冠)
- 2026年云南省怒江傈僳族自治州單招職業(yè)傾向性考試題庫帶答案解析
- 2025年南縣招教考試備考題庫附答案解析(奪冠)
- 2025年廣西壯族自治區(qū)(89所)馬克思主義基本原理概論期末考試模擬題附答案解析(奪冠)
- 2025年四川單招試題及答案
- 2025年北京東城區(qū)天街集團(tuán)有限公司招聘筆試參考題庫含答案解析
- 結(jié)腸炎與腸道菌群的關(guān)系
- 2024家用電視機定制合同2篇
- 護(hù)理壓瘡應(yīng)急預(yù)案
- 工地灌漿包工合同范例
- 咨詢合同模板
- 2024年《國際貨運代理實務(wù)》考試復(fù)習(xí)題庫資料(含答案)
- 時速160公里動力集中動車組動力車講解
- 楊樹病蟲害防治方法
- 乳腺炎與乳腺癌關(guān)聯(lián)研究
評論
0/150
提交評論