基于層疊條件隨機(jī)場的中文病歷命名實(shí)體識別_第1頁
基于層疊條件隨機(jī)場的中文病歷命名實(shí)體識別_第2頁
基于層疊條件隨機(jī)場的中文病歷命名實(shí)體識別_第3頁
基于層疊條件隨機(jī)場的中文病歷命名實(shí)體識別_第4頁
基于層疊條件隨機(jī)場的中文病歷命名實(shí)體識別_第5頁
全文預(yù)覽已結(jié)束

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

基于層疊條件隨機(jī)場的中文病歷命名實(shí)體識別

0器學(xué)習(xí)模型對醫(yī)學(xué)命名實(shí)體識別的影響與一般領(lǐng)域相比,醫(yī)學(xué)領(lǐng)域的命名特征使該領(lǐng)域的命名特征更加復(fù)雜:命名實(shí)體的結(jié)構(gòu)復(fù)雜,許多命名實(shí)體有嵌入結(jié)構(gòu)。非結(jié)構(gòu)文件的文本沒有統(tǒng)一的表達(dá)標(biāo)準(zhǔn),并且命名實(shí)體之間存在意見分歧。以前的提取方法不能利用醫(yī)學(xué)概念的內(nèi)部限制來獲得更完整的特征信息。中文病歷文本的命名實(shí)體同樣具有上述特點(diǎn)。相關(guān)研究表明,常用的命名實(shí)體識別方法在中文病歷命名實(shí)體識別領(lǐng)域得不到在其他通用領(lǐng)域所能獲得的高性能。例如,文獻(xiàn)中命名實(shí)體識別在中文新聞專線領(lǐng)域達(dá)到了95%,而近期文獻(xiàn)中關(guān)于中文病歷命名實(shí)體識別的準(zhǔn)確率為86.16%。目前命名實(shí)體識別方法主要有三種:基于詞典的方法、基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法,其中,基于機(jī)器學(xué)習(xí)的方法具有更好的實(shí)用性和可移植性。常用的機(jī)器學(xué)習(xí)模型包括支持向量機(jī)模型(Supportvectormachine,SVM)、隱馬爾可夫模型(Hiddenmarkovmodel,HMM)、最大熵馬爾可夫模型(Maximumentropymarkovmodel,MEMM)和條件隨機(jī)場模型(Conditionalrandomfield,CRF)等。文獻(xiàn)的實(shí)驗(yàn)表明:SVM在醫(yī)學(xué)文本的命名實(shí)體識別中性能不如CRF模型,因?yàn)楹笳吣芨玫乩镁渥拥男蜇灎顟B(tài)及其與特征間的依賴關(guān)系;HMM中觀測元素之間具有獨(dú)立性假設(shè),不能充分考慮上下文特征,而中文病歷文本中的觀測序列具有多個相互作用的特征,且觀測元素之間具有依賴關(guān)系,所以HMM在一定程度上限制了特征的選擇;MEMM解決了隱馬爾可夫的問題,可以任意選擇特征,但其只在局部做歸一化,容易陷入局部最優(yōu),出現(xiàn)標(biāo)注偏置問題;CRF模型具有表達(dá)元素之間長距離依賴性和交疊性特征的能力,能夠容納任意上下文信息,針對病歷文本特點(diǎn)可任意設(shè)計(jì)特征集,并且它不在每一個節(jié)點(diǎn)進(jìn)行歸一化,而是對所有特征進(jìn)行全局歸一化,可以求得全局最優(yōu)解,解決標(biāo)注偏置問題,從而能夠更準(zhǔn)確地進(jìn)行命名實(shí)體識別。在醫(yī)學(xué)命名實(shí)體識別領(lǐng)域,有相關(guān)研究證明了該模型的有效性。例如:Mc-Donald等結(jié)合詞形特征、字典特征等多種特征集合進(jìn)行醫(yī)學(xué)文本命名實(shí)體識別,總體F值達(dá)到82.4%;Leaman等對醫(yī)學(xué)文獻(xiàn)中的多類實(shí)體進(jìn)行識別,總體F值達(dá)81.96%;在中醫(yī)學(xué)領(lǐng)域,Wang等對中醫(yī)病案中的病癥進(jìn)行智能識別,總體F值達(dá)到62.829%,這些實(shí)驗(yàn)都證明了CRF模型可以有效地識別醫(yī)學(xué)文本中的命名實(shí)體。如上所述,CRF模型在命名實(shí)體識別及序列標(biāo)注問題中具備很好的性能。但在針對較復(fù)雜的實(shí)際應(yīng)用時,如既要識別出實(shí)體的邊界又要識別出實(shí)體的類型,采用單層的條件隨機(jī)場模型往往很難滿足要求。因此,本文提出了一種基于層疊條件隨機(jī)場(Cascadedconditionalrandomfield,CCRF)模型的中文病歷命名實(shí)體識別新方法,根據(jù)中文病歷中命名實(shí)體的特點(diǎn),定義了一個由詞性特征和實(shí)體特征結(jié)合而成的組合特征加入到模型中,實(shí)驗(yàn)結(jié)果表明,與單層CRF模型和無自定義組合特征的層疊CRF模型相比,CCRF模型的識別性能有明顯提高。1層壓結(jié)構(gòu)與機(jī)場不同1.1條件概率模型條件隨機(jī)場可被定義為一個無向圖模型,最早由Lafferty和McCallum在2001年提出。如圖1所示,它是由一個點(diǎn)序列所表示的隨機(jī)變量Y、由邊表示的條件依賴關(guān)系以及條件X所組成,隨機(jī)變量只與其相鄰元素有條件依賴關(guān)系,因此,隨機(jī)變量服從馬爾可夫(Markov)屬性,并形成一個線性(Markov)馬爾可夫鏈。給定輸入序列X后,標(biāo)記序列Y的條件概率可被定義為:式中:f是整體特征向量,f中每一個元素是任意的特征選擇函數(shù)fm,m∈[1,M],M為特征函數(shù)的數(shù)量;λ是權(quán)值向量,通過模型訓(xùn)練獲得相應(yīng)的估計(jì)值;Z(X)是歸一化因子,是所有可能的標(biāo)簽序列S的總和:對于輸入序列X,最有可能的輸出標(biāo)記序列Y為:1.2舊的信息轉(zhuǎn)移層疊條件隨機(jī)場模型的整體框架是一個“轉(zhuǎn)移學(xué)習(xí)”的過程,即將一個復(fù)雜任務(wù)分為幾個相對簡單的子任務(wù),每一個子任務(wù)對應(yīng)于層疊條件隨機(jī)場模型中某一層。模型從“舊的”子任務(wù)中學(xué)習(xí),然后將結(jié)果傳遞給有更具體要求的新建任務(wù),這一轉(zhuǎn)移過程可實(shí)現(xiàn)更少的數(shù)據(jù)傳輸,減少信息冗余。層疊條件隨機(jī)場模型如圖2所示。在層疊條件隨機(jī)場模型中,高層模型的輸入變量不僅包含觀察值,還包含來自低層模型的識別結(jié)果,從而為高層條件隨機(jī)場模型的識別提供決策支持。而低層模型所產(chǎn)生的錯誤可以經(jīng)過適當(dāng)?shù)倪^濾和調(diào)整,再將結(jié)果傳遞到高層模型,可以避免錯誤的傳播和擴(kuò)散。2漢語命名事件的實(shí)體識別結(jié)構(gòu)2.1正確使用“腦梗塞”、“四下肢無力”的詞類病歷文本中的疾病名稱和臨床癥狀對疾病的預(yù)防與診斷起著重要作用,因此本文將對這兩類命名實(shí)體進(jìn)行識別研究。在翻閱了大量的病歷并進(jìn)行分析后,發(fā)現(xiàn):(1)大多數(shù)的疾病名稱都是由身體部位名稱與基本疾病名稱組合而成,如:“腦梗塞”是由“腦”與“梗塞”組成。(2)大多數(shù)的臨床癥狀都是由身體部位名稱與形容詞或動詞等具有固定詞性的詞組成,如“四肢無力”是由身體部位“四肢”與形容詞“無力”組成?;谝陨咸攸c(diǎn),本文低層模型僅以觀察值為條件,進(jìn)行身體基本部位或組成和基本疾病名稱兩類簡單命名實(shí)體的識別,將識別的結(jié)果傳遞到高層模型,同時加入一個自定義的組合特征,它由詞性和實(shí)體特征組合而成,與字符特征、詞邊界及上下文特征共同作為高層模型的特征集,這樣高層模型的輸入變量將不僅包含觀察值,而且包含了來自低層模型的識別結(jié)果,從而為高層條件隨機(jī)場模型對復(fù)雜疾病名稱及臨床癥狀的識別提供了決策支持,本文提出的基于層疊條件隨機(jī)場模型的中文病歷命名實(shí)體識別框架如圖3所示。2.2資源集的選擇2.2.1屬性組成ohen在本文的層疊條件隨機(jī)場模型中,第一層CRF模型的觀測序列以單獨(dú)的一個字為token,每個病歷文本都由token序列表示。每個標(biāo)記直接依賴于與其對應(yīng)的當(dāng)前token以及窗口內(nèi)相鄰的其他token。這一層使用由字符特征、詞邊界特征以及窗口長度為5的上下文特征組合而成的特征集,具體描述如下:(1)字符特征:本文所指的字符,包括漢字、標(biāo)點(diǎn)符號、外文字母和數(shù)字等。(2)詞邊界特征:采用BIOES編碼模式來表示詞邊界特征(B—開始,I—內(nèi)部,E—結(jié)束,O—非實(shí)體,S—單字實(shí)體),相對于BIO編碼模式,BIOES編碼模式能夠表示更多的信息,識別效果優(yōu)于BIO編碼模式。(3)上下文特征:上下文特征是指窗口長度內(nèi)token之間的相互依賴關(guān)系。在第一層CRF模型中,窗口長度設(shè)定為5,顯示了窗口內(nèi)相鄰的5個token之間的依賴關(guān)系。2.2.2構(gòu)詞特征與實(shí)體特征的組合關(guān)系在第二層CRF模型中,依據(jù)中文病歷中命名實(shí)體的構(gòu)詞特點(diǎn),自定義了一種組合特征,即由詞性和實(shí)體特征組成,與字符特征、詞邊界特征、上下文特征共同組成第二層CRF模型的特征集,具體描述如下:(1)組合特征:該特征由詞性特征與實(shí)體特征組合而成,可表示出疾病名稱與臨床癥狀的內(nèi)部依賴關(guān)系,即構(gòu)詞特點(diǎn)。其中實(shí)體特征為第一層CRF模型識別后的輸出結(jié)果,詞性特征由中科院ICTCLAS分詞器得出。例如,在“因/p腦/S-BC梗/B-BD塞/E-BD致/a肢/B-BC體/E-BC活/v動/v笨/a拙/a”中,BC(身體部位)與BD(基本疾病名稱)即為實(shí)體特征;p(介詞)、v(動詞)及a(形容詞)即為詞性特征,在本文模型中,實(shí)體特征與詞性特征不作為獨(dú)立特征存在,而是捆綁為一個整體特征,即組合特征。(2)上下文特征:第二層CRF模型的窗口長度選擇為7,顯示了窗口內(nèi)相鄰的7個token之間的依賴關(guān)系。3實(shí)驗(yàn)與結(jié)果分析3.1語料庫的構(gòu)建本文選用中科院的ICTCLAS分詞器作為分詞工具,由于它不是專門面向醫(yī)學(xué)領(lǐng)域的分詞工具,缺乏專業(yè)詞匯,因此我們對其進(jìn)行擴(kuò)展,將ICD-10′InternationalClassificationofDisease,10thRevision和ICD-9-CM2TheInternationalClassificationofDiseases,9thRevision,ClinicalModification中的術(shù)語添入其中。隨機(jī)抽取來自臨床醫(yī)院腦血管科室的65份電子病歷,構(gòu)建一個共計(jì)81453個字符的語料庫。分詞后對病歷中實(shí)體類別標(biāo)識情況如表1所示。3.2模板文件的生成本文將一維特征模板表達(dá)為Fn,Sn,其中字母F,S分別對應(yīng)于標(biāo)注語料中的第1、2列,數(shù)字0表示當(dāng)前token,非零數(shù)字表示與當(dāng)前token相對的行數(shù)。表2給出了本文實(shí)驗(yàn)中的一組模板文件。本文將多維特征模板表述為Fn-1/Fn,Sn-1/Sn/Sn+1等形式,其中前者表示特征模板中第一列相鄰token之間的二元特征聯(lián)合,后者表示第二列相鄰token之間的三元特征聯(lián)合。3.3分類識別特征由表3可以看出:(1)語料庫可以標(biāo)注為單字和詞兩種形式,這是由于對于同樣多的訓(xùn)練語料,粒度較詞小的字,可以得到更多的語料數(shù),這對于召回率的提高有很大幫助,并且可以得到更多反映實(shí)體結(jié)構(gòu)的特征,能夠解決部分?jǐn)?shù)據(jù)稀疏的問題,因此本文實(shí)驗(yàn)采用字粒度形式。(2)使用本文自定義組合特征的識別效果要優(yōu)于普通的特征組合。這是由于本文自定義組合特征能更直接地表示出存在歧義的實(shí)體內(nèi)部結(jié)構(gòu)的不同,從而能夠進(jìn)行準(zhǔn)確識別。自定義組合特征避免了分開使用詞性特征與實(shí)體特征造成的特征信息冗余與識別混淆。如表4所示:“頭痛”,詞性特征標(biāo)注為“aa”,實(shí)體特征標(biāo)注為“TO”,而自定義組合特征標(biāo)注為“Ta”;“正?!?詞性標(biāo)注為“aa”,實(shí)體特征為“OO”,而自定義組合特征標(biāo)注為“aa”,可以看出加入自定義組合特征的方法后,F值提高了3%,而相對于單層CRF模型,則顯著提高了7%。由于病歷文本中的疾病名稱的長度基本為2-7,臨床癥狀的長度基本為2-9,當(dāng)上下文窗口長度為7時,既可以避免上下文依賴不足,又可以避免過長的窗口長度造成特征冗余,識別結(jié)果最優(yōu)(見表5),因此,本文實(shí)驗(yàn)中窗口長度設(shè)置為7。在實(shí)驗(yàn)中,還發(fā)現(xiàn),使用本文模型,即使訓(xùn)練文本中未出現(xiàn)的實(shí)體在測試中也可以被準(zhǔn)確識別,這也是多數(shù)模型難以提供的信息。例如,訓(xùn)練樣本中的“腦血栓”被標(biāo)記為D,而“心梗塞”在訓(xùn)練樣本中并未出現(xiàn),但由于它與“腦血栓”構(gòu)詞模式相同,因此本文模型利用自定義組合特征,在測試文件中依然可以準(zhǔn)確識別出“心梗塞”為D;但并不會將所有具有相同構(gòu)詞模式的詞都標(biāo)記為相同實(shí)體,例如“鼻唇溝淺”是由身體基本部位“鼻唇溝”與形容詞“淺”所組成,被標(biāo)記為P,而“腰間盤突出”同樣也是由身體基本部位與形容詞所組成的實(shí)體,但并沒有被同樣標(biāo)記為P,而是根據(jù)上下文特征被準(zhǔn)確地標(biāo)記為D,這些方面都體現(xiàn)出了本文模型特有的優(yōu)越性。4目的識別模型的改進(jìn)本文針對中文病歷文本的特點(diǎn),提出了一種基于層疊條件隨機(jī)場模型的中文病歷命名實(shí)體識別新方法,第一層CRF模型對身體基本部位或組成和基本疾病名稱兩類簡單命名實(shí)體進(jìn)行識別,將識別的結(jié)果傳遞到高層模型,同時加入一個本文自定義的組合特征,這樣高層模型的輸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論