版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中文文字/語音文件中
類專有名詞擷取
及其可能應(yīng)用之初步研究
AnInitialStudyonNamedEntityExtraction
fromChineseText/SpokenDocuments
andItsPotentialApplications指導(dǎo)教授:李琳山博士
共同指導(dǎo):陳信希博士
研究生:劉禹吟中文文字/語音文件中
類專有名詞擷取
及其可能應(yīng)用之初步研究1簡介本論文處理的類專有名詞類別包含人名、地名與組織名。類專有名詞辨識是希望在文件中標註出正確的類專有名詞邊界與類別。語音文件中的類專有名詞辨識:在有語音辨識錯誤的語音文件中找出類專有名詞出現(xiàn)處有助於語音摘要、語音問答、和語音對話系統(tǒng)的處理類專有名詞類別舉例人名(PER)托尼·布萊爾
陳水扁、馬市長地名(LOC)胡志明市、中山堂鶯歌、七堵赴美、中日關(guān)係組織名(ORG)聯(lián)合國安理會臺灣積體電路製造股份有限公司中油、臺塑<ENAMEXTYPE=“LOCATION”>美國</ENAMEX>國務(wù)卿<ENAMEXTYPE=“PERSON”>鮑爾</ENAMEX>在<ENAMEXTYPE=“LOCATION”>華府外籍記者中心</ENAMEX>表示...簡介本論文處理的類專有名詞類別包含人名、地名與組織名。類專有2綱要文字文件中類專有名詞辨識語音文件中類專有名詞辨識類專有名詞辨識衍生之應(yīng)用結(jié)論綱要文字文件中類專有名詞辨識3文字文件中的類專有名詞辨識類別語言模型法派樹式規(guī)則法文字文件中的類專有名詞辨識類別語言模型法4文字文件中類專有名詞辨識
-類別語言模型法的概念類別的種類:人名類別、地名類別、組織名類別、辭典中詞彙每一個詞各自是一個類別若辭典中有|V|個詞彙,則總共的類別數(shù)有|V|+3個基本概念:給定中文句子S,W為S的可切分詞串,C為W對應(yīng)的類別,利用維特比搜尋找出滿足P(C,W)最大的最佳詞序列W*和W*對應(yīng)的最佳類別序列C*類別前後文模型類別生成模型文字文件中類專有名詞辨識
-類別語言模型法的概念類別的種類:5各種類別語言模型的機率估計各種類別生成模型估計人名類別(字元二連語言模型)中國人名、外國人名分成兩種機率模型例:李小龍巢狀類別(類別二連語言模型)地名、組織名例:宜蘭清水公園一般詞彙類別每一個辭典中詞彙各自是一個類別生成機率皆為1類別前後文模型估計由訓(xùn)練語料庫訓(xùn)練出三連類別語言模型機率如:訓(xùn)練語句:總統(tǒng)PER在LOC發(fā)表聲明…可估計出:p(PER|總統(tǒng),<s>),p(LOC|在,PER)…P(李小龍|PER)≈p(李|<s>)p(小|李)p(龍|小)p(</s>|龍)P(宜蘭清水公園|LOC)≈
p(LOC|<s>)p(PER|LOC)p(公園|PER)p(</s>|公園)p(宜蘭|LOC)*p(清水|PER)*p(公園|公園)p(尤其|尤其)=1、p(今天|今天)=1內(nèi)部維特比搜尋找出內(nèi)部最佳的類別及詞序列所對應(yīng)的機率,以最高機率當成其生成機率各種類別語言模型的機率估計各種類別生成模型估計P(李小龍|P6類別語言模型法實作演算法對於句子S,執(zhí)行下列三個步驟:建構(gòu)詞網(wǎng)紀錄各類別候選詞於詞網(wǎng)上,並記錄其生成機率一般詞彙、人名類別、地名類別、組織名類別正向動態(tài)規(guī)劃(維特比搜尋)從句首至句尾對每一個候選詞計算到該位置為止,滿足p(c,w)最大的最佳路徑,紀錄最佳分數(shù)及回溯指標反向回溯找出最佳的詞序列及對應(yīng)的類別序列從句尾中有最高路徑分數(shù)的候選詞開始回溯至句首類別語言模型法實作演算法對於句子S,執(zhí)行下列三個步驟:7(3)反向回溯(2)正向維特比搜尋
c*,w*=maxp(c*)*p(w*|c*)(1)建構(gòu)詞網(wǎng)演算法運作流程
處理句子:臺北市中正紀念堂是為了紀念蔣中正先生一般詞網(wǎng)示意圖
市中紀正念堂是為了紀北臺念蔣中先生正346578910111221131415171816臺北中正紀念紀念堂紀念蔣中正先生中正(p)紀念(p)紀念堂(p)堂是(p)堂是為(p)紀念(p)蔣中(p)蔣中正(p)紀念蔣(p)臺北(l)臺北市(l)正紀念堂(l)中正紀念堂(l)市中正紀念堂(l)北市中正紀念堂(l)臺北市中正紀念堂(l)<s></s>一般詞彙類別每個詞的生成機率皆為1。如:p(紀念|紀念)=1計算人名類別的生成機率。如:p(紀念|人名)=P(紀|<s>)*p(念|紀)*p(</s>|念)生成機率計算:做內(nèi)部維特比搜尋,得出最佳類別序列和最佳機率為了最佳類別路徑(C*):
LOC是為了紀念PER先生最佳詞路徑(W*):臺北市中正紀念堂是為了紀念蔣中正先生P(C*,W*)=P(C*)*P(W*|C*)
=P(LOC|<s>)*P(是|LOC,<s>)*P(為了|是,LOC)*P(紀念|為了,是)*P(PER|紀念,為了)*P(先生|PER,紀念)*P(</s>|先生,PER)*
P(臺北市中正紀念堂|地名)*P(是|是)*P(為了|為了)P(紀念|紀念)*P(蔣中正|人名)*P(先生|先生)(3)反向回溯(2)正向維特比搜尋
c*,w*=m8巢狀類別內(nèi)部維特比搜尋地名類別詞網(wǎng)計算地名生成機率P(臺北市中正紀念堂|LOC)346578910111221131415171816臺北(l)臺北市(l)中正(p)紀念(p)紀念堂市中正北臺<s></s>臺北市中正紀念堂(l)由地名類別的語言模型查出可能出現(xiàn)在地名的詞彙,生成機率皆設(shè)為1各種類別的候選詞與生成機率紀念堂(p)生成機率設(shè)為:P(臺北市中正紀念堂|LOC)=P(C*)*P(W*|C*)=P(LOC|<s>)*P(PER|LOC)*P(紀念堂|PER)*P(</s>|紀念堂)*P(臺北市|LOC)*P(中正|PER)*p(紀念堂|紀念堂)巢狀類別內(nèi)部維特比搜尋地名類別詞網(wǎng)34657891011129類別語言模型法討論類別語言模型法觀察:優(yōu)點:將斷詞與類專有名詞辨識合在同一個架構(gòu)下,具有斷詞解歧異的功能弱點:不易取得涵蓋領(lǐng)域夠廣且標註夠一致的訓(xùn)練語料不容易回收沒有關(guān)鍵詞的地名、組織名(九份、中廣)需要做內(nèi)部維特比搜尋的字串將成指數(shù)成長一次處理一句,未用到整篇文章所包含的字串資訊新的想法:派樹式類專有名詞抽取:使用整篇文章所包含的樣式統(tǒng)計資訊及該樣式所有出現(xiàn)過的前後文幫助抽取類專有名詞金門縣長陳水在昨天呼籲兩岸…,陳水在表示…,陳水在當初擔任…臺北縣鶯歌鎮(zhèn)的陶瓷…,鶯歌有許多賣精美陶瓷的店家…,要到鶯歌遊玩的民眾可以搭乘…遊戲橘子集團高階人事異動…,對於遊戲橘子跨足研發(fā)領(lǐng)域…,遊戲橘子旗下的產(chǎn)品多數(shù)是以代理自韓國為主…,遊戲橘子董事長劉柏園表示…縮寫類專有名詞尤以娛樂、財經(jīng)、體育、科技新聞居多,使用單純類別語言模型法較難偵測出。類別語言模型法討論類別語言模型法觀察:金門縣長陳水在昨天呼籲10派樹式規(guī)則法
-派樹式類專有名詞抽取概念派樹:是一種很有效率的資料結(jié)構(gòu),在資訊檢索的領(lǐng)域使用很多建構(gòu)派樹:將處理的文章中每一個語意片段中的後部字串(suffixstring)加入派樹中正向派樹、反向派樹優(yōu)點:可以容易地獲得任意字串在整篇文章中的出現(xiàn)頻率及所有前後文統(tǒng)計值(左右相連詞變異度)可判斷詞的邊界完整性前後文字串可以用來判斷類別sYZX1X2RC1RC2RC3LC3LC2LC1X:陳水在X1:陳水在
X2:在水陳
Y:陳水
Z:在水RC1:陳水在說*RC2:陳水在強調(diào)*RC3:陳水在昨天呼籲*LC1:在水陳長縣門金*LC2:在水陳,*LC3:在水陳當*正向派樹可以容易地查詢字串的所有後文(RC)反向派樹可以容易地查詢字串的所有前文(LC)正向派樹:
S=今天在總統(tǒng)府
Suffixstrings:
今天在總統(tǒng)府
天在總統(tǒng)府
在總統(tǒng)府
總統(tǒng)府
統(tǒng)府
府反向派樹:
S=府統(tǒng)總在天今
Suffixstrings:
府統(tǒng)總在天今
統(tǒng)總在天今
總在天今
在天今
天今
今派樹式規(guī)則法
-派樹式類專有名詞抽取概念派樹:是一種很有效率11派樹式規(guī)則法
-派樹式類專有名詞抽取流程對整篇文章建構(gòu)正向及反向派樹估計候選字串的邊界完整性選擇證據(jù)分數(shù)最高分且超過門檻值的類別檢驗字串內(nèi)部及外部前後文資訊記錄各類別證據(jù)分數(shù)抽取出的類專有名詞槽內(nèi)部特徵:人名:人名機率是否大過門檻值地名、組織名:內(nèi)部是否有關(guān)鍵詞(隊、鄉(xiāng))外部特徵:人名:頭銜、發(fā)言動詞地名:重要前後文(抵達、飛往,地區(qū)、附近、市…)組織名:重要前後文(大廠、廠商,公司…)組合特徵:搭配內(nèi)部及外部特徵對各類別記錄證據(jù)分數(shù)。(詳述於論文中)處理派樹中出現(xiàn)頻率>=tf的字串興農(nóng):AORG兄弟:AORG天母球場:LOC…使用字串的前後文變異統(tǒng)計值做抽詞繼續(xù)判斷候選字串可能的類專有名詞類別w=馬英β=九
f(w,β)/f(w)<tb?如果f(w,β)/f(w)>=tb,則w=馬英可能不是一個邊界完整的詞派樹式規(guī)則法
-派樹式類專有名詞抽取流程對整篇文章建構(gòu)正向及12一次輸入一個句子派樹式規(guī)則法系統(tǒng)架構(gòu)單篇文件斷詞與特性標註人名辨識巢狀類專有名詞辨識類專有名詞的結(jié)合單字詞類專有名詞辨識派樹式類專有名詞抽取抽取出的類專有名詞槽快取類專有名詞槽類專有名詞重要相關(guān)詞彙列表輸出標註類專有名詞的句子一般辭典LOC→{[PER][APER][LOC][ALOC]}*[ContentWord]*{LOC_KEY}ORG→{[PER][APER][LOC][ALOC][ORG][AORG]}*[ContentWord]*{ORG_KEY}組成結(jié)構(gòu)及邊界判定(STOP,LOC_LEFT_CONTEXT_KEY…)人名機率門檻值限制及邊界判定(STOP,TITLE,PER_SPOKEN_VERB…)斷詞法:後向最大匹配與特性標註LOC→{LOC}*ORG→{ORG}*ORG->LOCORG聯(lián)合國安理會大陸上?!袊闹?、日本的日等。中美關(guān)係,日韓代表,中、韓、日三方。
SCNEpattern→{SCNE}*{co-occurpattern}
美總統(tǒng)布希、日相、英首相布萊爾、美代表、以代表
SCNEtitle
美方、日方、美軍、伊軍、中方…美重申、美發(fā)表、…從派樹中查詢整篇文章中是否出現(xiàn)過澳洲、澳門、澳大利亞、澳國,若有,則澳字單獨出現(xiàn)時可能是地名,如:澳代表…輸入整篇文章一次輸入一個句子派樹式規(guī)則法系統(tǒng)架構(gòu)單篇文件斷詞與特性標註人13文字文件類專有名詞辨識實驗
-測試語料測試語料:MUC-7(MessageUnderstandingConference-7)的MET-2(MultilingualEntityTask)測試語料,為大陸簡體字、火箭發(fā)射相關(guān)新聞共100則類專有名詞統(tǒng)計量評分方法:精確率、回收率F-測量=(2*精確率*回收率)/(精確率+回收率)類別出現(xiàn)次數(shù)人名174地名750組織名377文字文件類專有名詞辨識實驗
-測試語料測試語料:類別出現(xiàn)次數(shù)14文字文件類專有名詞辨識實驗結(jié)果訓(xùn)練語料:臺灣雅虎網(wǎng)路新聞8天份,1萬多篇的自動標註新聞訓(xùn)練語料:大陸人民日報一個月的自動標註類專有名詞新聞CED電子辭典、已知各類專有名詞列表CED電子辭典派樹式類專有名詞抽取、類專有名詞暗示詞列表、經(jīng)驗法則詞網(wǎng)中只加入結(jié)尾有關(guān)鍵詞的巢狀類別候選詞句子中所有子字串都當成可能的巢狀類別候選詞並加入詞網(wǎng)中派樹式規(guī)則法表現(xiàn)最好類別語言模型法會受到訓(xùn)練語言模型優(yōu)劣影響好壞類別語言模型法只偵測結(jié)尾有關(guān)鍵詞的巢狀類別結(jié)果較好文字文件類專有名詞辨識實驗結(jié)果訓(xùn)練語料:臺灣雅虎網(wǎng)路新聞8天15語音文件中的類專有名詞辨識轉(zhuǎn)寫文件直接辨認結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值限制結(jié)合時間與主題同質(zhì)的類專有名詞匹配語音文件中的類專有名詞辨識轉(zhuǎn)寫文件直接辨認16語音文件中類專有名詞辨識
-測試語料News982002年9月份200則語音新聞經(jīng)由時間同質(zhì)調(diào)適語料做語言模型調(diào)適的語音辨識結(jié)果音節(jié)辨識率較字元辨識率高許多測試語料中類專有名詞統(tǒng)計量字元辨識率音節(jié)辨識率87.99%93.42%類別出現(xiàn)次數(shù)人名315地名457組織名500語音文件中類專有名詞辨識
-測試語料News982002年17轉(zhuǎn)寫文件直接類專有名詞辨識實驗結(jié)果類別語言模型法:73.00派樹式規(guī)則法:80.01當成基礎(chǔ)結(jié)果轉(zhuǎn)寫文件直接類專有名詞辨識實驗結(jié)果類別語言模型法:73.0018轉(zhuǎn)寫文件直接類專有名詞辨識
-結(jié)果觀察直接辨識的問題:將辨識錯誤處當成對的類專有名詞例子:郭塘又缺少運動的婦女…(過糖)導(dǎo)致精確率降低辨識錯誤的類專有名詞無法回收例子:立委甚至?xí)ьI(lǐng)…(沈智慧)導(dǎo)致回收率降低提出方法:
結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值提出方法:
結(jié)合時間與主題同質(zhì)的類專有名詞匹配PER:沈智慧ORG:立法院…`郭’字辨識錯誤…“甚至?xí)笔潜孀R錯誤…轉(zhuǎn)寫文件直接類專有名詞辨識
-結(jié)果觀察直接辨識的問題:提出方19結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值限制語音辨識信心測量,以CM(confidencemeasure)代表人名:當中國人名姓氏或外國人名首字沒有重要前後文一同出現(xiàn)時(頭銜、發(fā)言動詞),可信度必須大過門檻值tkey,才當成可能的候選詞例:(過糖) 地名、組織名:當結(jié)尾關(guān)鍵詞(市、廠、鄉(xiāng))可信度大過門檻值tkey時,才當成可能的候選詞如何設(shè)定關(guān)鍵詞可信度門檻值(tkey)呢?
先對可信度分數(shù)大小做觀察結(jié)合關(guān)鍵詞可信度門檻值限制
CM(郭)<tkey?
則詞網(wǎng)中不加入此中國人名候選詞塘又乏缺運郭<s></s>婦的動女郭塘缺乏運動婦女直接辨認法:PER又缺乏運動的婦女郭塘又缺乏運動的婦女結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值限制語音辨識信心測量,以CM(20最佳輸出結(jié)果中每個詞可信度分數(shù)計算詞圖(wordgraph)中節(jié)點辨識可信度分數(shù)計算:詞圖中每一個節(jié)點的可信度分數(shù),是將經(jīng)過該節(jié)點的所有路徑事後機率相加而得最佳輸出結(jié)果(1-best)的每個詞的可信度分數(shù)計算:在詞圖中將時間點有重疊且候選詞一樣的節(jié)點可信度分數(shù)相加得到為了避免在詞圖中找不到對應(yīng)最佳輸出的路徑,通常會建構(gòu)較龐大的詞圖詞圖大小與可信度的關(guān)係:詞圖愈大保留的候選詞就愈多,每個候選詞的路徑機率會被分散掉,使得可信度分數(shù)平均而言會變小。最佳輸出結(jié)果中每個詞可信度分數(shù)計算詞圖(wordgraph21關(guān)鍵詞辨識可信度分數(shù)門檻值估計
-可信度分數(shù)排序觀察(200則開發(fā)集)辨識正確詞的可信度有10%只在0.01以下可信度值偏小設(shè)的可信度門檻值不宜太高關(guān)鍵詞辨識可信度分數(shù)門檻值估計
-可信度分數(shù)排序觀察(222類別語言模型法
-結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值實驗結(jié)果辨識可信度門檻值設(shè)得愈高,表示要求的精確率愈高,然而回收率可能下降加入可信度分數(shù)門檻值有可能得到較好的F-測量(73.00→73.41)派樹式規(guī)則法在可信度門檻值0.01時也可得到較好的F-測量(80.01→80.09)IfCM(W關(guān)鍵詞)<tkey,表示可能為辨識錯誤,不當成可能的類專有名詞候選詞繼續(xù)處理類別語言模型法
-結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值實驗結(jié)果辨識23結(jié)合時間與主題同質(zhì)的類專有名詞匹配
(幫助回收率增加)時間同質(zhì)新聞?wù)Z料庫時間同質(zhì)新聞?wù)Z料庫及類專有名詞庫時間與主題同質(zhì)類專有名詞庫單篇語音文件錯誤修正後的類專有名詞標註語音文件發(fā)音相似度矩陣發(fā)音辭典文字文件類專有名詞辨識器資訊檢索結(jié)合類專有名詞匹配的類專有名詞辨識使用TF*log(IDF)計算出語音文件與各篇純文字文件的文件向量相似度找出最相似的前20篇且相似度大於0.2的文字文件後端前處理2002年9月份雅虎奇摩網(wǎng)路新聞,可透過網(wǎng)路抓取每篇文字新聞中的類專有名詞都已經(jīng)自動抽取出來了。如:文件No.1.PER陳金鋒ORG洛杉磯道奇隊LOC美國…美國總統(tǒng)布希間表示…不惜雖然堅稱…國務(wù)卿鮑爾在眾議院談伊拉克問題…文件No.56
相似度0.6PER鮑爾3ORG眾議院2PER布希7PER布萊爾1LOC美國3文件No.12
相似度0.5LOC伊拉克6PER布希3ORG參議院2…美國(loc)總統(tǒng)布希(per)間表示…布希(per)雖然堅稱…國務(wù)卿鮑爾(per)在眾議院(loc)談伊拉克(loc)問題…結(jié)合時間與主題同質(zhì)的類專有名詞匹配
(幫助回收率增加)時間同24結(jié)合時間與主題同質(zhì)的類專有名詞匹配
-類別語言模型法人名類別快取語言模型percache地名類別快取語言模型loccache組織名類別快取語言模型orgcacheP(鮑爾|percache)=3/15P(布希|percache)=10/15P(賓拉登|percache)=2/15P(美國|loccache)=3/7P(伊拉|loccache)=4/7P(眾議院|orgcache)=2/4P(蓋達組織|orgcache)=2/4文件No.124
相似度0.6PER鮑爾3ORG眾議院2PER布希7LOC美國3文件No.124
相似度0.5LOC伊拉克4ORG蓋達組織2PER賓拉登2PER布希3…單篇語音文件時間與主題同質(zhì)類專有名詞庫美國總統(tǒng)布希間表示…不惜雖然堅稱…國務(wù)卿鮑爾在眾議院談伊拉克問題…尋找可匹配處字元完全匹配音節(jié)完全/近似匹配匹配到的候選詞做類別生成機率調(diào)適匹配處的處理結(jié)合時間與主題同質(zhì)的類專有名詞匹配
-類別語言模型法人名類別25類別語言模型法
-時間與主題同質(zhì)的類專有名詞匹配惜雖堅然稱不<s></s>國總布統(tǒng)希美<s></s>示表間美國總統(tǒng)表示美國布希布希間P(美國|LOC)=(1-λcache)P(美國|loc)+λcacheP(美國|loccache)
P(布希|PER)=(1-λcache)P(布希|per)+λcacheP(布希|percache)不惜堅稱雖然布希P(布希|percache)=10/15P(美國|loccache)=3/7滿足音節(jié)完全/近似匹配音節(jié)相似度>=tsyll_sim以及CM(不惜)<tcorrect字元完全匹配P(布希|PER)=(1-λcache)P(布希|per)+λcacheP(布希|percache)有助於回收率的提升與錯誤字元修正syll_sim(不、布)=2.0syll_sim(惜、希)=2.0類別語言模型法
-時間與主題同質(zhì)的類專有名詞匹配惜雖堅然稱不26類別語言模型法結(jié)合字元完全匹配及類別生成機率調(diào)適實驗結(jié)果類別生成機率內(nèi)插的結(jié)果比單純使用任何一種模型要來的好(λcache=0.6時最好)回收率隨著λcache提升類別語言模型法結(jié)合字元完全匹配及類別生成機率調(diào)適實驗結(jié)果類別27類別語言模型法
結(jié)合關(guān)鍵詞可信度分數(shù)門檻值、字元完全匹配及類別生成機率調(diào)適實驗結(jié)果(F-測量)希望精確率與回收率都能提升關(guān)鍵詞可信度分數(shù)門檻值:
IfCM(W關(guān)鍵詞)<tkey,表示可能為辨識錯誤,不當成可能的類專有名詞候選詞繼續(xù)處理tkey類別語言模型法
結(jié)合關(guān)鍵詞可信度分數(shù)門檻值、字元完全匹配及類28類別語言模型法
結(jié)合關(guān)鍵詞可信度分數(shù)門檻值、音節(jié)匹配及類別生成機率調(diào)適實驗結(jié)果(F-測量)字元完全匹配最好的結(jié)果為:λcache=0.6,tkey=0.1
F-測量從73.00→78.42
放鬆匹配條件至音節(jié)近似匹配時,我們固定λcache=0.6,tkey=0.1,研究字元修正信心分數(shù)門檻值tcorrect在不同設(shè)定下的結(jié)果CM(不惜)<tcorrect則加入”布?!敝猎~網(wǎng)tcorrect=0.6時,tsyll_sim=2.0時,F(xiàn)-測量進步到79.50類別語言模型法
結(jié)合關(guān)鍵詞可信度分數(shù)門檻值、音節(jié)匹配及類別生29類別語言模型法
結(jié)合關(guān)鍵詞可信度分數(shù)門檻值、音節(jié)匹配及類別生成機率調(diào)適實驗結(jié)果(語音辨識率)語音字元辨識率也從87.99提升到88.17類別語言模型法
結(jié)合關(guān)鍵詞可信度分數(shù)門檻值、音節(jié)匹配及類別生30類別語言模型法
結(jié)合關(guān)鍵詞可信度分數(shù)門檻值、音節(jié)匹配及類別生成機率調(diào)適實驗結(jié)果觀察音節(jié)完全匹配時最好的設(shè)定下:類專有名詞F測量:從73.00→79.50 語音字元辨識率:從87.99→88.17類別語言模型法
結(jié)合關(guān)鍵詞可信度分數(shù)門檻值、音節(jié)匹配及類別生31結(jié)合時間與主題同質(zhì)的類專有名詞匹配
-派樹式規(guī)則法非類別語言模型法的統(tǒng)計式解歧異,因此,以設(shè)定快取語言模型的機率門檻值(tcache)作為匹配的限制惜雖堅然稱不<s></s>惜雖堅然稱不<s></s>布希根據(jù)匹配特徵限制:音節(jié)相似度>=tsyll_simCM(不惜)<tcorrectP(布希|percache)>tcache
音節(jié)完全/近似匹配布希最好的設(shè)定為:關(guān)鍵詞可信度門檻值tkey=0.01快取語言模型門檻值tcache=0.2音節(jié)近似匹配tsyll_sim=1.7字元修正信心分數(shù)門檻值tcorrect=0.6F-測量:80.01→80.93語音字元辨識率:87.99→88.16結(jié)合時間與主題同質(zhì)的類專有名詞匹配
-派樹式規(guī)則法非類別語言32語音文件中類專有名詞辨識
最佳設(shè)定結(jié)果比較結(jié)合關(guān)鍵詞可信度分數(shù)門檻值及時間與主題同質(zhì)的類專有名詞匹配關(guān)鍵詞可信度分數(shù)門檻值→提高精確率時間與主題同質(zhì)的類專有名詞匹配→提高回收率兩者結(jié)合使用可同時提高精確率與回收率類別語言模型法:tkey=0.1,λcache=0.6,tsyll_sim=2.0,tcorrect
=0.6時,
F-測量73.00→79.50
派樹式規(guī)則法:tkey=0.01,tcache=0.2,tsyll_sim=1.7,tcorrect=0.6時,
F-測量80.01→80.93語音文件中類專有名詞辨識
最佳設(shè)定結(jié)果比較結(jié)合關(guān)鍵詞可信度分33類專有名詞辨識衍生之應(yīng)用自動建立類專有名詞索引之資訊檢索系統(tǒng)網(wǎng)際網(wǎng)路語音問答系統(tǒng)類專有名詞辨識衍生之應(yīng)用自動建立類專有名詞索引之資訊檢索系統(tǒng)34類專有名詞辨識衍生之應(yīng)用
-自動建立類專有名詞索引之資訊檢索系統(tǒng)幫助使用者瞭解新聞?wù)Z料庫中重要的資訊,並提供使用者檢索的詞彙類專有名詞辨識衍生之應(yīng)用
-自動建立類專有名詞索引之資訊檢索35類專有名詞辨識衍生之應(yīng)用
-網(wǎng)際網(wǎng)路語音問答系統(tǒng)問問題Google共檢索出2750篇檢索詞重寫(QueryReformulation)將檢索出來的網(wǎng)頁摘要(Snippet)做類專有名詞辨識(選取前N篇)可能答案排序可用語音合成方式唸出最可能的答案結(jié)合語音輸入、語音合成,以自然語言在網(wǎng)路上做問答,並以類專有名詞辨識淬取出重要的資訊,在未來是一個發(fā)展趨勢類專有名詞辨識衍生之應(yīng)用
-網(wǎng)際網(wǎng)路語音問答系統(tǒng)問問題Goo36結(jié)論文字文件中類專有名詞辨識類別語言模型法:在有優(yōu)值語言模型的情形下,解歧異功能最好不容易處理無關(guān)鍵詞結(jié)尾的巢狀類別派樹式規(guī)則法:可抽出許多無關(guān)鍵詞的類專有名詞在新聞領(lǐng)域測試語料中可以達到很好的效果統(tǒng)計式的類別語言模型法及派樹式規(guī)則法各有優(yōu)劣處語音文件中類專有名詞辨識結(jié)合關(guān)鍵詞可信度分數(shù)門檻值限制及時間與主題同質(zhì)的類專有名詞匹配可以同時增加精確率與回收率,F(xiàn)-測量可以進步許多做了類專有名詞辨識後的語音文件可以幫助瀏覽、建構(gòu)索引、實作問答等系統(tǒng),對於語音摘要也能帶來幫助結(jié)論文字文件中類專有名詞辨識37謝謝各位謝謝各位38中文文字/語音文件中
類專有名詞擷取
及其可能應(yīng)用之初步研究
AnInitialStudyonNamedEntityExtraction
fromChineseText/SpokenDocuments
andItsPotentialApplications指導(dǎo)教授:李琳山博士
共同指導(dǎo):陳信希博士
研究生:劉禹吟中文文字/語音文件中
類專有名詞擷取
及其可能應(yīng)用之初步研究39簡介本論文處理的類專有名詞類別包含人名、地名與組織名。類專有名詞辨識是希望在文件中標註出正確的類專有名詞邊界與類別。語音文件中的類專有名詞辨識:在有語音辨識錯誤的語音文件中找出類專有名詞出現(xiàn)處有助於語音摘要、語音問答、和語音對話系統(tǒng)的處理類專有名詞類別舉例人名(PER)托尼·布萊爾
陳水扁、馬市長地名(LOC)胡志明市、中山堂鶯歌、七堵赴美、中日關(guān)係組織名(ORG)聯(lián)合國安理會臺灣積體電路製造股份有限公司中油、臺塑<ENAMEXTYPE=“LOCATION”>美國</ENAMEX>國務(wù)卿<ENAMEXTYPE=“PERSON”>鮑爾</ENAMEX>在<ENAMEXTYPE=“LOCATION”>華府外籍記者中心</ENAMEX>表示...簡介本論文處理的類專有名詞類別包含人名、地名與組織名。類專有40綱要文字文件中類專有名詞辨識語音文件中類專有名詞辨識類專有名詞辨識衍生之應(yīng)用結(jié)論綱要文字文件中類專有名詞辨識41文字文件中的類專有名詞辨識類別語言模型法派樹式規(guī)則法文字文件中的類專有名詞辨識類別語言模型法42文字文件中類專有名詞辨識
-類別語言模型法的概念類別的種類:人名類別、地名類別、組織名類別、辭典中詞彙每一個詞各自是一個類別若辭典中有|V|個詞彙,則總共的類別數(shù)有|V|+3個基本概念:給定中文句子S,W為S的可切分詞串,C為W對應(yīng)的類別,利用維特比搜尋找出滿足P(C,W)最大的最佳詞序列W*和W*對應(yīng)的最佳類別序列C*類別前後文模型類別生成模型文字文件中類專有名詞辨識
-類別語言模型法的概念類別的種類:43各種類別語言模型的機率估計各種類別生成模型估計人名類別(字元二連語言模型)中國人名、外國人名分成兩種機率模型例:李小龍巢狀類別(類別二連語言模型)地名、組織名例:宜蘭清水公園一般詞彙類別每一個辭典中詞彙各自是一個類別生成機率皆為1類別前後文模型估計由訓(xùn)練語料庫訓(xùn)練出三連類別語言模型機率如:訓(xùn)練語句:總統(tǒng)PER在LOC發(fā)表聲明…可估計出:p(PER|總統(tǒng),<s>),p(LOC|在,PER)…P(李小龍|PER)≈p(李|<s>)p(小|李)p(龍|小)p(</s>|龍)P(宜蘭清水公園|LOC)≈
p(LOC|<s>)p(PER|LOC)p(公園|PER)p(</s>|公園)p(宜蘭|LOC)*p(清水|PER)*p(公園|公園)p(尤其|尤其)=1、p(今天|今天)=1內(nèi)部維特比搜尋找出內(nèi)部最佳的類別及詞序列所對應(yīng)的機率,以最高機率當成其生成機率各種類別語言模型的機率估計各種類別生成模型估計P(李小龍|P44類別語言模型法實作演算法對於句子S,執(zhí)行下列三個步驟:建構(gòu)詞網(wǎng)紀錄各類別候選詞於詞網(wǎng)上,並記錄其生成機率一般詞彙、人名類別、地名類別、組織名類別正向動態(tài)規(guī)劃(維特比搜尋)從句首至句尾對每一個候選詞計算到該位置為止,滿足p(c,w)最大的最佳路徑,紀錄最佳分數(shù)及回溯指標反向回溯找出最佳的詞序列及對應(yīng)的類別序列從句尾中有最高路徑分數(shù)的候選詞開始回溯至句首類別語言模型法實作演算法對於句子S,執(zhí)行下列三個步驟:45(3)反向回溯(2)正向維特比搜尋
c*,w*=maxp(c*)*p(w*|c*)(1)建構(gòu)詞網(wǎng)演算法運作流程
處理句子:臺北市中正紀念堂是為了紀念蔣中正先生一般詞網(wǎng)示意圖
市中紀正念堂是為了紀北臺念蔣中先生正346578910111221131415171816臺北中正紀念紀念堂紀念蔣中正先生中正(p)紀念(p)紀念堂(p)堂是(p)堂是為(p)紀念(p)蔣中(p)蔣中正(p)紀念蔣(p)臺北(l)臺北市(l)正紀念堂(l)中正紀念堂(l)市中正紀念堂(l)北市中正紀念堂(l)臺北市中正紀念堂(l)<s></s>一般詞彙類別每個詞的生成機率皆為1。如:p(紀念|紀念)=1計算人名類別的生成機率。如:p(紀念|人名)=P(紀|<s>)*p(念|紀)*p(</s>|念)生成機率計算:做內(nèi)部維特比搜尋,得出最佳類別序列和最佳機率為了最佳類別路徑(C*):
LOC是為了紀念PER先生最佳詞路徑(W*):臺北市中正紀念堂是為了紀念蔣中正先生P(C*,W*)=P(C*)*P(W*|C*)
=P(LOC|<s>)*P(是|LOC,<s>)*P(為了|是,LOC)*P(紀念|為了,是)*P(PER|紀念,為了)*P(先生|PER,紀念)*P(</s>|先生,PER)*
P(臺北市中正紀念堂|地名)*P(是|是)*P(為了|為了)P(紀念|紀念)*P(蔣中正|人名)*P(先生|先生)(3)反向回溯(2)正向維特比搜尋
c*,w*=m46巢狀類別內(nèi)部維特比搜尋地名類別詞網(wǎng)計算地名生成機率P(臺北市中正紀念堂|LOC)346578910111221131415171816臺北(l)臺北市(l)中正(p)紀念(p)紀念堂市中正北臺<s></s>臺北市中正紀念堂(l)由地名類別的語言模型查出可能出現(xiàn)在地名的詞彙,生成機率皆設(shè)為1各種類別的候選詞與生成機率紀念堂(p)生成機率設(shè)為:P(臺北市中正紀念堂|LOC)=P(C*)*P(W*|C*)=P(LOC|<s>)*P(PER|LOC)*P(紀念堂|PER)*P(</s>|紀念堂)*P(臺北市|LOC)*P(中正|PER)*p(紀念堂|紀念堂)巢狀類別內(nèi)部維特比搜尋地名類別詞網(wǎng)346578910111247類別語言模型法討論類別語言模型法觀察:優(yōu)點:將斷詞與類專有名詞辨識合在同一個架構(gòu)下,具有斷詞解歧異的功能弱點:不易取得涵蓋領(lǐng)域夠廣且標註夠一致的訓(xùn)練語料不容易回收沒有關(guān)鍵詞的地名、組織名(九份、中廣)需要做內(nèi)部維特比搜尋的字串將成指數(shù)成長一次處理一句,未用到整篇文章所包含的字串資訊新的想法:派樹式類專有名詞抽取:使用整篇文章所包含的樣式統(tǒng)計資訊及該樣式所有出現(xiàn)過的前後文幫助抽取類專有名詞金門縣長陳水在昨天呼籲兩岸…,陳水在表示…,陳水在當初擔任…臺北縣鶯歌鎮(zhèn)的陶瓷…,鶯歌有許多賣精美陶瓷的店家…,要到鶯歌遊玩的民眾可以搭乘…遊戲橘子集團高階人事異動…,對於遊戲橘子跨足研發(fā)領(lǐng)域…,遊戲橘子旗下的產(chǎn)品多數(shù)是以代理自韓國為主…,遊戲橘子董事長劉柏園表示…縮寫類專有名詞尤以娛樂、財經(jīng)、體育、科技新聞居多,使用單純類別語言模型法較難偵測出。類別語言模型法討論類別語言模型法觀察:金門縣長陳水在昨天呼籲48派樹式規(guī)則法
-派樹式類專有名詞抽取概念派樹:是一種很有效率的資料結(jié)構(gòu),在資訊檢索的領(lǐng)域使用很多建構(gòu)派樹:將處理的文章中每一個語意片段中的後部字串(suffixstring)加入派樹中正向派樹、反向派樹優(yōu)點:可以容易地獲得任意字串在整篇文章中的出現(xiàn)頻率及所有前後文統(tǒng)計值(左右相連詞變異度)可判斷詞的邊界完整性前後文字串可以用來判斷類別sYZX1X2RC1RC2RC3LC3LC2LC1X:陳水在X1:陳水在
X2:在水陳
Y:陳水
Z:在水RC1:陳水在說*RC2:陳水在強調(diào)*RC3:陳水在昨天呼籲*LC1:在水陳長縣門金*LC2:在水陳,*LC3:在水陳當*正向派樹可以容易地查詢字串的所有後文(RC)反向派樹可以容易地查詢字串的所有前文(LC)正向派樹:
S=今天在總統(tǒng)府
Suffixstrings:
今天在總統(tǒng)府
天在總統(tǒng)府
在總統(tǒng)府
總統(tǒng)府
統(tǒng)府
府反向派樹:
S=府統(tǒng)總在天今
Suffixstrings:
府統(tǒng)總在天今
統(tǒng)總在天今
總在天今
在天今
天今
今派樹式規(guī)則法
-派樹式類專有名詞抽取概念派樹:是一種很有效率49派樹式規(guī)則法
-派樹式類專有名詞抽取流程對整篇文章建構(gòu)正向及反向派樹估計候選字串的邊界完整性選擇證據(jù)分數(shù)最高分且超過門檻值的類別檢驗字串內(nèi)部及外部前後文資訊記錄各類別證據(jù)分數(shù)抽取出的類專有名詞槽內(nèi)部特徵:人名:人名機率是否大過門檻值地名、組織名:內(nèi)部是否有關(guān)鍵詞(隊、鄉(xiāng))外部特徵:人名:頭銜、發(fā)言動詞地名:重要前後文(抵達、飛往,地區(qū)、附近、市…)組織名:重要前後文(大廠、廠商,公司…)組合特徵:搭配內(nèi)部及外部特徵對各類別記錄證據(jù)分數(shù)。(詳述於論文中)處理派樹中出現(xiàn)頻率>=tf的字串興農(nóng):AORG兄弟:AORG天母球場:LOC…使用字串的前後文變異統(tǒng)計值做抽詞繼續(xù)判斷候選字串可能的類專有名詞類別w=馬英β=九
f(w,β)/f(w)<tb?如果f(w,β)/f(w)>=tb,則w=馬英可能不是一個邊界完整的詞派樹式規(guī)則法
-派樹式類專有名詞抽取流程對整篇文章建構(gòu)正向及50一次輸入一個句子派樹式規(guī)則法系統(tǒng)架構(gòu)單篇文件斷詞與特性標註人名辨識巢狀類專有名詞辨識類專有名詞的結(jié)合單字詞類專有名詞辨識派樹式類專有名詞抽取抽取出的類專有名詞槽快取類專有名詞槽類專有名詞重要相關(guān)詞彙列表輸出標註類專有名詞的句子一般辭典LOC→{[PER][APER][LOC][ALOC]}*[ContentWord]*{LOC_KEY}ORG→{[PER][APER][LOC][ALOC][ORG][AORG]}*[ContentWord]*{ORG_KEY}組成結(jié)構(gòu)及邊界判定(STOP,LOC_LEFT_CONTEXT_KEY…)人名機率門檻值限制及邊界判定(STOP,TITLE,PER_SPOKEN_VERB…)斷詞法:後向最大匹配與特性標註LOC→{LOC}*ORG→{ORG}*ORG->LOCORG聯(lián)合國安理會大陸上海…中國的中、日本的日等。中美關(guān)係,日韓代表,中、韓、日三方。
SCNEpattern→{SCNE}*{co-occurpattern}
美總統(tǒng)布希、日相、英首相布萊爾、美代表、以代表
SCNEtitle
美方、日方、美軍、伊軍、中方…美重申、美發(fā)表、…從派樹中查詢整篇文章中是否出現(xiàn)過澳洲、澳門、澳大利亞、澳國,若有,則澳字單獨出現(xiàn)時可能是地名,如:澳代表…輸入整篇文章一次輸入一個句子派樹式規(guī)則法系統(tǒng)架構(gòu)單篇文件斷詞與特性標註人51文字文件類專有名詞辨識實驗
-測試語料測試語料:MUC-7(MessageUnderstandingConference-7)的MET-2(MultilingualEntityTask)測試語料,為大陸簡體字、火箭發(fā)射相關(guān)新聞共100則類專有名詞統(tǒng)計量評分方法:精確率、回收率F-測量=(2*精確率*回收率)/(精確率+回收率)類別出現(xiàn)次數(shù)人名174地名750組織名377文字文件類專有名詞辨識實驗
-測試語料測試語料:類別出現(xiàn)次數(shù)52文字文件類專有名詞辨識實驗結(jié)果訓(xùn)練語料:臺灣雅虎網(wǎng)路新聞8天份,1萬多篇的自動標註新聞訓(xùn)練語料:大陸人民日報一個月的自動標註類專有名詞新聞CED電子辭典、已知各類專有名詞列表CED電子辭典派樹式類專有名詞抽取、類專有名詞暗示詞列表、經(jīng)驗法則詞網(wǎng)中只加入結(jié)尾有關(guān)鍵詞的巢狀類別候選詞句子中所有子字串都當成可能的巢狀類別候選詞並加入詞網(wǎng)中派樹式規(guī)則法表現(xiàn)最好類別語言模型法會受到訓(xùn)練語言模型優(yōu)劣影響好壞類別語言模型法只偵測結(jié)尾有關(guān)鍵詞的巢狀類別結(jié)果較好文字文件類專有名詞辨識實驗結(jié)果訓(xùn)練語料:臺灣雅虎網(wǎng)路新聞8天53語音文件中的類專有名詞辨識轉(zhuǎn)寫文件直接辨認結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值限制結(jié)合時間與主題同質(zhì)的類專有名詞匹配語音文件中的類專有名詞辨識轉(zhuǎn)寫文件直接辨認54語音文件中類專有名詞辨識
-測試語料News982002年9月份200則語音新聞經(jīng)由時間同質(zhì)調(diào)適語料做語言模型調(diào)適的語音辨識結(jié)果音節(jié)辨識率較字元辨識率高許多測試語料中類專有名詞統(tǒng)計量字元辨識率音節(jié)辨識率87.99%93.42%類別出現(xiàn)次數(shù)人名315地名457組織名500語音文件中類專有名詞辨識
-測試語料News982002年55轉(zhuǎn)寫文件直接類專有名詞辨識實驗結(jié)果類別語言模型法:73.00派樹式規(guī)則法:80.01當成基礎(chǔ)結(jié)果轉(zhuǎn)寫文件直接類專有名詞辨識實驗結(jié)果類別語言模型法:73.0056轉(zhuǎn)寫文件直接類專有名詞辨識
-結(jié)果觀察直接辨識的問題:將辨識錯誤處當成對的類專有名詞例子:郭塘又缺少運動的婦女…(過糖)導(dǎo)致精確率降低辨識錯誤的類專有名詞無法回收例子:立委甚至?xí)ьI(lǐng)…(沈智慧)導(dǎo)致回收率降低提出方法:
結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值提出方法:
結(jié)合時間與主題同質(zhì)的類專有名詞匹配PER:沈智慧ORG:立法院…`郭’字辨識錯誤…“甚至?xí)笔潜孀R錯誤…轉(zhuǎn)寫文件直接類專有名詞辨識
-結(jié)果觀察直接辨識的問題:提出方57結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值限制語音辨識信心測量,以CM(confidencemeasure)代表人名:當中國人名姓氏或外國人名首字沒有重要前後文一同出現(xiàn)時(頭銜、發(fā)言動詞),可信度必須大過門檻值tkey,才當成可能的候選詞例:(過糖) 地名、組織名:當結(jié)尾關(guān)鍵詞(市、廠、鄉(xiāng))可信度大過門檻值tkey時,才當成可能的候選詞如何設(shè)定關(guān)鍵詞可信度門檻值(tkey)呢?
先對可信度分數(shù)大小做觀察結(jié)合關(guān)鍵詞可信度門檻值限制
CM(郭)<tkey?
則詞網(wǎng)中不加入此中國人名候選詞塘又乏缺運郭<s></s>婦的動女郭塘缺乏運動婦女直接辨認法:PER又缺乏運動的婦女郭塘又缺乏運動的婦女結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值限制語音辨識信心測量,以CM(58最佳輸出結(jié)果中每個詞可信度分數(shù)計算詞圖(wordgraph)中節(jié)點辨識可信度分數(shù)計算:詞圖中每一個節(jié)點的可信度分數(shù),是將經(jīng)過該節(jié)點的所有路徑事後機率相加而得最佳輸出結(jié)果(1-best)的每個詞的可信度分數(shù)計算:在詞圖中將時間點有重疊且候選詞一樣的節(jié)點可信度分數(shù)相加得到為了避免在詞圖中找不到對應(yīng)最佳輸出的路徑,通常會建構(gòu)較龐大的詞圖詞圖大小與可信度的關(guān)係:詞圖愈大保留的候選詞就愈多,每個候選詞的路徑機率會被分散掉,使得可信度分數(shù)平均而言會變小。最佳輸出結(jié)果中每個詞可信度分數(shù)計算詞圖(wordgraph59關(guān)鍵詞辨識可信度分數(shù)門檻值估計
-可信度分數(shù)排序觀察(200則開發(fā)集)辨識正確詞的可信度有10%只在0.01以下可信度值偏小設(shè)的可信度門檻值不宜太高關(guān)鍵詞辨識可信度分數(shù)門檻值估計
-可信度分數(shù)排序觀察(260類別語言模型法
-結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值實驗結(jié)果辨識可信度門檻值設(shè)得愈高,表示要求的精確率愈高,然而回收率可能下降加入可信度分數(shù)門檻值有可能得到較好的F-測量(73.00→73.41)派樹式規(guī)則法在可信度門檻值0.01時也可得到較好的F-測量(80.01→80.09)IfCM(W關(guān)鍵詞)<tkey,表示可能為辨識錯誤,不當成可能的類專有名詞候選詞繼續(xù)處理類別語言模型法
-結(jié)合關(guān)鍵詞辨識可信度分數(shù)門檻值實驗結(jié)果辨識61結(jié)合時間與主題同質(zhì)的類專有名詞匹配
(幫助回收率增加)時間同質(zhì)新聞?wù)Z料庫時間同質(zhì)新聞?wù)Z料庫及類專有名詞庫時間與主題同質(zhì)類專有名詞庫單篇語音文件錯誤修正後的類專有名詞標註語音文件發(fā)音相似度矩陣發(fā)音辭典文字文件類專有名詞辨識器資訊檢索結(jié)合類專有名詞匹配的類專有名詞辨識使用TF*log(IDF)計算出語音文件與各篇純文字文件的文件向量相似度找出最相似的前20篇且相似度大於0.2的文字文件後端前處理2002年9月份雅虎奇摩網(wǎng)路新聞,可透過網(wǎng)路抓取每篇文字新聞中的類專有名詞都已經(jīng)自動抽取出來了。如:文件No.1.PER陳金鋒ORG洛杉磯道奇隊LOC美國…美國總統(tǒng)布希間表示…不惜雖然堅稱…國務(wù)卿鮑爾在眾議院談伊拉克問題…文件No.56
相似度0.6PER鮑爾3ORG眾議院2PER布希7PER布萊爾1LOC美國3文件No.12
相似度0.5LOC伊拉克6PER布希3ORG參議院2…美國(loc)總統(tǒng)布希(per)間表示…布希(per)雖然堅稱…國務(wù)卿鮑爾(per)在眾議院(loc)談伊拉克(loc)問題…結(jié)合時間與主題同質(zhì)的類專有名詞匹配
(幫助回收率增加)時間同62結(jié)合時間與主題同質(zhì)的類專有名詞匹配
-類別語言模型法人名類別快取語言模型percache地名類別快取語言模型loccache組織名類別快取語言模型orgcacheP(鮑爾|percache)=3/15P(布希|percache)=10/15P(賓拉登|percache)=2/15P(美國|loccache)=3/7P(伊拉|loccache)=4/7P(眾議院|orgcache)=2/4P(蓋達組織|orgcache)=2/4文件No.124
相似度0.6PER鮑爾3ORG眾議院2PER布希7LOC美國3文件No.124
相似度0.5LOC伊拉克4ORG蓋達組織2PER賓拉登2PER布希3…單篇語音文件時間與主題同質(zhì)類專有名詞庫美國總統(tǒng)布希間表示…不惜雖然堅稱…國務(wù)卿鮑爾在眾議院談伊拉克問題…尋找可匹配處字元完全匹配音節(jié)完全/近似匹配匹配到的候選詞做類別生成機率調(diào)適匹配處的處理結(jié)合時間與主題同質(zhì)的類專有名詞匹配
-類別語言模型法人名類別63類別語言模型法
-時間與主題同質(zhì)的類專有名詞匹配惜雖堅然稱不<s></s>國總布統(tǒng)希美<s></s>示表間美國總統(tǒng)表示美國布希布希間P(美國|LOC)=(1-λcache)P(美國|loc)+λcacheP(美國|loccache)
P(布希|PER)=(1-λcache)P(布希|per)+λcacheP(布希|percache)不惜堅稱雖然布希P(布希|percache)=10/15P(美國|loccache)=3/7滿足音節(jié)完全/近似匹配音節(jié)相似度>=tsyll_sim以及CM(不惜)<tcorrect字元完全匹配P(布希|PER)=(1-λcache)P(布希|per)+λcacheP(布希|percache)有助於回收率的提升與錯誤字元修正syll_sim(不、布)=2.0syll_sim(惜、希)=2.0類別語言模型法
-時間與主題同質(zhì)的類專有名詞匹配惜雖堅然稱不64類別語言模型法結(jié)合字元完全匹配及類別生成機率調(diào)適實驗結(jié)果類別生成機率內(nèi)插的結(jié)果比單純使用任何一種模型要來的好(λcache=0.6時最好)回收率隨著λcache提升類別語言模型法結(jié)合字元完全匹配及類別生成機率調(diào)適實驗結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 云南省西雙版納市2026屆生物高三上期末聯(lián)考模擬試題含解析
- 班組翻樣集中管理制度(3篇)
- 福建正規(guī)企業(yè)培訓(xùn)管理制度(3篇)
- 藥學(xué)項目管理制度有哪些(3篇)
- 詐騙投票活動策劃方案(3篇)
- 防疫相關(guān)管理制度和流程(3篇)
- 食堂水質(zhì)檢測管理制度(3篇)
- 《GA 782.1-2008指紋信息應(yīng)用交換接口規(guī)范 第1部分:指紋信息應(yīng)用交換接口模型》專題研究報告-數(shù)字化身份時代的基石架構(gòu)深度
- 中學(xué)學(xué)生課外實踐基地建設(shè)制度
- 養(yǎng)老院特殊護理制度
- 糖水店員工管理制度
- 來料檢驗控制程序(含表格)
- 醫(yī)院供氧、供電、供水故障脆弱性分析報告
- 2025年鈦合金閥項目可行性研究報告
- 耙地合同協(xié)議書
- 分布式基站光伏電站建設(shè)標準
- 2024-2025學(xué)年廣東省深圳市福田區(qū)六年級(上)期末數(shù)學(xué)試卷
- 酸棗扦插快繁技術(shù)規(guī)程DB1305T+098-2016
- 道岔滾輪作用原理講解信號設(shè)備檢修作業(yè)課件
- 小學(xué)師徒結(jié)對師傅工作總結(jié)
- 2024-2025學(xué)年山東省臨沂市高二上學(xué)期期末學(xué)科素養(yǎng)水平監(jiān)測數(shù)學(xué)試卷(含答案)
評論
0/150
提交評論