版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于上下文和語義信息的跨領(lǐng)域中文分詞報(bào)告人:張婧導(dǎo)師:黃德根教授學(xué)校:大連理工大學(xué)研究領(lǐng)域:自然語言處理NLP&MT基于上下文和語義信息的跨領(lǐng)域中文分詞報(bào)告人:張婧NLP&M1主要內(nèi)容NLP&MT中文分詞概況中文分詞的一大挑戰(zhàn)本文主要方法參考文獻(xiàn)主要內(nèi)容NLP&MT中文分詞概況中文分詞的一大挑戰(zhàn)本文主要方2中文分詞概況中文分詞的主要技術(shù):
基于規(guī)則的方法基于統(tǒng)計(jì)的方法規(guī)則與統(tǒng)計(jì)相結(jié)合的方法NLP&MT基于序列標(biāo)注的機(jī)器學(xué)習(xí)方法[1-2]基于字標(biāo)注的方法[3-5]基于子詞標(biāo)注的方法[6-8]中文分詞的技術(shù)難點(diǎn):
未登錄詞、歧義、規(guī)范等本文所用的方法中文分詞概況中文分詞的主要技術(shù):NLP&MT基于序列標(biāo)注的機(jī)3主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法參考文獻(xiàn)主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法4中文分詞的一大挑戰(zhàn)跨領(lǐng)域分詞的一個(gè)顯著特點(diǎn)是:一個(gè)特定領(lǐng)域文章中的通用詞和術(shù)語較多,這些領(lǐng)域性O(shè)OV是基于某個(gè)特定領(lǐng)域的,并且可能會(huì)在其所屬領(lǐng)域的某一上下文內(nèi)多次出現(xiàn)。NLP&MT因此,領(lǐng)域適應(yīng)性已經(jīng)成為中文分詞面臨的一大挑戰(zhàn)[9]。在現(xiàn)實(shí)應(yīng)用中,需要分詞的絕大部分文本并不帶有來源、主題等標(biāo)記數(shù)據(jù)[9]
。分詞系統(tǒng)不能預(yù)先把所有可能的文本種類都訓(xùn)練好[9]。分詞系統(tǒng)能貢獻(xiàn)最高價(jià)值,發(fā)揮最高效益時(shí),是針對(duì)新主題,新來源,帶有許多未登錄詞的文本[9]。中文分詞的一大挑戰(zhàn)跨領(lǐng)域分詞的一個(gè)顯著特點(diǎn)是:NL5主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法參考文獻(xiàn)模型及特征上下文及語義信息分詞算法流程實(shí)驗(yàn)結(jié)果及總結(jié)主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法6本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實(shí)驗(yàn)結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流7本文主要方法——模型及特征NLP&MT本文采用字詞聯(lián)合的CRFs模型。先將使用基于字的CRFs獲得的候選詞放入詞圖,然后再使用基于詞的CRFs模型對(duì)詞圖中的詞進(jìn)行標(biāo)注。訓(xùn)練時(shí),使用最大似然估計(jì),為了避免訓(xùn)練過載,使用高斯先驗(yàn)對(duì)參數(shù)進(jìn)行規(guī)格化。解碼時(shí),用Viterbi算法。模型:特征模板:基于字的CRFs特征模板基于詞的CRFs特征模板本文主要方法——模型及特征NLP&8本文主要方法——模型及特征NLP&MT基于字的CRFs:使用的特征模板:C-1,C0,C1,C-1C0,C0C1,C-1C1,T-1T0T1,并且加入AV[16]特征。表1基于字的CRFs特征模板本文主要方法——模型及特征NLP&9本文主要方法——模型及特征NLP&MT基于詞的CRFs:采用的具體特征模板有:W0,T0,W0T0,T0T1,W0W1,其中,W表示詞形,T表示詞性,下標(biāo)0和1分別表示相鄰兩個(gè)詞的前詞和后詞。表2基于詞的CRFs特征模板本文主要方法——模型及特征NLP&10本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實(shí)驗(yàn)結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流11本文主要方法——上下文及語義信息NLP&MT“日本金融特任大臣①龜井靜香(ShizukaKamei)周五(3月19日)發(fā)表講話……②龜井靜香此前就一直呼吁推出新一輪的大規(guī)模經(jīng)濟(jì)刺激計(jì)劃……③龜井靜香表示,昨日發(fā)布的土地價(jià)格調(diào)查報(bào)告顯示……④龜井靜香還呼吁日本央行直接買入國債來為政府赤字提供融資……金融市場對(duì)⑤龜井靜香的評(píng)論應(yīng)該不會(huì)有太大反應(yīng)……”.提出假設(shè):如果某個(gè)詞在篇章中出現(xiàn)了一次,那么將會(huì)增加它下一次出現(xiàn)的可能性。也就是說,若某個(gè)字串在上下文中多次被當(dāng)作候選詞,則它很可能就是一個(gè)詞。對(duì)此,本文用上下文變量來量化這個(gè)假設(shè)。上下文變量記錄候選詞的詞形(w),詞性(t),詞出現(xiàn)的難易程度(Cost),該詞作為候選詞的頻數(shù)(Frequency),該詞作為最終切分路徑中詞節(jié)點(diǎn)的頻數(shù)(rNum)。上下文信息:本文主要方法——上下文及語義信息NLP&M12NLP&MT本文主要方法——上下文及語義信息Al05A01=模范標(biāo)兵表率榜樣師表軌范楷范英模典型豐碑Al05A02=勞模勞動(dòng)模范在查找某個(gè)候選詞在詞林中的同義詞時(shí),遵循著就近原則,因?yàn)閮蓚€(gè)同義詞集合距離越近,其詞義信息越接近。表3同義詞詞林編碼規(guī)范語義信息:NLP&MT本文主要方法——上下文及語義信13本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實(shí)驗(yàn)結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流14跨領(lǐng)域分詞的分詞算法流程如下:NLP&MT本文主要方法——分詞算法流程Step1.使用基于字的CRFs得到3-Best路徑,并且將路徑中所有的節(jié)點(diǎn)加入到詞圖中。圖1詞圖示例跨領(lǐng)域分詞的分詞算法流程如下:NLP&MT本文主要方法15NLP&MT本文主要方法——分詞算法流程Step2.為詞圖中的每個(gè)候選詞賦予屬性和代價(jià)。具體步驟為:①若候選詞為系統(tǒng)詞典中的詞,則直接將該詞在系統(tǒng)詞典中的屬性及詞代價(jià)賦給該候選詞;②若候選詞不在系統(tǒng)詞典中,但在上下文信息詞典中,則采用公式(1)對(duì)該候選詞的出現(xiàn)代價(jià)進(jìn)行加權(quán);(1)其中,frequency是該候選詞出現(xiàn)的頻率;rNum是候選詞作為正確結(jié)果的頻率;cost’(w)是分詞路徑中候選詞的出現(xiàn)難易程度;cost0(w)為上下文變量表中詞條的原始代價(jià)。NLP&MT本文主要方法——分詞算法流16NLP&MT本文主要方法——分詞算法流程③若候選詞不在上述兩個(gè)詞典中,則到同義詞詞林中查找該候選詞的同義詞,若能在系統(tǒng)詞典中找到其同義詞,則用系統(tǒng)詞典中該同義詞的相關(guān)信息代替該候選詞相對(duì)應(yīng)的信息;④若無法通過上述方法找到或代替該候選詞,則用未登錄詞分類處理該候選詞。具體分為四類:漢字,字母,數(shù)字,標(biāo)點(diǎn)符號(hào)。它們的詞性,分別賦為名詞,字符串,數(shù)字,標(biāo)點(diǎn),而詞出現(xiàn)的代價(jià)為詞典中該類詞性詞語代價(jià)的平均值。Step3.構(gòu)建詞圖后,用Viterbi算法根據(jù)公式(4)計(jì)算每條路徑的分詞代價(jià),找到一條最佳路徑,即代價(jià)最小的分詞路徑。公式(4)中的Cost(wi)和TransCost(ti,ti+1)分別通過公式(2)和公式(3)計(jì)算得到。(2)NLP&MT本文主要方法——分詞算法流17NLP&MT本文主要方法——分詞算法流程(3)其中,U(w)為關(guān)于當(dāng)前詞w的一元特征集合,B(t1,t2)是關(guān)于相鄰的兩個(gè)詞的屬性(這里僅為詞性)的二元特征集合,λfk為特征fk在模型文件中的相應(yīng)權(quán)重,變量factor為將特征權(quán)重轉(zhuǎn)換為代價(jià)的放大系數(shù)。從以上公式可以看出,由于所有的特征函數(shù)都為二值特征函數(shù),所以在計(jì)算詞條的代價(jià)時(shí),詞出現(xiàn)的代價(jià)等于該詞能表示的所有一元特征權(quán)重之和,屬性集之間的轉(zhuǎn)移代價(jià)為兩屬性集所能表示的二元特征函數(shù)的權(quán)重之和。(4)NLP&MT本文主要方法——分詞算法流18本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實(shí)驗(yàn)結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流19實(shí)驗(yàn)數(shù)據(jù):系統(tǒng)詞典是從2000年1-6月份的人民日報(bào)中抽取出來的,詞性體系為相應(yīng)的北大詞性體系,詞典中共含有85,000個(gè)詞。本文采用的語義資源是同義詞詞林(擴(kuò)展版),共包含77,343條詞語。SIGHAN2010的跨領(lǐng)域簡體中文訓(xùn)練和測試語料。訓(xùn)練基于詞圖的CRFs模型時(shí),所用的語料是有詞性標(biāo)注的評(píng)測語料(1998年1月份人民日報(bào))。NLP&MT本文主要方法——實(shí)驗(yàn)結(jié)果及總結(jié)實(shí)驗(yàn)數(shù)據(jù):NLP&MT本文主要方法——20NLP&MT本文主要方法——實(shí)驗(yàn)結(jié)果及總結(jié)NLP&MT本文主要方法——實(shí)驗(yàn)結(jié)果及21該方法用基于字標(biāo)注的CRFs模型得到3-Best路徑,將路徑中包含的所有候選詞添加到詞圖中,充分利用篇章的上下文信息和同義詞語義信息,在詞的層面上從詞圖中選擇代價(jià)最小的路徑作為最終的分詞結(jié)果。該方法很好地發(fā)揮了基于字標(biāo)注的方法在發(fā)現(xiàn)未登錄詞上的能力,而且在分詞過程中充分利用詞匯的領(lǐng)域性信息,提高了領(lǐng)域性分詞的分詞結(jié)果。用Bakeoff2010簡體中文測試語料進(jìn)行開式測試,結(jié)果表明:該方法在四個(gè)測試領(lǐng)域中的三個(gè)領(lǐng)域的F值和OOV的召回率好于2010參加評(píng)測的最好成績。本文獲國家自然科學(xué)基金(No.61173100,No.61173101)資助。NLP&MT本文主要方法——實(shí)驗(yàn)結(jié)果及總結(jié)NLP&MT本文主要方法——實(shí)驗(yàn)結(jié)果及22主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法參考文獻(xiàn)主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法23參考文獻(xiàn)[1] XueNianwen.Chinesewordsegmentationascharactertagging.ComputationalLinguistics,2003,8(1):29-48.[2] LaffertyJ,McCallumA,PereiraF.probabilisticmodelsforsegmentingandlabelingsequencedata//ProceedingsofICML2001.ConditionalRandomFields:SanFrancisco:MorganKaufmann,2001:282-289[3] TsengH,ChangPichuan,AndrewG,etal.Aconditionalrandom?eldwordsegmenterforSIGHANbakeoff2005//Procofthe4thSIGHANWorkshoponChineseLanguageProcessing.JejuIsland:ACL,2005:168–171[4] PengFuchun,FengFangfang,McCallumA.Chinesesegmentationandnewworddetectionusingconditionalrandom?elds//ProcofCOLING2004.SanFrancisco:MorganKaufmann,2004:562-568[5] LowJK,NgHT,GuoWenyuan.AmaximumentropyapproachtoChinesewordsegmentation//Procofthe4thSIGHANWorkshoponChineseLanguageProcessing.JejuIsland:ACL,2005:161–164[6] HuangDegen,TongDeqin.ContextInformationandFragmentsBasedCross-DomainWordSegmentation.ChinaCommunications,2012,9(3):49-57[7] ZhangRuiqiang,KikuiGenichiro,SumitaEiichiro.Subword-basedtaggingbyconditionalrandomfieldsforChinesewordsegmentation//ProcofHLT-NAACL-2006.Morristown,NJ:ACL,2006:193-196[8] 黃德根,焦世斗,周惠巍.基于子詞的雙層CRFs中文分詞.計(jì)算機(jī)研究與發(fā)展,2010,47(5):962-968[9] 黃居仁.瓶頸_挑戰(zhàn)_與轉(zhuǎn)機(jī)_中文分詞研究的新思維//中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009):北京:中國中文信息學(xué)會(huì),2009:14-19[10] GaoQin,VogelS.AMulti-layerChineseWordSegmentationSystemOptimizedforOut-of-domainTasks//ProcofCIPS-SIGHANJointConferenceonChineseProcessing.Beijing:ACL,2010:210-215[11] HuangDegen,TongDeqin,LuoYanyan.HMMRevisesLowMarginalProbabilitybyCRFforChineseWordSegmentation.[C]//ProcofCIPS-SIGHANJointConferenceonChineseProcessing.Beijing:ACL,2010:216-220[12] ZhangChongyang,ChenZhigang,HuGuoping.AChineseWordSegmentationSystemBasedonStructuredSupportVectorMachineUtilizationofUnlabeledTextCorpus//ProcofCIPS-SIGHANJointConferenceonChineseProcessing.Beijing:ACL,2010:221-227[13] ZhangHuaping,GaoJian,MoQian,etal.IncporatingNewWordsDetectionwithChineseWordSegmentation//ProcofCIPS-SIGHANJointConferenceonChineseProcessing.Beijing:ACL,2010:249-251NLP&MT參考文獻(xiàn)[1] XueNianwen.Chinesew24感謝各位專家請批評(píng)指正NLP&MTNLP&MT25基于上下文和語義信息的跨領(lǐng)域中文分詞報(bào)告人:張婧導(dǎo)師:黃德根教授學(xué)校:大連理工大學(xué)研究領(lǐng)域:自然語言處理NLP&MT基于上下文和語義信息的跨領(lǐng)域中文分詞報(bào)告人:張婧NLP&M26主要內(nèi)容NLP&MT中文分詞概況中文分詞的一大挑戰(zhàn)本文主要方法參考文獻(xiàn)主要內(nèi)容NLP&MT中文分詞概況中文分詞的一大挑戰(zhàn)本文主要方27中文分詞概況中文分詞的主要技術(shù):
基于規(guī)則的方法基于統(tǒng)計(jì)的方法規(guī)則與統(tǒng)計(jì)相結(jié)合的方法NLP&MT基于序列標(biāo)注的機(jī)器學(xué)習(xí)方法[1-2]基于字標(biāo)注的方法[3-5]基于子詞標(biāo)注的方法[6-8]中文分詞的技術(shù)難點(diǎn):
未登錄詞、歧義、規(guī)范等本文所用的方法中文分詞概況中文分詞的主要技術(shù):NLP&MT基于序列標(biāo)注的機(jī)28主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法參考文獻(xiàn)主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法29中文分詞的一大挑戰(zhàn)跨領(lǐng)域分詞的一個(gè)顯著特點(diǎn)是:一個(gè)特定領(lǐng)域文章中的通用詞和術(shù)語較多,這些領(lǐng)域性O(shè)OV是基于某個(gè)特定領(lǐng)域的,并且可能會(huì)在其所屬領(lǐng)域的某一上下文內(nèi)多次出現(xiàn)。NLP&MT因此,領(lǐng)域適應(yīng)性已經(jīng)成為中文分詞面臨的一大挑戰(zhàn)[9]。在現(xiàn)實(shí)應(yīng)用中,需要分詞的絕大部分文本并不帶有來源、主題等標(biāo)記數(shù)據(jù)[9]
。分詞系統(tǒng)不能預(yù)先把所有可能的文本種類都訓(xùn)練好[9]。分詞系統(tǒng)能貢獻(xiàn)最高價(jià)值,發(fā)揮最高效益時(shí),是針對(duì)新主題,新來源,帶有許多未登錄詞的文本[9]。中文分詞的一大挑戰(zhàn)跨領(lǐng)域分詞的一個(gè)顯著特點(diǎn)是:NL30主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法參考文獻(xiàn)模型及特征上下文及語義信息分詞算法流程實(shí)驗(yàn)結(jié)果及總結(jié)主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法31本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實(shí)驗(yàn)結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流32本文主要方法——模型及特征NLP&MT本文采用字詞聯(lián)合的CRFs模型。先將使用基于字的CRFs獲得的候選詞放入詞圖,然后再使用基于詞的CRFs模型對(duì)詞圖中的詞進(jìn)行標(biāo)注。訓(xùn)練時(shí),使用最大似然估計(jì),為了避免訓(xùn)練過載,使用高斯先驗(yàn)對(duì)參數(shù)進(jìn)行規(guī)格化。解碼時(shí),用Viterbi算法。模型:特征模板:基于字的CRFs特征模板基于詞的CRFs特征模板本文主要方法——模型及特征NLP&33本文主要方法——模型及特征NLP&MT基于字的CRFs:使用的特征模板:C-1,C0,C1,C-1C0,C0C1,C-1C1,T-1T0T1,并且加入AV[16]特征。表1基于字的CRFs特征模板本文主要方法——模型及特征NLP&34本文主要方法——模型及特征NLP&MT基于詞的CRFs:采用的具體特征模板有:W0,T0,W0T0,T0T1,W0W1,其中,W表示詞形,T表示詞性,下標(biāo)0和1分別表示相鄰兩個(gè)詞的前詞和后詞。表2基于詞的CRFs特征模板本文主要方法——模型及特征NLP&35本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實(shí)驗(yàn)結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流36本文主要方法——上下文及語義信息NLP&MT“日本金融特任大臣①龜井靜香(ShizukaKamei)周五(3月19日)發(fā)表講話……②龜井靜香此前就一直呼吁推出新一輪的大規(guī)模經(jīng)濟(jì)刺激計(jì)劃……③龜井靜香表示,昨日發(fā)布的土地價(jià)格調(diào)查報(bào)告顯示……④龜井靜香還呼吁日本央行直接買入國債來為政府赤字提供融資……金融市場對(duì)⑤龜井靜香的評(píng)論應(yīng)該不會(huì)有太大反應(yīng)……”.提出假設(shè):如果某個(gè)詞在篇章中出現(xiàn)了一次,那么將會(huì)增加它下一次出現(xiàn)的可能性。也就是說,若某個(gè)字串在上下文中多次被當(dāng)作候選詞,則它很可能就是一個(gè)詞。對(duì)此,本文用上下文變量來量化這個(gè)假設(shè)。上下文變量記錄候選詞的詞形(w),詞性(t),詞出現(xiàn)的難易程度(Cost),該詞作為候選詞的頻數(shù)(Frequency),該詞作為最終切分路徑中詞節(jié)點(diǎn)的頻數(shù)(rNum)。上下文信息:本文主要方法——上下文及語義信息NLP&M37NLP&MT本文主要方法——上下文及語義信息Al05A01=模范標(biāo)兵表率榜樣師表軌范楷范英模典型豐碑Al05A02=勞模勞動(dòng)模范在查找某個(gè)候選詞在詞林中的同義詞時(shí),遵循著就近原則,因?yàn)閮蓚€(gè)同義詞集合距離越近,其詞義信息越接近。表3同義詞詞林編碼規(guī)范語義信息:NLP&MT本文主要方法——上下文及語義信38本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實(shí)驗(yàn)結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流39跨領(lǐng)域分詞的分詞算法流程如下:NLP&MT本文主要方法——分詞算法流程Step1.使用基于字的CRFs得到3-Best路徑,并且將路徑中所有的節(jié)點(diǎn)加入到詞圖中。圖1詞圖示例跨領(lǐng)域分詞的分詞算法流程如下:NLP&MT本文主要方法40NLP&MT本文主要方法——分詞算法流程Step2.為詞圖中的每個(gè)候選詞賦予屬性和代價(jià)。具體步驟為:①若候選詞為系統(tǒng)詞典中的詞,則直接將該詞在系統(tǒng)詞典中的屬性及詞代價(jià)賦給該候選詞;②若候選詞不在系統(tǒng)詞典中,但在上下文信息詞典中,則采用公式(1)對(duì)該候選詞的出現(xiàn)代價(jià)進(jìn)行加權(quán);(1)其中,frequency是該候選詞出現(xiàn)的頻率;rNum是候選詞作為正確結(jié)果的頻率;cost’(w)是分詞路徑中候選詞的出現(xiàn)難易程度;cost0(w)為上下文變量表中詞條的原始代價(jià)。NLP&MT本文主要方法——分詞算法流41NLP&MT本文主要方法——分詞算法流程③若候選詞不在上述兩個(gè)詞典中,則到同義詞詞林中查找該候選詞的同義詞,若能在系統(tǒng)詞典中找到其同義詞,則用系統(tǒng)詞典中該同義詞的相關(guān)信息代替該候選詞相對(duì)應(yīng)的信息;④若無法通過上述方法找到或代替該候選詞,則用未登錄詞分類處理該候選詞。具體分為四類:漢字,字母,數(shù)字,標(biāo)點(diǎn)符號(hào)。它們的詞性,分別賦為名詞,字符串,數(shù)字,標(biāo)點(diǎn),而詞出現(xiàn)的代價(jià)為詞典中該類詞性詞語代價(jià)的平均值。Step3.構(gòu)建詞圖后,用Viterbi算法根據(jù)公式(4)計(jì)算每條路徑的分詞代價(jià),找到一條最佳路徑,即代價(jià)最小的分詞路徑。公式(4)中的Cost(wi)和TransCost(ti,ti+1)分別通過公式(2)和公式(3)計(jì)算得到。(2)NLP&MT本文主要方法——分詞算法流42NLP&MT本文主要方法——分詞算法流程(3)其中,U(w)為關(guān)于當(dāng)前詞w的一元特征集合,B(t1,t2)是關(guān)于相鄰的兩個(gè)詞的屬性(這里僅為詞性)的二元特征集合,λfk為特征fk在模型文件中的相應(yīng)權(quán)重,變量factor為將特征權(quán)重轉(zhuǎn)換為代價(jià)的放大系數(shù)。從以上公式可以看出,由于所有的特征函數(shù)都為二值特征函數(shù),所以在計(jì)算詞條的代價(jià)時(shí),詞出現(xiàn)的代價(jià)等于該詞能表示的所有一元特征權(quán)重之和,屬性集之間的轉(zhuǎn)移代價(jià)為兩屬性集所能表示的二元特征函數(shù)的權(quán)重之和。(4)NLP&MT本文主要方法——分詞算法流43本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流程實(shí)驗(yàn)結(jié)果及總結(jié)本文主要方法NLP&MT模型及特征上下文及語義信息分詞算法流44實(shí)驗(yàn)數(shù)據(jù):系統(tǒng)詞典是從2000年1-6月份的人民日報(bào)中抽取出來的,詞性體系為相應(yīng)的北大詞性體系,詞典中共含有85,000個(gè)詞。本文采用的語義資源是同義詞詞林(擴(kuò)展版),共包含77,343條詞語。SIGHAN2010的跨領(lǐng)域簡體中文訓(xùn)練和測試語料。訓(xùn)練基于詞圖的CRFs模型時(shí),所用的語料是有詞性標(biāo)注的評(píng)測語料(1998年1月份人民日報(bào))。NLP&MT本文主要方法——實(shí)驗(yàn)結(jié)果及總結(jié)實(shí)驗(yàn)數(shù)據(jù):NLP&MT本文主要方法——45NLP&MT本文主要方法——實(shí)驗(yàn)結(jié)果及總結(jié)NLP&MT本文主要方法——實(shí)驗(yàn)結(jié)果及46該方法用基于字標(biāo)注的CRFs模型得到3-Best路徑,將路徑中包含的所有候選詞添加到詞圖中,充分利用篇章的上下文信息和同義詞語義信息,在詞的層面上從詞圖中選擇代價(jià)最小的路徑作為最終的分詞結(jié)果。該方法很好地發(fā)揮了基于字標(biāo)注的方法在發(fā)現(xiàn)未登錄詞上的能力,而且在分詞過程中充分利用詞匯的領(lǐng)域性信息,提高了領(lǐng)域性分詞的分詞結(jié)果。用Bakeoff2010簡體中文測試語料進(jìn)行開式測試,結(jié)果表明:該方法在四個(gè)測試領(lǐng)域中的三個(gè)領(lǐng)域的F值和OOV的召回率好于2010參加評(píng)測的最好成績。本文獲國家自然科學(xué)基金(No.61173100,No.61173101)資助。NLP&MT本文主要方法——實(shí)驗(yàn)結(jié)果及總結(jié)NLP&MT本文主要方法——實(shí)驗(yàn)結(jié)果及47主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法參考文獻(xiàn)主要內(nèi)容NLP&MT中文分詞概況中文分詞的新挑戰(zhàn)本文主要方法48參考文獻(xiàn)[1] XueNianwen.Chinesewordsegmentationascharactertagging.ComputationalLinguistics,2003,8(1):29-48.[2] LaffertyJ,McCallumA,PereiraF.probabilisticmodelsforsegmentingandlabelingsequencedata//ProceedingsofICML2001.ConditionalRandomFields:SanFrancisco:MorganKaufmann,2001:282-289[3] TsengH,ChangPichuan,AndrewG,etal.Aconditionalrandom?eldwordsegmenterforSIGHANbakeoff2005//Procofthe4thSIGHANWorkshoponChineseLanguageProcessing.JejuIsland:ACL,2005:168–171[4] PengFuchun,FengFangfang,McCallumA.Chinesesegmentationandnewworddetectionusingconditionalrandom?elds//ProcofCOLING2004.SanFrancisco:MorganKaufmann,2004:562-568[5] LowJK,NgHT,GuoWenyuan.AmaximumentropyapproachtoChinesewordsegmentation//Procofthe4thSIGHANWorkshoponChineseLanguageProcessing.JejuIsland:ACL,2005:161–164[6] HuangDegen,TongDeqin.ContextInformationandFragmentsBasedCross-DomainWordSegmentation.Chi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年浙江單招中等水平考生沖優(yōu)模擬卷含答案基礎(chǔ)題60提升題40
- 2026年湖南單招職業(yè)適應(yīng)性測試時(shí)事政治職業(yè)認(rèn)知模擬題含答案
- 2026年湖北單招英語職業(yè)場景對(duì)話專項(xiàng)含答案購物職場服務(wù)經(jīng)典題
- 2026年大連單招電工電子類技能操作規(guī)范經(jīng)典題含答案含焊接技術(shù)
- 2026年重慶單招服裝設(shè)計(jì)專業(yè)面試經(jīng)典題含作品解讀
- 2026年福建單招考前核心密卷含答案文化技能考點(diǎn)濃縮版
- 2026年黑龍江單招財(cái)經(jīng)商貿(mào)類歷年高頻題集含答案2022-2025年
- 2026年寧夏單招智能制造大類儲(chǔ)能工程技術(shù)專業(yè)基礎(chǔ)題庫含答案
- 2026年廣西單招健康管理大類智慧健康管理職業(yè)適應(yīng)性題庫含答案
- 2026年四川社會(huì)考生單招文化補(bǔ)基礎(chǔ)手冊含答案語文數(shù)學(xué)核心考點(diǎn)
- 廟壩鎮(zhèn)規(guī)劃方案公示
- 生物樣本庫建設(shè)方案
- 叉車考試題庫
- 《機(jī)修工基礎(chǔ)培訓(xùn)》課件
- 口腔正畸學(xué)課件
- 鑄件項(xiàng)目可行性研究報(bào)告
- 一次調(diào)頻綜合指標(biāo)計(jì)算及考核度量方法
- 《殺死一只知更鳥》讀書分享PPT
- 成功的三大要素
- GB/T 41932-2022塑料斷裂韌性(GIC和KIC)的測定線彈性斷裂力學(xué)(LEFM)法
- GB/T 7253-2019標(biāo)稱電壓高于1 000 V的架空線路絕緣子交流系統(tǒng)用瓷或玻璃絕緣子元件盤形懸式絕緣子元件的特性
評(píng)論
0/150
提交評(píng)論