付費(fèi)下載
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于條件隨機(jī)場(chǎng)模型的前列關(guān)系識(shí)別
語(yǔ)法分析一直是深入研究自然景觀的中心問(wèn)題之一。在依存句法中,詞與詞之間直接發(fā)生依存關(guān)系,構(gòu)成一個(gè)依存對(duì),其中一個(gè)是核心詞,另一個(gè)是從屬詞。依存關(guān)系使用一個(gè)有向弧表示,稱(chēng)為依存弧。每個(gè)依存弧上都有一個(gè)標(biāo)記,稱(chēng)為關(guān)系類(lèi)別,表示該依存對(duì)中兩個(gè)詞之間的依存關(guān)系。如圖1所示,例句“馬文瑞、汪峰等老同志也出席了茶話(huà)會(huì)。”中,每個(gè)詞都依存于一個(gè)其他的詞,其中“出席”是句子的根節(jié)點(diǎn),依存于虛根(Root)。“老”依存于“同學(xué)”,依存關(guān)系為定中關(guān)系(ATT)。“汪峰”依存于“馬文瑞”,依存關(guān)系為并列關(guān)系(COO),圖中其它依存關(guān)系的具體含義可參照語(yǔ)料庫(kù)HIT-IR-CDT的標(biāo)注規(guī)范。近幾年,國(guó)內(nèi)外眾多的研究者投入到依存句法分析的工作中來(lái)。目前研究的重心放在統(tǒng)一建模上,很少針對(duì)某些特定的語(yǔ)言現(xiàn)象,識(shí)別它們的依存關(guān)系,這制約著句法分析的發(fā)展。McDonald等將依存分析問(wèn)題歸結(jié)為在一個(gè)有向圖中尋找最大生成樹(shù)(maximumspanningtree)的問(wèn)題,Nivre等采用了確定性的分析算法,段湘煜等提出基于動(dòng)作的多階段算法,辛霄等提出基于最大熵的依存句法分析馬金山等針對(duì)中文特定的語(yǔ)言現(xiàn)象單獨(dú)進(jìn)行分析提出一種基于動(dòng)態(tài)局部?jī)?yōu)化的搜索算法,提高了特定結(jié)構(gòu)的識(shí)別效果。McDonald方法在訓(xùn)練效率和分析性能等方面都表現(xiàn)比較好。該方法以HIT-IR-CDT作為訓(xùn)練和測(cè)試語(yǔ)料庫(kù),整體的識(shí)別效果指標(biāo)LAS為78.2%但并列關(guān)系識(shí)別率偏低,召回率和正確率為54.8%和64.0%。漢語(yǔ)中平均兩個(gè)句子就存在一個(gè)并列結(jié)構(gòu),這較大程度地影響了整體的識(shí)別效果。本文將采用分而治之的策略,利用并列結(jié)構(gòu)在空間上的連續(xù)性和平行性特點(diǎn),在條件隨機(jī)場(chǎng)的基礎(chǔ)上,識(shí)別并列關(guān)系,改善并列關(guān)系的識(shí)別效果。1核心詞、尾詞的序列關(guān)系依存語(yǔ)法中并列關(guān)系(COO)的標(biāo)注方式主要由并列詞組、核心詞和尾詞組成。并列詞組,指的是在同一并列結(jié)構(gòu)中發(fā)生并列關(guān)系的所有并列成分。核心詞,指的是在并列結(jié)構(gòu)中有一個(gè)并列成分充當(dāng)核心節(jié)點(diǎn)的作用,是并列結(jié)構(gòu)同句子的其他結(jié)構(gòu)或詞發(fā)生依存關(guān)系的詞,其他并列成分均以核心詞為父親節(jié)點(diǎn)。尾詞,指的是距離核心詞最遠(yuǎn)的并列成分。如圖2所示,該例句并列關(guān)系的標(biāo)注方式是遵循左核心原則,最左邊的并列成分為核心詞。1)“貴州南部、江南、華南西部”為一個(gè)并列結(jié)構(gòu)。2)“南部”、“江南”、“西部”為一個(gè)并列詞組,均為并列成分。3)“南部”為“江南”和“西部”的父親節(jié)點(diǎn),為核心詞,最右邊的“西部”為尾詞。4)“南部”與“江南”、“南部”與“西部”是兩對(duì)并列成分。識(shí)別成對(duì)的并列成分是識(shí)別漢語(yǔ)并列關(guān)系的主要任務(wù),即識(shí)別非核心詞的并列成分和其依附的父親節(jié)點(diǎn)。2基于條件,機(jī)場(chǎng)之間的列關(guān)系自動(dòng)識(shí)別2.1有標(biāo)記列關(guān)系識(shí)別角色表是識(shí)別并列關(guān)系的基礎(chǔ)。根據(jù)角色表計(jì)算機(jī)能夠理解漢語(yǔ)并列結(jié)構(gòu)。制定角色表則需要對(duì)漢語(yǔ)并列關(guān)系進(jìn)行統(tǒng)計(jì)分類(lèi)。在漢語(yǔ)依存語(yǔ)法語(yǔ)料庫(kù)中,并列關(guān)系可以分為無(wú)標(biāo)記和有標(biāo)記并列關(guān)系兩類(lèi)。無(wú)標(biāo)記并列關(guān)系相對(duì)于有標(biāo)記并列關(guān)系而言,數(shù)量比較少,結(jié)構(gòu)復(fù)雜不易識(shí)別。如“指手畫(huà)腳,照本宣科”,“深入細(xì)致扎實(shí)有效”。有標(biāo)記并列關(guān)系長(zhǎng)度跨度大,結(jié)構(gòu)上由并列標(biāo)記連接,是并列關(guān)系的主要特征,該類(lèi)的特點(diǎn)對(duì)識(shí)別并列關(guān)系有很重要的意義。有標(biāo)記并列關(guān)系主要有以下兩種。1)連詞:主要是中置連詞,在語(yǔ)料庫(kù)中的詞性標(biāo)記為“c”,包括“和、與、并、及、或、或者……”例如“中國(guó)和南非”。2)標(biāo)點(diǎn)符號(hào):主要是頓號(hào)為主,例如:“一國(guó)兩制”、“港人治港”、“高度自治”。漢語(yǔ)依存句法分析中有標(biāo)記并列關(guān)系比較難識(shí)別的是嵌套并列關(guān)系,主要困難在于個(gè)別并列成分充當(dāng)多重角色,如圖3所示。“老虎、松鼠”和“竹、梅”是兩個(gè)并列詞組,它們的核心詞“老虎”與“竹”也是一個(gè)并列詞組。也就是說(shuō)“竹”在“竹、梅”中充當(dāng)核心詞,但在“老虎”和“竹”中充當(dāng)尾詞。這種嵌套的并列關(guān)系通常會(huì)被錯(cuò)誤地識(shí)別為單一的并列詞組,即“老虎”、“松鼠”、“竹”和“梅”組成一個(gè)并列詞組。因此本文根據(jù)并列關(guān)系的標(biāo)注方式,針對(duì)各種并列關(guān)系的特點(diǎn),將并列關(guān)系的內(nèi)部組成、并列標(biāo)記和上下文等稱(chēng)為并列關(guān)系的構(gòu)成角色,如表1所示。2.2“n”的并列結(jié)構(gòu)及相關(guān)定義特征的合理選擇是識(shí)別并列關(guān)系的關(guān)鍵,特征集是判別某個(gè)詞或字在并列關(guān)系中充當(dāng)某種角色的主要依據(jù)。由于目前漢語(yǔ)依存語(yǔ)料庫(kù)規(guī)模較小,本文選取詞性作為識(shí)別并列關(guān)系的主要特征。在同一個(gè)并列結(jié)構(gòu)中,具有并列關(guān)系的成分之間存在一定的規(guī)律性。首先通過(guò)統(tǒng)計(jì),語(yǔ)料庫(kù)的6815個(gè)并列關(guān)系中,詞性相同的就有5997個(gè),比例為87.9%。并列結(jié)構(gòu)還有個(gè)很重要的特點(diǎn),就是結(jié)構(gòu)的平行性,也就是修飾詞的共享或相似,如“各種(/r)X形(/n)、Y形(/n)、蝶形(/n)等(/u)”、“當(dāng)?shù)?/nl)群眾(/n)和外地(/nl)游客(/n)”?!案鞣N(/r)”為共享修飾詞,“當(dāng)?shù)?/nl)”、“外地(/nl)”為相似修飾詞,“群眾”和“游客”是并列成分。但由于漢語(yǔ)是意合語(yǔ)言,其并列結(jié)構(gòu)還有其他表現(xiàn)形式,較難識(shí)別的是修飾詞和被修飾詞的詞性均為“n”的情況。如“企業(yè)(/n)及(/c)投資(/n)機(jī)構(gòu)(/n)”,“企業(yè)”與“機(jī)構(gòu)”并列,“投資(/n)”只是機(jī)構(gòu)的修飾詞?!罢?/n)和(/c)工資(/n)待遇(/n)”,“政治(/n)”和“工資(/n)”并列,共同修飾“待遇(/n)”。識(shí)別詞性均為“n”的并列結(jié)構(gòu),重點(diǎn)在于判斷哪些詞是修飾詞。因此本文從訓(xùn)練集中,將詞性為“n”的詞根據(jù)閾值分為3類(lèi)。CATT表示詞性為“n”的依附關(guān)系為定中關(guān)系;CVOB表示詞性為“n”的依附關(guān)系為動(dòng)賓關(guān)系;CSBV表示詞性為“n”的依附關(guān)系為主謂關(guān)系。1)P(ATT)大于0.9為A,常為修飾詞,漢語(yǔ)依存語(yǔ)法中一般表現(xiàn)為定中關(guān)系,如“愛(ài)國(guó)人士(/n)邵逸夫(/nr)”中的“愛(ài)國(guó)人士”。2)P(ATT)小于0.1為Q,常為被修飾詞,漢語(yǔ)中一般表現(xiàn)為主謂或動(dòng)賓關(guān)系,如“大(/a)劇院(/n)芭蕾舞團(tuán)(/n)演出(/v)”中的“芭蕾舞團(tuán)”。3)M,介于A與Q之間。在表2特征集中,W代表詞,P代表詞性,D表示詞性為“n”的類(lèi)別(A,Q,M,U),U表示詞性非“n”。括號(hào)內(nèi)的數(shù)值代表位置信息。詞性為“n”但未在訓(xùn)練集中出現(xiàn)的詞的D類(lèi)別均標(biāo)為M。本文方法的測(cè)試結(jié)果如表3所示,“形式”和“程度”被識(shí)別為一對(duì)并列成分,其中“形式”是核心詞。依據(jù)并列關(guān)系的標(biāo)注方式,得到并列詞組中非核心詞的依附關(guān)系,即“程度”依存于“形式”,“程度”的父親節(jié)點(diǎn)是詞位置為4的“形式”,如表4所示。3列合問(wèn)題和方法的識(shí)別錯(cuò)誤本文以HIT-IR-CDT前8000句作為訓(xùn)練語(yǔ)料,后1000句作為測(cè)試語(yǔ)料,每個(gè)句子的平均長(zhǎng)度為21.3個(gè)詞。MSTparser依存句法分析器是McDonald方法的實(shí)現(xiàn),也在同等條件下進(jìn)行訓(xùn)練和測(cè)試。本文方法與MSTparser對(duì)比的實(shí)驗(yàn)結(jié)果如表5所示,ALL表示在測(cè)試語(yǔ)料中所有的并列關(guān)系。為更好地評(píng)價(jià)識(shí)別效果,將每對(duì)并列成分劃分為以下5類(lèi):1兩詞性均為“n”(Same_n),表示一般名詞并列;2)兩詞性均為“v”(Same_v),表示動(dòng)詞并列;3)兩詞性非1和2的情況(Diff_n_v);4)含有并列標(biāo)記(Label);5不含有并列標(biāo)記(UnLabel)。實(shí)驗(yàn)結(jié)果證明本文的方法有效地提高了并列關(guān)系識(shí)別的效果。統(tǒng)一建模的分析器學(xué)習(xí)某些特定結(jié)構(gòu)的能力較差,采用分而治之的方法,可以彌補(bǔ)此不足。從表5可以發(fā)現(xiàn)并列關(guān)系的整體識(shí)別效果有較大提升,正確率和召回率分別提高了9.1%13.8%。由于依存語(yǔ)料庫(kù)規(guī)模較小,詞性成為識(shí)別并列關(guān)系主要依據(jù),本文的方法有效地利用詞性的信息提高了識(shí)別同類(lèi)型的并列成分的效果。同時(shí)對(duì)常見(jiàn)的Same_n和Label并列關(guān)系的識(shí)別,也優(yōu)于統(tǒng)一建模的方法。本文方法主要的識(shí)別錯(cuò)誤,可以分為以下兩類(lèi)。1)“全市(/n)黨政(/n)機(jī)關(guān)(/n)、(/wp)事業(yè)(/n)單位(/n)公款(/n)。”該例句識(shí)別為“機(jī)關(guān)”與“公款”并列。主要原因在于漢語(yǔ)是意合言語(yǔ),目前還很難利用語(yǔ)義的信息進(jìn)行句法分析,這樣造成多名詞的并列結(jié)構(gòu)識(shí)別比較困難。2)“校園網(wǎng)(/n)和(/c)外面(/nd)的(/u)世界/n?!痹摾渥R(shí)別為“校園網(wǎng)”與“外面”并列。主要原因在于漢語(yǔ)語(yǔ)料庫(kù)規(guī)模較小,對(duì)大部分詞或字的學(xué)習(xí)不夠充分。由于“的”字常充當(dāng)并列關(guān)系的下文角色,使“世界”無(wú)法成為相應(yīng)的并列成分。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030葡萄牙基于新材料研制的化工材料行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025-2030藥用飼料粉碎粒度對(duì)藥效影響的系統(tǒng)性研究
- 2025-2030芯片封裝納米材料技術(shù)研究深度報(bào)告市場(chǎng)與投資前景發(fā)展趨勢(shì)分析
- 2025-2030舞蹈行業(yè)市場(chǎng)深度調(diào)研及發(fā)展趨勢(shì)和投資前景預(yù)測(cè)研究報(bào)告
- 2025-2030能源裝備制造業(yè)技術(shù)革新現(xiàn)狀市場(chǎng)分析及行業(yè)規(guī)劃研究
- 2025-2030肉制品加工廢棄物資源化利用技術(shù)開(kāi)發(fā)評(píng)估
- 2025-2030網(wǎng)絡(luò)安全設(shè)備制造行業(yè)供求組合及行業(yè)創(chuàng)新投資規(guī)劃方案
- 2025-2030網(wǎng)絡(luò)安全服務(wù)行業(yè)市場(chǎng)供需現(xiàn)狀發(fā)展評(píng)估投資規(guī)劃分析研究
- 2026年食品營(yíng)養(yǎng)與健康管理初級(jí)營(yíng)養(yǎng)師筆試模擬題
- 2025-2030維護(hù)監(jiān)測(cè)方式課題簽訂總分析要求
- 四川省成都市武侯區(qū)2024-2025學(xué)年七年級(jí)上學(xué)期期末生物學(xué)試題(含答案)
- 校園欺凌預(yù)防策略:心理干預(yù)與行為矯正
- 辦公樓物業(yè)安全管理
- 中老年人常見(jiàn)疾病預(yù)防
- 2024基因識(shí)別數(shù)據(jù)分類(lèi)分級(jí)指南
- 臨床成人失禁相關(guān)性皮炎的預(yù)防與護(hù)理團(tuán)體標(biāo)準(zhǔn)解讀
- 創(chuàng)新創(chuàng)業(yè)教育學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 河道治理、拓寬工程 投標(biāo)方案(技術(shù)方案)
- 政治審查表(模板)
- 《最奇妙的蛋》完整版
- SEMI S1-1107原版完整文檔
評(píng)論
0/150
提交評(píng)論