基于詞典和WEB資源的詞匯關(guān)系抽取_第1頁
基于詞典和WEB資源的詞匯關(guān)系抽取_第2頁
基于詞典和WEB資源的詞匯關(guān)系抽取_第3頁
基于詞典和WEB資源的詞匯關(guān)系抽取_第4頁
基于詞典和WEB資源的詞匯關(guān)系抽取_第5頁
已閱讀5頁,還剩23頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于詞典和WEB資源的詞匯關(guān)系抽取/sundae_meng詞匯關(guān)系大綱引言同義詞抽取資源中文概念詞典(CCD)哈工大同義詞詞林(擴(kuò)展版)百度百科百度翻譯+有道翻譯同義詞抽取流程下位詞抽取資源中文概念詞典(CCD)百度百科互動百科維基百科百度相關(guān)搜索下位詞抽取流程實(shí)驗(yàn)結(jié)果/sundae_meng引言

同義詞和下位詞的發(fā)現(xiàn)在自然語言處理領(lǐng)域中對信息檢索,機(jī)器翻譯等領(lǐng)域的研究有重要的意義。

傳統(tǒng)的同義詞和下位詞的發(fā)現(xiàn)是基于詞典知識庫,如中文概念詞典,同義詞詞林等知識庫。

隨著Web的發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了大量的資源知識庫。例如“百度百科”、“有道翻譯”、“維基百科”等Web資源。

把傳統(tǒng)的詞典和Web資源各自優(yōu)勢進(jìn)行結(jié)合,將會更加有效的抽取詞匯關(guān)系。/sundae_meng1同義詞抽取資源中文概念詞典(CCD)哈工大同義詞詞林(擴(kuò)展版)百度百科百度翻譯+有道翻譯/sundae_meng1.1中文概念詞典(CCD) CCD是一個(gè)WordNet類型的漢英雙語語義詞典,從關(guān)系語義學(xué)的觀點(diǎn)出發(fā),以同義詞集(Synset)定義概念(concept),在概念之間定義關(guān)系(relation)來描述語義/sundae_meng1.2哈工大同義詞詞林《同義詞詞林(擴(kuò)展版)》在原有的三層分類體系上增加兩層,得到最終過的五層分類體系,唯一的代表詞典中出現(xiàn)詞語的編碼如:

Ba01A02=物質(zhì)質(zhì)素

Cb02A01=東南西北四方

Ba01A03@萬物

Cb06E09@民間

Ba01B08#固體液體氣體流體半流體

Ba01B10#導(dǎo)體半導(dǎo)體超導(dǎo)體

以上詞語編碼中第八位編碼的標(biāo)記“=”、“@”、“#”,“=”代表“相等”、“同義”,“@”代表“自我封閉”,“#”代表“不等”、“同類”。

/sundae_meng1.3百度百科(1/4)

根據(jù)特征詞進(jìn)行模式識別,其中查詢詞用W(w),特征詞用S(w)表示,其在百科中的同義詞用T(w)表示,抽取的模式有:1W(w)+S(w)+T(w)

例如:“埃菲爾鐵塔”百科中內(nèi)容:

埃菲爾鐵塔(又譯“艾菲爾鐵塔”)是法國巴黎著名鐵塔,坐落在塞納河南岸馬爾斯廣場的北端。

以上內(nèi)容中查詢詞W(w):“埃菲爾鐵塔”,特征詞S(w):“又譯”,同義詞T(w):“艾菲爾鐵塔”

/sundae_meng1.3百度百科(2/4)2T(w)+S(w)+W(w)

例如:“澳大利亞”的百科內(nèi)容中:

澳大利亞聯(lián)邦(TheCommonwealthofAustralia)簡稱澳大利亞(Australia)。

以上內(nèi)容中T(w):澳大利亞聯(lián)邦,S(w):簡稱,W(w):澳大利亞/sundae_meng1.3百度百科(3/4)3W(w)+T(w)+S(w)

例如:“牦?!钡陌倏苾?nèi)容中:

牦牛....有“高原之舟”之稱。

以上內(nèi)容中W(w):牦牛,T(w):高原之舟,S(w):之稱。/sundae_meng1.3百度百科(4/4)4W(w)和T(W)是同義詞,已合并。

例如:“奧林匹克村”百度百科中內(nèi)容:

奧林匹克村和奧運(yùn)村是同義詞,已合并。

以上內(nèi)容中W(w):奧林匹克村,T(w):奧運(yùn)村。/sundae_meng1.4百度翻譯+有道翻譯

通過百度翻譯將同義詞詞匯進(jìn)行翻譯,如圖1:

圖1百度翻譯詞匯/sundae_meng1.5有道翻譯有道在線翻譯將同義詞詞匯的英語進(jìn)行翻譯,如圖2:圖2有道在線翻譯/sundae_meng2同義詞流程圖/sundae_meng2同義詞流程圖/sundae_meng例如:“安睡”在CCD中的CSynset字段為“安睡熟睡睡著睡覺酣睡”2同義詞流程圖/sundae_meng例如:“安慰”在同義詞詞林中對應(yīng)編碼為“Ga07A01”和“Hi35A01”對應(yīng)的內(nèi)容2同義詞流程圖/sundae_meng例如:澳大利亞聯(lián)邦(TheCommonwealthofAustralia)簡稱澳大利亞(Australia)。2同義詞流程圖/sundae_meng例如:奧林匹克村和奧運(yùn)村是同義詞,已合并。2同義詞流程圖/sundae_meng例如:“阿肯色州”對應(yīng)的英語為“Arkansas”,通過有道翻譯之后的結(jié)果為:-阿肯色州+阿肯色+阿肯色大學(xué)+美國阿肯色州3下位詞抽取資源中文概念詞典(CCD)百度百科互動百科維基百科百度相關(guān)搜索/sundae_meng3.1中文概念詞典(CCD) CCD主要的語義關(guān)系有同義關(guān)系、反義關(guān)系、下位關(guān)系、整體部分關(guān)系等。在進(jìn)行下位詞的抽取中主要使用CCD的下位關(guān)系對下位詞的抽取。/sundae_meng3.2百度百科百度百科中分類的獲取通過“tag:同義詞詞匯”,如圖3:圖3“安全軟件”百度百科標(biāo)簽分類/sundae_meng3.3互動百科互動百科分類標(biāo)簽,如圖4:圖4“安全軟件”互動百科分類/sundae_meng3.4維基百科維基百科分類標(biāo)簽,如圖5:圖5“安全軟件”維基百科分類/sundae_meng3.5百度搜索百度搜索相關(guān)搜索內(nèi)容,如圖6:圖6“安全軟件”相關(guān)搜索/sundae_meng4下位詞流程圖/sundae_meng5實(shí)驗(yàn)結(jié)果5.1同義詞結(jié)果/sundae_meng宏平均準(zhǔn)確率宏平均召回率宏平均F1值微平均準(zhǔn)確率微平均召回率微平均F1值ZZU10.29750.64230.35980.25300.67920.3687ZZU20.32560.69610.39270.25410.70720.3738MAX0.35880.69610.39840.30250.70720.41065實(shí)驗(yàn)結(jié)果5.2下位詞結(jié)果/sundae_meng宏平均準(zhǔn)確率宏平均召回率宏平均F1值微平均準(zhǔn)確率微平均召回率微平均F1值ZZU10.56

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論