詞匯語義關(guān)系評測_第1頁
詞匯語義關(guān)系評測_第2頁
詞匯語義關(guān)系評測_第3頁
詞匯語義關(guān)系評測_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余11頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

詞匯語義關(guān)系評測吳云芳萬富強(qiáng)周蜜北京大學(xué)計算語言學(xué)研究所wuyf@2012-12-2綱要任務(wù)描述評測數(shù)據(jù)的準(zhǔn)備評測數(shù)據(jù)的標(biāo)注參賽系統(tǒng)的結(jié)果存在問題進(jìn)一步工作展望緣起詞匯語義信息是自然語言處理中很重要的資源,是進(jìn)一步進(jìn)行句法和語義分析的基礎(chǔ)。在信息檢索中的查詢擴(kuò)展、機(jī)器翻譯中的模塊識別等方面,相似詞都是不可或缺的知識資源;在句法分析、詞義消歧等信息處理任務(wù)中,詞語相似度也發(fā)揮著重要的作用。而相似度詞典的手工構(gòu)建是一項(xiàng)費(fèi)時費(fèi)力的浩大工程,存在著不易更新、覆蓋度不全等諸多缺陷。任務(wù)描述任務(wù)一:同義詞發(fā)現(xiàn)

文件 文書 文本 文牘 公文 文獻(xiàn) 檔案 文檔

任務(wù)二:下位詞發(fā)現(xiàn)算法

分治法動態(tài)規(guī)劃法貪心法回溯法同義詞詞語的選詞范圍來源類型目標(biāo)詞數(shù)QQ聊天語料口語詞語173領(lǐng)域同義詞庫常用詞語1585微博新詞語73Gigaword名詞5000Gigaword動詞2000Gigaword形容詞1000Gigaword成語50人民日報語料組織機(jī)構(gòu)名50人民日報語料地名50維基百科人名50去重之后得到9464個同義詞詞語。下位詞詞語的選詞范圍來源類型目標(biāo)詞數(shù)《現(xiàn)代漢語語義詞典》語義類標(biāo)簽44《現(xiàn)代漢語詞典》上位詞(“是一種”模式)61《知網(wǎng)》語義類標(biāo)簽49人民日報語料上位詞(“一種”模式)412維基百科分詞后加篩選規(guī)則4327領(lǐng)域同義詞庫常用的名詞150Gigaword名詞5000去重之后得到9354個上下位詞詞語。評測數(shù)據(jù)的準(zhǔn)備綜合各家結(jié)果,求并集;對同義詞集/下位詞集結(jié)果進(jìn)行簡單的統(tǒng)計:

結(jié)果數(shù)據(jù).xlsx選取評測的目標(biāo)同義詞;人工標(biāo)注:

北京大學(xué)中文系語言學(xué)專業(yè)碩士研究生

同義詞集投入了更多的時間同義詞目標(biāo)詞的選擇來源類型目標(biāo)詞數(shù)QQ聊天語料口語詞語173領(lǐng)域同義詞庫常用詞語1585微博新詞語73Gigaword名詞800Gigaword動詞300Gigaword形容詞100Gigaword成語140人民日報和維基百科專有名詞50去重之后得到3129個目標(biāo)詞,作為人工標(biāo)注的對象詞語。人工標(biāo)注后,刪除沒有同義詞的目標(biāo)詞,最終得到778個評價詞。盡量涵蓋不同來源、不同類型的詞語。下位詞語目標(biāo)詞的選擇來源類型目標(biāo)詞數(shù)《現(xiàn)代漢語語義詞典》語義類標(biāo)簽44《現(xiàn)代漢語詞典》上位詞(“是一種”模式)61《知網(wǎng)》語義類標(biāo)簽49人民日報語料上位詞(“一種”模式)412維基百科等其他名詞1100然后再選擇下位詞數(shù)在[2,99]之間的目標(biāo)詞1076個,作為人工標(biāo)注的對象。人工標(biāo)注后,刪除沒有下位詞的目標(biāo)詞,最終得到256個評價詞。盡量選擇有潛在下位詞的目標(biāo)詞。參賽系統(tǒng)報名:23個隊(duì)伍參賽:同義詞8隊(duì)10組結(jié)果

上下位詞4隊(duì)5組結(jié)果參賽系統(tǒng)的結(jié)果—同義詞

宏平均準(zhǔn)確率宏平均

召回率宏平均

F1值微平均

準(zhǔn)確率微平均

召回率微平均

F1值中科院聲學(xué)所0.1271

0.10110.099

0.4422

0.0644

0.1124

北京理工大學(xué)0.1992

0.2464

0.1878

0.2112

0.2306

0.2205

北京交通大學(xué)0.28760.3406

0.2737

0.3088

0.3753

0.3389華為1

0.3639

0.5207

0.3671

0.2754

0.5854

0.3746

華為2

0.3300

0.5534

0.3638

0.2615

0.6129

0.3666

華僑大學(xué)0.0378

0.0105

0.0148

0.2996

0.0115

0.0222

南京師范大學(xué)0.3588

0.6075

0.3984

0.3025

0.6386

0.4106

哈爾濱工業(yè)大學(xué)0.3230

0.3905

0.2852

0.2303

0.3692

0.2837

鄭州大學(xué)1

0.2971

0.6419

0.3594

0.2530

0.6792

0.3687

鄭州大學(xué)2

0.3252

0.6953

0.3922

0.2541

0.7072

0.3738

參賽系統(tǒng)的結(jié)果—下位詞

宏平均

準(zhǔn)確率宏平均

召回率宏平均

F1值微平均

準(zhǔn)確率微平均

召回率微平均

F1值中科院聲學(xué)所0.2429

0.0872

0.1156

0.7827

0.1221

0.2113

北京理工大學(xué)0.3077

0.0886

0.1163

0.6383

0.0896

0.1572

北京交通大學(xué)0.6612

0.3776

0.4185

0.7043

0.4642

0.5596

鄭州大學(xué)1

0.5391

0.3318

0.3737

0.6492

0.3518

0.4563

鄭州大學(xué)2

0.6119

0.5988

0.5605

0.6233

0.5045

0.5576

存在問題自動獲取的準(zhǔn)確率不高人工標(biāo)注的時間花費(fèi)大人工標(biāo)注的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論