下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
詞匯語義關(guān)系評測吳云芳萬富強(qiáng)周蜜北京大學(xué)計算語言學(xué)研究所wuyf@2012-12-2綱要任務(wù)描述評測數(shù)據(jù)的準(zhǔn)備評測數(shù)據(jù)的標(biāo)注參賽系統(tǒng)的結(jié)果存在問題進(jìn)一步工作展望緣起詞匯語義信息是自然語言處理中很重要的資源,是進(jìn)一步進(jìn)行句法和語義分析的基礎(chǔ)。在信息檢索中的查詢擴(kuò)展、機(jī)器翻譯中的模塊識別等方面,相似詞都是不可或缺的知識資源;在句法分析、詞義消歧等信息處理任務(wù)中,詞語相似度也發(fā)揮著重要的作用。而相似度詞典的手工構(gòu)建是一項(xiàng)費(fèi)時費(fèi)力的浩大工程,存在著不易更新、覆蓋度不全等諸多缺陷。任務(wù)描述任務(wù)一:同義詞發(fā)現(xiàn)
文件 文書 文本 文牘 公文 文獻(xiàn) 檔案 文檔
任務(wù)二:下位詞發(fā)現(xiàn)算法
分治法動態(tài)規(guī)劃法貪心法回溯法同義詞詞語的選詞范圍來源類型目標(biāo)詞數(shù)QQ聊天語料口語詞語173領(lǐng)域同義詞庫常用詞語1585微博新詞語73Gigaword名詞5000Gigaword動詞2000Gigaword形容詞1000Gigaword成語50人民日報語料組織機(jī)構(gòu)名50人民日報語料地名50維基百科人名50去重之后得到9464個同義詞詞語。下位詞詞語的選詞范圍來源類型目標(biāo)詞數(shù)《現(xiàn)代漢語語義詞典》語義類標(biāo)簽44《現(xiàn)代漢語詞典》上位詞(“是一種”模式)61《知網(wǎng)》語義類標(biāo)簽49人民日報語料上位詞(“一種”模式)412維基百科分詞后加篩選規(guī)則4327領(lǐng)域同義詞庫常用的名詞150Gigaword名詞5000去重之后得到9354個上下位詞詞語。評測數(shù)據(jù)的準(zhǔn)備綜合各家結(jié)果,求并集;對同義詞集/下位詞集結(jié)果進(jìn)行簡單的統(tǒng)計:
結(jié)果數(shù)據(jù).xlsx選取評測的目標(biāo)同義詞;人工標(biāo)注:
北京大學(xué)中文系語言學(xué)專業(yè)碩士研究生
同義詞集投入了更多的時間同義詞目標(biāo)詞的選擇來源類型目標(biāo)詞數(shù)QQ聊天語料口語詞語173領(lǐng)域同義詞庫常用詞語1585微博新詞語73Gigaword名詞800Gigaword動詞300Gigaword形容詞100Gigaword成語140人民日報和維基百科專有名詞50去重之后得到3129個目標(biāo)詞,作為人工標(biāo)注的對象詞語。人工標(biāo)注后,刪除沒有同義詞的目標(biāo)詞,最終得到778個評價詞。盡量涵蓋不同來源、不同類型的詞語。下位詞語目標(biāo)詞的選擇來源類型目標(biāo)詞數(shù)《現(xiàn)代漢語語義詞典》語義類標(biāo)簽44《現(xiàn)代漢語詞典》上位詞(“是一種”模式)61《知網(wǎng)》語義類標(biāo)簽49人民日報語料上位詞(“一種”模式)412維基百科等其他名詞1100然后再選擇下位詞數(shù)在[2,99]之間的目標(biāo)詞1076個,作為人工標(biāo)注的對象。人工標(biāo)注后,刪除沒有下位詞的目標(biāo)詞,最終得到256個評價詞。盡量選擇有潛在下位詞的目標(biāo)詞。參賽系統(tǒng)報名:23個隊(duì)伍參賽:同義詞8隊(duì)10組結(jié)果
上下位詞4隊(duì)5組結(jié)果參賽系統(tǒng)的結(jié)果—同義詞
宏平均準(zhǔn)確率宏平均
召回率宏平均
F1值微平均
準(zhǔn)確率微平均
召回率微平均
F1值中科院聲學(xué)所0.1271
0.10110.099
0.4422
0.0644
0.1124
北京理工大學(xué)0.1992
0.2464
0.1878
0.2112
0.2306
0.2205
北京交通大學(xué)0.28760.3406
0.2737
0.3088
0.3753
0.3389華為1
0.3639
0.5207
0.3671
0.2754
0.5854
0.3746
華為2
0.3300
0.5534
0.3638
0.2615
0.6129
0.3666
華僑大學(xué)0.0378
0.0105
0.0148
0.2996
0.0115
0.0222
南京師范大學(xué)0.3588
0.6075
0.3984
0.3025
0.6386
0.4106
哈爾濱工業(yè)大學(xué)0.3230
0.3905
0.2852
0.2303
0.3692
0.2837
鄭州大學(xué)1
0.2971
0.6419
0.3594
0.2530
0.6792
0.3687
鄭州大學(xué)2
0.3252
0.6953
0.3922
0.2541
0.7072
0.3738
參賽系統(tǒng)的結(jié)果—下位詞
宏平均
準(zhǔn)確率宏平均
召回率宏平均
F1值微平均
準(zhǔn)確率微平均
召回率微平均
F1值中科院聲學(xué)所0.2429
0.0872
0.1156
0.7827
0.1221
0.2113
北京理工大學(xué)0.3077
0.0886
0.1163
0.6383
0.0896
0.1572
北京交通大學(xué)0.6612
0.3776
0.4185
0.7043
0.4642
0.5596
鄭州大學(xué)1
0.5391
0.3318
0.3737
0.6492
0.3518
0.4563
鄭州大學(xué)2
0.6119
0.5988
0.5605
0.6233
0.5045
0.5576
存在問題自動獲取的準(zhǔn)確率不高人工標(biāo)注的時間花費(fèi)大人工標(biāo)注的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 活動螺母采購合同范本
- 購房買賣解約合同范本
- 衣服合作收費(fèi)合同范本
- 松木料購銷合同范本
- 未來五年照衣鏡企業(yè)縣域市場拓展與下沉戰(zhàn)略分析研究報告
- 未來五年高溫電視設(shè)備企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略分析研究報告
- 未來五年海水養(yǎng)殖苔菜行業(yè)跨境出海戰(zhàn)略分析研究報告
- 未來五年輸送膠輥行業(yè)直播電商戰(zhàn)略分析研究報告
- 未來五年車載泵行業(yè)跨境出海戰(zhàn)略分析研究報告
- 2025年度河北石家莊軍融企業(yè)管理有限公司公開招聘2人筆試參考題庫附帶答案詳解(3卷)
- T-CNHC 4-2025 昌寧縣低質(zhì)低效茶園改造技術(shù)規(guī)程
- 雨課堂學(xué)堂在線學(xué)堂云《芊禮-謙循-送給十八歲女大學(xué)生的成人之禮(中華女子學(xué)院 )》單元測試考核答案
- 2025年手術(shù)室護(hù)理實(shí)踐指南試題(含答案)
- 智慧農(nóng)貿(mào)市場建設(shè)項(xiàng)目報告與背景分析
- 護(hù)理部競選副主任
- 【10篇】新版部編六年級上冊語文課內(nèi)外閱讀理解專項(xiàng)練習(xí)題及答案
- 2026年中國經(jīng)濟(jì)展望:風(fēng)鵬正舉
- 老年健康服務(wù)中的多學(xué)科團(tuán)隊(duì)協(xié)作
- 上市公司部門組織架構(gòu)及崗位職責(zé)大全
- 公司紡粘針刺非織造布制作工合規(guī)化技術(shù)規(guī)程
- 雨課堂學(xué)堂云在線《人工智能原理》單元測試考核答案
評論
0/150
提交評論