已閱讀5頁(yè),還剩42頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
現(xiàn)代信息檢索 Modern Information Retrieval,第二章 信息檢索的評(píng)價(jià)(IR evaluation),課前思考題,為什么要評(píng)價(jià)? 評(píng)價(jià)什么? 如何評(píng)價(jià)? 怎么基于實(shí)驗(yàn)結(jié)果,給出各項(xiàng)評(píng)價(jià)指標(biāo)?,2,提綱,信息檢索的評(píng)價(jià) 基本指標(biāo):召回率、正確率 其他指標(biāo):F值、AP、MAP TREC會(huì)議概況,3,提綱,信息檢索的評(píng)價(jià) 基本指標(biāo):召回率、正確率 其他指標(biāo):F值、AP、MAP TREC會(huì)議概況,4,從競(jìng)技體育談起,世界記錄 vs. 世界最好成績(jī) 110米欄世界記錄:劉翔,中國(guó),1288 男子馬拉松世界最好成績(jī):保羅 特爾加特,肯尼亞,2小時(shí)4分55秒 評(píng)價(jià)要公平! 環(huán)境要基本一致:天氣、風(fēng)速、跑道等等 比賽過(guò)程要一樣:競(jìng)走中的犯規(guī) 指標(biāo)要一樣:速度、耐力,5,為什么要評(píng)估IR?,通過(guò)評(píng)估可以評(píng)價(jià)不同技術(shù)的優(yōu)劣,不同因素對(duì)系統(tǒng)的影響,從而促進(jìn)本領(lǐng)域研究水平的不斷提高 類(lèi)比:110米欄各項(xiàng)技術(shù)-起跑、途中跑、跨欄、步頻、沖刺等等 信息檢索系統(tǒng)的目標(biāo)是較少消耗情況下盡快、全面返回準(zhǔn)確的結(jié)果。,6,IR中評(píng)價(jià)什么?,效率 (Efficiency)可以采用通常的評(píng)價(jià)方法 時(shí)間開(kāi)銷(xiāo) 空間開(kāi)銷(xiāo) 響應(yīng)速度 效果 (Effectiveness) 返回的文檔中有多少相關(guān)文檔 所有相關(guān)文檔中返回了多少 返回得靠不靠前 其他指標(biāo) 覆蓋率(Coverage) 訪問(wèn)量 數(shù)據(jù)更新速度,7,如何評(píng)價(jià)效果?,相同的文檔集合,相同的查詢主題集合,相同的評(píng)價(jià)指標(biāo),不同的檢索系統(tǒng)進(jìn)行比較。 The Cranfield Experiments, Cyril W. Cleverdon,1957 1968 (上百篇文檔集合) SMART System, Gerald Salton, 1964-1988 (數(shù)千篇文檔集合) TREC(Text REtrieval Conference), DonnaHarman, 美國(guó)標(biāo)準(zhǔn)技術(shù)研究所, 1992 - (上百萬(wàn) 篇文檔),信息檢索的“奧運(yùn)會(huì)”,8,評(píng)價(jià)指標(biāo)分類(lèi),對(duì)單個(gè)查詢進(jìn)行評(píng)估的指標(biāo) 對(duì)單個(gè)查詢得到一個(gè)結(jié)果 對(duì)多個(gè)查詢進(jìn)行評(píng)估的指標(biāo)(通常用于對(duì)系統(tǒng)的評(píng)價(jià)) 求平均,9,評(píng)價(jià)指標(biāo)(1),10,評(píng)價(jià)指標(biāo)(2),召回率(Recall): RR/(RR + NR),返回的相關(guān)結(jié)果數(shù)占實(shí)際相關(guān)結(jié)果總數(shù)的比率,也稱(chēng)為查全率,R 0,1 正確率(Precision): RR/(RR + RN),返回的結(jié)果中真正相關(guān)結(jié)果的比率,也稱(chēng)為查準(zhǔn)率, P 0,1 兩個(gè)指標(biāo)分別度量檢索效果的某個(gè)方面,忽略任何一個(gè)方面都有失偏頗。兩個(gè)極端情況:返回1篇,P=100%,但R極低;全部返回,R1,但P極低,11,召回率和正確率一個(gè)計(jì)算例子,一個(gè)例子:查詢Q,本應(yīng)該有100篇相關(guān)文檔,某個(gè)系統(tǒng)返回200篇文檔,其中80篇是真正相關(guān)的文檔 Recall=80/100=0.8 Precision=80/200=0.4 結(jié)論:召回率較高,但是正確率較低,12,關(guān)于正確率和召回率的討論(1),“寧可錯(cuò)殺一千,不可放過(guò)一人” 偏重召回率,忽視正確率。冤殺太多。 判斷是否有罪: 如果沒(méi)有證據(jù)證明你無(wú)罪,那么判定你有罪。 召回率高,有些人受冤枉 如果沒(méi)有證據(jù)證明你有罪,那么判定你無(wú)罪。 召回率低,有些人逍遙法外,13,關(guān)于正確率和召回率的討論(2),雖然Precision和Recall都很重要,但是不同的應(yīng)用、不用的用戶可能會(huì)對(duì)兩者的要求不一樣。因此,實(shí)際應(yīng)用中應(yīng)該考慮這點(diǎn)。 垃圾郵件過(guò)濾:寧愿漏掉一些垃圾郵件,但是盡量少將正常郵件判定成垃圾郵件。 有些用戶希望返回的結(jié)果全一點(diǎn),他有時(shí)間挑選;有些用戶希望返回結(jié)果準(zhǔn)一點(diǎn),他不需要結(jié)果很全就能完成任務(wù)。,14,關(guān)于召回率的計(jì)算,對(duì)于大規(guī)模語(yǔ)料集合,列舉每個(gè)查詢的所有相關(guān)文檔是不可能的事情,因此,不可能準(zhǔn)確地計(jì)算召回率 緩沖池(Pooling)方法:對(duì)多個(gè)檢索系統(tǒng)的Top N個(gè)結(jié)果組成的集合進(jìn)行標(biāo)注,標(biāo)注出的相關(guān)文檔集合作為整個(gè)相關(guān)文檔集合。這種做法被驗(yàn)證是可行的,在TREC會(huì)議中被廣泛采用。,15,正確率和召回率的問(wèn)題,兩個(gè)指標(biāo)分別衡量了系統(tǒng)的某個(gè)方面,但是為比較帶來(lái)了難度,究竟哪個(gè)系統(tǒng)好?大學(xué)最終排名也只有一個(gè)指標(biāo)。 解決方法:?jiǎn)我恢笜?biāo),將兩個(gè)指標(biāo)融成一個(gè)指標(biāo) 兩個(gè)指標(biāo)都是基于集合進(jìn)行計(jì)算,并沒(méi)有考慮序的作用 舉例:兩個(gè)系統(tǒng),對(duì)某個(gè)查詢,返回的相關(guān)文檔數(shù)目一樣都是10,但是第一個(gè)系統(tǒng)是前10條結(jié)果,后一個(gè)系統(tǒng)是最后10條結(jié)果。顯然,第一個(gè)系統(tǒng)優(yōu)。但是根據(jù)上面基于集合的計(jì)算,顯然兩者指標(biāo)一樣。 解決方法:引入序的作用 召回率難以計(jì)算 解決方法:Pooling方法,或者不考慮召回率,評(píng)價(jià)指標(biāo)(3)P和R融合,17,評(píng)價(jià)指標(biāo)(4)引入序的作用,18,評(píng)價(jià)指標(biāo)(5)引入序的作用,19,P-R曲線的例子,20,P-R曲線,21,P-R 曲線的插值問(wèn)題,22,P-R的優(yōu)缺點(diǎn),優(yōu)點(diǎn): 簡(jiǎn)單直觀 既考慮了檢索結(jié)果的覆蓋度,又考慮了檢索結(jié)果的排序情況 缺點(diǎn): 單個(gè)查詢的P-R曲線雖然直觀,但是難以明 確表示兩個(gè)查詢的檢索結(jié)果的優(yōu)劣,23,評(píng)價(jià)指標(biāo)(6)P-R曲線的單一指標(biāo),24,P-R曲線中的break point,25,評(píng)價(jià)指標(biāo)(7)引入序的作用,26,評(píng)價(jià)指標(biāo)(8)不考慮召回率,27,評(píng)價(jià)指標(biāo)分類(lèi),對(duì)單個(gè)查詢進(jìn)行評(píng)估的指標(biāo) 對(duì)單個(gè)查詢得到一個(gè)結(jié)果 對(duì)多個(gè)查詢進(jìn)行評(píng)估的指標(biāo)(通常用于對(duì)系統(tǒng)的評(píng)價(jià)) 求平均,28,評(píng)價(jià)指標(biāo)(9),29,評(píng)價(jià)指標(biāo)(10),30,整個(gè)IR系統(tǒng)的P-R曲線,在每個(gè)召回率點(diǎn)上,對(duì)所有的查詢?cè)诖它c(diǎn)上的正確率進(jìn)行算術(shù)平均,得到系統(tǒng)在該點(diǎn)上的平均正確率(averageprecision)。 兩個(gè)檢索系統(tǒng)可以通過(guò)P-R曲線進(jìn)行比較。位置在上面的曲線代表的系統(tǒng)性能占優(yōu)。,31,幾個(gè)IR系統(tǒng)的P-R曲線比較,32,面向用戶的評(píng)價(jià)指標(biāo),前面的指標(biāo)都沒(méi)有考慮用戶因素。而相關(guān)不相關(guān)由用戶判定。 假定用戶已知的相關(guān)文檔集合為U,檢索結(jié)果和U的交集為Ru,則可以定義覆蓋率(Coverage) C=|Ru|/|U|,表示系統(tǒng)找到的用戶已知的相關(guān)文檔比例。 假定檢索結(jié)果中返回一些用戶以前未知的相關(guān)文檔Rk,則可以定義出新率(Novelty Ratio) N=|Rk|/(|Ru|+|Rk|),表示系統(tǒng)返回的新相關(guān)文檔的比例。,33,其他評(píng)價(jià)指標(biāo),不同的信息檢索應(yīng)用或者任務(wù)還會(huì)采用不同的評(píng)價(jià)指標(biāo) 問(wèn)答系統(tǒng)或主頁(yè)發(fā)現(xiàn)系統(tǒng):只有一個(gè)標(biāo)準(zhǔn)答案,只關(guān)心第一個(gè)標(biāo)準(zhǔn)答案返回的位置Rank,越前越好,評(píng)價(jià)指標(biāo) 1/Rank,34,提綱,信息檢索的評(píng)價(jià) 基本指標(biāo):召回率、正確率 其他指標(biāo):F值、AP、MAP TREC會(huì)議概況,35,TREC 概況,36,TREC的目標(biāo)(1),總目標(biāo):支持在信息檢索領(lǐng)域的基礎(chǔ)研究,提供對(duì)大規(guī)模文本檢索方法的評(píng)估辦法 1.鼓勵(lì)對(duì)基于大測(cè)試集合的信息檢索方法的研究 2.提供一個(gè)可以用來(lái)交流研究思想的論壇,增進(jìn)工業(yè)界、學(xué)術(shù)界和政府部門(mén)之間的互相了解,37,TREC的目標(biāo)(2),3.示范信息檢索理論在解決實(shí)際問(wèn)題方面 的重大進(jìn)步,提高信息檢索技術(shù)從理論 走向商業(yè)應(yīng)用的速度; 4.為工業(yè)界和學(xué)術(shù)界提高評(píng)估技術(shù)的可用 性,并開(kāi)發(fā)新的更為適用的評(píng)估技術(shù)。,38,TREC的運(yùn)行方式(1),TREC由一個(gè)程序委員會(huì)管理。這個(gè)委員會(huì)包括來(lái)自政府、工業(yè)界和學(xué)術(shù)界的代表 TREC以年度為周期運(yùn)行。過(guò)程為:確定任務(wù)參加者報(bào)名 參加者運(yùn)行任務(wù) 返回運(yùn)行結(jié)果 結(jié)果評(píng)估 大會(huì)交流 一開(kāi)始僅僅面向文本,后來(lái)逐漸加入語(yǔ)音、圖像、視頻方面的評(píng)測(cè),39,TREC的運(yùn)行方式(2),確定任務(wù):NIST提供測(cè)試數(shù)據(jù)和測(cè)試問(wèn)題 報(bào)名:參加者根據(jù)自己的興趣選擇任務(wù) 運(yùn)行任務(wù):參加者用自己的檢索系統(tǒng)運(yùn)行測(cè)試問(wèn)題,給出結(jié)果 返回結(jié)果:參加者向NIST返回他們的運(yùn)行結(jié)果,以便評(píng)估 結(jié)果評(píng)估:NIST使用一套固定的方法和軟件對(duì)參加者的運(yùn)行結(jié)果給出評(píng)測(cè)結(jié)果 大會(huì)交流:每年的11月召開(kāi)會(huì)議,由當(dāng)年的參加者們交流彼此的經(jīng)驗(yàn),40,TREC的運(yùn)行方式(3),41,測(cè)試數(shù)據(jù)和測(cè)試軟件,由LDC(Linguistic Data Consortium)等多家單位免費(fèi)提供,但有些數(shù)據(jù)需要繳納費(fèi)用,一般都必須簽訂協(xié)議 每年使用的數(shù)據(jù)可以是新的,也可以是上一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年九州職業(yè)技術(shù)學(xué)院馬克思主義基本原理概論期末考試模擬題附答案解析(必刷)
- 2025年重慶財(cái)經(jīng)學(xué)院馬克思主義基本原理概論期末考試模擬題含答案解析(奪冠)
- 2025年宜春幼兒師范高等專(zhuān)科學(xué)校馬克思主義基本原理概論期末考試模擬題帶答案解析
- 2025年焦作工貿(mào)職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性考試題庫(kù)帶答案解析
- 2024年湖南網(wǎng)絡(luò)工程職業(yè)學(xué)院馬克思主義基本原理概論期末考試題附答案解析
- 2024年米易縣招教考試備考題庫(kù)及答案解析(必刷)
- 2025年臨城縣招教考試備考題庫(kù)帶答案解析(必刷)
- 2025年朗縣幼兒園教師招教考試備考題庫(kù)含答案解析(奪冠)
- 2025年象州縣幼兒園教師招教考試備考題庫(kù)帶答案解析
- 2025年太康縣招教考試備考題庫(kù)及答案解析(必刷)
- 正念認(rèn)知療法實(shí)證研究-洞察及研究
- GJB2489A2023航空機(jī)載設(shè)備履歷本及產(chǎn)品合格證編制要求
- 2025年云南省中考英語(yǔ)試卷真題(含標(biāo)準(zhǔn)答案及解析)
- 海運(yùn)集貨倉(cāng)庫(kù)管理制度
- 熱點(diǎn)話題18 航天新征程:神舟二十號(hào)引領(lǐng)科技創(chuàng)新與傳統(tǒng)突破-2025年高考語(yǔ)文作文主題預(yù)測(cè)+素材+模擬范文
- 2024年3月浙江省高中生物競(jìng)賽試卷 含解析
- DBJ50-T-274-2017 重慶市軌道交通客運(yùn)服務(wù)標(biāo)志標(biāo)準(zhǔn)
- 五年級(jí)數(shù)學(xué)(小數(shù)除法)計(jì)算題專(zhuān)項(xiàng)練習(xí)及答案匯編
- 人教版八年級(jí)下冊(cè)物理期末考試試卷含答案
- 妊娠期乳腺癌護(hù)理
- 糖皮質(zhì)激素在兒科疾病中的合理應(yīng)用3
評(píng)論
0/150
提交評(píng)論