《信息存儲(chǔ)與檢索》課件-第九章 信息檢索評(píng)價(jià)與實(shí)驗(yàn)_第1頁
《信息存儲(chǔ)與檢索》課件-第九章 信息檢索評(píng)價(jià)與實(shí)驗(yàn)_第2頁
《信息存儲(chǔ)與檢索》課件-第九章 信息檢索評(píng)價(jià)與實(shí)驗(yàn)_第3頁
《信息存儲(chǔ)與檢索》課件-第九章 信息檢索評(píng)價(jià)與實(shí)驗(yàn)_第4頁
《信息存儲(chǔ)與檢索》課件-第九章 信息檢索評(píng)價(jià)與實(shí)驗(yàn)_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九章信息檢索評(píng)價(jià)與實(shí)驗(yàn)

本章目錄9.1引言9.2

信息檢索相關(guān)性理論9.3

信息檢索評(píng)價(jià)指標(biāo)體系9.4

信息檢索評(píng)價(jià)的過程與方法9.5

經(jīng)典的信息檢索評(píng)價(jià)實(shí)驗(yàn)9.6

信息檢索評(píng)價(jià)實(shí)驗(yàn)平臺(tái):TREC信息存儲(chǔ)與檢索》第一節(jié)引言信息檢索系統(tǒng)評(píng)價(jià)的內(nèi)容包括:資源的收錄狀況、數(shù)據(jù)的質(zhì)量、檢索的功能與效率、系統(tǒng)的功能以及檢索結(jié)果的反饋形式等。

數(shù)據(jù)的評(píng)價(jià)主要從兩個(gè)方面考察:一是數(shù)據(jù)的錄入質(zhì)量,如數(shù)據(jù)的錯(cuò)誤率,數(shù)據(jù)的結(jié)構(gòu)是否合理,數(shù)據(jù)的完整性如何,數(shù)據(jù)的著錄是否完備等;二是數(shù)據(jù)的加工質(zhì)量,如數(shù)據(jù)的加工深度,數(shù)據(jù)的標(biāo)引質(zhì)量,數(shù)據(jù)的分類是否合理等。信息存儲(chǔ)與檢索》第一節(jié)

引言檢索的功能與效率的評(píng)價(jià)主要考察檢索入口能否滿足用戶的需求,檢索的組配是否豐富,查準(zhǔn)率和查全率是否得當(dāng),檢索的響應(yīng)速度如何等。檢索功能和效率與檢索算法有密切的關(guān)系,由于檢索算法難以分辨出優(yōu)劣,因此,可以通過檢索界面、查全率和查準(zhǔn)率以及檢索響應(yīng)時(shí)間等來判斷檢索的效率。信息存儲(chǔ)與檢索》第一節(jié)

引言近年來,信息檢索評(píng)價(jià)研究已從系統(tǒng)的輸入方面的特性逐漸向檢索者輸入方面的特性轉(zhuǎn)移,開始注重研究檢索專家的特性(如教育背景、經(jīng)驗(yàn)、個(gè)性等)與檢索成功率之間的關(guān)系。有些評(píng)價(jià)者還考察了采用不同檢索鍵所引起的變化,例如,分別用題名關(guān)鍵詞、文摘關(guān)鍵詞、敘詞、原文中的詞,或者分別用主題詞與引文對(duì)相同的課題進(jìn)行檢索時(shí),檢索結(jié)果之間的差異。信息存儲(chǔ)與檢索》第一節(jié)

引言整體而言,信息檢索評(píng)價(jià)活動(dòng)范圍擴(kuò)大了,評(píng)價(jià)水平在不斷提高,積累了大量有價(jià)值的試驗(yàn)或調(diào)查數(shù)據(jù),初步揭示了檢索系統(tǒng)及其各組成部分的運(yùn)行機(jī)制及對(duì)系統(tǒng)性能的影響。不過需要指出的是,就目前狀況而言,我們對(duì)用戶需求相關(guān)性判斷和系統(tǒng)行為的本質(zhì)方面的探索還顯得不足,有些評(píng)價(jià)方法還需要進(jìn)一步完善,評(píng)價(jià)結(jié)果的解析和驗(yàn)證也有待進(jìn)一步深入和加強(qiáng)。信息存儲(chǔ)與檢索》第二節(jié)

信息檢索相關(guān)性理論9.2.1相關(guān)性概念及其特征19.2.2影響相關(guān)性判斷的變量29.2.3面向系統(tǒng)的相關(guān)性339.2.4面向用戶的相關(guān)性4信息存儲(chǔ)與檢索》

9.2.1相關(guān)性概念及其特征

(一)相關(guān)性的概念相關(guān)性問題的出現(xiàn):1958年,著名學(xué)者B.C.Vickery在ICSI(theInternationalConferenceforScientificInformation)上的兩篇會(huì)議論文引發(fā)對(duì)“相關(guān)性”概念的最初討論,“相關(guān)性”問題由此得到明確提出。所謂“相關(guān)性判斷”,是指信息檢索中判斷者在某一時(shí)刻對(duì)某種相關(guān)性的一種賦值操作。這個(gè)定義中包含了相關(guān)性判斷的四個(gè)基本組成要素,分別是:相關(guān)性類型、判斷者類型、判斷時(shí)間和判斷結(jié)果表達(dá)方式。信息存儲(chǔ)與檢索》

9.2.1相關(guān)性概念及其特征

相關(guān)性類型,指基于何種相關(guān)性進(jìn)行判斷;判斷者類型,指實(shí)施判斷的主體,通常分為用戶(user)與非用戶(non-user)兩大類,其中,用戶指檢索系統(tǒng)的真實(shí)用戶,非用戶則包括檢索系統(tǒng)設(shè)計(jì)者、檢索中介等在內(nèi)的各類人員;判斷時(shí)間,很明顯在不同的時(shí)間點(diǎn),相關(guān)性判斷的結(jié)果可能是不同的,所以判斷時(shí)間也是相關(guān)性判斷的基本組成要素;判斷結(jié)果的表達(dá)方式,指對(duì)相關(guān)性的賦值方法。信息存儲(chǔ)與檢索》

9.2.1相關(guān)性概念及其特征

(一)相關(guān)性的特征1關(guān)系2直覺3多維4動(dòng)態(tài)信息存儲(chǔ)與檢索》

9.2.2影響相關(guān)性判斷的變量

(一)文獻(xiàn)與文獻(xiàn)表示文獻(xiàn)與文獻(xiàn)表示是檢索的對(duì)象,對(duì)人的相關(guān)性判斷有直接影響。人們比較了題名、題錄、文摘和全文對(duì)相關(guān)性判斷的不同影響,分析了文獻(xiàn)的風(fēng)格和內(nèi)容專指性與相關(guān)性判斷的聯(lián)系,發(fā)現(xiàn):文獻(xiàn)的主題內(nèi)容是影響判斷的最重要因素。文獻(xiàn)內(nèi)容愈具體,愈有利于相關(guān)性判斷。文獻(xiàn)的風(fēng)格也可能影響判斷。對(duì)同一文獻(xiàn),分別根據(jù)其題名、題錄、文摘、全文來判斷與特定提問的相關(guān)性,判斷結(jié)果有差異。信息存儲(chǔ)與檢索》

9.2.2影響相關(guān)性判斷的變量

(二)提問提問促使文獻(xiàn)作為答案輸出、提問的專指性,判斷者在不同研究階段的知識(shí)狀態(tài)以及提問的措辭等方面對(duì)判斷均有影響。判斷者對(duì)提問本身了解越多,對(duì)提問與答案的推斷越深入,判斷的一致性就越高。提問文本與相關(guān)文獻(xiàn)文本之間似乎存在著較高的相似性和關(guān)聯(lián)性,而在提問與非相關(guān)文獻(xiàn)文本之間卻未發(fā)現(xiàn)這種相似性。此外,判斷者對(duì)提問本身知道得愈少,判斷文獻(xiàn)為相關(guān)的傾向性就愈大。信息存儲(chǔ)與檢索》

9.2.2影響相關(guān)性判斷的變量

(三)判斷環(huán)境與條件這里主要指判斷時(shí)間、人們對(duì)相關(guān)性的解釋及其它環(huán)境因素。一些實(shí)驗(yàn)發(fā)現(xiàn):實(shí)驗(yàn)條件的變化可能導(dǎo)致判斷的變化;判斷環(huán)境中的壓力(如時(shí)間緊迫感)越大,會(huì)導(dǎo)致相關(guān)率越高;對(duì)相關(guān)性的不同解釋并不一定導(dǎo)致不同的相關(guān)率。信息存儲(chǔ)與檢索》

9.2.2影響相關(guān)性判斷的變量

(四)判斷表達(dá)模式這個(gè)變量是指供判斷者用來表達(dá)判斷的方式或手段,如文獻(xiàn)相關(guān)性的等級(jí)劃分、分支設(shè)置方法等。一些實(shí)驗(yàn)發(fā)現(xiàn):不同的相關(guān)性分級(jí)方法對(duì)判斷差異影響很?。悍旨?jí)越多,判斷越方便;問卷方式對(duì)表達(dá)判斷較有利;對(duì)一組相關(guān)度較高的文獻(xiàn),及時(shí)判斷者的背景不同,也可望使判斷達(dá)到顯著的一致性。信息存儲(chǔ)與檢索》

9.2.2影響相關(guān)性判斷的變量

(五)判斷者的特性這里主要指判斷者的教育程度,特別是專業(yè)教育水平和身份。一些試驗(yàn)發(fā)現(xiàn):判斷者的專業(yè)知識(shí)越高深,相關(guān)性判斷的一致性就越好;高級(jí)專業(yè)人員的判斷一致度為0.55-0.75,情報(bào)服務(wù)人員為0.45-0.60;專業(yè)知識(shí)越少,相關(guān)性判斷就越寬大;非專業(yè)人員(如圖書情報(bào)人員)傾向于賦予較高的相關(guān)性比例;文獻(xiàn)利用目的不同,可能會(huì)產(chǎn)生判斷差異;判斷相關(guān)不同于判斷非相關(guān),前者的一致率低于后者。信息存儲(chǔ)與檢索》9.2.3面向系統(tǒng)的相關(guān)性面向系統(tǒng)的相關(guān)性(system-orientedrelevance)是把信息檢索定位于一種單方向的信息處理過程,系統(tǒng)根據(jù)用戶的提問輸出檢索結(jié)果,用戶是信息的接受者。這種理解把相關(guān)性看做是系統(tǒng)方面的屬性,用戶提出的查詢請(qǐng)求只是被拿來與已經(jīng)確定的文檔相比較,二者之間匹配、比較的主要標(biāo)準(zhǔn)就是文檔內(nèi)容與提問的“主屬性”(topicality)。因此,系統(tǒng)角度的相關(guān)性也被稱為“主題相關(guān)”或“算法相關(guān)”。信息存儲(chǔ)與檢索》9.2.4面向用戶的相關(guān)性面向用戶的相關(guān)性(user-orientedrelevance)主要觀察并考慮用戶對(duì)檢索結(jié)果的反應(yīng),是系統(tǒng)檢索結(jié)果向用戶需求的再投射。隨著檢索系統(tǒng)日益廣泛的應(yīng)用及專家檢索模式向最終用戶檢索模式的轉(zhuǎn)變,檢索評(píng)價(jià)研究開始更多地思考相關(guān)性判斷中人的因素和影響。事實(shí)上,信息檢索不應(yīng)是一個(gè)單向的處理過程,而是一個(gè)不斷迭代、交互的人機(jī)對(duì)話過程。在檢索性能評(píng)價(jià)過程中,脫離用戶談相關(guān)是不現(xiàn)實(shí)的,也是不可能的。一篇檢出文檔是否具有相關(guān)性,很大程度上取決于用戶的主觀判斷,往往涉及用戶的知識(shí)狀態(tài)(stateofknowledge),待處理和解決的問題、任務(wù)及所處的情境或者用戶的目標(biāo)、動(dòng)機(jī)等眾多因素。信息存儲(chǔ)與檢索》第三節(jié)

信息檢索評(píng)價(jià)指標(biāo)體系

9.3.1系統(tǒng)性能指標(biāo)19.3.2系統(tǒng)效益指標(biāo)29.3.3費(fèi)用/效果指標(biāo)339.3.4費(fèi)用/效益指標(biāo)49.3.5Web檢索系統(tǒng)性能評(píng)價(jià)存在的問題5信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)傳統(tǒng)的信息檢索效果評(píng)價(jià),通常以查全率、查準(zhǔn)率和響應(yīng)時(shí)間3個(gè)指標(biāo)為主

信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)(一)查全率當(dāng)進(jìn)行檢索時(shí),檢索系統(tǒng)把文獻(xiàn)分成兩部分,—部分是與檢索策略相匹配的文獻(xiàn),并被檢索出來,用戶根據(jù)自己的判斷將其分成相關(guān)的文獻(xiàn)(命中)a和不相關(guān)的文獻(xiàn)(噪音)b;另一部分是未能與檢索策略相匹配的文獻(xiàn),根據(jù)判斷也可將其分成相關(guān)文獻(xiàn)(遺漏)c和不相關(guān)文獻(xiàn)(正確地拒絕)d。一般情況下,檢索出來的文獻(xiàn)數(shù)量為(a+b),相對(duì)整個(gè)系統(tǒng)規(guī)模來說,是很小的,而未被檢出的文獻(xiàn)(c+d)數(shù)量則非常大。此時(shí),查全率為:

信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)查全率是指從檢索系統(tǒng)檢出的與某課題相關(guān)的文獻(xiàn)信息數(shù)量與檢索系統(tǒng)中實(shí)際與該課題相關(guān)的文獻(xiàn)信息總量之比率。對(duì)于數(shù)據(jù)庫檢索系統(tǒng),查全率為檢索出的款目數(shù)與數(shù)據(jù)庫中滿足用戶檢索式需求的款目數(shù)之比;而對(duì)因特網(wǎng)信息檢索來說,文獻(xiàn)總量是很難計(jì)算的,甚至連估算都困難。要按傳統(tǒng)的方式計(jì)算查全率,就要檢驗(yàn)檢索工具反饋的所有檢索結(jié)果,而檢索結(jié)果的數(shù)量有時(shí)是極大的。為此,相對(duì)查全率是一種可以實(shí)際操作的指標(biāo),但從其定義可以看出,人為因素的影響較大。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)(二)查準(zhǔn)率查準(zhǔn)率(relevanceratio)可定義如下:當(dāng)進(jìn)行檢索時(shí),檢索系統(tǒng)把文獻(xiàn)分成兩部分,一部分是與檢索策略相匹配的文獻(xiàn),并被檢索出來,用戶根據(jù)自已的判斷將其分成相關(guān)的文獻(xiàn)(命中)a和不相關(guān)的文獻(xiàn)(噪音)b。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)同樣,對(duì)因特網(wǎng)信息檢索來說,真實(shí)查準(zhǔn)率也是很難計(jì)算的。因?yàn)椋瑢?duì)于命中結(jié)果數(shù)量太大的檢索課題來說,相關(guān)性判斷工作量極大,很難操作。為此可以定義一個(gè)相對(duì)查準(zhǔn)率如下:信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)(三)查全率與查準(zhǔn)率的發(fā)展(1)R查準(zhǔn)率R查準(zhǔn)率就是在返回的結(jié)果排序結(jié)果的第R個(gè)位置計(jì)算查準(zhǔn)率,產(chǎn)生排序結(jié)果的單值度量。文檔集合中,假設(shè)與查詢相關(guān)的文檔總數(shù)為R,在按與查詢相關(guān)程度輸出檢索結(jié)果的系統(tǒng)中,輸出從高相關(guān)位到R相關(guān)位的檢索結(jié)果稱為R查準(zhǔn)率(R-precision)。R查準(zhǔn)率是一種評(píng)價(jià)按相關(guān)順序輸出檢索結(jié)果有效性的度量。R查準(zhǔn)率方法對(duì)于觀察一種算法在試驗(yàn)中每個(gè)查詢的有效性是非常有用的。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)(2)F調(diào)和均值排序結(jié)果中第j個(gè)文檔的查全率與查準(zhǔn)率的調(diào)和均值稱為調(diào)和均值(F-measure)。調(diào)和均值取值范圍在[0,1]范圍內(nèi),當(dāng)查全率和查準(zhǔn)率雙方的值都大時(shí),取的值大。取值越大表示性能越好。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)(3)E均值均值(measure)允許用戶指定是對(duì)查全率更感興趣還是對(duì)查準(zhǔn)率更感興趣。E均值定義如下:B是表示重視查全率還是查準(zhǔn)率的參數(shù)。b=1表明查全率和查準(zhǔn)率是同等重要。b﹥1表示與查全率相比,更看重查準(zhǔn)率。b﹤1表示與查準(zhǔn)率相比更重視查全率。E的取值范圍是[0,1],E取值越小表示性能越好。當(dāng)比b=1時(shí),E的值中用1減去的部分就是F的值。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)Ranking指標(biāo)信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)(四)響應(yīng)時(shí)間響應(yīng)時(shí)間(responsetime)指在一次檢索過程中,用戶從開始向信息檢索系統(tǒng)提問到系統(tǒng)輸出檢索結(jié)果的全部時(shí)間。

一般來說,響應(yīng)時(shí)間越短,查全率和查準(zhǔn)率越高,那么信息檢索效果就越好。

信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)(五)常用的其它性能指標(biāo)

收錄范圍(coverage)又稱數(shù)據(jù)覆蓋率,數(shù)據(jù)庫收錄范圍指標(biāo)被作為衡量查全率的一項(xiàng)輔助指標(biāo),用以揭示數(shù)據(jù)庫的涵蓋范圍。它的計(jì)算公式為“給定時(shí)間內(nèi)系統(tǒng)收錄的文獻(xiàn)總量”與“同期相關(guān)領(lǐng)域中的實(shí)際文獻(xiàn)量”之比。一個(gè)信息檢索系統(tǒng)收錄范圍直接影響到用戶信息需求的滿足程度。新穎率(noveltyratio)指某一次檢索中檢出新的相關(guān)文獻(xiàn)的能力。特別是用于評(píng)價(jià)SDI服務(wù)。計(jì)算公式為檢出的新的相關(guān)文獻(xiàn)量與檢出的相關(guān)文獻(xiàn)總量之比。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)囊括值(generalitynumber)指與某一提問相關(guān)的文獻(xiàn)在指定文獻(xiàn)集合中的分布密度。通常,分度密度愈大愈易檢出。其計(jì)算公式為給定集合中與某一提問相關(guān)的文獻(xiàn)量與給定集合中的文獻(xiàn)總量之比。用戶負(fù)擔(dān)(usereffort)是用戶在檢索過程中所消耗的物力、財(cái)力乃至精力的總和。輸出形式(outputdisplayformat)是系統(tǒng)檢索出文獻(xiàn)信息的形式,可能是文獻(xiàn)號(hào)、題錄、文摘或全文等。輸出的信息越多且便于瀏覽,用戶越容易做出相關(guān)性判斷。輸出形式影響著用戶對(duì)檢索結(jié)果的選擇和利用。信息存儲(chǔ)與檢索》9.3.2系統(tǒng)效益指標(biāo)情報(bào)檢索系統(tǒng)的效益包括社會(huì)效益和經(jīng)濟(jì)效益,綜合體現(xiàn)在以下方面:信息和知識(shí)的傳播速度;信息資源的有效利用率;節(jié)省獲取信息的時(shí)間和費(fèi)用;改進(jìn)決策方式,提高決策水平;避免重復(fù)研究;促進(jìn)新發(fā)明新發(fā)現(xiàn)的產(chǎn)生,提高科研效率。信息存儲(chǔ)與檢索》9.3.3費(fèi)用/效果指標(biāo)對(duì)用戶來說,接受檢索服務(wù)時(shí)需要支付的費(fèi)用或成本可能有以下幾種:檢索服務(wù)收費(fèi),或檢索工具或數(shù)據(jù)庫的訂購費(fèi);學(xué)會(huì)使用某系統(tǒng)所付出的時(shí)間和精力;檢出信息時(shí)所付出的時(shí)間和精力;其他費(fèi)用(如交通費(fèi)等)。相應(yīng)地,系統(tǒng)的費(fèi)用/效果水平可分別表示為:檢出每條相關(guān)記錄的單位成本;檢出每條新的相關(guān)記錄的單位成本;獲得每篇相關(guān)文獻(xiàn)原文的單位成本。信息存儲(chǔ)與檢索》9.3.4費(fèi)用/效益指標(biāo)系統(tǒng)經(jīng)營者為了向用戶提供具有一定質(zhì)量的服務(wù)和產(chǎn)品,必須投入一定數(shù)量的資源,如系統(tǒng)設(shè)備費(fèi)、系統(tǒng)研制開發(fā)費(fèi)、數(shù)據(jù)庫購置費(fèi)和建設(shè)費(fèi)、系統(tǒng)運(yùn)營維持費(fèi)、廣告費(fèi)、培訓(xùn)費(fèi)、房租水電費(fèi)等。它的收益包括用戶繳納的檢索費(fèi),出售有關(guān)產(chǎn)品能和服務(wù)的收入等。由于普遍缺乏對(duì)信息產(chǎn)品和服務(wù)費(fèi)用的實(shí)際計(jì)算,各系統(tǒng)的費(fèi)用開支很少公開,而且缺乏較完善的信息價(jià)格政策,信息服務(wù)的價(jià)格常被扭曲,所以,計(jì)量費(fèi)用/效益比的難度很大。信息存儲(chǔ)與檢索》9.3.5Web檢索系統(tǒng)性能評(píng)價(jià)存在的問題Web檢索系統(tǒng)性能評(píng)價(jià)存在的問題(1)指標(biāo)沒有量化,常常是搜索引擎之間定性的比較;(2)指標(biāo)體系不完善,要么是指標(biāo)不能全面反映搜索引擎的總體狀況,要么是權(quán)重的得出主觀性太強(qiáng);(3)指標(biāo)體系無法操作或無法長(zhǎng)期進(jìn)行跟蹤。信息存儲(chǔ)與檢索》第四節(jié)

信息檢索評(píng)價(jià)過程與方法

9.4.1確定評(píng)價(jià)對(duì)象及目標(biāo)19.4.2選擇評(píng)價(jià)方式2

9.4.3設(shè)計(jì)評(píng)價(jià)方案339.4.4實(shí)施評(píng)價(jià)方案45信息存儲(chǔ)與檢索》9.4.1確定評(píng)價(jià)對(duì)象及目標(biāo)對(duì)象可以是整個(gè)系統(tǒng)、幾個(gè)系統(tǒng)或其中的某些子系統(tǒng)。評(píng)價(jià)目的可以是測(cè)定系統(tǒng)的性能或費(fèi)用/效果水平,或檢驗(yàn)?zāi)撤N假設(shè)、觀點(diǎn),某種關(guān)系。評(píng)價(jià)范圍可以使全面性的或局部性的,通常表示為問題大綱,既要通過評(píng)價(jià)來回答的問題。評(píng)價(jià)者一定要與委托人充分討論、協(xié)商,明確委托人的目標(biāo)和要求。信息存儲(chǔ)與檢索》9.4.2選擇評(píng)價(jià)方式可以采用的評(píng)價(jià)方式有:?jiǎn)蜗到y(tǒng)調(diào)查分析法;多系統(tǒng)比較分析法;問卷調(diào)查法;檢索試驗(yàn)評(píng)價(jià)法。信息存儲(chǔ)與檢索》9.4.3設(shè)計(jì)評(píng)價(jià)方案設(shè)計(jì)評(píng)價(jià)方案是信息檢索評(píng)價(jià)成功的關(guān)鍵。設(shè)計(jì)時(shí)要考慮的方面有:需獲得哪些數(shù)據(jù)?采用哪些評(píng)價(jià)指標(biāo)(即設(shè)定哪些變量)?采用什么方法去獲得有關(guān)系統(tǒng)性能的定性描述和定量描述?如何分析各種性能與特定變量之間的關(guān)系?必須確保評(píng)價(jià)結(jié)果能準(zhǔn)確的反應(yīng)系統(tǒng)的性能和回答委托人提出的各種問題。信息存儲(chǔ)與檢索》9.4.4實(shí)施評(píng)價(jià)方案以檢索試驗(yàn)評(píng)價(jià)法為例,介紹其實(shí)施步驟如下:(1)取樣。。(2)測(cè)試.(3)數(shù)據(jù)收集與記錄。(4)數(shù)據(jù)處理分析。(5)評(píng)價(jià)結(jié)果分析和解析。(6)改進(jìn)系統(tǒng)性能與效益。信息存儲(chǔ)與檢索》第五節(jié)

經(jīng)典的信息檢索評(píng)價(jià)實(shí)驗(yàn)9.5.1MEDLARS系統(tǒng)評(píng)價(jià)實(shí)驗(yàn)19.5.2Cranfield試驗(yàn)2

9.5.3SMART檢索試驗(yàn)39.5.4STAIRS工程49.5.5WRU檢索實(shí)驗(yàn)59.5.6SDI服務(wù)評(píng)價(jià)69.5.8討論879.5.7手工與聯(lián)機(jī)回溯檢索的費(fèi)用/效果比較信息存儲(chǔ)與檢索》9.5.1MEDLARS系統(tǒng)評(píng)價(jià)實(shí)驗(yàn)

試驗(yàn)方法和過程介紹如下:(一)選取試驗(yàn)用的提問集合(二)檢索(三)向用戶提交檢索結(jié)果(四)用戶填寫“相關(guān)性評(píng)估表”。(五)初步統(tǒng)計(jì)分析信息存儲(chǔ)與檢索》9.5.1MEDLARS系統(tǒng)評(píng)價(jià)實(shí)驗(yàn)

MEDLARS是美國國家醫(yī)學(xué)圖書館(NLM)1964年建成的一個(gè)批式檢索系統(tǒng)。這一試驗(yàn)是在MEDLARS的運(yùn)行數(shù)據(jù)庫上進(jìn)行的,這是一個(gè)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫,它的索引款目是從一個(gè)醫(yī)學(xué)標(biāo)題表敘詞表(MeSH)中選取出來的。MEDLARS試驗(yàn)的目的是對(duì)當(dāng)前系統(tǒng)進(jìn)行評(píng)價(jià),并尋找改進(jìn)系統(tǒng)性能的途徑。在試驗(yàn)期間MEDLARS服務(wù)系統(tǒng)可訪問的文獻(xiàn)集合中包含約700000條款目,當(dāng)時(shí)該系統(tǒng)每年處理3,000多個(gè)檢索課題。這項(xiàng)評(píng)價(jià)的目的是研究用戶的檢索需求,確認(rèn)MEDLARS滿足用戶需求的程度,分析鑒別影響系統(tǒng)性能的不利因素,尋找改進(jìn)系統(tǒng)性能的途徑。信息存儲(chǔ)與檢索》9.5.1MEDLARS系統(tǒng)評(píng)價(jià)實(shí)驗(yàn)

試驗(yàn)過程如下:(一)選取試驗(yàn)用的提問集合(二)檢索(三)向用戶提交檢索結(jié)果(四)用戶填寫“相關(guān)性評(píng)估表”。(五)初步統(tǒng)計(jì)分析(六)估計(jì)被遺漏的文獻(xiàn)量(七)綜合統(tǒng)計(jì)(八)檢索失誤分析(九)提交評(píng)價(jià)報(bào)告信息存儲(chǔ)與檢索》9.5.2Cranfield試驗(yàn)(一)Cranfield1工程對(duì)檢索系統(tǒng)首次深入的評(píng)價(jià)研究是在C.W.Cleverdon的指導(dǎo)下,在英國的格連菲爾德(Cranfield)進(jìn)行的,被稱為Cranfield1工程。首次Cranfield研究始于1957年,Cleverdon對(duì)此次研究作了報(bào)告。信息存儲(chǔ)與檢索》9.5.2Cranfield試驗(yàn)(二)Cranfield2工程第二次Cranfield試驗(yàn)是一個(gè)受控實(shí)驗(yàn),其目的是評(píng)估索引語言的組成要素對(duì)檢索系統(tǒng)性能的影響。實(shí)驗(yàn)所采用的方法是:依次改變每一要素并保持其它要素不變,從而對(duì)每一要素的作用進(jìn)行評(píng)估。通過概念組配方法共產(chǎn)生了29種檢索語言,并將其在1400篇文獻(xiàn)上進(jìn)行了試驗(yàn)。信息存儲(chǔ)與檢索》9.5.3SMART檢索試驗(yàn)SMART系統(tǒng)是在1964年設(shè)計(jì)的,其設(shè)計(jì)意圖在很大程度上是將其作為一個(gè)試驗(yàn)工具,對(duì)多種不同形式的分析檢索過程的效率進(jìn)行評(píng)價(jià)。文摘的自動(dòng)標(biāo)引提問語句的自動(dòng)化分析文獻(xiàn)聚類的自動(dòng)生成聚類文檔與提問語句的匹配按相關(guān)性遞減順序輸出顯示相關(guān)性反饋和提問重構(gòu)最終輸出評(píng)價(jià)信息存儲(chǔ)與檢索》9.5.4STAIRS工程1985年,Blair和Maron在進(jìn)行了大量實(shí)驗(yàn)的基礎(chǔ)上發(fā)表了一篇實(shí)驗(yàn)報(bào)告。他們的實(shí)驗(yàn)?zāi)繕?biāo)是對(duì)全文檢索和檢索系統(tǒng)的檢索效率進(jìn)行評(píng)價(jià)。這一工程被稱為STAIRS(存儲(chǔ)和情報(bào)檢索系統(tǒng))研究。STAIRS中所使用的數(shù)據(jù)庫包含近40000篇文獻(xiàn),代表某大型合伙訴訟案在申訴時(shí)使用的約350000篇硬拷貝文獻(xiàn)。每篇文獻(xiàn)的全文都可以通過聯(lián)機(jī)方式獲取,并且可以通過意義明確的簡(jiǎn)單詞匯或其布爾邏輯組合檢索得到。用戶可以通過一個(gè)敘詞表——TLS(敘詞表語言系統(tǒng))和廣義詞、狹義詞或相關(guān)詞的使用來操作檢索。STAIRS的一個(gè)重要特點(diǎn)是,使用這一系統(tǒng)準(zhǔn)備法庭辯論的律師規(guī)定他們必須能夠檢索到與一給定提問相關(guān)的所有文獻(xiàn)的75%。STAIRS評(píng)價(jià)的主要目的是評(píng)估系統(tǒng)檢索出與某一給定提問相關(guān)的全部文獻(xiàn)的能力。為此,試驗(yàn)中對(duì)查全率和查準(zhǔn)率進(jìn)行了測(cè)算。信息存儲(chǔ)與檢索》9.5.5WRU工程1963-1968年間,美國開斯西方儲(chǔ)備大學(xué)(CaseWesternReserveUniversity,簡(jiǎn)稱WRU)文獻(xiàn)學(xué)與通訊系統(tǒng)比較試驗(yàn)室進(jìn)行了一項(xiàng)檢索系統(tǒng)評(píng)價(jià)研究。研究目標(biāo)是:確定文獻(xiàn)檢索系統(tǒng)的基本成分,建造一個(gè)系統(tǒng)模型;對(duì)影響系統(tǒng)性能的各種變量進(jìn)行分析鑒別;設(shè)計(jì)一種實(shí)驗(yàn)方法去獲得有關(guān)系統(tǒng)性能的量化信息;建造一個(gè)實(shí)驗(yàn)性系統(tǒng),評(píng)估其性能與特定變量之間的關(guān)系;進(jìn)一步揭示檢索系統(tǒng)內(nèi)各種變量和過程及實(shí)驗(yàn)方法。信息存儲(chǔ)與檢索》9.5.5WRU工程該實(shí)驗(yàn)得出的結(jié)論是:預(yù)先編制一部敘詞表可能是不值得的,但這并不意味著借助敘詞表的提問擴(kuò)展方式是不必要的。相反,它是提高查全率和“效率”的必要步驟。其他結(jié)論是:職號(hào)的作用較??;拓寬檢索式就可以達(dá)到最大的查全率,但其代價(jià)是查準(zhǔn)率非常低;為改善提問分析、構(gòu)造檢索策略方面的決策是影響性能的主要因素。評(píng)價(jià)和最后提出的看法是:檢索系統(tǒng)的效率通常是低的,我們必須學(xué)會(huì)與這一事實(shí)相處。信息存儲(chǔ)與檢索》9.5.6SDI服務(wù)評(píng)價(jià)這是1970-1972年間由萊格特(P.Leggate)等人在英國牛津ExperimentInformationUnit進(jìn)行的評(píng)價(jià)研究。評(píng)價(jià)對(duì)象是若干種營運(yùn)中的SDI服務(wù)。目的是測(cè)定服務(wù)的效果和效率。信息存儲(chǔ)與檢索》9.5.7手工與聯(lián)機(jī)回溯檢索的費(fèi)用/效果比較這是1976年由美國能源署(ERDA)資助的一個(gè)評(píng)價(jià)項(xiàng)目,主持人是埃爾切森(DennisR.Elchesen)。評(píng)價(jià)目的是:采用費(fèi)用/效果分析法比較手工與聯(lián)機(jī)回溯檢索,查明哪一種檢索方式的速度更快,費(fèi)用更低和更有效。

信息存儲(chǔ)與檢索》9.5.8討論Blair和Maron:大型的文件很可能會(huì)導(dǎo)致“輸出超載”。Schamber:盡管相關(guān)性判斷對(duì)于情報(bào)檢索系統(tǒng)的評(píng)價(jià)是基礎(chǔ)性的環(huán)節(jié),但是情報(bào)學(xué)家還沒有在如何定義相關(guān)性的核心概念上達(dá)成一致意見。Horman:由于情報(bào)檢索系統(tǒng)的評(píng)價(jià)研究越來越趨向于用戶的參與,從而使得這一研究出現(xiàn)了一個(gè)重要的問題,即全面的評(píng)價(jià)不僅要求對(duì)用戶與檢索系統(tǒng)的交流程度做出評(píng)價(jià),而且還要對(duì)用戶情報(bào)檢索的熟練程度做出評(píng)價(jià)。Roberson和Hancock-Beaulieu:建議開展診斷性和操作性更強(qiáng)的系統(tǒng)評(píng)價(jià)試驗(yàn),這些試驗(yàn)中使有大量的評(píng)價(jià)工具,包括一個(gè)真實(shí)用戶參與的可操作性環(huán)境,一個(gè)或多個(gè)現(xiàn)場(chǎng)數(shù)據(jù)庫。Ledwith:在評(píng)價(jià)使用等級(jí)檢索查詢STN聯(lián)機(jī)服務(wù)中的大型科學(xué)文摘的適用性時(shí),陳述了三個(gè)主要的問題:一是關(guān)于研究中用于試驗(yàn)的數(shù)據(jù)集的構(gòu)成和規(guī)模的;二是關(guān)于實(shí)驗(yàn)數(shù)據(jù)集所采用的提問的性質(zhì);三是從費(fèi)用-效果比來看,分級(jí)檢索模型是否在性能上對(duì)布爾檢索模型有足夠大的改進(jìn)。信息存儲(chǔ)與檢索》第六節(jié)

信息檢索評(píng)價(jià)實(shí)驗(yàn)平臺(tái):TREC9.6.1TREC的產(chǎn)生與發(fā)展19.6.2TREC的組織機(jī)制

2

9.6.3TREC的試驗(yàn)數(shù)據(jù)集合39.6.4TREC主要評(píng)價(jià)項(xiàng)目49.6.5部分往屆TREC簡(jiǎn)介59.6.6關(guān)于C-TREC的一些思考6信息存儲(chǔ)與檢索》9.6.1TREC的產(chǎn)生與發(fā)展TREC是“文本檢索會(huì)議”(TextRetrievalConference)的簡(jiǎn)稱,1992年由美國國家標(biāo)準(zhǔn)與技術(shù)局(theNationalInstituteofStandardsandTechnology,簡(jiǎn)稱NIST)和國防部高級(jí)研究項(xiàng)目計(jì)劃局(theDefenseAdvancedResearchProjectsAgency,簡(jiǎn)稱DAPRA)共同發(fā)起并主辦,是國際文本檢索領(lǐng)域最最具權(quán)威性的年度評(píng)測(cè)活動(dòng)。信息存儲(chǔ)與檢索》9.6.1TREC的產(chǎn)生與發(fā)展TREC活動(dòng)的主要目標(biāo):通過提供大型的語料庫、統(tǒng)一的測(cè)試程序及系統(tǒng)整理評(píng)測(cè)的結(jié)果數(shù)據(jù),來促進(jìn)信息檢索技術(shù)的發(fā)展。強(qiáng)調(diào)檢索技術(shù)的先進(jìn)性與實(shí)用性的有機(jī)結(jié)合。為學(xué)術(shù)界、工業(yè)界、政府部門等提供交流研究思想的公開論壇,促進(jìn)各部門之間的合作與交流。經(jīng)由對(duì)真實(shí)檢索環(huán)境的模擬與重要改進(jìn),加速將實(shí)驗(yàn)室研究技術(shù)轉(zhuǎn)化為商業(yè)產(chǎn)品。信息存儲(chǔ)與檢索》9.6.2TREC的組織機(jī)制

從1992年開始,TREC每年舉辦一次,提供一些不同的測(cè)試子項(xiàng)目,如交叉語言檢索、信息過濾等。每年年初(約在1-2月),NIST會(huì)通過多種方式向有關(guān)機(jī)構(gòu)、研究部門發(fā)出或發(fā)布參加新一屆TREC評(píng)價(jià)活動(dòng)的通知或邀請(qǐng),并接受參加者提出的參評(píng)申請(qǐng)。主辦者向會(huì)員發(fā)送參加試驗(yàn)需要使用的標(biāo)準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)和檢索提問式,收到實(shí)驗(yàn)數(shù)據(jù)后,各參會(huì)會(huì)員按照試驗(yàn)要求對(duì)自己的檢索系統(tǒng)進(jìn)行測(cè)試,把檢索結(jié)果數(shù)據(jù)返回給TREC主辦方,最后期限一般在8月份。9-10月份,NIST邀請(qǐng)、組織職業(yè)信息分析員對(duì)各個(gè)檢索系統(tǒng)獲得的結(jié)果數(shù)據(jù)進(jìn)行統(tǒng)一的定量分析和評(píng)價(jià),并按試驗(yàn)結(jié)果進(jìn)行系統(tǒng)排名,同時(shí)將評(píng)價(jià)結(jié)果反饋到每個(gè)參與者。年底(一般在11月份),TREC大會(huì)舉行。信息存儲(chǔ)與檢索》9.6.3TREC的試驗(yàn)數(shù)據(jù)集合TREC是選拔優(yōu)秀信息檢索系統(tǒng)的權(quán)威性會(huì)議,為信息檢索研究人員提供了一種標(biāo)準(zhǔn)的用于比較信息檢索系統(tǒng)的評(píng)價(jià)平臺(tái)。作為一項(xiàng)國際性的大型檢索試驗(yàn)與評(píng)價(jià)活動(dòng),TREC主辦者從一開始就致力于建設(shè)并不斷完善一個(gè)大規(guī)模公用測(cè)試數(shù)據(jù)集合。目前,TREC已擁有一個(gè)動(dòng)態(tài)更新、來源多樣、類型與語種多樣的實(shí)驗(yàn)用文本數(shù)據(jù)集合,數(shù)據(jù)集合的規(guī)模也在逐年穩(wěn)定增長(zhǎng)。眾多機(jī)構(gòu)和部門都向NIST免費(fèi)提供其具有的知識(shí)產(chǎn)權(quán)的文檔資料,也有少數(shù)采取象征性收費(fèi)策略提供TREC需要的預(yù)料,而TREC活動(dòng)的成員只要限于試驗(yàn)?zāi)康?,即可無償使用。

信息存儲(chǔ)與檢索》9.6.4TREC主要評(píng)價(jià)項(xiàng)目一年一度的TREC活動(dòng)主要由一系列評(píng)測(cè)“項(xiàng)目”(tracks)組成,每個(gè)項(xiàng)目涉及一個(gè)特定的檢索任務(wù)。世界各地的TREC參與者正是通過攜帶自己開發(fā)、設(shè)計(jì)的檢索試驗(yàn)系統(tǒng),參與當(dāng)年設(shè)立的全部或部分評(píng)測(cè)項(xiàng)目的評(píng)價(jià)活動(dòng),來實(shí)現(xiàn)對(duì)自身系統(tǒng)檢索技術(shù)先進(jìn)性與實(shí)用性的檢驗(yàn)和驗(yàn)證的。信息存儲(chǔ)與檢索》9.6.5部分往屆TREC簡(jiǎn)介(一)TREC-11992年11月,NIST舉行了首屆文獻(xiàn)檢索會(huì)議(TREC-1)。這一會(huì)議由DARPA和NIST共同舉辦,在會(huì)議中情報(bào)檢索研究人員聚集在一起,對(duì)他們各自的不同系統(tǒng)在一個(gè)新的大型試驗(yàn)數(shù)據(jù)集(TIRSTER集合)上所得到的試驗(yàn)結(jié)果進(jìn)行了對(duì)比。TREC-1的試驗(yàn)結(jié)果揭示了以下事實(shí):從自然語言提問的表述中自動(dòng)生成提問是可行的;基于自然語言處理的技術(shù)與基于向量或概率方法的技術(shù)相當(dāng),所有方法中的最優(yōu)方案幾乎是同效的。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論