《信息存儲(chǔ)與檢索》課件-第九章信息檢索評(píng)價(jià)與實(shí)驗(yàn)

上傳人：青*** IP屬地：福建上傳時(shí)間：2025-07-24 格式：PPT 頁數(shù)：60 大?。?17.50KB 積分：5.99 舉報(bào) 版權(quán)申訴

《信息存儲(chǔ)與檢索》課件-第九章信息檢索評(píng)價(jià)與實(shí)驗(yàn)_第2頁

《信息存儲(chǔ)與檢索》課件-第九章信息檢索評(píng)價(jià)與實(shí)驗(yàn)_第3頁

《信息存儲(chǔ)與檢索》課件-第九章信息檢索評(píng)價(jià)與實(shí)驗(yàn)_第4頁

《信息存儲(chǔ)與檢索》課件-第九章信息檢索評(píng)價(jià)與實(shí)驗(yàn)_第5頁

已閱讀5頁，還剩55頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九章信息檢索評(píng)價(jià)與實(shí)驗(yàn)

本章目錄9.1引言9.2

信息檢索相關(guān)性理論9.3

信息檢索評(píng)價(jià)指標(biāo)體系9.4

信息檢索評(píng)價(jià)的過程與方法9.5

經(jīng)典的信息檢索評(píng)價(jià)實(shí)驗(yàn)9.6

信息檢索評(píng)價(jià)實(shí)驗(yàn)平臺(tái)：TREC信息存儲(chǔ)與檢索》第一節(jié)引言信息檢索系統(tǒng)評(píng)價(jià)的內(nèi)容包括：資源的收錄狀況、數(shù)據(jù)的質(zhì)量、檢索的功能與效率、系統(tǒng)的功能以及檢索結(jié)果的反饋形式等。

數(shù)據(jù)的評(píng)價(jià)主要從兩個(gè)方面考察：一是數(shù)據(jù)的錄入質(zhì)量，如數(shù)據(jù)的錯(cuò)誤率，數(shù)據(jù)的結(jié)構(gòu)是否合理，數(shù)據(jù)的完整性如何，數(shù)據(jù)的著錄是否完備等；二是數(shù)據(jù)的加工質(zhì)量，如數(shù)據(jù)的加工深度，數(shù)據(jù)的標(biāo)引質(zhì)量，數(shù)據(jù)的分類是否合理等。信息存儲(chǔ)與檢索》第一節(jié)

引言檢索的功能與效率的評(píng)價(jià)主要考察檢索入口能否滿足用戶的需求，檢索的組配是否豐富，查準(zhǔn)率和查全率是否得當(dāng)，檢索的響應(yīng)速度如何等。檢索功能和效率與檢索算法有密切的關(guān)系，由于檢索算法難以分辨出優(yōu)劣，因此，可以通過檢索界面、查全率和查準(zhǔn)率以及檢索響應(yīng)時(shí)間等來判斷檢索的效率。信息存儲(chǔ)與檢索》第一節(jié)

引言近年來，信息檢索評(píng)價(jià)研究已從系統(tǒng)的輸入方面的特性逐漸向檢索者輸入方面的特性轉(zhuǎn)移，開始注重研究檢索專家的特性（如教育背景、經(jīng)驗(yàn)、個(gè)性等）與檢索成功率之間的關(guān)系。有些評(píng)價(jià)者還考察了采用不同檢索鍵所引起的變化，例如，分別用題名關(guān)鍵詞、文摘關(guān)鍵詞、敘詞、原文中的詞，或者分別用主題詞與引文對(duì)相同的課題進(jìn)行檢索時(shí)，檢索結(jié)果之間的差異。信息存儲(chǔ)與檢索》第一節(jié)

引言整體而言，信息檢索評(píng)價(jià)活動(dòng)范圍擴(kuò)大了，評(píng)價(jià)水平在不斷提高，積累了大量有價(jià)值的試驗(yàn)或調(diào)查數(shù)據(jù)，初步揭示了檢索系統(tǒng)及其各組成部分的運(yùn)行機(jī)制及對(duì)系統(tǒng)性能的影響。不過需要指出的是，就目前狀況而言，我們對(duì)用戶需求相關(guān)性判斷和系統(tǒng)行為的本質(zhì)方面的探索還顯得不足，有些評(píng)價(jià)方法還需要進(jìn)一步完善，評(píng)價(jià)結(jié)果的解析和驗(yàn)證也有待進(jìn)一步深入和加強(qiáng)。信息存儲(chǔ)與檢索》第二節(jié)

信息檢索相關(guān)性理論9.2.1相關(guān)性概念及其特征19.2.2影響相關(guān)性判斷的變量29.2.3面向系統(tǒng)的相關(guān)性339.2.4面向用戶的相關(guān)性4信息存儲(chǔ)與檢索》

9.2.1相關(guān)性概念及其特征

（一）相關(guān)性的概念相關(guān)性問題的出現(xiàn)：1958年，著名學(xué)者B.C.Vickery在ICSI（theInternationalConferenceforScientificInformation）上的兩篇會(huì)議論文引發(fā)對(duì)“相關(guān)性”概念的最初討論，“相關(guān)性”問題由此得到明確提出。所謂“相關(guān)性判斷”，是指信息檢索中判斷者在某一時(shí)刻對(duì)某種相關(guān)性的一種賦值操作。這個(gè)定義中包含了相關(guān)性判斷的四個(gè)基本組成要素，分別是：相關(guān)性類型、判斷者類型、判斷時(shí)間和判斷結(jié)果表達(dá)方式。信息存儲(chǔ)與檢索》

9.2.1相關(guān)性概念及其特征

相關(guān)性類型，指基于何種相關(guān)性進(jìn)行判斷；判斷者類型，指實(shí)施判斷的主體，通常分為用戶（user）與非用戶（non-user）兩大類，其中，用戶指檢索系統(tǒng)的真實(shí)用戶，非用戶則包括檢索系統(tǒng)設(shè)計(jì)者、檢索中介等在內(nèi)的各類人員；判斷時(shí)間，很明顯在不同的時(shí)間點(diǎn)，相關(guān)性判斷的結(jié)果可能是不同的，所以判斷時(shí)間也是相關(guān)性判斷的基本組成要素；判斷結(jié)果的表達(dá)方式，指對(duì)相關(guān)性的賦值方法。信息存儲(chǔ)與檢索》

9.2.1相關(guān)性概念及其特征

（一）相關(guān)性的特征1關(guān)系2直覺3多維4動(dòng)態(tài)信息存儲(chǔ)與檢索》

9.2.2影響相關(guān)性判斷的變量

（一）文獻(xiàn)與文獻(xiàn)表示文獻(xiàn)與文獻(xiàn)表示是檢索的對(duì)象，對(duì)人的相關(guān)性判斷有直接影響。人們比較了題名、題錄、文摘和全文對(duì)相關(guān)性判斷的不同影響，分析了文獻(xiàn)的風(fēng)格和內(nèi)容專指性與相關(guān)性判斷的聯(lián)系，發(fā)現(xiàn)：文獻(xiàn)的主題內(nèi)容是影響判斷的最重要因素。文獻(xiàn)內(nèi)容愈具體，愈有利于相關(guān)性判斷。文獻(xiàn)的風(fēng)格也可能影響判斷。對(duì)同一文獻(xiàn)，分別根據(jù)其題名、題錄、文摘、全文來判斷與特定提問的相關(guān)性，判斷結(jié)果有差異。信息存儲(chǔ)與檢索》

9.2.2影響相關(guān)性判斷的變量

（二）提問提問促使文獻(xiàn)作為答案輸出、提問的專指性，判斷者在不同研究階段的知識(shí)狀態(tài)以及提問的措辭等方面對(duì)判斷均有影響。判斷者對(duì)提問本身了解越多，對(duì)提問與答案的推斷越深入，判斷的一致性就越高。提問文本與相關(guān)文獻(xiàn)文本之間似乎存在著較高的相似性和關(guān)聯(lián)性，而在提問與非相關(guān)文獻(xiàn)文本之間卻未發(fā)現(xiàn)這種相似性。此外，判斷者對(duì)提問本身知道得愈少，判斷文獻(xiàn)為相關(guān)的傾向性就愈大。信息存儲(chǔ)與檢索》

9.2.2影響相關(guān)性判斷的變量

（三）判斷環(huán)境與條件這里主要指判斷時(shí)間、人們對(duì)相關(guān)性的解釋及其它環(huán)境因素。一些實(shí)驗(yàn)發(fā)現(xiàn)：實(shí)驗(yàn)條件的變化可能導(dǎo)致判斷的變化；判斷環(huán)境中的壓力（如時(shí)間緊迫感）越大，會(huì)導(dǎo)致相關(guān)率越高；對(duì)相關(guān)性的不同解釋并不一定導(dǎo)致不同的相關(guān)率。信息存儲(chǔ)與檢索》

9.2.2影響相關(guān)性判斷的變量

（四）判斷表達(dá)模式這個(gè)變量是指供判斷者用來表達(dá)判斷的方式或手段，如文獻(xiàn)相關(guān)性的等級(jí)劃分、分支設(shè)置方法等。一些實(shí)驗(yàn)發(fā)現(xiàn)：不同的相關(guān)性分級(jí)方法對(duì)判斷差異影響很?。悍旨?jí)越多，判斷越方便；問卷方式對(duì)表達(dá)判斷較有利；對(duì)一組相關(guān)度較高的文獻(xiàn)，及時(shí)判斷者的背景不同，也可望使判斷達(dá)到顯著的一致性。信息存儲(chǔ)與檢索》

9.2.2影響相關(guān)性判斷的變量

（五）判斷者的特性這里主要指判斷者的教育程度，特別是專業(yè)教育水平和身份。一些試驗(yàn)發(fā)現(xiàn)：判斷者的專業(yè)知識(shí)越高深，相關(guān)性判斷的一致性就越好；高級(jí)專業(yè)人員的判斷一致度為0.55-0.75，情報(bào)服務(wù)人員為0.45-0.60；專業(yè)知識(shí)越少，相關(guān)性判斷就越寬大；非專業(yè)人員（如圖書情報(bào)人員）傾向于賦予較高的相關(guān)性比例；文獻(xiàn)利用目的不同，可能會(huì)產(chǎn)生判斷差異；判斷相關(guān)不同于判斷非相關(guān)，前者的一致率低于后者。信息存儲(chǔ)與檢索》9.2.3面向系統(tǒng)的相關(guān)性面向系統(tǒng)的相關(guān)性（system-orientedrelevance）是把信息檢索定位于一種單方向的信息處理過程，系統(tǒng)根據(jù)用戶的提問輸出檢索結(jié)果，用戶是信息的接受者。這種理解把相關(guān)性看做是系統(tǒng)方面的屬性，用戶提出的查詢請(qǐng)求只是被拿來與已經(jīng)確定的文檔相比較，二者之間匹配、比較的主要標(biāo)準(zhǔn)就是文檔內(nèi)容與提問的“主屬性”（topicality）。因此，系統(tǒng)角度的相關(guān)性也被稱為“主題相關(guān)”或“算法相關(guān)”。信息存儲(chǔ)與檢索》9.2.4面向用戶的相關(guān)性面向用戶的相關(guān)性（user-orientedrelevance）主要觀察并考慮用戶對(duì)檢索結(jié)果的反應(yīng)，是系統(tǒng)檢索結(jié)果向用戶需求的再投射。隨著檢索系統(tǒng)日益廣泛的應(yīng)用及專家檢索模式向最終用戶檢索模式的轉(zhuǎn)變，檢索評(píng)價(jià)研究開始更多地思考相關(guān)性判斷中人的因素和影響。事實(shí)上，信息檢索不應(yīng)是一個(gè)單向的處理過程，而是一個(gè)不斷迭代、交互的人機(jī)對(duì)話過程。在檢索性能評(píng)價(jià)過程中，脫離用戶談相關(guān)是不現(xiàn)實(shí)的，也是不可能的。一篇檢出文檔是否具有相關(guān)性，很大程度上取決于用戶的主觀判斷，往往涉及用戶的知識(shí)狀態(tài)（stateofknowledge），待處理和解決的問題、任務(wù)及所處的情境或者用戶的目標(biāo)、動(dòng)機(jī)等眾多因素。信息存儲(chǔ)與檢索》第三節(jié)

信息檢索評(píng)價(jià)指標(biāo)體系

9.3.1系統(tǒng)性能指標(biāo)19.3.2系統(tǒng)效益指標(biāo)29.3.3費(fèi)用／效果指標(biāo)339.3.4費(fèi)用／效益指標(biāo)49.3.5Web檢索系統(tǒng)性能評(píng)價(jià)存在的問題5信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)傳統(tǒng)的信息檢索效果評(píng)價(jià)，通常以查全率、查準(zhǔn)率和響應(yīng)時(shí)間3個(gè)指標(biāo)為主

信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)（一）查全率當(dāng)進(jìn)行檢索時(shí)，檢索系統(tǒng)把文獻(xiàn)分成兩部分，—部分是與檢索策略相匹配的文獻(xiàn)，并被檢索出來，用戶根據(jù)自己的判斷將其分成相關(guān)的文獻(xiàn)(命中)a和不相關(guān)的文獻(xiàn)(噪音)b；另一部分是未能與檢索策略相匹配的文獻(xiàn)，根據(jù)判斷也可將其分成相關(guān)文獻(xiàn)(遺漏)c和不相關(guān)文獻(xiàn)(正確地拒絕)d。一般情況下，檢索出來的文獻(xiàn)數(shù)量為(a+b)，相對(duì)整個(gè)系統(tǒng)規(guī)模來說，是很小的，而未被檢出的文獻(xiàn)(c+d)數(shù)量則非常大。此時(shí)，查全率為：

信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)查全率是指從檢索系統(tǒng)檢出的與某課題相關(guān)的文獻(xiàn)信息數(shù)量與檢索系統(tǒng)中實(shí)際與該課題相關(guān)的文獻(xiàn)信息總量之比率。對(duì)于數(shù)據(jù)庫檢索系統(tǒng)，查全率為檢索出的款目數(shù)與數(shù)據(jù)庫中滿足用戶檢索式需求的款目數(shù)之比；而對(duì)因特網(wǎng)信息檢索來說，文獻(xiàn)總量是很難計(jì)算的，甚至連估算都困難。要按傳統(tǒng)的方式計(jì)算查全率，就要檢驗(yàn)檢索工具反饋的所有檢索結(jié)果，而檢索結(jié)果的數(shù)量有時(shí)是極大的。為此，相對(duì)查全率是一種可以實(shí)際操作的指標(biāo)，但從其定義可以看出，人為因素的影響較大。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)（二）查準(zhǔn)率查準(zhǔn)率（relevanceratio）可定義如下：當(dāng)進(jìn)行檢索時(shí)，檢索系統(tǒng)把文獻(xiàn)分成兩部分，一部分是與檢索策略相匹配的文獻(xiàn)，并被檢索出來，用戶根據(jù)自已的判斷將其分成相關(guān)的文獻(xiàn)(命中)a和不相關(guān)的文獻(xiàn)(噪音)b。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)同樣，對(duì)因特網(wǎng)信息檢索來說，真實(shí)查準(zhǔn)率也是很難計(jì)算的。因?yàn)椋瑢?duì)于命中結(jié)果數(shù)量太大的檢索課題來說，相關(guān)性判斷工作量極大，很難操作。為此可以定義一個(gè)相對(duì)查準(zhǔn)率如下：信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)（三）查全率與查準(zhǔn)率的發(fā)展（1）R查準(zhǔn)率R查準(zhǔn)率就是在返回的結(jié)果排序結(jié)果的第R個(gè)位置計(jì)算查準(zhǔn)率，產(chǎn)生排序結(jié)果的單值度量。文檔集合中，假設(shè)與查詢相關(guān)的文檔總數(shù)為R，在按與查詢相關(guān)程度輸出檢索結(jié)果的系統(tǒng)中，輸出從高相關(guān)位到R相關(guān)位的檢索結(jié)果稱為R查準(zhǔn)率（R-precision）。R查準(zhǔn)率是一種評(píng)價(jià)按相關(guān)順序輸出檢索結(jié)果有效性的度量。R查準(zhǔn)率方法對(duì)于觀察一種算法在試驗(yàn)中每個(gè)查詢的有效性是非常有用的。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)（2）F調(diào)和均值排序結(jié)果中第j個(gè)文檔的查全率與查準(zhǔn)率的調(diào)和均值稱為調(diào)和均值（F-measure）。調(diào)和均值取值范圍在[0，1]范圍內(nèi)，當(dāng)查全率和查準(zhǔn)率雙方的值都大時(shí)，取的值大。取值越大表示性能越好。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)（3）E均值均值（measure）允許用戶指定是對(duì)查全率更感興趣還是對(duì)查準(zhǔn)率更感興趣。E均值定義如下：B是表示重視查全率還是查準(zhǔn)率的參數(shù)。b=1表明查全率和查準(zhǔn)率是同等重要。b﹥1表示與查全率相比，更看重查準(zhǔn)率。b﹤1表示與查準(zhǔn)率相比更重視查全率。E的取值范圍是[0，1]，E取值越小表示性能越好。當(dāng)比b=1時(shí)，E的值中用1減去的部分就是F的值。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)Ranking指標(biāo)信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)（四）響應(yīng)時(shí)間響應(yīng)時(shí)間（responsetime）指在一次檢索過程中，用戶從開始向信息檢索系統(tǒng)提問到系統(tǒng)輸出檢索結(jié)果的全部時(shí)間。

一般來說，響應(yīng)時(shí)間越短，查全率和查準(zhǔn)率越高，那么信息檢索效果就越好。

信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)（五）常用的其它性能指標(biāo)

收錄范圍（coverage）又稱數(shù)據(jù)覆蓋率，數(shù)據(jù)庫收錄范圍指標(biāo)被作為衡量查全率的一項(xiàng)輔助指標(biāo)，用以揭示數(shù)據(jù)庫的涵蓋范圍。它的計(jì)算公式為“給定時(shí)間內(nèi)系統(tǒng)收錄的文獻(xiàn)總量”與“同期相關(guān)領(lǐng)域中的實(shí)際文獻(xiàn)量”之比。一個(gè)信息檢索系統(tǒng)收錄范圍直接影響到用戶信息需求的滿足程度。新穎率（noveltyratio）指某一次檢索中檢出新的相關(guān)文獻(xiàn)的能力。特別是用于評(píng)價(jià)SDI服務(wù)。計(jì)算公式為檢出的新的相關(guān)文獻(xiàn)量與檢出的相關(guān)文獻(xiàn)總量之比。信息存儲(chǔ)與檢索》9.3.1系統(tǒng)性能指標(biāo)囊括值（generalitynumber）指與某一提問相關(guān)的文獻(xiàn)在指定文獻(xiàn)集合中的分布密度。通常，分度密度愈大愈易檢出。其計(jì)算公式為給定集合中與某一提問相關(guān)的文獻(xiàn)量與給定集合中的文獻(xiàn)總量之比。用戶負(fù)擔(dān)（usereffort）是用戶在檢索過程中所消耗的物力、財(cái)力乃至精力的總和。輸出形式（outputdisplayformat）是系統(tǒng)檢索出文獻(xiàn)信息的形式，可能是文獻(xiàn)號(hào)、題錄、文摘或全文等。輸出的信息越多且便于瀏覽，用戶越容易做出相關(guān)性判斷。輸出形式影響著用戶對(duì)檢索結(jié)果的選擇和利用。信息存儲(chǔ)與檢索》9.3.2系統(tǒng)效益指標(biāo)情報(bào)檢索系統(tǒng)的效益包括社會(huì)效益和經(jīng)濟(jì)效益，綜合體現(xiàn)在以下方面：信息和知識(shí)的傳播速度；信息資源的有效利用率；節(jié)省獲取信息的時(shí)間和費(fèi)用；改進(jìn)決策方式，提高決策水平；避免重復(fù)研究；促進(jìn)新發(fā)明新發(fā)現(xiàn)的產(chǎn)生，提高科研效率。信息存儲(chǔ)與檢索》9.3.3費(fèi)用／效果指標(biāo)對(duì)用戶來說，接受檢索服務(wù)時(shí)需要支付的費(fèi)用或成本可能有以下幾種：檢索服務(wù)收費(fèi)，或檢索工具或數(shù)據(jù)庫的訂購費(fèi)；學(xué)會(huì)使用某系統(tǒng)所付出的時(shí)間和精力；檢出信息時(shí)所付出的時(shí)間和精力；其他費(fèi)用（如交通費(fèi)等）。相應(yīng)地，系統(tǒng)的費(fèi)用／效果水平可分別表示為：檢出每條相關(guān)記錄的單位成本；檢出每條新的相關(guān)記錄的單位成本；獲得每篇相關(guān)文獻(xiàn)原文的單位成本。信息存儲(chǔ)與檢索》9.3.4費(fèi)用／效益指標(biāo)系統(tǒng)經(jīng)營者為了向用戶提供具有一定質(zhì)量的服務(wù)和產(chǎn)品，必須投入一定數(shù)量的資源，如系統(tǒng)設(shè)備費(fèi)、系統(tǒng)研制開發(fā)費(fèi)、數(shù)據(jù)庫購置費(fèi)和建設(shè)費(fèi)、系統(tǒng)運(yùn)營維持費(fèi)、廣告費(fèi)、培訓(xùn)費(fèi)、房租水電費(fèi)等。它的收益包括用戶繳納的檢索費(fèi)，出售有關(guān)產(chǎn)品能和服務(wù)的收入等。由于普遍缺乏對(duì)信息產(chǎn)品和服務(wù)費(fèi)用的實(shí)際計(jì)算，各系統(tǒng)的費(fèi)用開支很少公開，而且缺乏較完善的信息價(jià)格政策，信息服務(wù)的價(jià)格常被扭曲，所以，計(jì)量費(fèi)用／效益比的難度很大。信息存儲(chǔ)與檢索》9.3.5Web檢索系統(tǒng)性能評(píng)價(jià)存在的問題Web檢索系統(tǒng)性能評(píng)價(jià)存在的問題（1）指標(biāo)沒有量化，常常是搜索引擎之間定性的比較；（2）指標(biāo)體系不完善，要么是指標(biāo)不能全面反映搜索引擎的總體狀況，要么是權(quán)重的得出主觀性太強(qiáng)；（3）指標(biāo)體系無法操作或無法長(zhǎng)期進(jìn)行跟蹤。信息存儲(chǔ)與檢索》第四節(jié)

信息檢索評(píng)價(jià)過程與方法

9.4.1確定評(píng)價(jià)對(duì)象及目標(biāo)19.4.2選擇評(píng)價(jià)方式2

9.4.3設(shè)計(jì)評(píng)價(jià)方案339.4.4實(shí)施評(píng)價(jià)方案45信息存儲(chǔ)與檢索》9.4.1確定評(píng)價(jià)對(duì)象及目標(biāo)對(duì)象可以是整個(gè)系統(tǒng)、幾個(gè)系統(tǒng)或其中的某些子系統(tǒng)。評(píng)價(jià)目的可以是測(cè)定系統(tǒng)的性能或費(fèi)用／效果水平，或檢驗(yàn)?zāi)撤N假設(shè)、觀點(diǎn)，某種關(guān)系。評(píng)價(jià)范圍可以使全面性的或局部性的，通常表示為問題大綱，既要通過評(píng)價(jià)來回答的問題。評(píng)價(jià)者一定要與委托人充分討論、協(xié)商，明確委托人的目標(biāo)和要求。信息存儲(chǔ)與檢索》9.4.2選擇評(píng)價(jià)方式可以采用的評(píng)價(jià)方式有：?jiǎn)蜗到y(tǒng)調(diào)查分析法；多系統(tǒng)比較分析法；問卷調(diào)查法；檢索試驗(yàn)評(píng)價(jià)法。信息存儲(chǔ)與檢索》9.4.3設(shè)計(jì)評(píng)價(jià)方案設(shè)計(jì)評(píng)價(jià)方案是信息檢索評(píng)價(jià)成功的關(guān)鍵。設(shè)計(jì)時(shí)要考慮的方面有：需獲得哪些數(shù)據(jù)？采用哪些評(píng)價(jià)指標(biāo)（即設(shè)定哪些變量）？采用什么方法去獲得有關(guān)系統(tǒng)性能的定性描述和定量描述？如何分析各種性能與特定變量之間的關(guān)系？必須確保評(píng)價(jià)結(jié)果能準(zhǔn)確的反應(yīng)系統(tǒng)的性能和回答委托人提出的各種問題。信息存儲(chǔ)與檢索》9.4.4實(shí)施評(píng)價(jià)方案以檢索試驗(yàn)評(píng)價(jià)法為例，介紹其實(shí)施步驟如下：（1）取樣。。（2）測(cè)試.（3）數(shù)據(jù)收集與記錄。（4）數(shù)據(jù)處理分析。（5）評(píng)價(jià)結(jié)果分析和解析。（6）改進(jìn)系統(tǒng)性能與效益。信息存儲(chǔ)與檢索》第五節(jié)

經(jīng)典的信息檢索評(píng)價(jià)實(shí)驗(yàn)9.5.1MEDLARS系統(tǒng)評(píng)價(jià)實(shí)驗(yàn)19.5.2Cranfield試驗(yàn)2

9.5.3SMART檢索試驗(yàn)39.5.4STAIRS工程49.5.5WRU檢索實(shí)驗(yàn)59.5.6SDI服務(wù)評(píng)價(jià)69.5.8討論879.5.7手工與聯(lián)機(jī)回溯檢索的費(fèi)用／效果比較信息存儲(chǔ)與檢索》9.5.1MEDLARS系統(tǒng)評(píng)價(jià)實(shí)驗(yàn)

試驗(yàn)方法和過程介紹如下：（一）選取試驗(yàn)用的提問集合（二）檢索（三）向用戶提交檢索結(jié)果（四）用戶填寫“相關(guān)性評(píng)估表”。（五）初步統(tǒng)計(jì)分析信息存儲(chǔ)與檢索》9.5.1MEDLARS系統(tǒng)評(píng)價(jià)實(shí)驗(yàn)

MEDLARS是美國國家醫(yī)學(xué)圖書館（NLM）1964年建成的一個(gè)批式檢索系統(tǒng)。這一試驗(yàn)是在MEDLARS的運(yùn)行數(shù)據(jù)庫上進(jìn)行的，這是一個(gè)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫，它的索引款目是從一個(gè)醫(yī)學(xué)標(biāo)題表敘詞表（MeSH）中選取出來的。MEDLARS試驗(yàn)的目的是對(duì)當(dāng)前系統(tǒng)進(jìn)行評(píng)價(jià)，并尋找改進(jìn)系統(tǒng)性能的途徑。在試驗(yàn)期間MEDLARS服務(wù)系統(tǒng)可訪問的文獻(xiàn)集合中包含約700000條款目，當(dāng)時(shí)該系統(tǒng)每年處理3，000多個(gè)檢索課題。這項(xiàng)評(píng)價(jià)的目的是研究用戶的檢索需求，確認(rèn)MEDLARS滿足用戶需求的程度，分析鑒別影響系統(tǒng)性能的不利因素，尋找改進(jìn)系統(tǒng)性能的途徑。信息存儲(chǔ)與檢索》9.5.1MEDLARS系統(tǒng)評(píng)價(jià)實(shí)驗(yàn)

試驗(yàn)過程如下：（一）選取試驗(yàn)用的提問集合（二）檢索（三）向用戶提交檢索結(jié)果（四）用戶填寫“相關(guān)性評(píng)估表”。（五）初步統(tǒng)計(jì)分析（六）估計(jì)被遺漏的文獻(xiàn)量（七）綜合統(tǒng)計(jì)（八）檢索失誤分析（九）提交評(píng)價(jià)報(bào)告信息存儲(chǔ)與檢索》9.5.2Cranfield試驗(yàn)（一）Cranfield１工程對(duì)檢索系統(tǒng)首次深入的評(píng)價(jià)研究是在C.W.Cleverdon的指導(dǎo)下，在英國的格連菲爾德（Cranfield）進(jìn)行的，被稱為Cranfield１工程。首次Cranfield研究始于1957年，Cleverdon對(duì)此次研究作了報(bào)告。信息存儲(chǔ)與檢索》9.5.2Cranfield試驗(yàn)（二）Cranfield２工程第二次Cranfield試驗(yàn)是一個(gè)受控實(shí)驗(yàn)，其目的是評(píng)估索引語言的組成要素對(duì)檢索系統(tǒng)性能的影響。實(shí)驗(yàn)所采用的方法是：依次改變每一要素并保持其它要素不變，從而對(duì)每一要素的作用進(jìn)行評(píng)估。通過概念組配方法共產(chǎn)生了29種檢索語言，并將其在1400篇文獻(xiàn)上進(jìn)行了試驗(yàn)。信息存儲(chǔ)與檢索》9.5.3SMART檢索試驗(yàn)SMART系統(tǒng)是在1964年設(shè)計(jì)的，其設(shè)計(jì)意圖在很大程度上是將其作為一個(gè)試驗(yàn)工具，對(duì)多種不同形式的分析檢索過程的效率進(jìn)行評(píng)價(jià)。文摘的自動(dòng)標(biāo)引提問語句的自動(dòng)化分析文獻(xiàn)聚類的自動(dòng)生成聚類文檔與提問語句的匹配按相關(guān)性遞減順序輸出顯示相關(guān)性反饋和提問重構(gòu)最終輸出評(píng)價(jià)信息存儲(chǔ)與檢索》9.5.4STAIRS工程1985年，Blair和Maron在進(jìn)行了大量實(shí)驗(yàn)的基礎(chǔ)上發(fā)表了一篇實(shí)驗(yàn)報(bào)告。他們的實(shí)驗(yàn)?zāi)繕?biāo)是對(duì)全文檢索和檢索系統(tǒng)的檢索效率進(jìn)行評(píng)價(jià)。這一工程被稱為STAIRS（存儲(chǔ)和情報(bào)檢索系統(tǒng)）研究。STAIRS中所使用的數(shù)據(jù)庫包含近40000篇文獻(xiàn)，代表某大型合伙訴訟案在申訴時(shí)使用的約350000篇硬拷貝文獻(xiàn)。每篇文獻(xiàn)的全文都可以通過聯(lián)機(jī)方式獲取，并且可以通過意義明確的簡(jiǎn)單詞匯或其布爾邏輯組合檢索得到。用戶可以通過一個(gè)敘詞表——TLS（敘詞表語言系統(tǒng)）和廣義詞、狹義詞或相關(guān)詞的使用來操作檢索。STAIRS的一個(gè)重要特點(diǎn)是，使用這一系統(tǒng)準(zhǔn)備法庭辯論的律師規(guī)定他們必須能夠檢索到與一給定提問相關(guān)的所有文獻(xiàn)的75%。STAIRS評(píng)價(jià)的主要目的是評(píng)估系統(tǒng)檢索出與某一給定提問相關(guān)的全部文獻(xiàn)的能力。為此，試驗(yàn)中對(duì)查全率和查準(zhǔn)率進(jìn)行了測(cè)算。信息存儲(chǔ)與檢索》9.5.5WRU工程1963-1968年間，美國開斯西方儲(chǔ)備大學(xué)（CaseWesternReserveUniversity，簡(jiǎn)稱WRU）文獻(xiàn)學(xué)與通訊系統(tǒng)比較試驗(yàn)室進(jìn)行了一項(xiàng)檢索系統(tǒng)評(píng)價(jià)研究。研究目標(biāo)是：確定文獻(xiàn)檢索系統(tǒng)的基本成分，建造一個(gè)系統(tǒng)模型；對(duì)影響系統(tǒng)性能的各種變量進(jìn)行分析鑒別；設(shè)計(jì)一種實(shí)驗(yàn)方法去獲得有關(guān)系統(tǒng)性能的量化信息；建造一個(gè)實(shí)驗(yàn)性系統(tǒng)，評(píng)估其性能與特定變量之間的關(guān)系；進(jìn)一步揭示檢索系統(tǒng)內(nèi)各種變量和過程及實(shí)驗(yàn)方法。信息存儲(chǔ)與檢索》9.5.5WRU工程該實(shí)驗(yàn)得出的結(jié)論是：預(yù)先編制一部敘詞表可能是不值得的，但這并不意味著借助敘詞表的提問擴(kuò)展方式是不必要的。相反，它是提高查全率和“效率”的必要步驟。其他結(jié)論是：職號(hào)的作用較??；拓寬檢索式就可以達(dá)到最大的查全率，但其代價(jià)是查準(zhǔn)率非常低；為改善提問分析、構(gòu)造檢索策略方面的決策是影響性能的主要因素。評(píng)價(jià)和最后提出的看法是：檢索系統(tǒng)的效率通常是低的，我們必須學(xué)會(huì)與這一事實(shí)相處。信息存儲(chǔ)與檢索》9.5.6SDI服務(wù)評(píng)價(jià)這是1970-1972年間由萊格特（P.Leggate）等人在英國牛津ExperimentInformationUnit進(jìn)行的評(píng)價(jià)研究。評(píng)價(jià)對(duì)象是若干種營運(yùn)中的SDI服務(wù)。目的是測(cè)定服務(wù)的效果和效率。信息存儲(chǔ)與檢索》9.5.7手工與聯(lián)機(jī)回溯檢索的費(fèi)用／效果比較這是1976年由美國能源署（ERDA）資助的一個(gè)評(píng)價(jià)項(xiàng)目，主持人是埃爾切森（DennisR.Elchesen）。評(píng)價(jià)目的是：采用費(fèi)用／效果分析法比較手工與聯(lián)機(jī)回溯檢索，查明哪一種檢索方式的速度更快，費(fèi)用更低和更有效。

信息存儲(chǔ)與檢索》9.5.8討論Blair和Maron：大型的文件很可能會(huì)導(dǎo)致“輸出超載”。Schamber：盡管相關(guān)性判斷對(duì)于情報(bào)檢索系統(tǒng)的評(píng)價(jià)是基礎(chǔ)性的環(huán)節(jié)，但是情報(bào)學(xué)家還沒有在如何定義相關(guān)性的核心概念上達(dá)成一致意見。Horman：由于情報(bào)檢索系統(tǒng)的評(píng)價(jià)研究越來越趨向于用戶的參與，從而使得這一研究出現(xiàn)了一個(gè)重要的問題，即全面的評(píng)價(jià)不僅要求對(duì)用戶與檢索系統(tǒng)的交流程度做出評(píng)價(jià)，而且還要對(duì)用戶情報(bào)檢索的熟練程度做出評(píng)價(jià)。Roberson和Hancock-Beaulieu：建議開展診斷性和操作性更強(qiáng)的系統(tǒng)評(píng)價(jià)試驗(yàn)，這些試驗(yàn)中使有大量的評(píng)價(jià)工具，包括一個(gè)真實(shí)用戶參與的可操作性環(huán)境，一個(gè)或多個(gè)現(xiàn)場(chǎng)數(shù)據(jù)庫。Ledwith：在評(píng)價(jià)使用等級(jí)檢索查詢STN聯(lián)機(jī)服務(wù)中的大型科學(xué)文摘的適用性時(shí)，陳述了三個(gè)主要的問題：一是關(guān)于研究中用于試驗(yàn)的數(shù)據(jù)集的構(gòu)成和規(guī)模的；二是關(guān)于實(shí)驗(yàn)數(shù)據(jù)集所采用的提問的性質(zhì)；三是從費(fèi)用-效果比來看，分級(jí)檢索模型是否在性能上對(duì)布爾檢索模型有足夠大的改進(jìn)。信息存儲(chǔ)與檢索》第六節(jié)

信息檢索評(píng)價(jià)實(shí)驗(yàn)平臺(tái)：TREC9.6.1TREC的產(chǎn)生與發(fā)展19.6.2TREC的組織機(jī)制

9.6.3TREC的試驗(yàn)數(shù)據(jù)集合39.6.4TREC主要評(píng)價(jià)項(xiàng)目49.6.5部分往屆TREC簡(jiǎn)介59.6.6關(guān)于C-TREC的一些思考6信息存儲(chǔ)與檢索》9.6.1TREC的產(chǎn)生與發(fā)展TREC是“文本檢索會(huì)議”（TextRetrievalConference）的簡(jiǎn)稱，1992年由美國國家標(biāo)準(zhǔn)與技術(shù)局（theNationalInstituteofStandardsandTechnology，簡(jiǎn)稱NIST）和國防部高級(jí)研究項(xiàng)目計(jì)劃局（theDefenseAdvancedResearchProjectsAgency，簡(jiǎn)稱DAPRA）共同發(fā)起并主辦，是國際文本檢索領(lǐng)域最最具權(quán)威性的年度評(píng)測(cè)活動(dòng)。信息存儲(chǔ)與檢索》9.6.1TREC的產(chǎn)生與發(fā)展TREC活動(dòng)的主要目標(biāo)：通過提供大型的語料庫、統(tǒng)一的測(cè)試程序及系統(tǒng)整理評(píng)測(cè)的結(jié)果數(shù)據(jù)，來促進(jìn)信息檢索技術(shù)的發(fā)展。強(qiáng)調(diào)檢索技術(shù)的先進(jìn)性與實(shí)用性的有機(jī)結(jié)合。為學(xué)術(shù)界、工業(yè)界、政府部門等提供交流研究思想的公開論壇，促進(jìn)各部門之間的合作與交流。經(jīng)由對(duì)真實(shí)檢索環(huán)境的模擬與重要改進(jìn)，加速將實(shí)驗(yàn)室研究技術(shù)轉(zhuǎn)化為商業(yè)產(chǎn)品。信息存儲(chǔ)與檢索》9.6.2TREC的組織機(jī)制

從1992年開始，TREC每年舉辦一次，提供一些不同的測(cè)試子項(xiàng)目，如交叉語言檢索、信息過濾等。每年年初（約在1-2月），NIST會(huì)通過多種方式向有關(guān)機(jī)構(gòu)、研究部門發(fā)出或發(fā)布參加新一屆TREC評(píng)價(jià)活動(dòng)的通知或邀請(qǐng)，并接受參加者提出的參評(píng)申請(qǐng)。主辦者向會(huì)員發(fā)送參加試驗(yàn)需要使用的標(biāo)準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)和檢索提問式，收到實(shí)驗(yàn)數(shù)據(jù)后，各參會(huì)會(huì)員按照試驗(yàn)要求對(duì)自己的檢索系統(tǒng)進(jìn)行測(cè)試，把檢索結(jié)果數(shù)據(jù)返回給TREC主辦方，最后期限一般在8月份。9-10月份，NIST邀請(qǐng)、組織職業(yè)信息分析員對(duì)各個(gè)檢索系統(tǒng)獲得的結(jié)果數(shù)據(jù)進(jìn)行統(tǒng)一的定量分析和評(píng)價(jià)，并按試驗(yàn)結(jié)果進(jìn)行系統(tǒng)排名，同時(shí)將評(píng)價(jià)結(jié)果反饋到每個(gè)參與者。年底（一般在11月份），TREC大會(huì)舉行。信息存儲(chǔ)與檢索》9.6.3TREC的試驗(yàn)數(shù)據(jù)集合TREC是選拔優(yōu)秀信息檢索系統(tǒng)的權(quán)威性會(huì)議，為信息檢索研究人員提供了一種標(biāo)準(zhǔn)的用于比較信息檢索系統(tǒng)的評(píng)價(jià)平臺(tái)。作為一項(xiàng)國際性的大型檢索試驗(yàn)與評(píng)價(jià)活動(dòng)，TREC主辦者從一開始就致力于建設(shè)并不斷完善一個(gè)大規(guī)模公用測(cè)試數(shù)據(jù)集合。目前，TREC已擁有一個(gè)動(dòng)態(tài)更新、來源多樣、類型與語種多樣的實(shí)驗(yàn)用文本數(shù)據(jù)集合，數(shù)據(jù)集合的規(guī)模也在逐年穩(wěn)定增長(zhǎng)。眾多機(jī)構(gòu)和部門都向NIST免費(fèi)提供其具有的知識(shí)產(chǎn)權(quán)的文檔資料，也有少數(shù)采取象征性收費(fèi)策略提供TREC需要的預(yù)料，而TREC活動(dòng)的成員只要限于試驗(yàn)?zāi)康?，即可無償使用。

信息存儲(chǔ)與檢索》9.6.4TREC主要評(píng)價(jià)項(xiàng)目一年一度的TREC活動(dòng)主要由一系列評(píng)測(cè)“項(xiàng)目”（tracks）組成，每個(gè)項(xiàng)目涉及一個(gè)特定的檢索任務(wù)。世界各地的TREC參與者正是通過攜帶自己開發(fā)、設(shè)計(jì)的檢索試驗(yàn)系統(tǒng)，參與當(dāng)年設(shè)立的全部或部分評(píng)測(cè)項(xiàng)目的評(píng)價(jià)活動(dòng)，來實(shí)現(xiàn)對(duì)自身系統(tǒng)檢索技術(shù)先進(jìn)性與實(shí)用性的檢驗(yàn)和驗(yàn)證的。信息存儲(chǔ)與檢索》9.6.5部分往屆TREC簡(jiǎn)介（一）TREC-11992年11月，NIST舉行了首屆文獻(xiàn)檢索會(huì)議（TREC-１）。這一會(huì)議由DARPA和NIST共同舉辦，在會(huì)議中情報(bào)檢索研究人員聚集在一起，對(duì)他們各自的不同系統(tǒng)在一個(gè)新的大型試驗(yàn)數(shù)據(jù)集（TIRSTER集合）上所得到的試驗(yàn)結(jié)果進(jìn)行了對(duì)比。TREC-１的試驗(yàn)結(jié)果揭示了以下事實(shí)：從自然語言提問的表述中自動(dòng)生成提問是可行的；基于自然語言處理的技術(shù)與基于向量或概率方法的技術(shù)相當(dāng)，所有方法中的最優(yōu)方案幾乎是同效的。

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《信息存儲(chǔ)與檢索》課件-第九章信息檢索評(píng)價(jià)與實(shí)驗(yàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《信息存儲(chǔ)與檢索》課件-第九章 信息檢索評(píng)價(jià)與實(shí)驗(yàn)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

《信息存儲(chǔ)與檢索》課件-第九章信息檢索評(píng)價(jià)與實(shí)驗(yàn)