全文預(yù)覽已結(jié)束
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于利用率的檢索結(jié)果過濾宓永迪金中仁(浙江圖書館,杭州,310007)浙江大學(xué)圖書館,杭州,310029摘要由于檢索結(jié)果過于龐大、無效信息太多,用戶難以判斷信息質(zhì)量、發(fā)現(xiàn)所需信息。為此引鑒信息過濾的全新理念和按點(diǎn)擊率對(duì)網(wǎng)絡(luò)資源進(jìn)行排序的方法,提出對(duì)檢索結(jié)果按用戶使用率進(jìn)行后續(xù)處理的新思路。分析實(shí)現(xiàn)的可行性并提供了有關(guān)計(jì)算公式,對(duì)存在的問題也提出相應(yīng)解決方案。關(guān)鍵詞信息檢索;信息過濾;排序;信息利用率分類號(hào)G3507INFORMATIONFILTERINGOFSEARCHRESULTSBASEDONUTILIZATIONRATIOMIYONGDIJINZHONGRENZHEJIANGLIBRARY,HANGZHOU,CHINA,310007(ZHEJIANGUNIVERSITYLIBRARY,HANGZHOU,CHINA,310027)ABSTRACTASTHERESULTSETFROMASEARCHISLARGERANDLARGER,USERISMOREDIFFICULTTOJUDGETHEQUALITYOFINFORMATIONANDFINDTHENECESSARYINFORMATIONACCORDINGTOTHECONCEPTOFINFORMATIONFILTERINGANDTHEMETHODUSINGCLICKRATETORANKINTERNETINFORMATION,THEARTICLEPROPOSESTOPROCESSSEARCHRESULTSUSINGUTILIZATIONRATIOTHEFEASIBILITYISANALYZEDANDAFORMULAISPROVIDEDATLAST,THESOLUTIONOFEXISTINGPROBLEMISALSOPROVIDEDKEYWORDSINFORMATIONRETRIEVALINFORMATIONFILTERINGRANKINGUTILIZATIONRATIOOFINFORMATION隨著圖書館各種類型信息資源的不斷增長,讀者可以利用的信息越來越豐富。而讀者在查找不同地點(diǎn)、形式的資源時(shí),經(jīng)常會(huì)遇到需要多次檢索、界面不統(tǒng)一、結(jié)果重復(fù)、凌亂等一系列問題,為了解決這一問題,已經(jīng)推出了多種所謂的統(tǒng)一檢索平臺(tái)。此解決方案把各種不同類型、不同結(jié)構(gòu)、不同環(huán)境、不同用法的本地、異地書目、數(shù)字資源等整合在一起,可以在多個(gè)數(shù)據(jù)庫中進(jìn)行檢索,并同時(shí)得到多個(gè)數(shù)據(jù)庫的結(jié)果,提供一站式的信息檢索、獲取服務(wù),大大提高了檢索信息時(shí)的查全率,方便了讀者。目前,許多圖書館已經(jīng)或正在引進(jìn)各種統(tǒng)一檢索平臺(tái)、工具,其發(fā)展十分迅速。但是,任何事物都有兩面性,統(tǒng)一檢索一方面提高了信息的查全率;另一方面則使獲得的信息量猛增,過量的信息將導(dǎo)致“信息污染”,破壞信息生態(tài)的有效循環(huán)。這其中包括有可能帶來了大量的無用無價(jià)值信息,湮沒了真正有價(jià)值的信息,反而使人無所適從,難以選擇,面臨新的信息匱乏;無序的排列可能使讀者浪費(fèi)大量的時(shí)間和精力,卻事倍功半。其實(shí)即使是有用的信息,其重要性也因需要而各不相同。把信息檢索和信息過濾相結(jié)合,對(duì)檢索結(jié)果進(jìn)行后處理,提取出最有利用價(jià)值的部分,并按一定的準(zhǔn)則突出最重要的信息,同時(shí)過濾掉無用或價(jià)值不大的信息,就可以大大提高檢索的效率,在查全率和查準(zhǔn)率兩方面都獲得滿意的效果,是檢索系統(tǒng)下一步發(fā)展必須認(rèn)真考慮的問題。一、必要性和可行性現(xiàn)有的各種檢索系統(tǒng),包括統(tǒng)一檢索系統(tǒng),往往只重視信息的發(fā)現(xiàn)和獲取,而對(duì)于檢索結(jié)果,則一般只是把從各個(gè)數(shù)據(jù)源獲得的信息集合進(jìn)行簡單的合并、排序,或者再加上去重即提供給用戶,而沒有對(duì)其進(jìn)行進(jìn)一步的深入處理?,F(xiàn)實(shí)情況則是伴隨著信息資源的大量增加,檢索結(jié)果也已經(jīng)面臨所謂的“信息過載”現(xiàn)象。例如,在本館OPAC上用“計(jì)算機(jī)”關(guān)鍵詞檢索書目,返回結(jié)果高達(dá)1萬2千多條,即使用網(wǎng)頁軟件“FRONTPAGE”作為檢索詞檢索,結(jié)果也有130條左右。要在如此大的信息量中迅速地找到真正為自己所需要的信息,對(duì)于普通用戶并不是一件非常簡單的事,同樣的問題在檢索數(shù)字資源時(shí)也存在,甚至更為突出。所以,對(duì)于檢索結(jié)果加以過濾,選取用戶真正需要的信息,并剔除無關(guān)信息是非常必要的。有關(guān)調(diào)查也說明,用戶對(duì)于檢索結(jié)果按字順排列的常規(guī)顯示方法并不滿意,而希望根據(jù)結(jié)果的相關(guān)程度等進(jìn)行排序。另外,進(jìn)行這種處理也是可行的。根據(jù)著名的“二八”法則,可以認(rèn)為80的用戶所使用的圖書館資源只占到圖書館資源總量的20。而實(shí)際的書刊利用效率調(diào)查也指出只有20左右甚至更少的書刊經(jīng)常為讀者所利用,其余的書刊很少被利用。而用戶通過搜索引擎檢索網(wǎng)絡(luò)信息時(shí),一般更是只使用檢索結(jié)果的前面幾頁。這些結(jié)果都告訴我們,大部分用戶所需要的信息集中在少數(shù)的資源上。技術(shù)上,由于網(wǎng)上信息檢索需要而發(fā)展起來的各種信息過濾、排序算法已經(jīng)較為成熟。所以,對(duì)于檢索結(jié)果通過信息過濾進(jìn)行二次處理也是完全可行的。二、實(shí)施方法一般檢索系統(tǒng)對(duì)于檢索結(jié)果處理的方式包括按題名、作者等排序;合并相同的檢索結(jié)果(去重);標(biāo)記、發(fā)送檢索結(jié)果;限制返回的結(jié)果數(shù)量等。但是這些方法都無法對(duì)信息進(jìn)行有效的過濾。而目前的網(wǎng)絡(luò)信息過濾系統(tǒng),根據(jù)系統(tǒng)的不同結(jié)構(gòu),可以分為內(nèi)容過濾和協(xié)作過濾兩種?;趦?nèi)容的過濾又叫認(rèn)知過濾,是利用用戶需求模板與信息的相似程度進(jìn)行的過濾,能夠?yàn)橛脩籼峁┰信d趣的相似的信息。協(xié)作過濾又叫社會(huì)過濾,是利用用戶需求之間的相似性或用戶對(duì)信息的評(píng)價(jià)進(jìn)行的過濾。對(duì)于價(jià)值觀念、思想觀點(diǎn)、知識(shí)水平或需求偏好相同或相似的用戶,他們的信息需求往往也具有相似性?;谶@一思路,通過比較用戶需求模板的相似程度或者根據(jù)用戶對(duì)信息的評(píng)價(jià)而進(jìn)行的過濾,既可以為用戶提供真正感興趣的信息,又可以提供新的感興趣的信息。比較兩種技術(shù)可以發(fā)現(xiàn),內(nèi)容過濾和檢索過程存在很大相似性,它們都是根據(jù)用戶本人的需求從信息集獲取信息,因此,在用戶已經(jīng)使用檢索式得到檢索結(jié)果以后,再利用內(nèi)容過濾進(jìn)行信息過濾顯然是多此一舉,沒有任何作用。反之,協(xié)作過濾則是利用不同用戶之間對(duì)信息有著相似看法或評(píng)價(jià)的現(xiàn)象來進(jìn)行信息過濾,我們正可以利用這一原理,在獲得檢索結(jié)果后,按照其他用戶對(duì)檢索結(jié)果中各信息的評(píng)價(jià),對(duì)其進(jìn)行相應(yīng)處理,達(dá)到對(duì)檢索結(jié)果進(jìn)行過濾的目的。但是,一般的協(xié)作過濾是面向動(dòng)態(tài)的網(wǎng)絡(luò)信息流,依據(jù)的是用戶對(duì)信息的評(píng)價(jià),而網(wǎng)絡(luò)信息浩如煙海,并且用戶通常是很少愿意對(duì)瀏覽過的信息進(jìn)行興趣評(píng)價(jià),即使評(píng)價(jià),數(shù)量一般也很少。所以,真正要依靠用戶對(duì)信息的主動(dòng)評(píng)價(jià)來實(shí)現(xiàn)信息過濾其實(shí)并不現(xiàn)實(shí)。所幸的是,圖書館檢索系統(tǒng)的檢索對(duì)象是相對(duì)靜態(tài)的結(jié)構(gòu)化數(shù)據(jù),如書目、數(shù)據(jù)庫、電子書等,它們的數(shù)量相對(duì)有限,使用頻率相對(duì)較高。更重要的則是,雖然我們無法獲得用戶對(duì)于這些資源的主觀評(píng)價(jià),卻可以通過對(duì)它們的利用率進(jìn)行統(tǒng)計(jì)來間接地了解用戶的評(píng)價(jià)。傳統(tǒng)的紙質(zhì)書刊等資源的利用情況,可以經(jīng)由流通管理系統(tǒng)方便地獲得;而數(shù)字資源的使用率也能通過點(diǎn)擊率、全文下載次數(shù)等來統(tǒng)計(jì)。信息資源被用戶利用的時(shí)間、頻率等數(shù)據(jù),從一定程度上反映了用戶對(duì)此信息的興趣大小,也可以被認(rèn)為是對(duì)信息的一種評(píng)價(jià)。該方法類似于INTERNET上搜索引擎所采用的一種所謂DIRECTHIT排序,即首先按照關(guān)鍵詞進(jìn)行搜索,然后將查詢的結(jié)果返回給用戶,DIRECTHIT開始跟蹤TRACK用戶在該搜索引擎檢索結(jié)果的點(diǎn)擊如果返回結(jié)果中排名靠前的網(wǎng)頁被用戶點(diǎn)擊后,瀏覽時(shí)間較短,用戶又重新返回搜索引擎點(diǎn)擊其他的檢索結(jié)果,那么可以認(rèn)為其質(zhì)量較差,系統(tǒng)將降低該網(wǎng)頁的排名;另一方面,如果網(wǎng)頁被用戶點(diǎn)擊打開進(jìn)行瀏覽,并且用戶在該網(wǎng)頁瀏覽的時(shí)間較長,那么該網(wǎng)頁的受歡迎程度POPULARITY就高,相應(yīng)的,系統(tǒng)將增加該網(wǎng)頁的排名。另外,現(xiàn)在的圖書館系統(tǒng)都保存有用戶的有關(guān)資料,包括學(xué)歷、職稱、專業(yè)、單位等。因此,可以通過這些資料對(duì)用戶進(jìn)行分類,然后把信息的利用情況按用戶類型分別統(tǒng)計(jì)。在某個(gè)用戶通過登錄進(jìn)入檢索系統(tǒng)進(jìn)行檢索時(shí),按照與此用戶類型相似用戶對(duì)檢索結(jié)果的利用情況進(jìn)行信息排序、過濾。由于圖書館的資源各種各樣,對(duì)于不同種類的信息,存在著不同的評(píng)價(jià)標(biāo)準(zhǔn)。如傳統(tǒng)的紙質(zhì)圖書,就可以使用類似于圖書利用率的公式來評(píng)判NKJTIJ1上述公式中,K是某種書的受歡迎指數(shù)或人氣指數(shù),N是某種書的復(fù)本數(shù),T是某一復(fù)本的出借次數(shù),是一個(gè)時(shí)效系數(shù),該系數(shù)是一以時(shí)間為變量的函數(shù),和出借的日期有關(guān),一般來說IJ出借的日期越早,數(shù)值越小,通過此系數(shù)來反映本書的時(shí)效性。這樣即使該書在過去是非常熱門的,多次被借閱,只要現(xiàn)在已經(jīng)少人問津,也不會(huì)被誤列入熱門書中。此系數(shù)可以事先自行設(shè)定,也可根據(jù)流通歷史記錄中新舊書的借閱頻率變化情況,加以改造套用。此系數(shù)還可以隨不同種類的書而改變,不妨在推算時(shí)把新舊圖書借閱頻率按分類分別計(jì)算,例如對(duì)于計(jì)算機(jī)類圖書,由于其知識(shí)更新極為迅速,該系數(shù)就會(huì)隨時(shí)間很快的衰減,幾年前書就很自然地被排在了后面。當(dāng)然,為了提高檢索的速度,或在缺乏借閱歷史記錄的系統(tǒng)上運(yùn)行時(shí),此系數(shù)也可設(shè)置為1,即只考慮借閱的次數(shù),而忽略時(shí)效因素。最后,上述公式可以只計(jì)算與正在檢索用戶相似的其他用戶的借閱情況,不考慮非相似用戶,以免出現(xiàn)當(dāng)計(jì)算機(jī)專業(yè)的老師檢索有關(guān)計(jì)算機(jī)方面資料時(shí),檢索結(jié)果中排在前面的都是非計(jì)算機(jī)類學(xué)生常用的普及型書目的情況。對(duì)于那些只進(jìn)行閱覽不出借的圖書或期刊,如果系統(tǒng)有閱覽管理、統(tǒng)計(jì)模塊,也同樣能夠按上面的方法進(jìn)行計(jì)算。而對(duì)于模仿傳統(tǒng)借閱方式的電子圖書,如方正APABI,因?yàn)槠溆袕?fù)本、借還的概念,就仍然可以使用上述公式;其他大多數(shù)數(shù)據(jù)資源,則需要在檢索頁面配備統(tǒng)計(jì)功能,以便統(tǒng)計(jì)各種資源的下載次數(shù)和下載時(shí)間并計(jì)算時(shí)效系數(shù),同時(shí)在上述公式中用下載次數(shù)來代替借閱次數(shù)。根據(jù)上述公式計(jì)算出的人氣指數(shù),可以作為檢索結(jié)果排序、過濾的依據(jù),這樣讀者可以迅速找到某一范圍里利用率最高、最受歡迎的信息資源(見圖一)。數(shù)據(jù)庫A有用原始數(shù)據(jù)庫B檢索過濾結(jié)果排序信息有價(jià)值用戶信息數(shù)據(jù)庫C有效益數(shù)據(jù)庫D專指性圖一、信息過濾結(jié)構(gòu)圖三、問題及其解決上面描述了利用信息協(xié)作過濾方式對(duì)檢索結(jié)果進(jìn)行后處理的基本想法和思路,但是,這種方法也存在一些問題,主要是協(xié)作過濾方式固有的所謂早期級(jí)別問題。反映在此即是對(duì)于那些剛剛?cè)霂爝€沒有被人借閱、瀏覽的書刊、數(shù)字資源,往往無法給出準(zhǔn)確的評(píng)價(jià),其人氣指數(shù)會(huì)很低,有可能被排在后面,而排列靠后的信息更難以得到用戶的重視,其排名次序也就不能提高,最后使得其被邊緣化。對(duì)于此問題的解決方法主要有下面兩種。一種是較為傳統(tǒng)的方法,即再增加一種排序方式,將檢索結(jié)果首先用出版時(shí)間、入庫時(shí)間等進(jìn)行排序,然后在此基礎(chǔ)上再按人氣指數(shù)排序,這樣就可以避免新的信息資源被冷落的問題,同時(shí)也便于對(duì)相同年份的資源進(jìn)行受歡迎程度的比較。另一種更為新穎的方法則是利用現(xiàn)在計(jì)算機(jī)屏幕越來越大,可顯示信息也越來越多的特點(diǎn),把傳統(tǒng)的一條記錄一行,從上到下的一維顯示模式改造為二維顯示模式。即橫坐標(biāo)表示信息資源發(fā)布的年代,縱坐標(biāo)表示人氣指數(shù),不同年代、不同人氣指數(shù)的資源分布在屏幕的不同點(diǎn)上,當(dāng)然,這個(gè)點(diǎn)應(yīng)該足夠大,能夠顯示最基本的信息,而更詳細(xì)的信息可通過鼠標(biāo)點(diǎn)擊、移動(dòng)到相關(guān)點(diǎn)來解決。后一種方法的主要優(yōu)點(diǎn)是用戶能夠一目了然地看到同一年代不同資源以及不同年代資源的受歡迎程度和其變化情況。四、結(jié)論信息資源的海量化是大勢(shì)所趨,圖書館擁有的用戶群也將越來越廣泛、多樣性,如何使不同層次、水平的用戶都能在海量的信息中高效、快捷目標(biāo)明確地獲取所需要的有價(jià)值資源是圖書館的重要任務(wù)。提高檢索工具的效率就是其中之一。本文提出的方法只是解決這一問題的一種途徑,其效果還有賴于大量實(shí)踐的檢驗(yàn)。參考文獻(xiàn)1FRANK,CWHATWEVELEARNEDFROMDOINGUSABILITYTESTINGONOPENURLRESOLVERSANDFEDERATEDSEARCHENGINESCOMPUTERSINLIBRARIES,20059,10152成惠萍影響我校外文期刊利用因素分析農(nóng)業(yè)圖書情報(bào)學(xué)刊
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 湖北省華大新2026屆生物高一下期末監(jiān)測(cè)試題含解析
- 2026屆江蘇省南京市江浦高級(jí)中學(xué)高一下數(shù)學(xué)期末調(diào)研模擬試題含解析
- 2025年洋河酒業(yè)管培生面試題庫及答案
- 2025年產(chǎn)品應(yīng)用與開發(fā)面試題庫及答案
- 2025年易點(diǎn)天下筆試題及答案
- 2025年陽泰招工筆試題目及答案
- 2025年宛城區(qū)初中美術(shù)面試題庫及答案
- 2025年計(jì)算機(jī)軟件運(yùn)用面試題庫及答案
- 2025年衡陽縣幼兒園教師招教考試備考題庫附答案解析(奪冠)
- 2025年長城鋁業(yè)公司職工工學(xué)院馬克思主義基本原理概論期末考試模擬題帶答案解析(必刷)
- 2026年上海市寶山區(qū)初三上學(xué)期一?;瘜W(xué)試卷和答案及評(píng)分標(biāo)準(zhǔn)
- 內(nèi)蒙古赤峰市松山區(qū)2025-2026學(xué)年高一上學(xué)期期末數(shù)學(xué)試題(含答案)
- 2026年官方標(biāo)準(zhǔn)版離婚協(xié)議書
- 2025年國補(bǔ)自查自糾報(bào)告
- 未來五年造紙及紙制品企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略分析研究報(bào)告
- 2025年貴州省高考化學(xué)試卷真題(含答案及解析)
- 二級(jí)醫(yī)院的DRGs培訓(xùn)課件
- 2026年湖南中醫(yī)藥高等??茖W(xué)校單招職業(yè)傾向性測(cè)試題庫及答案詳解一套
- 景區(qū)旅游基礎(chǔ)設(shè)施提升項(xiàng)目可行性研究報(bào)告
- 港澳聯(lián)考中文真題及答案
- 企業(yè)如何實(shí)現(xiàn)科技與業(yè)務(wù)的完美融合
評(píng)論
0/150
提交評(píng)論