全文預覽已結束
下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于利用率的檢索結果過濾宓永迪金中仁(浙江圖書館,杭州,310007)浙江大學圖書館,杭州,310029摘要由于檢索結果過于龐大、無效信息太多,用戶難以判斷信息質(zhì)量、發(fā)現(xiàn)所需信息。為此引鑒信息過濾的全新理念和按點擊率對網(wǎng)絡資源進行排序的方法,提出對檢索結果按用戶使用率進行后續(xù)處理的新思路。分析實現(xiàn)的可行性并提供了有關計算公式,對存在的問題也提出相應解決方案。關鍵詞信息檢索;信息過濾;排序;信息利用率分類號G3507INFORMATIONFILTERINGOFSEARCHRESULTSBASEDONUTILIZATIONRATIOMIYONGDIJINZHONGRENZHEJIANGLIBRARY,HANGZHOU,CHINA,310007(ZHEJIANGUNIVERSITYLIBRARY,HANGZHOU,CHINA,310027)ABSTRACTASTHERESULTSETFROMASEARCHISLARGERANDLARGER,USERISMOREDIFFICULTTOJUDGETHEQUALITYOFINFORMATIONANDFINDTHENECESSARYINFORMATIONACCORDINGTOTHECONCEPTOFINFORMATIONFILTERINGANDTHEMETHODUSINGCLICKRATETORANKINTERNETINFORMATION,THEARTICLEPROPOSESTOPROCESSSEARCHRESULTSUSINGUTILIZATIONRATIOTHEFEASIBILITYISANALYZEDANDAFORMULAISPROVIDEDATLAST,THESOLUTIONOFEXISTINGPROBLEMISALSOPROVIDEDKEYWORDSINFORMATIONRETRIEVALINFORMATIONFILTERINGRANKINGUTILIZATIONRATIOOFINFORMATION隨著圖書館各種類型信息資源的不斷增長,讀者可以利用的信息越來越豐富。而讀者在查找不同地點、形式的資源時,經(jīng)常會遇到需要多次檢索、界面不統(tǒng)一、結果重復、凌亂等一系列問題,為了解決這一問題,已經(jīng)推出了多種所謂的統(tǒng)一檢索平臺。此解決方案把各種不同類型、不同結構、不同環(huán)境、不同用法的本地、異地書目、數(shù)字資源等整合在一起,可以在多個數(shù)據(jù)庫中進行檢索,并同時得到多個數(shù)據(jù)庫的結果,提供一站式的信息檢索、獲取服務,大大提高了檢索信息時的查全率,方便了讀者。目前,許多圖書館已經(jīng)或正在引進各種統(tǒng)一檢索平臺、工具,其發(fā)展十分迅速。但是,任何事物都有兩面性,統(tǒng)一檢索一方面提高了信息的查全率;另一方面則使獲得的信息量猛增,過量的信息將導致“信息污染”,破壞信息生態(tài)的有效循環(huán)。這其中包括有可能帶來了大量的無用無價值信息,湮沒了真正有價值的信息,反而使人無所適從,難以選擇,面臨新的信息匱乏;無序的排列可能使讀者浪費大量的時間和精力,卻事倍功半。其實即使是有用的信息,其重要性也因需要而各不相同。把信息檢索和信息過濾相結合,對檢索結果進行后處理,提取出最有利用價值的部分,并按一定的準則突出最重要的信息,同時過濾掉無用或價值不大的信息,就可以大大提高檢索的效率,在查全率和查準率兩方面都獲得滿意的效果,是檢索系統(tǒng)下一步發(fā)展必須認真考慮的問題。一、必要性和可行性現(xiàn)有的各種檢索系統(tǒng),包括統(tǒng)一檢索系統(tǒng),往往只重視信息的發(fā)現(xiàn)和獲取,而對于檢索結果,則一般只是把從各個數(shù)據(jù)源獲得的信息集合進行簡單的合并、排序,或者再加上去重即提供給用戶,而沒有對其進行進一步的深入處理?,F(xiàn)實情況則是伴隨著信息資源的大量增加,檢索結果也已經(jīng)面臨所謂的“信息過載”現(xiàn)象。例如,在本館OPAC上用“計算機”關鍵詞檢索書目,返回結果高達1萬2千多條,即使用網(wǎng)頁軟件“FRONTPAGE”作為檢索詞檢索,結果也有130條左右。要在如此大的信息量中迅速地找到真正為自己所需要的信息,對于普通用戶并不是一件非常簡單的事,同樣的問題在檢索數(shù)字資源時也存在,甚至更為突出。所以,對于檢索結果加以過濾,選取用戶真正需要的信息,并剔除無關信息是非常必要的。有關調(diào)查也說明,用戶對于檢索結果按字順排列的常規(guī)顯示方法并不滿意,而希望根據(jù)結果的相關程度等進行排序。另外,進行這種處理也是可行的。根據(jù)著名的“二八”法則,可以認為80的用戶所使用的圖書館資源只占到圖書館資源總量的20。而實際的書刊利用效率調(diào)查也指出只有20左右甚至更少的書刊經(jīng)常為讀者所利用,其余的書刊很少被利用。而用戶通過搜索引擎檢索網(wǎng)絡信息時,一般更是只使用檢索結果的前面幾頁。這些結果都告訴我們,大部分用戶所需要的信息集中在少數(shù)的資源上。技術上,由于網(wǎng)上信息檢索需要而發(fā)展起來的各種信息過濾、排序算法已經(jīng)較為成熟。所以,對于檢索結果通過信息過濾進行二次處理也是完全可行的。二、實施方法一般檢索系統(tǒng)對于檢索結果處理的方式包括按題名、作者等排序;合并相同的檢索結果(去重);標記、發(fā)送檢索結果;限制返回的結果數(shù)量等。但是這些方法都無法對信息進行有效的過濾。而目前的網(wǎng)絡信息過濾系統(tǒng),根據(jù)系統(tǒng)的不同結構,可以分為內(nèi)容過濾和協(xié)作過濾兩種?;趦?nèi)容的過濾又叫認知過濾,是利用用戶需求模板與信息的相似程度進行的過濾,能夠為用戶提供曾感興趣的相似的信息。協(xié)作過濾又叫社會過濾,是利用用戶需求之間的相似性或用戶對信息的評價進行的過濾。對于價值觀念、思想觀點、知識水平或需求偏好相同或相似的用戶,他們的信息需求往往也具有相似性?;谶@一思路,通過比較用戶需求模板的相似程度或者根據(jù)用戶對信息的評價而進行的過濾,既可以為用戶提供真正感興趣的信息,又可以提供新的感興趣的信息。比較兩種技術可以發(fā)現(xiàn),內(nèi)容過濾和檢索過程存在很大相似性,它們都是根據(jù)用戶本人的需求從信息集獲取信息,因此,在用戶已經(jīng)使用檢索式得到檢索結果以后,再利用內(nèi)容過濾進行信息過濾顯然是多此一舉,沒有任何作用。反之,協(xié)作過濾則是利用不同用戶之間對信息有著相似看法或評價的現(xiàn)象來進行信息過濾,我們正可以利用這一原理,在獲得檢索結果后,按照其他用戶對檢索結果中各信息的評價,對其進行相應處理,達到對檢索結果進行過濾的目的。但是,一般的協(xié)作過濾是面向動態(tài)的網(wǎng)絡信息流,依據(jù)的是用戶對信息的評價,而網(wǎng)絡信息浩如煙海,并且用戶通常是很少愿意對瀏覽過的信息進行興趣評價,即使評價,數(shù)量一般也很少。所以,真正要依靠用戶對信息的主動評價來實現(xiàn)信息過濾其實并不現(xiàn)實。所幸的是,圖書館檢索系統(tǒng)的檢索對象是相對靜態(tài)的結構化數(shù)據(jù),如書目、數(shù)據(jù)庫、電子書等,它們的數(shù)量相對有限,使用頻率相對較高。更重要的則是,雖然我們無法獲得用戶對于這些資源的主觀評價,卻可以通過對它們的利用率進行統(tǒng)計來間接地了解用戶的評價。傳統(tǒng)的紙質(zhì)書刊等資源的利用情況,可以經(jīng)由流通管理系統(tǒng)方便地獲得;而數(shù)字資源的使用率也能通過點擊率、全文下載次數(shù)等來統(tǒng)計。信息資源被用戶利用的時間、頻率等數(shù)據(jù),從一定程度上反映了用戶對此信息的興趣大小,也可以被認為是對信息的一種評價。該方法類似于INTERNET上搜索引擎所采用的一種所謂DIRECTHIT排序,即首先按照關鍵詞進行搜索,然后將查詢的結果返回給用戶,DIRECTHIT開始跟蹤TRACK用戶在該搜索引擎檢索結果的點擊如果返回結果中排名靠前的網(wǎng)頁被用戶點擊后,瀏覽時間較短,用戶又重新返回搜索引擎點擊其他的檢索結果,那么可以認為其質(zhì)量較差,系統(tǒng)將降低該網(wǎng)頁的排名;另一方面,如果網(wǎng)頁被用戶點擊打開進行瀏覽,并且用戶在該網(wǎng)頁瀏覽的時間較長,那么該網(wǎng)頁的受歡迎程度POPULARITY就高,相應的,系統(tǒng)將增加該網(wǎng)頁的排名。另外,現(xiàn)在的圖書館系統(tǒng)都保存有用戶的有關資料,包括學歷、職稱、專業(yè)、單位等。因此,可以通過這些資料對用戶進行分類,然后把信息的利用情況按用戶類型分別統(tǒng)計。在某個用戶通過登錄進入檢索系統(tǒng)進行檢索時,按照與此用戶類型相似用戶對檢索結果的利用情況進行信息排序、過濾。由于圖書館的資源各種各樣,對于不同種類的信息,存在著不同的評價標準。如傳統(tǒng)的紙質(zhì)圖書,就可以使用類似于圖書利用率的公式來評判NKJTIJ1上述公式中,K是某種書的受歡迎指數(shù)或人氣指數(shù),N是某種書的復本數(shù),T是某一復本的出借次數(shù),是一個時效系數(shù),該系數(shù)是一以時間為變量的函數(shù),和出借的日期有關,一般來說IJ出借的日期越早,數(shù)值越小,通過此系數(shù)來反映本書的時效性。這樣即使該書在過去是非常熱門的,多次被借閱,只要現(xiàn)在已經(jīng)少人問津,也不會被誤列入熱門書中。此系數(shù)可以事先自行設定,也可根據(jù)流通歷史記錄中新舊書的借閱頻率變化情況,加以改造套用。此系數(shù)還可以隨不同種類的書而改變,不妨在推算時把新舊圖書借閱頻率按分類分別計算,例如對于計算機類圖書,由于其知識更新極為迅速,該系數(shù)就會隨時間很快的衰減,幾年前書就很自然地被排在了后面。當然,為了提高檢索的速度,或在缺乏借閱歷史記錄的系統(tǒng)上運行時,此系數(shù)也可設置為1,即只考慮借閱的次數(shù),而忽略時效因素。最后,上述公式可以只計算與正在檢索用戶相似的其他用戶的借閱情況,不考慮非相似用戶,以免出現(xiàn)當計算機專業(yè)的老師檢索有關計算機方面資料時,檢索結果中排在前面的都是非計算機類學生常用的普及型書目的情況。對于那些只進行閱覽不出借的圖書或期刊,如果系統(tǒng)有閱覽管理、統(tǒng)計模塊,也同樣能夠按上面的方法進行計算。而對于模仿傳統(tǒng)借閱方式的電子圖書,如方正APABI,因為其有復本、借還的概念,就仍然可以使用上述公式;其他大多數(shù)數(shù)據(jù)資源,則需要在檢索頁面配備統(tǒng)計功能,以便統(tǒng)計各種資源的下載次數(shù)和下載時間并計算時效系數(shù),同時在上述公式中用下載次數(shù)來代替借閱次數(shù)。根據(jù)上述公式計算出的人氣指數(shù),可以作為檢索結果排序、過濾的依據(jù),這樣讀者可以迅速找到某一范圍里利用率最高、最受歡迎的信息資源(見圖一)。數(shù)據(jù)庫A有用原始數(shù)據(jù)庫B檢索過濾結果排序信息有價值用戶信息數(shù)據(jù)庫C有效益數(shù)據(jù)庫D專指性圖一、信息過濾結構圖三、問題及其解決上面描述了利用信息協(xié)作過濾方式對檢索結果進行后處理的基本想法和思路,但是,這種方法也存在一些問題,主要是協(xié)作過濾方式固有的所謂早期級別問題。反映在此即是對于那些剛剛入庫還沒有被人借閱、瀏覽的書刊、數(shù)字資源,往往無法給出準確的評價,其人氣指數(shù)會很低,有可能被排在后面,而排列靠后的信息更難以得到用戶的重視,其排名次序也就不能提高,最后使得其被邊緣化。對于此問題的解決方法主要有下面兩種。一種是較為傳統(tǒng)的方法,即再增加一種排序方式,將檢索結果首先用出版時間、入庫時間等進行排序,然后在此基礎上再按人氣指數(shù)排序,這樣就可以避免新的信息資源被冷落的問題,同時也便于對相同年份的資源進行受歡迎程度的比較。另一種更為新穎的方法則是利用現(xiàn)在計算機屏幕越來越大,可顯示信息也越來越多的特點,把傳統(tǒng)的一條記錄一行,從上到下的一維顯示模式改造為二維顯示模式。即橫坐標表示信息資源發(fā)布的年代,縱坐標表示人氣指數(shù),不同年代、不同人氣指數(shù)的資源分布在屏幕的不同點上,當然,這個點應該足夠大,能夠顯示最基本的信息,而更詳細的信息可通過鼠標點擊、移動到相關點來解決。后一種方法的主要優(yōu)點是用戶能夠一目了然地看到同一年代不同資源以及不同年代資源的受歡迎程度和其變化情況。四、結論信息資源的海量化是大勢所趨,圖書館擁有的用戶群也將越來越廣泛、多樣性,如何使不同層次、水平的用戶都能在海量的信息中高效、快捷目標明確地獲取所需要的有價值資源是圖書館的重要任務。提高檢索工具的效率就是其中之一。本文提出的方法只是解決這一問題的一種途徑,其效果還有賴于大量實踐的檢驗。參考文獻1FRANK,CWHATWEVELEARNEDFROMDOINGUSABILITYTESTINGONOPENURLRESOLVERSANDFEDERATEDSEARCHENGINESCOMPUTERSINLIBRARIES,20059,10152成惠萍影響我校外文期刊利用因素分析農(nóng)業(yè)圖書情報學刊
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026鋁電解工招聘面試題及答案
- 游戲產(chǎn)業(yè)發(fā)展前景研究
- 科技創(chuàng)新發(fā)展趨勢及行業(yè)未來前景展望
- 江蘇省蘇州市吳江區(qū)2023-2024學年八年級(上)期末物理模擬試卷(含答案)
- 2025 年大學公共衛(wèi)生與預防醫(yī)學(公共衛(wèi)生基礎)試題及答案
- 2025 年大學工業(yè)工程(生產(chǎn)管理)試題及答案
- DB4403-T 142-2021 中藥飲片處方審核規(guī)范
- 2026年材料員考試備考題庫附完整答案【典優(yōu)】
- 四川省巴中市平昌縣信義小學2025-2026學年六年級上學期第三階段測數(shù)學試卷(無答案)
- 國際域名注冊合同
- 2025云南省人民檢察院招聘22人筆試考試備考試題及答案解析
- 駿馬奔騰啟新程盛世華章譜未來-2026年馬年學校元旦主持詞
- 22863中級財務會計(一)機考綜合復習題
- 油漆車間年終總結
- 2025年甘肅省水務投資集團有限公司招聘企業(yè)管理人員筆試考試參考試題及答案解析
- 廣東省六校2025-2026學年高二上學期12月聯(lián)合學業(yè)質(zhì)量檢測語文試題(含答案)
- 2025年10月自考07180廣播播音主持試題及答案
- 鄉(xiāng)村康養(yǎng)項目申請書
- 2025秋期版國開電大本科《心理學》一平臺形成性考核練習1至6在線形考試題及答案
- GB/T 17215.302-2013交流電測量設備特殊要求第2部分:靜止式諧波有功電能表
- 《天津市建設工程監(jiān)理服務計費規(guī)則》-排附2-8
評論
0/150
提交評論