版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于web數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務(wù)模型研究
近年來,信息技術(shù)的成熟和完善迅速在多個領(lǐng)域普及,圖書館領(lǐng)域也不例外。圖書館作為信息資源收集、加工和服務(wù)的中心,隨著信息技術(shù)的不斷滲透,積累了豐富的數(shù)字信息資源,包括各種電子期刊、電子圖書、光盤數(shù)據(jù)庫、多媒體數(shù)據(jù)以及海量級的Web數(shù)據(jù),也即產(chǎn)生了所謂的數(shù)字圖書館。如何才能使用戶方便、快捷地在如此眾多、各具特色的信息資源中找到目標(biāo),更好地為用戶提供個性化的服務(wù)是數(shù)字圖書館服務(wù)過程中面臨的一大難題。將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于數(shù)字圖書館領(lǐng)域就是解決這一難題的有效途徑之一。1數(shù)字圖書館的個性化服務(wù)1.1國外數(shù)字圖書館個性化服務(wù)系統(tǒng)現(xiàn)狀1991年美國率先開始數(shù)字圖書館的研究,其后,英國、法國、日本、德國、意大利等國也相繼進(jìn)行數(shù)字圖書館研究。在數(shù)字圖書館個性化信息服務(wù)方面,這些國家同樣也先行一步。目前,個性化數(shù)字圖書館在國外已經(jīng)形成了初步成果,進(jìn)入實(shí)際應(yīng)用階段。比較完善的數(shù)字圖書館個性化服務(wù)系統(tǒng)主要有美國洛杉磯國際研究實(shí)驗(yàn)室研究圖書館的MyLibrary@LANL系統(tǒng)、康納爾大學(xué)圖書館的MyLibrary@Cornell系統(tǒng)、多倫多大學(xué)圖書館的MyLi-brary系統(tǒng)等,并在一定范圍內(nèi)得到推廣,取得很好的社會效益;英國南安普敦大學(xué)使用Ontology技術(shù)描述用戶個性化信息,并提出獲取用戶個性化信息的方法【1】。此外,美國華盛頓大學(xué)、北卡州立大學(xué)圖書館、加州數(shù)字圖書館、新加坡國立圖書館等都相繼采用信息定制和推送等方式開發(fā)了自己的網(wǎng)絡(luò)個性化服務(wù)系統(tǒng),并收到了良好的應(yīng)用效果【2】。(2)國內(nèi)學(xué)界對數(shù)字圖書館個性化服務(wù)發(fā)展的觀點(diǎn)我國對數(shù)字圖書館個性化服務(wù)的研究起步較晚,但近年有了突飛猛進(jìn)的發(fā)展,已成為當(dāng)前圖書情報(bào)界研究的一個熱點(diǎn)。早在1999年底,國家科技部支持的“中國數(shù)字圖書館示范系統(tǒng)”項(xiàng)目【3】中就提到了數(shù)字圖書館的個性化服務(wù)問題;2000年初,由北京大學(xué)余錦風(fēng)教授負(fù)責(zé)承擔(dān)的國家社會科學(xué)基金資助的“基于Web的數(shù)字圖書館定制服務(wù)系統(tǒng)”項(xiàng)目【4】開始研究開發(fā)實(shí)用的數(shù)字圖書館個性化定制系統(tǒng)。其后,因個性化服務(wù)對數(shù)字圖書館的重要性,研究者們更是給予了高度的關(guān)注,如李陽暉【5】等人從四個方面探討數(shù)字圖書館個性化服務(wù)的發(fā)展動因;彭駿【6】等人對基于本體的個性化知識檢索模型進(jìn)行了研究,建立了基于本體的個性化知識檢索模型;熊擁軍【7】等人以關(guān)聯(lián)挖掘理論為技術(shù)基礎(chǔ),設(shè)計(jì)出數(shù)字圖書館個性化推送服務(wù)模型;吳志強(qiáng)【8】等人對協(xié)同信息推薦應(yīng)用于數(shù)字圖書館個性化服務(wù)領(lǐng)域進(jìn)行了分析;王發(fā)社【9】利用SWOT分析法,具體分析了目前高校數(shù)字圖書館個性化服務(wù)的優(yōu)勢、劣勢、機(jī)遇和威脅,并在此基礎(chǔ)上提出了數(shù)字圖書館個性化服務(wù)應(yīng)該采取的發(fā)展策略等。目前,已有一些個性化服務(wù)系統(tǒng)投入使用,如深圳市圖書館開發(fā)的ILASⅡ圖書館自動化集成系統(tǒng)捆綁的個性化服務(wù)子系統(tǒng),專門為圖書館用戶提供個性化的服務(wù);中國科學(xué)院國家科學(xué)數(shù)字圖書館推出的個性化服務(wù)系統(tǒng),是一個用戶驅(qū)動的個性化集成定制門戶;浙江大學(xué)圖書館的MyLibrary以及天津市圖書館的“網(wǎng)上家庭虛擬圖書館”等??傮w看來這些系統(tǒng)雖然在一定范圍內(nèi)得到了應(yīng)用,但在智能性、靈活性、針對性等方面還有待進(jìn)一步完善。1.2為用戶提供特色的信息服務(wù)所謂數(shù)字圖書館的個性化服務(wù),是一種針對不同用戶提供不同的服務(wù)策略和服務(wù)內(nèi)容的服務(wù)模式,其實(shí)質(zhì)就是以用戶為中心,滿足用戶的個性特征和需求特征的服務(wù)。個性化服務(wù)是基于信息用戶的信息使用行為、習(xí)慣、愛好、特點(diǎn)及用戶特定的需要,向用戶提供滿足其個性化需求的信息內(nèi)容和系統(tǒng)功能的一種服務(wù)。它既是一種能夠滿足數(shù)字圖書館用戶的個體需求的服務(wù),即根據(jù)用戶提出的明確要求提供信息服務(wù),或通過對用戶特征、使用習(xí)慣的分析而主動的向用戶提供其可能需要的信息服務(wù),又是一種培養(yǎng)個性、引導(dǎo)需求的服務(wù)。個性化服務(wù)包括個性化和主動性兩個方面。個性化的實(shí)質(zhì)是針對性,即對不同的用戶采用不同的服務(wù)策略,提供不同的服務(wù)內(nèi)容;主動性則是指很少需要用戶做什么,系統(tǒng)自動按照用戶的信息需求提供相應(yīng)的服務(wù)。個性化主動服務(wù)將使用戶通過盡可能小的努力獲得盡可能好的服務(wù)。1.3提供個人成長的和個性化的需求個人書架是數(shù)字圖書館為用戶建立個性化的信息資源庫,即私人數(shù)據(jù)庫。在為用戶提供個性化服務(wù)的過程中,以提供保存其私人信息的空間。用戶找到的符合自己需求的資源收藏在私人數(shù)據(jù)庫中,也稱其為個人收藏夾。(2)用戶興趣識別數(shù)字圖書館個性化服務(wù)系統(tǒng)中應(yīng)該建立用戶的個人檔案,可依據(jù)歷史訪問信息等識別用戶興趣,為用戶分類。在不同類型的用戶輸入相同檢索條件時,根據(jù)不同用戶的興趣愛好,過濾無關(guān)信息,從而提高檢索結(jié)果的針對性,實(shí)現(xiàn)個性化檢索。(3)信息反算機(jī)服務(wù)功能信息分類定制是指用戶可以按照自己的目的和需求,設(shè)定所需信息資源的類型、表現(xiàn)形式、系統(tǒng)服務(wù)功能等。信息推送服務(wù)是運(yùn)用推送技術(shù)來實(shí)現(xiàn)的一種個性化主動信息服務(wù)方式。推送技術(shù)又稱“Web廣播”,它是通過一定的標(biāo)準(zhǔn)和協(xié)議,在In-ternet上按照用戶的需求,主動傳送用戶感興趣的信息的一項(xiàng)計(jì)算機(jī)技術(shù)【10】。(4)智能代理技術(shù)的運(yùn)用用戶在檢索信息時,有時很難清楚地知道自己的興趣愛好和需求,或者用戶知道自己的興趣和需求,但卻不知道如何貼切地表達(dá)出來。智能代理技術(shù)的運(yùn)用很好地滿足了用戶的這一需要,它是一種能夠完成委托任務(wù)的智能計(jì)算機(jī)系統(tǒng),能模仿人的行為執(zhí)行一定的任務(wù),不需要或很少需要用戶的干預(yù)和指導(dǎo)。智能代理通過跟蹤用戶在信息空間中的活動,自動捕捉用戶的興趣愛好,主動搜索并提供可能引起用戶興趣的信息【11】。2web挖掘技術(shù)Web挖掘是一項(xiàng)綜合技術(shù),涉及Web、數(shù)據(jù)挖掘、計(jì)算機(jī)語言學(xué)、信息學(xué)等多個領(lǐng)域。Web挖掘就是從與WWW相關(guān)的資源和行為中抽取感興趣的、有用的模式和信息。Web挖掘從數(shù)據(jù)挖掘發(fā)展而來,因此其定義與我們熟知的數(shù)據(jù)挖掘定義相類似,都是在對大量的數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,作出歸納性的推理,預(yù)測用戶的行為。一般地,Web挖掘可以分為三類:Web內(nèi)容挖掘(Webcontentmin-ing)、Web結(jié)構(gòu)挖掘(Webstructuremining)、和Web使用模式的挖掘(Webusagemining)。這三類Web挖掘都可應(yīng)用于數(shù)字圖書館領(lǐng)域,為數(shù)字圖書館更好地滿足用戶個性化服務(wù)提供技術(shù)支持。通常,Web數(shù)據(jù)挖掘的流程分為四個階段:源數(shù)據(jù)的收集、數(shù)據(jù)預(yù)處理、進(jìn)行挖掘、挖掘結(jié)果的分析。下面重點(diǎn)結(jié)合數(shù)字圖書館的特征分析源數(shù)據(jù)收集階段的關(guān)鍵內(nèi)容,其他階段與普通領(lǐng)域基本相同,在此不再贅述。2.1記錄和存儲訪問記錄方式在Web挖掘中有一個很重要的步驟就是要為挖掘算法找到合適的數(shù)據(jù)。在數(shù)字圖書館領(lǐng)域進(jìn)行Web數(shù)據(jù)挖掘的數(shù)據(jù)來源主要有以下兩個方面:(1)服務(wù)器端數(shù)據(jù)的收集(ServerLevelCollec-tion)??梢詮臄?shù)字圖書館的Web服務(wù)器、代理服務(wù)器的Web日志(Weblog)文件中收集數(shù)據(jù),此部分信息是最簡單和最方便的數(shù)據(jù)來源,它記錄了每一次網(wǎng)頁請求信息。啟動數(shù)字圖書館Web服務(wù)器的日志記錄功能后,每當(dāng)用戶通過瀏覽器請求一個網(wǎng)頁時,這個請求被記錄在訪問日志中。代理服務(wù)器就把所記錄的信息保存在文本文件中,通常以“.txt”或“.log”作為文件的擴(kuò)展名。數(shù)字圖書館Web日志文件是由一條條記錄組成,一條記錄就記錄了用戶對Web頁面的一次訪問。Web服務(wù)器的日志記錄格式如表1所示:另外,數(shù)字圖書館Web服務(wù)器還可以存儲其他的Web使用信息,比如Cookie,以及用戶提交的查詢數(shù)據(jù)等。Cookie是由服務(wù)器產(chǎn)生的,用于記錄用戶的狀態(tài)或者訪問路徑。由于涉及到用戶的隱私問題,使用Cookie需要用戶的配合。查詢數(shù)據(jù)是用戶在查詢自己需要的信息時在服務(wù)器端產(chǎn)生的記錄。另外,服務(wù)器同時也記錄文件的有關(guān)信息,例如,文件創(chuàng)建者、修改時間等。此外,用戶的借閱數(shù)據(jù)也可用于進(jìn)行個性化特征的分析。(2)包監(jiān)測技術(shù)(packetsniffingtechnology)。包監(jiān)測技術(shù)是指監(jiān)視所有到達(dá)服務(wù)器的數(shù)據(jù),提取其中的HTTP請求信息。此部分?jǐn)?shù)據(jù)主要來自瀏覽者的點(diǎn)擊流(Click_stream),用于考察用戶的行為表現(xiàn)。網(wǎng)絡(luò)底層信息監(jiān)聽過濾指監(jiān)聽整個網(wǎng)絡(luò)的所有信息流量,并根據(jù)信息源主機(jī)、目標(biāo)主機(jī)、服務(wù)協(xié)議端口等信息過濾掉不關(guān)心的垃圾數(shù)據(jù),然后進(jìn)行進(jìn)一步的處理,如關(guān)鍵字的搜索等,最終將用戶感興趣的數(shù)據(jù)發(fā)送到給定的數(shù)據(jù)接受程序,存儲到數(shù)據(jù)庫中進(jìn)行分析統(tǒng)計(jì)。其工作流程如圖1所示。2.2利用前訪問者的學(xué)習(xí)體驗(yàn)將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于數(shù)字圖書館,可以發(fā)現(xiàn)許多有用信息,如訪問者的興趣愛好,頻繁訪問路徑、用戶的期望位置、重要頁面等,從而為數(shù)字圖書館個性化服務(wù)提供了重要的信息基礎(chǔ)。(1)eb簽到訪問Web站點(diǎn)的設(shè)計(jì)一般遵循一種分類結(jié)構(gòu),即一個頁面下的子頁面的組織是根據(jù)其子頁面的類別來安排的。用戶對Web站點(diǎn)訪問,反映了用戶的興趣愛好。通常用戶瀏覽某Web頁面所用的時間與該Web頁中字符的數(shù)目的比值能有效地揭示用戶興趣。用戶在不感興趣的頁面的訪問時間較短,在感興趣的頁面停留的時間較長。我們可以利用用戶瀏覽路徑信息和時間信息挖掘用戶對頁面信息的感興趣程度,從而預(yù)測用戶的興趣愛好,為其定制個性化的訪問空間。(2)用戶訪問頁面的相關(guān)性對數(shù)字圖書館Web站點(diǎn)的鏈接結(jié)構(gòu)的優(yōu)化可以從兩方面來考慮:一方面,通過對Weblog的挖掘,發(fā)現(xiàn)用戶訪問頁面的相關(guān)性,從而對密切聯(lián)系的網(wǎng)頁之間增加鏈接,方便用戶使用;另一方面,通過對Weblog的挖掘,發(fā)現(xiàn)用戶的期望位置。如果在期望位置的訪問頻率高于對實(shí)際位置的訪問頻率,可考慮在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接,從而實(shí)現(xiàn)對數(shù)字圖書館Web站點(diǎn)的優(yōu)化。(3)檢索所產(chǎn)生的利益以數(shù)字圖書館歷史訪問記錄為基礎(chǔ),通過Web數(shù)據(jù)挖掘技術(shù)分析出各用戶所關(guān)注的重點(diǎn)領(lǐng)域及內(nèi)容,從而使用戶輸入關(guān)鍵字后,只檢索出該用戶重點(diǎn)關(guān)注領(lǐng)域的內(nèi)容或?qū)⒃撚脩糁攸c(diǎn)關(guān)注領(lǐng)域的檢索結(jié)果排在前面,方便用戶使用,從而提高了信息檢索的個性化及智能性。(4)基于web數(shù)據(jù)挖掘的用戶群體分析通過Web數(shù)據(jù)挖掘?qū)σ阎悇e的個體進(jìn)行歸納,找出各類的特征屬性,即分類模式。用戶分類研究包括用戶的分類、用戶的屬性和特征分析、用戶滿意度分析、學(xué)科交叉分析及學(xué)科發(fā)展方向預(yù)測等。數(shù)字圖書館可以應(yīng)用Web數(shù)據(jù)挖掘技術(shù)對用戶群體按照年齡、學(xué)歷、學(xué)科等因素進(jìn)行分類,將用戶進(jìn)行群體細(xì)分。通過這種手段,可以更清楚地了解用戶,了解他們的特點(diǎn),分析不同的群體借閱量,從而有針對性地提供不同的服務(wù),以提高數(shù)字圖書館的服務(wù)質(zhì)量。(5)利用資源優(yōu)化服務(wù)通過對用戶借閱的文獻(xiàn)信息進(jìn)行關(guān)聯(lián)分析,可以及時去除舊的、使用較少的信息,而不斷補(bǔ)充新的、需求較多的資源,包括書籍在內(nèi)的其他資源都可以得到及時的優(yōu)化。這樣既可以優(yōu)化各類資源,減少冗余的空間以及節(jié)省開銷和成本,同時也提高了服務(wù)的效率。從而可以更加客觀、全面、智能地建立館藏資源,合理引導(dǎo)數(shù)字圖書館的館藏建設(shè)。(6)問的路徑及所使用的頁面通過Web數(shù)據(jù)挖掘技術(shù),可識別出數(shù)字圖書館網(wǎng)站內(nèi)頻繁訪問的路徑及所有頁面中的重要頁面(用戶訪問次數(shù)比較多的頁面),這樣就可將重要的分類信息及新書信息放在這些頁面或頻繁訪問路徑上,從而方便訪問者瀏覽閱讀,提高圖書利用率。3基于web數(shù)據(jù)庫的解用戶需求分析工具將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于數(shù)字圖書館領(lǐng)域,可為用戶提供深層次的個性化服務(wù),通過Web數(shù)據(jù)挖掘可從歷史數(shù)據(jù)中發(fā)現(xiàn)用戶的訪問模式、用戶興趣以及資源之間的關(guān)聯(lián)等信息?;赪eb數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務(wù)模型建立在數(shù)據(jù)倉庫、聯(lián)機(jī)分析和數(shù)據(jù)挖掘的基礎(chǔ)之上,該模型是數(shù)字圖書館了解用戶需求的綜合分析工具,運(yùn)行在網(wǎng)站的WebLog數(shù)據(jù)庫、用戶數(shù)據(jù)庫或數(shù)據(jù)倉庫之上。主要包括以下幾部分(如圖2所示):(1)數(shù)據(jù)提取和凈化功能:用來根據(jù)挖掘目標(biāo)從Web服務(wù)器日志數(shù)據(jù)庫或數(shù)據(jù)倉庫中抽取相關(guān)數(shù)據(jù)進(jìn)行二義性分析,消除不一致性,為下一步挖掘提供優(yōu)質(zhì)的數(shù)據(jù)源。(2)數(shù)據(jù)挖掘功能:是一個挖掘驅(qū)動部件。它根據(jù)挖掘要求到Web數(shù)據(jù)挖掘算法庫中去選擇合適的挖掘方法,并且使用該方法去執(zhí)行挖掘任務(wù)。(3)Web數(shù)據(jù)挖掘算法庫:是一個數(shù)據(jù)挖掘分析方法的綜合性算法庫。它以插件的方法來組織各種挖掘算法,使各種方法可以方便的插入,實(shí)現(xiàn)了可擴(kuò)充性和易選擇性,同時它還可以不斷的融入新的挖掘方法,從而提高挖掘的效率。(4)評估界面:以一種直觀的方式來表現(xiàn)數(shù)據(jù)挖掘的結(jié)果,提供一個和分析人員交互的友好界面。(5)挖掘結(jié)果的輸出功能:將挖掘結(jié)果用最直觀的報(bào)表等形式輸出。利用挖掘出
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年閉式冷卻塔項(xiàng)目建議書
- 2025年射頻同軸連接器項(xiàng)目建議書
- 遼寧省2025秋九年級英語全冊Unit3Couldyoupleasetellmewheretherestroomsare易錯考點(diǎn)專練課件新版人教新目標(biāo)版
- 遼寧省2025秋九年級英語全冊Unit9IlikemusicthatIcandanceto課時5SectionB(2a-2e)課件新版人教新目標(biāo)版
- DSA患者圍手術(shù)期護(hù)理要點(diǎn)
- 護(hù)理呼吸機(jī)使用方法
- 護(hù)理質(zhì)量改進(jìn)的績效管理
- 肝臟疾病的疼痛管理
- 內(nèi)科護(hù)理評估方法
- 護(hù)理細(xì)胞細(xì)胞通訊機(jī)制
- (新教材)部編人教版三年級上冊語文 習(xí)作:那次經(jīng)歷真難忘 教學(xué)課件
- 甘草成分的藥理作用研究進(jìn)展-洞察及研究
- 具身智能+文化遺產(chǎn)數(shù)字化保護(hù)方案可行性報(bào)告
- (2025年新教材)部編人教版二年級上冊語文 語文園地七 課件
- 廣東深圳市2026屆化學(xué)高三第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測模擬試題含解析
- 電力公司考試大題題庫及答案
- 國企金融招聘筆試題及答案
- 重慶市金太陽好教育聯(lián)盟2026屆高三10月聯(lián)考(26-65C)英語(含答案)
- 成都市龍泉驛區(qū)衛(wèi)生健康局下屬15家醫(yī)療衛(wèi)生事業(yè)單位2025年下半年公開考試招聘工作人員(18人)備考考試題庫附答案解析
- 2025-2030中國光纖分布式測溫系統(tǒng)市場需求預(yù)測報(bào)告
- 因甲方原因造成停工的聯(lián)系函示例
評論
0/150
提交評論