基于Web挖掘的個(gè)性化推薦服務(wù)研究_第1頁
基于Web挖掘的個(gè)性化推薦服務(wù)研究_第2頁
基于Web挖掘的個(gè)性化推薦服務(wù)研究_第3頁
基于Web挖掘的個(gè)性化推薦服務(wù)研究_第4頁
基于Web挖掘的個(gè)性化推薦服務(wù)研究_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

分類號(hào) 密級(jí) U D C 碩士學(xué)位論文 基于 學(xué)位申請(qǐng)人 : 丁 一 學(xué) 科 專 業(yè) : 計(jì)算機(jī)應(yīng)用技術(shù) 指 導(dǎo) 教 師 : 盧正鼎 教授 論文答辯日期 學(xué)位授予日期 答辯委員會(huì)主席 胡和平 評(píng)閱人 王天江 李玉華 A of of i : 30074, 2004 I 摘 要 隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,如何利用數(shù)據(jù)挖掘技術(shù)從大量的網(wǎng)絡(luò)信息中挖掘出對(duì)人們有用的資源,已經(jīng)成為研究的熱點(diǎn)問題。信息推薦技術(shù)需要解決的三個(gè)問題是:首先,要理解用戶的需求;其次,是能高效、準(zhǔn)確地執(zhí)行查詢?nèi)蝿?wù);最后,能把結(jié)果很好地組織起來交給用戶。目前比較成熟的信息推薦技術(shù)是采用面向網(wǎng)絡(luò)信息來解決以上問題的。但是,這種方式很難執(zhí)行好用戶個(gè)性化的檢索需求,因此提出了面向用戶的個(gè)性化推薦模型。 通過對(duì)通用搜索引擎和元搜索引擎的研究,提出了個(gè)性化推薦模型,該模型分為離線部分和在線部分。 離線部分由數(shù)據(jù)預(yù)處理和特 定的訪問挖掘任務(wù)組成,數(shù)據(jù)預(yù)處理將 網(wǎng)絡(luò) 服務(wù)器的訪問 日志 文件以及站點(diǎn)的相關(guān)文件生成用戶文件和事務(wù)文件;特定的訪問挖掘是利用 聚類算法來生成網(wǎng)頁聚類 。模型的在線部分主要是利用離線部分生成的 網(wǎng)頁 聚類,再根據(jù)用戶的當(dāng)前訪問操作行為,動(dòng)態(tài)地為用戶推薦下一步訪問操作。在線部分主要是由:用戶接口、興趣學(xué)習(xí)器、個(gè)性化分析器、 推理器、網(wǎng)絡(luò)數(shù)據(jù)連接管理器 、個(gè)性化過濾器 和 網(wǎng)絡(luò) 服務(wù)器 等組成。在線部分涉及到的關(guān)鍵算法有:興趣學(xué)習(xí)算法、個(gè)性化分析算法、個(gè)性化過濾算法和推理算法,此外還對(duì)模型的一些簡單的語法規(guī)則進(jìn)行了定義,通過實(shí)驗(yàn)環(huán)境實(shí)現(xiàn) 了一個(gè)界面簡單的推薦模型。 關(guān)鍵詞: 數(shù)據(jù)挖掘,個(gè)性化,信息檢索,推薦服務(wù),聚類分析 of to to eb to be a in to be it s it it is to to R in a R In we a of of eb of of is eb of of RL RL on of of eb of of of of 錄 摘 要 . 緒論 數(shù)據(jù)挖掘 .(1) 據(jù)挖掘 .(2) 個(gè)性化推薦服務(wù)的現(xiàn)狀 .(3) 論文研究內(nèi)容及其組織 .(5) 2 個(gè)性化 掘 據(jù)挖掘 .(7) 幾個(gè)重要的研究方向 . (11) 掘的個(gè)性化 . (13) 個(gè)性化推薦解決的問題和目標(biāo) . (16) 小結(jié) . (17) 3 基于 掘的個(gè)性化推薦 個(gè)性化服務(wù)中用戶研究 . (18) 個(gè)性化推薦 . (20) 個(gè)性化推薦服務(wù)技術(shù) . (23) 個(gè)性化推薦模 型 . (29) 小結(jié) . (32) 4 個(gè)性化推薦模型設(shè)計(jì)與實(shí)現(xiàn) 推薦模型描述 . (33) 模型離線預(yù)處理 . (34) 離線挖掘算法 . (37) 模型在線推薦 . (38) 模型測試結(jié)果 . (48) 小結(jié) . (50) 5 論文總結(jié) 主要工作總結(jié) . (51) 進(jìn)一步的研究方向 . (51) 致 謝 . (53) 參考文獻(xiàn) . (54) 附錄 1 攻讀學(xué)位期間發(fā)表的論 文目錄 . (57) 1 1 緒論 近年來,隨著大規(guī)模的工業(yè)生產(chǎn)過程的自動(dòng)化、商務(wù)貿(mào)易電子化及企業(yè)和政府事務(wù)電子化的迅速普及以及科學(xué)計(jì)算的日益增長,產(chǎn)生了大規(guī)模的數(shù)據(jù)源。計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的長足進(jìn)步也為數(shù)據(jù)的傳輸和遠(yuǎn)程交互提供了技術(shù)手段,特別是互聯(lián)網(wǎng)的迅速發(fā)展更是將全球的信息源納入了一個(gè)共同的數(shù)據(jù)環(huán)境中 1。日益成熟的數(shù)據(jù)庫系統(tǒng)和數(shù)據(jù)庫管理系統(tǒng)都為這些海量數(shù)據(jù)的存儲(chǔ)和管理提供了技術(shù)保證,為步入信息時(shí)代奠定了基礎(chǔ),這些龐大的數(shù)據(jù)庫及其中的海量數(shù)據(jù)是極其豐 富的信息源。 在這些信息源中隱含了許多有潛在價(jià)值的知識(shí),如何發(fā)現(xiàn)這些有用的知識(shí)是人工智能、數(shù)據(jù)庫等領(lǐng)域的研究焦點(diǎn)。但是僅僅依靠傳統(tǒng)的數(shù)據(jù)檢索機(jī)制和統(tǒng)計(jì)分析方法已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足需要了。因此,近年來出現(xiàn)了一門新興的知識(shí)獲取提取技術(shù) 數(shù)據(jù)挖掘。數(shù)據(jù)挖掘旨在從數(shù)據(jù)庫中提取正確的、非平凡的、未知的、有潛在應(yīng)用價(jià)值的并最終可為用戶理解的模式。它的出現(xiàn)為自動(dòng)和智能地把海量的數(shù)據(jù)轉(zhuǎn)化成有用的信息和知識(shí)提供了手段 1。數(shù)據(jù)挖掘涉及到諸如機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫和人工智能等眾多學(xué)科,是數(shù)據(jù)庫理論和機(jī)器學(xué)習(xí)的交叉學(xué) 科。 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn) 密切的聯(lián)系。知識(shí)發(fā)現(xiàn)( 2是指從數(shù)據(jù)庫中發(fā)現(xiàn)有用知識(shí)的整個(gè)過程,數(shù)據(jù)挖掘是這一過程中的一個(gè)特定步驟,知識(shí)發(fā)現(xiàn)包括數(shù)據(jù)選擇、預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式解釋和知識(shí)評(píng)價(jià)等多個(gè)步驟,是應(yīng)用特定數(shù)據(jù)挖掘算法和評(píng)價(jià)解釋模式的一個(gè)循環(huán)反復(fù)過程,并要對(duì)發(fā)現(xiàn)的知識(shí)不斷求精深化,使其易于理解;數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過程中的一個(gè)關(guān)鍵步驟。 數(shù)據(jù) 挖掘( 從大量的、不完全的、有噪聲的 、模糊的、隨機(jī)的數(shù)據(jù)中提取 潛在的、不為人知的有用信息、模式和趨勢。數(shù)據(jù)挖掘的目的是提高市場決策能力;檢測異常模式;在過去的經(jīng)驗(yàn)基礎(chǔ)上預(yù)言未來趨勢等 3。 這些知識(shí)和規(guī)則是隱含的、先前未知的、對(duì)決策有潛在價(jià)值的有用信息。通過數(shù)據(jù)挖掘,有價(jià)值的知識(shí)、規(guī)則或高層次的信息就能從數(shù)據(jù)庫的相關(guān)數(shù)據(jù)集合中抽取出來,為決策提供依據(jù),從而使數(shù)據(jù)庫作為一個(gè)豐富可靠的資源,為知識(shí)歸納服務(wù)。 與傳統(tǒng)的數(shù)據(jù)庫查詢系統(tǒng)相比較 , 數(shù)據(jù)挖掘技術(shù)有以下不同 4: 2 ( 1)傳統(tǒng)的數(shù)據(jù)庫查詢一般都具有嚴(yán)格的查詢表達(dá)式,可以用 數(shù)據(jù) 挖掘則不一定具有嚴(yán)格的要求,常常表現(xiàn)出即時(shí)、隨機(jī)的特點(diǎn) , 查詢要求也不確定 。 ( 2)整個(gè)挖掘過程也無法僅用 實(shí)際上 , 數(shù)據(jù)挖掘常常用一種類似 ( 3)傳統(tǒng)的數(shù)據(jù)庫查詢一般生成嚴(yán)格的結(jié)果集 , 但數(shù)據(jù)挖掘可能并不生成嚴(yán)格的結(jié)果集 。 挖掘過程往往基于統(tǒng)計(jì)規(guī)律 , 產(chǎn)生的規(guī)則并不要求對(duì)所有的數(shù)據(jù)項(xiàng)總是成立 , 而是只要達(dá)到一定的事先給定的閾值就可以了 。 ( 4)通常情況下 , 數(shù)據(jù)庫查詢只對(duì)數(shù)據(jù)庫的原始字段進(jìn)行 , 而數(shù)據(jù)挖掘則可能在數(shù)據(jù)庫的不同層次上發(fā)掘知識(shí)規(guī)則 。 從廣義上講,數(shù)據(jù)挖掘分為三種類型:全 自動(dòng)、半自動(dòng)和全交互式。對(duì)于全自動(dòng)技術(shù),一旦系統(tǒng)被創(chuàng)建,無需人的任何干預(yù),它能在后臺(tái)自動(dòng)進(jìn)行操作;對(duì)于半自動(dòng)技術(shù),系統(tǒng)或者在后臺(tái)操作,或者采用全交互方式;對(duì)于全交互式技術(shù),是一種簡單的數(shù)據(jù)挖掘,它由用戶設(shè)置每次操作的參數(shù),然后等待相應(yīng)結(jié)果。 數(shù)據(jù) 挖掘 在解決實(shí)際問題時(shí),經(jīng)常要同時(shí)使用多種模式。一個(gè)數(shù)據(jù) 挖掘 系統(tǒng)或僅僅一個(gè)數(shù)據(jù) 挖掘 查詢就可能生成成千上萬的模式,但是并非所有的模式都 是 令人感興趣。 這里有 一個(gè)重要的概念, 興趣度( ,通常 是 用來衡量模式的總體價(jià)值,它包括正確性 ( 、新奇性 ( 、可用性 ( 和簡潔性( 。數(shù)據(jù) 挖掘 工具還要求具有開放性,它的開放性體現(xiàn)在兩個(gè)方面:能與各種數(shù)據(jù)源集成 ; 分析 的 結(jié)果是通用的或易于轉(zhuǎn)化的。數(shù)據(jù) 挖掘 工具相互差別很大,這不僅體現(xiàn)在關(guān)鍵技術(shù)上,還體現(xiàn)在運(yùn)行平臺(tái)、數(shù)據(jù)存取和價(jià)格等 方 面。從運(yùn)行平臺(tái)來看,簡單的工具可運(yùn)行在 ,復(fù)雜的工具要求運(yùn)行在 數(shù)據(jù)存取來看,簡單工具處理的數(shù)據(jù)以文件形式輸入,復(fù)雜工具要求大型的數(shù)據(jù)庫環(huán)境。 目前,數(shù)據(jù)挖掘已成 為計(jì)算機(jī)科學(xué)研究中的一個(gè)十分活躍的前沿領(lǐng)域,并在市場分析、金融投資、欺詐甑別、醫(yī)療衛(wèi)生、環(huán)境保護(hù)、產(chǎn)品制造和科學(xué)研究等許多領(lǐng)域獲得了廣泛的應(yīng)用,取得了十分可觀的社會(huì)效益和經(jīng)濟(jì)效益。同時(shí),知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的研究和應(yīng)用,對(duì)于人工智能這門前沿學(xué)科的發(fā)展注入了新的活力,有力地促進(jìn)了計(jì)算機(jī)科學(xué)朝著縱深方向順利發(fā)展。 它涉及新聞、廣告、消費(fèi)信息、金融管理、 3 教育、政府、電子商務(wù)和許多其它信息服務(wù) 。 以及 和使用信息 , 這為數(shù)據(jù)挖掘提供了豐富的資源 。 人們希望有一個(gè)工具能夠自動(dòng)從 傳統(tǒng)的數(shù)據(jù)挖掘基于關(guān)系數(shù)據(jù)庫或數(shù)據(jù)倉庫 , 所處理數(shù)據(jù)具有完整的結(jié)構(gòu) 。 但是 結(jié)構(gòu)的 , 并且存在著大量的冗余與噪聲 。 對(duì)有效的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘而言 , 而且仍然在迅速地增長 。 ( 1)數(shù)據(jù)源具有很強(qiáng)的動(dòng)態(tài)性 , 這就需要借鑒數(shù)據(jù)倉庫的某些技術(shù) , 以此保存 ( 2)數(shù)據(jù)的多樣性 , 既有數(shù)值型 (整型、實(shí)型 )、布爾型 ,又有分類數(shù)據(jù)、性質(zhì)描述數(shù)據(jù)以及 如 。新的數(shù)據(jù)類型必然帶來新的特色 , 需要對(duì)原有挖掘方法進(jìn)行改進(jìn)和擴(kuò)充 。 ( 3)用戶目標(biāo)的模糊性 , 基于 提不出很明確的目標(biāo)來 。 這就需要數(shù)據(jù)挖掘系統(tǒng)具有一定的智能性和學(xué)習(xí)機(jī)制 , 不斷地跟蹤用戶的興趣 , 清晰明白地闡述挖掘結(jié)果 。 的 。 據(jù)統(tǒng)計(jì) , 99%的 9%的用戶是無用的 , 這些無用的信息會(huì)淹沒用戶所希望得到的推薦結(jié)果 。 基于以上的分析可知 , 這些挑戰(zhàn)推動(dòng)了如何高效且實(shí)際地發(fā)現(xiàn)和利用因特網(wǎng)上資源的研究工作。 目前有許多基于索引的 利用推薦引擎 , 有經(jīng)驗(yàn)的用戶可以快速定位到所需的文檔 。 但是目前基于查詢串的推薦引擎存在一些問題 。 首先 , 推薦引擎返回的文檔數(shù)過于龐大 , 其中很多與話題相關(guān)性并不大 ; 其次 , 很多與話題相關(guān)的文檔可能并不包含相應(yīng)的查詢串 。 因此 , 對(duì) 的 掘 。 個(gè)性化推薦服務(wù)的現(xiàn)狀 隨著信息科技的進(jìn)步和互聯(lián)網(wǎng)的日益普及,如何在浩瀚如海的信息空間里,快速查找并獲取所需的信息已成為信息時(shí)代最根本的問題之一。網(wǎng)絡(luò)個(gè)性化推薦在網(wǎng)絡(luò)信息資源查找中起到了重要的作用,它可以幫助人們從數(shù)以億計(jì)的網(wǎng)絡(luò)信息中找到自己想要的信息。 4 信息檢索技術(shù)經(jīng)歷了三個(gè)發(fā)展階段:順序檢索、順序與倒排檢索相結(jié)合、全文檢索。全文檢索早期的發(fā)展,一是源于手工標(biāo)引已不適應(yīng)信息增長的需要,二是人們采用自然語言直接進(jìn)行檢索的原理 5,6。 據(jù)研究者統(tǒng)計(jì) , 目前 互聯(lián)網(wǎng)上的搜索引擎已達(dá)數(shù)千種 , 僅中文搜索引擎就達(dá) 70余種。在龐大的搜索引擎家族中 , 有囊括各學(xué)科、各種主題網(wǎng)絡(luò)信息的綜合性搜索引擎 , 有以特定學(xué)科或?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息為收錄對(duì)象的專業(yè)性搜索引擎 , 還有專門列舉搜索引擎的搜索引擎指南。搜索引擎作為一個(gè)整體 , 存在著質(zhì)量參差不齊、信息的分類加工欠規(guī)范、搜索速度慢、死鏈接過多 , 以及提供的檢索結(jié)果中重復(fù)信息及不相關(guān)的無效信息過多等弊端,對(duì)檢索效果形成負(fù)面影響。網(wǎng)絡(luò)信息的急劇增加 , 令以覆蓋所有學(xué)科、所有類型信息為宗旨的綜合性搜索引擎亦越來越難以應(yīng)對(duì) , 就是號(hào)稱功能最為強(qiáng)大的搜索 引擎,在網(wǎng)絡(luò)信息搜索與加工軟件的升級(jí)開發(fā)上,亦無法跟上網(wǎng)絡(luò)信息的增長速度。 搜索引擎在網(wǎng)絡(luò)信息的組織、加工等環(huán)節(jié)上缺乏可供操作的、統(tǒng)一的技術(shù)標(biāo)準(zhǔn) ,處于各自為政的無序狀態(tài),這主要體現(xiàn)在網(wǎng)絡(luò)信息的分類上。統(tǒng)一的網(wǎng)絡(luò)信息分類標(biāo)準(zhǔn)的缺位令網(wǎng)絡(luò)用戶無所適從 , 他們被迫接受各搜索引擎的分類體系無法兼容的事實(shí) , 每使用一種新的搜索引擎,就意味著他們必須接受該搜索引擎與其他搜索引擎在分類體系上的差異。搜索引擎之間的檢索體系存在一定的差異性 , 難于相互兼容 , 給網(wǎng)絡(luò)用戶掌握通用的信息檢索技巧與方法帶來不必要的操作障礙。每一種搜索引擎 的開發(fā)者在設(shè)計(jì)該搜索引擎的核心檢索技術(shù)時(shí),都以突出自身特色而各顯千秋 , 故不同的搜索引擎均有著相對(duì)獨(dú)立的檢索方法與技巧。各個(gè)搜索引擎都有一個(gè)特色化的檢索體系等待網(wǎng)絡(luò)用戶去適應(yīng),這些檢索體系在推向用戶之前較少通過試運(yùn)行從網(wǎng)絡(luò)用戶中搜集反饋信息 , 因此在適用性上存在先天的不足。 網(wǎng)絡(luò)搜索引擎一般由信息采集器 (索引數(shù)據(jù)庫 (及用于檢索索引庫的檢索軟件 (部分組成。信息采集器主要負(fù)責(zé)訪問各種站點(diǎn), 取回 頁的信息。運(yùn)行 ,只要提供少量的起始網(wǎng)頁, 了會(huì)將網(wǎng)頁上的信息讀回以外,還將沿著網(wǎng)頁上的超文本鏈接,自動(dòng)訪問網(wǎng)頁鏈接的其它網(wǎng)頁,直至遍歷整個(gè)網(wǎng)站。 網(wǎng)站的訪問是周期的,一般為每月一次或數(shù)次,訪問次數(shù)視網(wǎng)頁的更新頻率而定。索引器負(fù)責(zé)索引庫的建立?;氐男畔⒑芏啵苯佑糜诓樵?,其效率將非常低。索引器的主要工作是建立一個(gè)包含關(guān)鍵信息的索引庫以備查詢。索引器的策略很大程度上影響了搜索引擎的效 5 率與準(zhǔn)確性。目前,比較常用的方法是對(duì)網(wǎng)頁的標(biāo)題 (評(píng)語 (行索引。檢索軟件負(fù)責(zé)提供用戶使用搜索引擎的接口。檢索軟件通常是一個(gè) 用程序,其主要工作包括:接收、解釋用戶的搜索請(qǐng)求;查詢索引庫;計(jì)算網(wǎng)頁與搜索請(qǐng)求的關(guān)聯(lián)度;提供排序后的搜索結(jié)果返回。簡而言之,信息采集軟件是從一個(gè)已知的文檔集中讀取信息,并檢查這些文檔的鏈接指針,指出新的信息空間,然后取出這些新空間中的文檔,將它們加入到索引數(shù)據(jù)庫,檢索軟件通過索引數(shù)據(jù)庫為用戶的查詢請(qǐng)求提供服務(wù),但現(xiàn)有的搜索引擎在信息維護(hù)、信息重復(fù)、網(wǎng)絡(luò)及站點(diǎn)負(fù)載方面還存在很大的不足,索引數(shù)據(jù)庫往往很大,檢索的查準(zhǔn) 率不高。 論文研究內(nèi)容及其組織 課題提出的現(xiàn)實(shí)意義與目標(biāo) 隨著經(jīng)濟(jì)的不斷發(fā)展,我國經(jīng)濟(jì)的開放度不斷提高,因而遭受各種外部沖擊的可能性和受影響的程度也將日益增大,各種國際規(guī)則和慣例對(duì)我國經(jīng)濟(jì)運(yùn)行的制度約束越來越強(qiáng)烈,這些制度約束將產(chǎn)生強(qiáng)制性的制度變遷效應(yīng),加快我國外匯管理制度和模式變革的進(jìn)程,在轉(zhuǎn)化過程中,如何維護(hù)和提高管理效率,盡可能地減少制度變遷成本,將成為外匯局所面臨的一大挑戰(zhàn)。為此,迫切需要建立一個(gè)功能強(qiáng)大、數(shù)據(jù)完整的信息管理系統(tǒng)去統(tǒng)馭其他業(yè)務(wù)管理系統(tǒng)的運(yùn)行。 本課題來源于與國 家外匯局合作的國家外匯信息管理決策系統(tǒng)的項(xiàng)目,簡稱根據(jù)我國外匯管理的需要,按照外匯局“說得清,管得住,服務(wù)好”的指導(dǎo)思想建立的集業(yè)務(wù)管理與輔助決策于一身的綜合信息服務(wù)平臺(tái)。它將是外匯局完成真實(shí)性審核、統(tǒng)計(jì)預(yù)警和政研立法三大職能的支撐系統(tǒng),也將成為我國外匯管理電子化的核心平臺(tái)。它將以采集基礎(chǔ)數(shù)據(jù)取代報(bào)表數(shù)據(jù);以電子數(shù)據(jù)的直接提取或交換取代業(yè)務(wù)數(shù)據(jù)的二次錄入與加工傳遞;以接近實(shí)時(shí)取代定期、不定期;以系統(tǒng)靈活的、即插即用的應(yīng)用程序取代獨(dú)立、固定的應(yīng)用程序;借助報(bào)表生成工具以靈活組合、自定義 方式的查詢方法取代固定的查詢、報(bào)表生成程序;以系統(tǒng)的指標(biāo)體系、科學(xué)的分析方法、靈敏的決策機(jī)制取代靜態(tài)的、孤立的、缺乏全面信息支持的決策方式。 這一課題屬國家十五攻關(guān)課題( 2001并由本課題組承擔(dān),一期工程于 2003 年 12 月通過國家驗(yàn)收。 本課題的目標(biāo)是以建立國家外匯管理局決策支持系統(tǒng)為實(shí)踐背景,利用數(shù)據(jù)挖掘理論技術(shù),改進(jìn)并實(shí)現(xiàn)基于 掘的個(gè)性化推薦服務(wù)技術(shù),從而對(duì)國家外匯管理局 6 網(wǎng)站的 息文件進(jìn)行挖掘,得出用戶的訪問模式,從而可以進(jìn)一步分析和研究日志記錄的規(guī)律,來改進(jìn)國家外匯 管理局網(wǎng)站的組織結(jié)構(gòu)及其性能,改造自適應(yīng)網(wǎng)站;還可以通過統(tǒng)計(jì)和關(guān)聯(lián)分析,了解使用用戶的愛好,增加個(gè)性化推薦服務(wù),使用戶足不出戶就可以了解和關(guān)注到自己感興趣的信息和資源,更好的為用戶服務(wù);也可以是外部數(shù)據(jù)采集員用來在 面采集相關(guān)數(shù)據(jù)、資料的工具。 論文組織 論文比較系統(tǒng)完整的分析和論述了數(shù)據(jù)挖掘技術(shù)的熱點(diǎn)難點(diǎn)、 掘的體系結(jié)構(gòu)、個(gè)性化服務(wù)的定義、基于 掘的個(gè)性化推薦服務(wù)。各章節(jié)內(nèi)容安排如下: 第 1章 緒論:簡要介紹了本文要描述的數(shù)據(jù)挖掘的基本概況和 掘的基本定義,本文的 課題背景、目的和意義,以及論文的主要工作。 第 2章 個(gè)性化 掘:簡要介紹了 掘的定義、分類、過程、任務(wù),還介紹了個(gè)性化服務(wù)的定義,個(gè)性化推薦解決的主要問題以及 掘的個(gè)性化,最后還介紹了目前比較流行和重要的幾個(gè)研究方向。 第 3章 基于 掘的個(gè)性化推薦模式:首先對(duì)個(gè)性化服務(wù)中的用戶服務(wù)研究做出了描述,接著介紹了個(gè)性化推薦模型的工作機(jī)理、分類以及目前個(gè)性化推薦存在的問題;然后對(duì)個(gè)性化推薦服務(wù)的具體技術(shù)問題、實(shí)現(xiàn)方法進(jìn)行了介紹,最后對(duì)目前比較流行的通用模型和元搜索引擎進(jìn)行了分析。 第 4章 個(gè)性化推薦模型設(shè)計(jì)與 實(shí)現(xiàn):首先對(duì)模型進(jìn)行了具體描述,然后就個(gè)性化推薦模型的離線部分預(yù)處理、離線算法和在線部分的定義、數(shù)據(jù)流程、算法的分析以及具體實(shí)現(xiàn)技術(shù)進(jìn)行了具體的闡述。 模型的在線部分主要是利用離線部分生成的 網(wǎng)頁 聚類,再根據(jù)用戶的當(dāng)前訪問操作行為,動(dòng)態(tài)地為用戶推薦下一步訪問操作。 通過實(shí)驗(yàn)環(huán)境實(shí)現(xiàn)了一個(gè)界面簡單的推薦模型。 第 5章 論文總結(jié):總結(jié)了本論文的特色和創(chuàng)新,以及提出了今后工作的發(fā)展方向。 7 2 個(gè)性化 本章將從 掘的定義開始,介紹了 掘的分類、 掘的過程、 息檢索,還介紹 了幾個(gè)最重要的挖掘技術(shù),最后將介紹一下 數(shù)據(jù)挖掘是一個(gè)逐漸演變的過程,電子數(shù)據(jù)處理的初期,人們就試圖通過某些方法來實(shí)現(xiàn)自動(dòng)決策支持,當(dāng)時(shí)機(jī)器學(xué)習(xí)成為人們關(guān)心的焦點(diǎn)。機(jī)器學(xué)習(xí)的過程就是將一些已知的并已被成功解決的問題作為范例輸入計(jì)算機(jī),機(jī)器通過學(xué)習(xí)這些范例總結(jié)并生成相應(yīng)的規(guī)則,這些規(guī)則具有通用性,使用它們可以解決某一類的問題。隨后,隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的形成和發(fā)展,人們的注意力轉(zhuǎn)向知識(shí)工程,知識(shí)工程不同于機(jī)器學(xué)習(xí)那樣給計(jì)算機(jī)輸入范例,讓它生成規(guī)則,而是直接給計(jì)算機(jī)輸入 已被代碼化的規(guī)則,而計(jì)算機(jī)是通過使用這些規(guī)則來解決某些問題 6,7。 數(shù)據(jù)挖掘技術(shù)應(yīng)用于 泛分布的、高度異構(gòu)的、半結(jié)構(gòu)化的、相互 聯(lián)系并且不斷進(jìn)化的信息倉庫;是一個(gè)巨大的文檔累積的集合,包括超鏈接信息,訪問及使用信息。大量的非結(jié)構(gòu)化數(shù)據(jù)無法使用現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)來操縱和管理,其用戶群體也表現(xiàn)出多樣性的特點(diǎn),這些都對(duì)信息系統(tǒng)的研究人員提出新的挑戰(zhàn) 7。 因?yàn)?與傳統(tǒng)的數(shù)據(jù)挖掘相比又有新的特質(zhì)。首先, 象是大量異質(zhì)分布的 個(gè)數(shù)據(jù)源都是異構(gòu)的;其次, 謂半結(jié)構(gòu)化,是指 是它沒有特定的模型描述,每一站點(diǎn)的數(shù)據(jù)都有各自獨(dú)立設(shè)計(jì),并且數(shù)據(jù)本身具有自述性和動(dòng)態(tài)可變性,是一種非完全結(jié)構(gòu)化的數(shù)據(jù)。而傳統(tǒng)的數(shù)據(jù)挖掘的對(duì)象局限于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)并利用關(guān)系表格等存儲(chǔ)結(jié)構(gòu)來發(fā)現(xiàn)知識(shí),因此有些數(shù)據(jù)挖掘技術(shù)并不適用于 使可用也需要建立在對(duì) 2。 通過 數(shù)據(jù)挖掘 , 個(gè)人、企業(yè)、網(wǎng)站從 根據(jù)各自不同 8 的目的和特點(diǎn) , 抽取有關(guān)數(shù)據(jù)并且從中發(fā)現(xiàn)數(shù)據(jù)中隱含的規(guī)則和知識(shí) , 從而更進(jìn)一步地獲取數(shù)據(jù) 。 有 3個(gè)目標(biāo) : 精確度 , 即返回?cái)?shù)據(jù)符合用戶需求的程度 ; 覆蓋率 , 即有多少符合用戶需求的數(shù)據(jù)被返回 ; 效率 , 即響應(yīng)速度 。 現(xiàn)今最流行的 根據(jù)挖掘的對(duì)象將其分為 :基于內(nèi)容的挖掘和基于用戶使用記錄的挖掘 。 ( 1) 是對(duì)網(wǎng)頁上真正的數(shù)據(jù)進(jìn)行挖掘 , 包括網(wǎng)頁內(nèi)容挖掘和推薦結(jié)果挖掘。 文本、圖像、音頻、視頻、元數(shù)據(jù)和超鏈接 , 也有些如 所含的半結(jié)構(gòu)化數(shù)據(jù) , 但大多還是無結(jié)構(gòu)的文本數(shù)據(jù)。文本、超文本內(nèi)容的挖掘是 但作為內(nèi)容挖掘一份子的多媒體數(shù)據(jù)挖掘近年來受到許多研究人員的關(guān)注 , 對(duì)于統(tǒng)一表示模型、問題解決及從多媒體數(shù)據(jù)中學(xué)習(xí)這些問題的研究非常迫切 , 也將是巨大的挑戰(zhàn) 7。 隨著 許多只支持由關(guān)鍵詞和超鏈接所構(gòu)成推薦引擎返回的結(jié)果中有許多無用及無關(guān)的信息 , 因此 , 要推薦某一給定話 題的 不僅希望得到與之相關(guān)的頁面 , 還希望所檢索的頁面具有高質(zhì)量 , 即針對(duì)該話題具有權(quán)威性 。 權(quán)威性就隱藏在 當(dāng)一個(gè) 這可以看作是作者對(duì)另一頁面的認(rèn)可。把一個(gè)頁面的來自不同作者的注解搜集起來 ,就可以用來反映該頁面的重要性 。 因此 , 大量的 量和結(jié)構(gòu)方面的信息 , 這對(duì) ( 2) 在網(wǎng)上的行為 , 比較網(wǎng)站的實(shí)際使用與期望的差別 , 根據(jù)用戶的興趣調(diào)整網(wǎng)站結(jié)構(gòu) 7。 是對(duì) 8,如圖 這些數(shù)據(jù)包括 : 客戶端數(shù)據(jù)、服務(wù)器端數(shù)據(jù)和代理端數(shù)據(jù)。 者是用 如 后者是分析某一時(shí)刻每一個(gè)用戶的訪問模式 , 網(wǎng)站根據(jù)這些模式自動(dòng)重建結(jié)構(gòu) , 如自適應(yīng)站點(diǎn)。 的 或叫 包括了所請(qǐng)求的 發(fā)出請(qǐng)求的 基于 熱點(diǎn)的 eb 來發(fā)現(xiàn)用戶訪問 通過分析和探究 可以識(shí)別電 9 子商務(wù)的潛在客戶 , 增強(qiáng)對(duì)最終用戶的因特網(wǎng)信息服務(wù)的質(zhì)量 , 并改進(jìn) 甚至建立針對(duì)個(gè)體用戶的定制 站點(diǎn)文件用戶會(huì)話文件 感興趣的規(guī)則模式規(guī)則匯總預(yù)處理 挖掘算法 模式分析原始日志圖 目前 , 根據(jù)數(shù)據(jù)挖掘的通用方法 , 結(jié)合 以將 個(gè)步驟 2,如圖 網(wǎng)站結(jié)構(gòu) 、 內(nèi)容目標(biāo)數(shù)據(jù) 經(jīng)過預(yù)處理的數(shù)據(jù) 知識(shí)表述模式 、 規(guī)則 、統(tǒng)計(jì)結(jié)果預(yù)處理 數(shù)據(jù)挖掘 模式分析圖 ( 1)數(shù)據(jù)的取樣 : 超鏈接數(shù)據(jù)和記錄用戶訪問情況的 按照主題相關(guān)的原則 , 數(shù)據(jù)取樣從大量數(shù)據(jù)中取出一個(gè)與探索目標(biāo)相關(guān)的數(shù)據(jù)子集 , 為后面的數(shù)據(jù)挖掘提供素材和資源 。 ( 2) 數(shù)據(jù)的預(yù)處理 : 數(shù)據(jù)的預(yù)處理是對(duì)數(shù)據(jù)源進(jìn)行加工處理和組織重構(gòu) , 構(gòu)建相關(guān)主題的數(shù)據(jù)倉庫 , 為下一步的數(shù)據(jù)挖掘過程提供基礎(chǔ)平臺(tái) , 做好前期準(zhǔn)備 。 它主要包括 : 數(shù)據(jù)清理 , 數(shù)據(jù)集成 , 數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)簡約 。 ( 3)數(shù)據(jù)的挖掘 : 這是數(shù)據(jù)挖掘系統(tǒng)的核心部分 。 它的主要功能是運(yùn)用各種數(shù)據(jù)挖掘技術(shù) , 從經(jīng)過預(yù)處理的數(shù)據(jù)中提取出潛在的、有效的且能被人理解的知識(shí)模式 。 10 數(shù)據(jù)挖掘的目標(biāo)是描述和預(yù)測 , 描述型模式是對(duì)數(shù)據(jù)中存在的規(guī)則作一種描述 , 或者根據(jù)數(shù)據(jù)的相似性把數(shù)據(jù)分組 ; 而預(yù)測則是指根據(jù)屬性的現(xiàn)有數(shù)據(jù)值找出其規(guī)律性 ,進(jìn)而推測出其在未來可能出現(xiàn)的 屬性值 。 ( 4)分析與評(píng)估 : 數(shù)據(jù)挖掘所得到的知識(shí)模式需進(jìn)行可信度和有效性分析 , 并對(duì)其做出評(píng)估結(jié)論 , 為用戶的經(jīng)營決策提供信息支持 。 如何檢驗(yàn)得到的分析結(jié)果是否有用 , 一個(gè)簡單的辦法是直接使用原來建立模型的樣板數(shù)據(jù)進(jìn)行檢驗(yàn) ; 另一種辦法是另外找一些反映客觀實(shí)際的規(guī)律性數(shù)據(jù)來檢驗(yàn) ; 再一種辦法是在實(shí)際運(yùn)行的環(huán)境中取出新數(shù)據(jù)進(jìn)行檢驗(yàn) 。 ( 5)知識(shí)表述 : 知識(shí)表述是指用適當(dāng)?shù)男问綄⒗脭?shù)據(jù)挖掘工具從 以利于用戶接受和相互交流 。 數(shù)據(jù)挖掘的任務(wù)是多方面的 , 主要包括 : 總結(jié) ( 規(guī)則挖掘、關(guān)聯(lián) ( 規(guī)則挖掘、分類 ( 規(guī)則挖掘、聚類 ( 規(guī)則挖掘、預(yù)測 ( 分析、趨勢 ( 分析、偏差 ( 分析等 。 ( 1)特征抽取 : 通過對(duì)數(shù)據(jù)源的分析 , 提取出關(guān)于該數(shù)據(jù)集的一些總體特征表達(dá)式 。 ( 2)關(guān)聯(lián)分析 : 找出相互獨(dú)立的不同事物之間的關(guān)聯(lián)規(guī)則,經(jīng)過關(guān)聯(lián)分析處理 ,得到結(jié)論 。 ( 3)屬性分類 : 利用分類器 , 能夠把數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)映射到某個(gè)分類 。 例如 :可建立一 個(gè)分類模型 , 對(duì)銀行貸款的安全或風(fēng)險(xiǎn)進(jìn)行分類 。 ( 4)聚類分析 : 在沒有給定主題類別的情況下 , 通過對(duì)數(shù)據(jù)集的分析和比較 ,把數(shù)據(jù)劃分到不同的組中 , 組之間的差別盡可能小 。 ( 5)時(shí)序預(yù)測 : 時(shí)序預(yù)測和關(guān)聯(lián)分析相仿 , 是把數(shù)據(jù)之間的關(guān)聯(lián)性與時(shí)間聯(lián)系起來 。 為得到時(shí)序預(yù)測 , 不僅需要知道事件是否發(fā)生 , 而且需要確定事件發(fā)生的時(shí)間。例如 : 情人節(jié)前巧克力和鮮花的銷量會(huì)突然上升 。 在實(shí)際應(yīng)用中 , 數(shù)據(jù)挖掘必須借助一定的工具,這些工具主要包括代理、查詢報(bào)表、統(tǒng)計(jì)分析、數(shù)據(jù)發(fā)現(xiàn) (神經(jīng)網(wǎng)絡(luò) / 決策樹模型分析 ) 以及 維分析 )和可視化表現(xiàn)等 4。 們往往將 1 信息挖掘與 的信息推薦等同起來,但實(shí)際上它們之間是有區(qū)別的 9,10,主要體現(xiàn)在: ( 1) 的信息推薦主要是通過查詢串來進(jìn)行推薦,而 息挖掘則能對(duì)用戶給的復(fù)雜目標(biāo)進(jìn)行特征抽取,然后根據(jù)所提取的特征在網(wǎng)絡(luò)中進(jìn)行搜尋。 ( 2)所有的 息挖掘基本上都要用到信息推薦技術(shù),而并非所有的 規(guī)律,而 決策使用。由于 結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)、開放動(dòng)態(tài)的數(shù)據(jù)存取等特點(diǎn),使得 須對(duì)挖掘?qū)ο筮M(jìn)行適當(dāng)處理,以獲得被挖掘?qū)ο蟮挠嘘P(guān)特征信息。 此如何對(duì) 處理而得到關(guān)于文檔的特征表示,便成為 前各種信息檢索工具的研制是 絡(luò)信息檢索工具的核心是其 檢索功能。檢索功能已經(jīng)從基本的布爾檢索、截詞檢索、鄰近檢索、短語檢索、字段檢索發(fā)展為高級(jí)的加權(quán)檢索、自然語言檢索、相關(guān)信息反饋檢索、模糊檢索和概念檢索,其中的大多數(shù)檢索都與數(shù)據(jù)挖掘的算法相關(guān)。其逼近能力的研究與實(shí)現(xiàn)體現(xiàn)了數(shù)據(jù)挖掘結(jié)果的質(zhì)量,要實(shí)現(xiàn)多路數(shù)據(jù)的數(shù)據(jù)挖掘,開發(fā)具有較高挖掘質(zhì)量的檢索工具,必須探索一些知識(shí)信息處理的方法。目前,支撐矢量機(jī)、粗集、進(jìn)化算法的研究方興未艾,某些技術(shù)已經(jīng)成功地運(yùn)用到 幾個(gè)重要的研究方向 挖掘 源 有關(guān)某個(gè)主題的信息雜亂地散布在 樣就需要有一個(gè)強(qiáng)大的推薦引擎 , 定位超文本的位置。現(xiàn)有的 返回的文檔過于龐大 , 所包含的內(nèi)容質(zhì)量卻不高。而且由于很多與話題相關(guān)的文檔可能不包含相應(yīng)的查詢串 , 導(dǎo)致結(jié)果很可能也不全面 , 對(duì)文檔進(jìn)行先擴(kuò)大后縮小的方法來推薦 7。 權(quán)威頁面的識(shí)別 而且還包含了一個(gè)頁面指向另一個(gè)頁面的超鏈接。超鏈接 12 包含了大量人類潛在 的注釋 , 權(quán)威性就隱藏在這些超鏈接中。當(dāng)一個(gè) 可看作是作者對(duì)另一頁面的認(rèn)可。把一個(gè)頁面來自不同作者的注釋收集起來 , 就可以用來反映該頁面的重要性 , 即用于權(quán)威的 樣可以進(jìn)行頁面等級(jí)的劃分,事實(shí)上 , ( 1)每一個(gè)超鏈接都代表一個(gè)認(rèn)可 , 例如廣告 ; ( 2)由于商業(yè)或競爭的考慮 , 很少有 也就是說顯著權(quán)威 權(quán)威頁面很少具有特別描述之類的自描述信息,這就需要使用 一個(gè) 它提供了指向權(quán)威頁面的鏈接集合。 或者說可能沒有幾個(gè)鏈接指向它們 , 但是 , 類頁面可以是主頁上的推薦鏈接列表。 好的 種 可用于權(quán)威頁面的挖掘和高質(zhì)量法 op 是利用于 些系統(tǒng)由于納入 查詢效果明顯優(yōu)于基于詞類索引引擎產(chǎn)生的結(jié)果。 息過濾系統(tǒng) 它從站點(diǎn)中利用內(nèi)容和結(jié)構(gòu)信息挖掘算法。預(yù)處理算法包括識(shí)別用戶、服務(wù)器會(huì)話和推斷緩存網(wǎng)頁。除了創(chuàng)造一個(gè)服務(wù)器會(huì)話文件 , 把服務(wù)器會(huì)話轉(zhuǎn)換為事件。對(duì)服務(wù)器會(huì)話或事件文件可以進(jìn)行序列模式分析、關(guān)聯(lián)規(guī)則發(fā)現(xiàn) 、 聚類等 ,其結(jié)果通過簡 單的知識(shí)查詢機(jī)制、可視化工具或信息過濾器進(jìn)行分析 , 形成需要的模式。圖 挖掘預(yù)處理的輸入包括三個(gè)服務(wù)器日志、站點(diǎn)文件、注冊文件及遠(yuǎn)程代理日志。預(yù)處理階段利用這些輸入形成用戶會(huì)話文件 , 經(jīng)過事務(wù)識(shí)別形成用于模式發(fā)現(xiàn)的事務(wù)文件。模式發(fā)現(xiàn)利用現(xiàn)有的數(shù)據(jù)挖掘方法 ( 關(guān)聯(lián)挖掘、聚類、序列模式挖掘、統(tǒng)計(jì)學(xué)方法等 ) 產(chǎn)生規(guī)則和模式 , 再經(jīng)過各種模式分析工具得出最終有效知識(shí) 7。 13 站點(diǎn)文件存取日志 、 參考日志 、 A g e n 注冊信息及遠(yuǎn)程代理S p i d e 路徑補(bǔ)充 、 會(huì)話識(shí)別 、 用戶識(shí)別網(wǎng)站拓?fù)浣Y(jié)構(gòu)用戶會(huì)話文件網(wǎng)頁分類事件識(shí)別事務(wù)文件標(biāo)準(zhǔn)統(tǒng)計(jì)信息包聚類 、 序列模式挖掘 、 關(guān)聯(lián)規(guī)則挖掘序列模式 、 用戶聚類 、 關(guān)聯(lián)規(guī)則使用記錄統(tǒng)計(jì)信息過濾知識(shí)查詢機(jī)制 O L A P / 可視化圖 構(gòu) 隨著網(wǎng)絡(luò)技術(shù)的發(fā)展及機(jī)器學(xué)習(xí)、模式識(shí)別等知識(shí)發(fā)現(xiàn)新技術(shù)的出現(xiàn),電子商務(wù)競爭已使得信息服務(wù)方式從傳統(tǒng)的“一對(duì)多”發(fā)展到“一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論