(計算機軟件與理論專業(yè)論文)基于粗糙集和模糊聚類的web使用挖掘的研究.pdf_第1頁
(計算機軟件與理論專業(yè)論文)基于粗糙集和模糊聚類的web使用挖掘的研究.pdf_第2頁
(計算機軟件與理論專業(yè)論文)基于粗糙集和模糊聚類的web使用挖掘的研究.pdf_第3頁
(計算機軟件與理論專業(yè)論文)基于粗糙集和模糊聚類的web使用挖掘的研究.pdf_第4頁
(計算機軟件與理論專業(yè)論文)基于粗糙集和模糊聚類的web使用挖掘的研究.pdf_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

(計算機軟件與理論專業(yè)論文)基于粗糙集和模糊聚類的web使用挖掘的研究.pdf.pdf 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

西南交通火學(xué)碩士學(xué)位論文第1 頁 攘要 數(shù)據(jù)挖掘魁近年來隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一種 薪靜信息技術(shù),它融合了數(shù)據(jù)庫、人工智裁以及統(tǒng)計學(xué)等多靜學(xué)辯,試圖從數(shù) 據(jù)庫中提取出先前未知、有效和實用的知識。w 如數(shù)據(jù)挖掘是傳統(tǒng)數(shù)據(jù)挖掘 技術(shù)在w 曲環(huán)境下的應(yīng)用,是從w c b 上的數(shù)據(jù)( 如w 曲日志、頁面內(nèi)容等) 孛發(fā)瓣耀戶豹溺整模式袋尋獲穩(wěn)關(guān)熬豫6 燹囂等。b 鑊臻控糕主要是瓣予 w 曲臼志數(shù)據(jù)讖行分析處理。而w 曲日志數(shù)據(jù)通常是大量的,冗余的,日志 中的頁面之間豹關(guān)系也怒模糊的,不確定的。粗糙集濺論是有效處理不精確、 不確定移含贛傣患翡軟詩算工兵,模凝聚類分輯是依攆客覆事務(wù)閥的特征、親 疏程度和相似性,通過建立模糊相似關(guān)系對客觀事務(wù)進行分類的方法。w 曲 硬用挖握可以從蹲站豹囂患數(shù)據(jù)中撼取用戶感興趣的模式,理解耀戶煎瀏贊游 趣行為,戳便滋一步改善網(wǎng)站結(jié)構(gòu),為用戶提供個性傀目睦務(wù)。所黻本文掇出的 粗糙集理論和聚類算法農(nóng)w 曲使用上的挖搦研究是具有一定的理論意義和現(xiàn) 實意義豹。 論文首先介紹了數(shù)據(jù)挖掘和w 曲數(shù)據(jù)挖掘的基本理論和方法;其次介紹 了粗糙集理論和模糊聚類算法;再結(jié)合具體w 曲日志數(shù)據(jù)提出了w 曲使用挖 搖豹方法及礅b 霞恚羧纛模鍪,并建立了蒸予模粳聚癸算法豹黌囂靂戶聚類 的一般模型。猩第五章中進一步利用上述理論對w c b 目志數(shù)據(jù)進行預(yù)處理, 并剝?nèi)惩始碚搶︻A(yù)處爨結(jié)果中的教務(wù)網(wǎng)頁藏約筒,得到在不影嘲問題分砉吁基 礎(chǔ)上靜有效頁蕊。最后冪i 糟模糊等價關(guān)系矩陣幫圖酶模糊聚類方法,在上述數(shù) 據(jù)處理的基礎(chǔ)上對其進行了進一步的分析研究。論文利用j a v a 謬言結(jié)合教務(wù) 弼數(shù)懿源實瑰了算法績爨。 關(guān)鍵詞: 數(shù)據(jù)挖掘,w e b 使用挖掘,粗糙集,模糊聚類 西南交通大學(xué)碩士學(xué)位論文第| i 頁 a b s t a e l d a t am 疊婦g i sa n e w i n f o 姍a t j o n t e d m o l o g y t h a t h a s b e e nd w c l o p e d w i t h t h e t e l 湘l o g yo f d a a 物s 0 3 贍a 靠i 蠡c j 越i n t e l 魄。n c e ,吶i 穗趣嘲昭o | d a t 硒8 s e ,a | a n d5 ;紐鮭s t i e sa n de l q l tt 蠢e st oe x t r a 穰t h e n 鰳a w me 自e e c t i v ea n dl l s e f h l 婦o w l e 姑e m 跚a b a s e w 曲黼n i n g st h e 姚d i t i 啦d a t am 濰玨gt e 幽o l o g y a 辨l 穗| i 。羲n s e d 趣w o b ,籜毯馥c a 芏l 瓤拄a c l 璐矗s 堍辨喵e 勢a 撞e 糯勰d 鑫嬲氆e r 。l 娟v cw 曲p a g e sf 如md a t a ( s u c ha sw e bl o 舀w 娟p a g ec o n t e n t ) o ne b w 西 u s a g em i n i n 馨m a 姬l yp r o c e s s c sa n da n a l y s # st h ew c bl o gd a t aw h i c h i sg e 玎e r a l l y 翻藏硅a 蠡c 麓翻嗣拇懿琢e 托l(wèi) 融至。丑s 瓣黼g 氌ew o b 羚窖e sa 糟蠡z z ya 鞋d 麟n a 遺r 0 群醇s e | st h e o f y 主sas 婦c o 臻p l l 蛙n gt o o l 婦a i 丑g 砸魄v a g l l e ,i 撇p c c i s e , 硼c e r t a i l la n di 唧搬ed a 童a ,a n df 忱z yc l u s t e 渤g 知a 1 筍i si sa na n a l y s i s m 撼o do fo b j e 譙瓶靜u 醇e s l a b 赫s 豳g & z z ya n 啦。菩蕊蒯蕊o n s 堍s 穗。毪氌e c h a r a c t e r ,d i s t a n c e 壯ds i m i l a r i t ya m o n go b j e c t s w 齜u s a g em i i l j n gc a ng e tt h e i 熟地瓣s 垂i | 曝麟把m 差兩m 磕e o go w 豉i s i 嫡,鑫贅d8 辮瑾鎊棼致d 攮e 毽塞貿(mào) sb l 卿幅e j n t e r e s tb e h 州i o r ,s oa st oi 玎翠r 鉀et h ew e b s i t c t ss 智u c t _ i l r c 翹d 胛v i d e 如d j v i d u a l s e r v i c e sf o rt h cu s e r s ,s ot h cr e s e a r c hi n t o “r o u 鐾t ls e t s 弧e o 毋a n df u z z y c l 鞋豳g 擲剃疆髓封弧a f e s o 封穗o f 氌e 。萱蠛l c 醚s i 薩瓣c a 纛囂鞠蓮羚a 囂s t i c v 磚硅e , f i r s t l y ,p r m c i p l em e o r i e sa n dm e t h o d so fd a t am i i l i w 曲d a t am i n i n 鼢 r o h 廬s e t sa 嬲z z y 鐨l l s l e r i n ga 1 9 0 芏主l 玨m 鐮e 越y(tǒng)a r ci 玨l d u c e d 髓e nm e t h o d w 酶u s a g e m 童n 主l 蟮a n d m o d e l o f w e b 軸g d 瓣a 辯e s t 跏婦醚t 躺啦a c t 戚w e b 己0 9d a 瞧。拍ep a g c h s e r 畦u 髓??縩 秘g e n e 蹦m o d e lb a s e d 健糯攏ya u s t 瞳n g 銣剃n l m 耋s 翔l 幻刪蝴a sw 疆翔鰳e 趣。羚,b a s e do 玨氆ee d u 始垃濰釀 a d m i l l i s 據(jù)a t i o 腌w e b s i t eo fo u ru 髓i v e r s i 輯t h e 兩m a lw 曲b gd a t ai sp r e t 梯a t 稚 t l l r o u 曲t h ea b o v 。t h e o r i e s a n dr e d u 砸o no f 也ew e bp a g c sa r eg 豳e d ,w l l i c h 面e s 玨 毫8 蟄娥t k 勰a y s i s 愛黼l 魏| l 攙燃# l | w 毯馥挺g 醮氌麟l 蠡軸蜀y 囂鍵玨i v a l 髓c e 撙刪xa n d 托z z yd 聃s t e 畦n g 擻e t 蜘do f 掣a p hi sa n a l 弘e d 、a l l dr 髂e a r c h i nf u t h e rd 。p t h 。1 1 l e 鋤g o 蝣t h li s 刪i z e d 血,a v ah n g u a g e k 搿轷甜畦s : d a t am i n i n g ,w 曲u s a g cm 協(xié)j l l 舀r o u g hs 毗s ,f u z z yc l u s t e r i l l g 西南交通大學(xué)碩士研究生學(xué)位論文第1 鞭 1 。緒論 , 論文的瓔究鷙景及選題意義 在i n t e r n e t 浪潮的沖靜下,人們面臨著數(shù)據(jù)爆炸的挑戰(zhàn);隨著數(shù) 據(jù)挖掘( d 8 t a 強i n i n g ,d m ) 技術(shù)的迅速發(fā)展及數(shù)據(jù)庫贊理技術(shù)麴廣泛 應(yīng)用,人們襁累盼數(shù)據(jù)越來麓多,如錯從浩赧潮海的數(shù)據(jù)中找至i 陡在酶 規(guī)律,如何廈方便地傳遞、交流、獲取有用的信息,挖掘這些激增數(shù)據(jù) 努愛恣藏懿重要菇惑已或為豢囂裹辯技領(lǐng)域磅筑載熱點。 目前,互聯(lián)網(wǎng)已經(jīng)和我們的生活密不可分,它可以說蹩一個巨大的、 分布廣泛和全球性的信息服務(wù)中心。它涉及新聞、廣告、消息信恩、金 融僖患、教育、政府、毫予甏務(wù)弱誨多其氌信爨服務(wù)。裰據(jù)畜美糗摘統(tǒng) 計,目前互聯(lián)網(wǎng)的數(shù)據(jù)以幾百兆兆字節(jié)來計算,而且增長速度很快,如 果將這些纛大的數(shù)據(jù)用一般的統(tǒng)計分櫥來處理嬲話,照然是有心無力 的。自從數(shù)箔挖掘技術(shù)成功鑣應(yīng)用于健統(tǒng)數(shù)據(jù)艨領(lǐng)域之廂,人髓辯于數(shù) 據(jù)挖掘在像互聯(lián)網(wǎng)數(shù)據(jù)這樣的一些特殊數(shù)據(jù)源的應(yīng)用也寄予了厚凝,并 顯皴了誨多藕應(yīng)豹礤突秘發(fā)矮了糖應(yīng)靜技術(shù)。 w e b 挖擒( w e bm i n i n g ) ,從廣義上解釋就題通過數(shù)據(jù)挖掘技術(shù)來分 析與網(wǎng)站相關(guān)的資料,例如:網(wǎng)站瀏胤記錄( w e bl o g ) 、闞頁內(nèi)容( w e b e o 貳e n t ) 、網(wǎng)絡(luò)羲接結(jié)穩(wěn)( 霹e bs t r h e t h r e ) 等。蕤菪繇b 技術(shù)瓣發(fā)震, 備種網(wǎng)站數(shù)量每天都在激劇增加,特別是將w e b 轉(zhuǎn)化為必鍵發(fā)展工具的 信息網(wǎng)站( 電子商務(wù)網(wǎng)站) ,采用各秘手段使網(wǎng)站更加具有生命力成為 每個經(jīng)營謄豹首要工作。因戴及辯了解用戶的需求幫特點,為每個用戶 提供個性化、智能他的服務(wù),以吸引大量的用戶,就變得尤其重要。其 中耀站瀏焚記錄,記錄了傻髑者每次誘閹網(wǎng)站豹一些資料,它最熊愛殃 使用者對嗣站的瀏覽需求。所以以數(shù)掭挖掘技術(shù)來分析閼站瀏覽記錄, 已成為解決上述問題的主要工具之一。 翔謗瓢數(shù)疆億謗熬夏囂串發(fā)現(xiàn)震鼗豹內(nèi)容,翅 莓合褒蠢效豹綴綾題 站的拓?fù)浣Y(jié)構(gòu),如何將用戶網(wǎng)頁進行聚類,以提供個性化服務(wù)成了人們 迫切希望解決的問題,尤其越對于電子商務(wù)網(wǎng)站來說更魑如此。w e b 使 用挖掘是獲幫e b 使靨數(shù)據(jù),郄瓣頁被臻戶使鷹豹記錄文偉釋e bl o g 孛掛 取感興趣的模式的過程。分析這些數(shù)據(jù)可以幫助網(wǎng)站管理者理解用戶的 器為,褥到翔戶群體磐遍豹訪閹葶亍為橫式和用戶個傣豹謗問摸式,扶麗 西南交通大學(xué)碩士研究生學(xué)位論文箔2 頁 根據(jù)這種模式為用戶定制合適的推薦頁砸。 r o u g hs e t s ( 程糙集籬稱黼) 理論怒宙渡蘭牮滲瑾工大學(xué)豫w i a k 教授于2 0 世紀(jì)8 0 年代初提出的種研究不完整、,不確定知識和數(shù)據(jù)的 表達、學(xué)習(xí)、歸納豹理論方法。髓著知識發(fā)現(xiàn)的興起,粗糙集理論也受 到眾多研究者的重視避黼受薊研究界的,。泛注意,它為知識發(fā)現(xiàn)、數(shù)據(jù) 挖掘提供了一種新的方法和工具,能很好解決其中的數(shù)據(jù)多樣、數(shù)據(jù)冗 余、曝聲數(shù)豢耱不確定縫、丈援模數(shù)據(jù)等淘題。燕毽絞麓麓粗糙集瓣孩 心內(nèi)容之一。在處理二維表形式的信息決策表中,它可以在不影響其分 類能力的前提下進行屬性約簡,進而簡化數(shù)據(jù)表的分析處理,提高知識 發(fā)褒瓣能力幫效率。:i 琶年來,鞭糙集瑾論廣泛應(yīng)矮予數(shù)據(jù)撼攆孛,極大 地提簡了數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理能力和效率。 糊傳統(tǒng)的數(shù)據(jù)挖掘一樣,w 曲挖掘主娶包括聚類、關(guān)聯(lián)筑則分鴦吁和 序剮分析。聚類分拆已經(jīng)廣泛廢糟于市嵇分柝,適過聚類可淤獲客戶基 本數(shù)據(jù)庫中發(fā)現(xiàn)不同的客戶群,刻畫不同客戶群的特征。然麗w e b 日志 孛存在藿誨多瓣嗓砉數(shù)攥秘售患馳不完整裝,這導(dǎo)羧聚集只是一個模麟 的邊界,聚集中的對象成員沒有個精確的定義。這樣對象成員就寄可 能不只屬于一個聚類。為解決這問題,我們采用模糊理論,它主要是 疆究模糊理象、不精確穰磊象茲數(shù)學(xué)工暴。將模耬鬃理論孛豹摸凝聚癸 應(yīng)用到w e b 挖掘,分析用戶訪問w e b 的模式,將特性相同頁顧聚在一起, 為網(wǎng)蛄設(shè)計者提供一個參考的理論平臺,敬進網(wǎng)站的設(shè)計,從面更好的 吸弓 瘸戶,璜耱企監(jiān)靜競爭力。在數(shù)據(jù)預(yù)疑瑾中,對于嗓音數(shù)據(jù),我鐫 采用粗集理論來對其進行處理。 。2 國內(nèi)羚研究瑗狀 目前,國內(nèi)外有關(guān)w e b 用戶模式挖掘的研究主要集中在對用戶瀏覽 路徑滋孬挖纛瓣。 文獻 1 提出了一個基于代理的s y s k i l l w e b e r t 軟件,該軟件通過 分析用戶訪問因志預(yù)測哪些頁蕊是用戶感興趣的疑面。文獻 2 設(shè)計了 一個個性純的新聞蘩熹,結(jié)合用戶的反饋僚息提供個性訖服務(wù)。文獻3 】 提供了兩種個性化網(wǎng)站的方案機器實現(xiàn),包括了用戶定制和計算用戶興 趣度觴方法。文藏 4 】分紹豹w e b a c e 系統(tǒng),采用了分類算法慕劃分用戶 的上網(wǎng)訪問的歷史記錄信息,劃分出每一個分類代襲用戶在這方面靜一 個興趣。文獻 5 設(shè)計了一個w e b 挖掘算法,利用模糊集理論挖掘用戶 西南交通大學(xué)碩士研究生學(xué)位論文第3 頁 瀏覽模式。 w e b 霞嗣挖撼耱磅究多應(yīng)震予推薦系統(tǒng),提供個往往溺辯,動態(tài)蠢逶 應(yīng)網(wǎng)站的建造等。對于個性化定制服務(wù),目前常用的方法包括w e b 使用 記錄挖掘與合( 秘) 攆戲過濾、矩陣聚類【m 、挖搦闥接關(guān)聯(lián)規(guī)則【7 】、數(shù) 據(jù)立方體嘲、第一馬爾可夫傳輸鏈f 9 l 、a l l m t h o r d e r 赫a r k o v 輔o d e l l w 、 p r e d i c t i o nb yp a r t i a l 一m a t e h 【1 0 1 、攜念分媵【1 1 1 、i n t e r b a s e d e o a r s e n i n g 拉聰?shù)鹊取?1 3 論文的研究內(nèi)容和組織結(jié)構(gòu) 數(shù)據(jù)挖掇麓數(shù)據(jù)延疆魏一令凝黲熬熹秘慕滔領(lǐng)域,它靜 舞究囂輟楚 采用有效的算法,從大量現(xiàn)有的數(shù)據(jù)集合中發(fā)現(xiàn)并找出最初未知,假最 終可壤解的有用知識,_ 并用筒盟的方式顯示出來。w e b 使用挖掘是轷e b 數(shù)據(jù)挖搖研究的一個鶯裝方離,也是本文磷究的重點。本文的工俸主要 有以下幾個方面: ( 1 ) 在耀讀大量文獻瓣基礎(chǔ)土,分援了數(shù)據(jù)挖攘技術(shù)、 e b 控?fù)?jù)技零、 宵e b 使用挖掘技術(shù)及其應(yīng)用和研究方向。 ( 2 ) 介紹了粗糙集理論及其在數(shù)據(jù)挖掘中的應(yīng)用,粗糙集的幾個約簡 爨法。 ( 3 ) 介紹了模糊聚類概念及其幾個模糊聚類算法。 ( 4 ) 建立了w e b 日恚數(shù)據(jù)的數(shù)學(xué)模型,并提出了攔w e b 使用挖掘中如 俺避一步應(yīng)靂凝集攥論幫禳糊蒙類算法。 ( 5 ) 結(jié)合我校教務(wù)網(wǎng)臼志數(shù)據(jù),利用粗糙集理論首先進行數(shù)據(jù)預(yù)處理 懿毽,再剃熙摸嬲聚類算法對頁霞聚類。 ( 6 ) 利用j a v a 語言實現(xiàn)了數(shù)瓣預(yù)處理,并利用黼糙集國內(nèi)軟件r i d a s 和國外軟件r o s e t t a 對冗余瞰面約簡,并利用j a v a 編程實現(xiàn)了模糊 聚類羹法。 論文的結(jié)構(gòu)如下: 第二章介紹了數(shù)據(jù)挖掘、w e b 數(shù)據(jù)挖掘基本理論、方法、研究現(xiàn)狀 幫來米研究方離。第三牽介紹了糕糙集瑗論橇念及英幾個約麓算法,模 糊聚類基本概念和幾個模糊聚類算法。 第五、六、七章是本論文的熏點,也蹙本文的主要工作。提出了基 于粗祭理論和模糊聚類算法的譯e b 使用挖掘,并結(jié)合我校教務(wù)網(wǎng)的目忠 數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,媛后利用模糊聚類鋒法進行用戶頁面的聚類。 西南交通大學(xué)碩士研究生學(xué)位論文第4 頁 2 數(shù)據(jù)挖掘、w e b 數(shù)據(jù)挖掘 2 1 數(shù)據(jù)挖掘概述 近r 幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力人幅度提 高,成千上萬個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開 發(fā)等等,并且這一勢頭仍將持續(xù)發(fā)展下去。在這被稱之為信息爆炸的喇 代,信息過量兒乎成為人人需要面對的問題。如何才能不被信息的汪洋 大海所淹沒,從巾及時發(fā)現(xiàn)有用的知識,提高信息利用率呢? 面對數(shù)據(jù) 爆炸、知識貧乏的挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)( d m k i ) ) 技術(shù)應(yīng)運而生,并 得以蓬勃發(fā)展,越來越顯示出其強大的生命力。 2 1 1 數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘( d a t am n i n g ,d m ) 有多種術(shù)語口2 j ,如“知識發(fā)現(xiàn)” ( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) ,“知識抽取”( i n f o r m a t i o n e x t r a c t i o n ) ,“信息發(fā)現(xiàn)”( i n f o r m a t l o nd i s c o v e r y ) ,“智能數(shù)據(jù)分析” ( i n t e l l i g e n c ed a t aa n a l y s is ) ,“信息收獲”( 1 1 1 f o r 眥t i o n h a r v e s t i n g ) ,“數(shù)據(jù)考古”( d a t aa r c h e 0 1 0 9 y ) 等。 從技術(shù)t 定義,數(shù)據(jù)挖掘( d m ) 就是從大量的、不完全的、有噪聲的、 模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又 是潛在有用的信息和知識的過程。這個定義包括好幾層的含義:數(shù)據(jù)源 必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn) 的知識可接受、可理解、可運日;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識, 僅支持特定的發(fā)現(xiàn)問題。 從商業(yè)的角度定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主 要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他 模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。也可以描述為:按 企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏的、 未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。 數(shù)據(jù)挖掘的原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也 可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在剛絡(luò)上的 異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的:可以 是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢 優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù) 優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù) 西南交通大學(xué)碩士研究生學(xué)位論文 第5 頁 據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是 數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程 技術(shù)人員。 數(shù)據(jù)挖掘原理圖,如下圖所示: h剖 i 1 圖2 - 1 數(shù)據(jù)挖掘系統(tǒng)邏輯原理圖 2 1 2 數(shù)據(jù)挖掘的研究現(xiàn)狀 數(shù)據(jù)挖掘即從數(shù)據(jù)庫中發(fā)現(xiàn)知識( k d d ) ,最早是1 9 8 9 年8 月在美國 底特律市召開的第十一屆國際聯(lián)合人工智能學(xué)術(shù)會議上正式形成的【1 3 】。 剛開始每兩年召開一次國際k d d 學(xué)術(shù)會議,9 3 年以后每年舉行一次k d d 國際學(xué)術(shù)會議,把對數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的研究推入高潮。1 9 9 5 年在加 拿大召開了第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)會議。由于把數(shù)據(jù)庫中 的“數(shù)據(jù)”形象地比喻成礦床,“數(shù)據(jù)挖掘”一詞很快流傳開來。1 9 9 5 年以來,國外在數(shù)據(jù)挖掘方面論文非常多,已形成了熱門研究方向。還 有一些其它國際或地區(qū)性數(shù)據(jù)挖掘會議,如“知識發(fā)現(xiàn)和數(shù)據(jù)挖掘太平 洋亞洲會議”( p a k d d ) ,“數(shù)據(jù)庫中知識發(fā)現(xiàn)原理與實踐歐洲會議” ( p k d d ) ,“數(shù)據(jù)倉庫與知識發(fā)現(xiàn)國際會議”( d a w a k ) 等。涉及數(shù)據(jù)挖掘和 數(shù)據(jù)倉庫的研究結(jié)果已在許多數(shù)據(jù)庫國際學(xué)術(shù)會議論文集發(fā)表,包括 “a c m s i g m o d 數(shù)據(jù)管理國際會議”( s i g m o d ) ,“超大型數(shù)據(jù)庫國際會議” 西南交通大學(xué)碩士研究生學(xué)位論文第6 頁 ( v l d b ) ,“a c m s i g m o d s i g a r t 數(shù)據(jù)庫原理研討會”( p o d s ) ,“數(shù)據(jù)工程 國際會議”( i c d e ) ,“擴展數(shù)據(jù)庫技術(shù)國際會議”( e d b t ) ,“數(shù)據(jù)庫理論 國際會議”( i c d t ) ,“信息與知識管理國際會議”( c i k m ) ,“數(shù)據(jù)庫與專 家系統(tǒng)應(yīng)用國際會議”( d e x a ) ,“數(shù)據(jù)庫系統(tǒng)高級應(yīng)用國際會議” ( d a s f a a ) 等。這些國際研討會規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù) 大會,研究重點也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,注重多種發(fā)現(xiàn)策略和 技術(shù)的集成,以及多種學(xué)科之間的相互滲透。 r o b e r tg r o s s m a n 提出了數(shù)據(jù)挖掘系統(tǒng)劃分為四代的觀點。歸納成 下表可以看出四代是基于技術(shù)的劃分p ”。k d n u g g e t s 主席g r e g o r y p i a t e t s k y s h a p i r o 的觀點認(rèn)為數(shù)據(jù)挖掘軟件發(fā)展的三個階段為:獨立 的數(shù)據(jù)挖掘軟件、橫向的數(shù)據(jù)挖掘工具集、縱向的數(shù)據(jù)挖掘解決方案畔】。 數(shù)據(jù)挖掘軟件對比如下表: 表2 1 數(shù)據(jù)挖掘軟件發(fā)展對比表 特征數(shù)據(jù)挖集成分布計算數(shù)據(jù)模型軟件代表 掘算法模型 第作為一個獨支持一獨立的系單個機器向量數(shù)據(jù)s a l f o r ds y s t e m 公司 j 立的應(yīng)用 個或者 統(tǒng)的 代多個算c a r t ( h t t d :,w w w s l f 法o r d s y s t f e m s c o m ) 和數(shù)據(jù)庫、 多個算數(shù)據(jù)管理 同質(zhì)、局有些系統(tǒng)支上海復(fù)旦德門軟件公 第數(shù)據(jù)庫管理法:能夠系統(tǒng),包部區(qū)域的持對象,文 司 二 系統(tǒng)( d b m s )挖掘更括數(shù)據(jù)庫計算機群本和連續(xù)的 d b m i n e 魚! ! p ;塑! :g 代以及數(shù)據(jù)倉復(fù)雜的 和數(shù)據(jù)倉 集媒體數(shù)據(jù) b m i n e r c o m c n ) s a s 庫集成數(shù)據(jù)集庫e n t e r p r i s em i n e r ) 第 和語言模型多個算數(shù)據(jù)管理 i n t r a n c t ,e 支持半結(jié)構(gòu) s p s sc l c m c n t i n e f 以 = 系統(tǒng)集成法和語言模x t f a n e t 網(wǎng)化數(shù)據(jù)和p m m l 的格擊提供與 代型系統(tǒng)絡(luò)計算w c b 數(shù)據(jù)預(yù)言模型系統(tǒng)的接口) 第 和移動數(shù)據(jù)多個算數(shù)據(jù)管移動和各普遍存在的尚為出現(xiàn) 四 各種計算 法理、預(yù)言 種計算設(shè)計算模型 代設(shè)備的數(shù)據(jù)模型、移備 聯(lián)合動系統(tǒng) 西南交通大學(xué)碩士研究生學(xué)位論文第7 頁 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然 會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研 制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如i 刪i n t e l l i g e n ts c o r es e r v i c e 。 第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導(dǎo),p k d d 2 0 0 l 上k a r g u p t a 發(fā) 表了一篇在移動環(huán)境下挖掘決策樹的論文,k a r g u p t a 是馬里蘭巴爾的摩 州立大學(xué)( u n i v e r s i t yo fm a r y l a n db a l t i m o r ec o u n t y ) 正在研制的 c a r e 職數(shù)據(jù)挖掘項目的負(fù)責(zé)人,該項目研究期限是2 0 0 1 年4 月到2 0 0 6 年4 月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)( u b i q u i t o u s 設(shè)備) 的第四代 數(shù)據(jù)挖掘系統(tǒng)。 另外不僅如此,在i n t e r n e t 上還有不少k d d 電子出版物,其中以半 月刊k n o w l e d g ed i s c o v e r yn u g g e t s 最為權(quán)威,如要免費訂閱,只需向 h t t p :w w w k d n u g g e t s c o m s u b s c r i b e h t m l 發(fā)送一份電子郵件即可, 還可以下載各種各樣的數(shù)據(jù)挖掘工具軟件和典型的樣本數(shù)據(jù)倉庫,供 人們測試和評價。在h t t p :w w w k d n u g g e t s c o m 上還能發(fā)現(xiàn)有許多關(guān) 于數(shù)據(jù)挖掘的書和軟件,國內(nèi)數(shù)據(jù)挖掘討論組 h t t p :w w w d m g r o u p o r g c n 上也有豐富的資源。 2 2 數(shù)據(jù)挖掘的特點、方法及過程 2 2 1 數(shù)據(jù)挖掘的特點 數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)庫查詢區(qū)別表現(xiàn)在:前者是主動的、不生成 嚴(yán)格的結(jié)果集和不同層次的挖掘,而后者則是被動的、只對字段進行嚴(yán) 格的查詢。歸納起來,數(shù)據(jù)挖掘有如下特點: 1 ) 處理的數(shù)據(jù)規(guī)模十分龐大; 2 ) 由于用戶不能形成精確的查詢要求,因此需要依靠數(shù)據(jù)挖掘技術(shù) 來尋找其可能感興趣的東西; 3 ) 數(shù)據(jù)挖掘?qū)?shù)據(jù)的迅速變化做出快速響應(yīng),以提供決策支持信 息; 4 ) 數(shù)據(jù)挖掘既要發(fā)現(xiàn)潛在規(guī)則,還要管理和維護規(guī)則,隨著新數(shù)據(jù) 的不斷加入,規(guī)則需要隨著新數(shù)據(jù)更新; 5 ) 數(shù)據(jù)挖掘中規(guī)則的發(fā)現(xiàn)基于統(tǒng)計規(guī)律,發(fā)現(xiàn)的規(guī)則不必適合所有 數(shù)據(jù),而且當(dāng)達到某一闋值時,便認(rèn)為有此規(guī)則。 2 2 2 數(shù)據(jù)挖掘的方法 數(shù)據(jù)挖掘的方法可粗分為: 西南交通大學(xué)碩士研究生學(xué)位論文第8 頁 1 ) 統(tǒng)計方法 統(tǒng)計7 方法細(xì)分為:回歸分析( 多元回歸、自回歸等) 、判別分析( 貝 葉斯判別、費歇爾判別、非參數(shù)判別等) 、聚類分析( 系統(tǒng)聚類、動態(tài)聚 類等) 、探索性分析( 主元分析法、相關(guān)分析法等) 、以及模糊集、粗糙 集、支持向量機等。 2 ) 機器學(xué)習(xí)方法 機器學(xué)習(xí)可細(xì)分為:歸納學(xué)習(xí)方法( 決策樹、規(guī)則歸納等) 、基于范 例的推理c b r 、遺傳算法、貝葉斯信念網(wǎng)絡(luò)等。神經(jīng)網(wǎng)絡(luò)方法,可細(xì)分 為:前向神經(jīng)網(wǎng)絡(luò)( b p 算法等) 、自組織神經(jīng)網(wǎng)絡(luò)( 自組織特征映射、競 爭學(xué)習(xí)等) 等。 3 ) 數(shù)據(jù)庫方法 數(shù)據(jù)庫方法主要是基于可視化的多維數(shù)據(jù)分析或o l a p 方法,另外 還有面向?qū)傩缘臍w納方法。 2 2 3 數(shù)據(jù)挖掘的過程 一個數(shù)據(jù)挖掘系統(tǒng)不是多項技術(shù)的簡單組合,而是一個完整的整 體,它除了核心技術(shù)以外,還需要其他輔助技術(shù)的支持,才能完成數(shù)據(jù) 挖掘的過程,最后將分析結(jié)果呈現(xiàn)在用戶面前。數(shù)據(jù)挖掘的數(shù)據(jù)分析過 程如下: 1 ) 數(shù)據(jù)準(zhǔn)備( d a t ap r e p a r a t i o n ) 。 數(shù)據(jù)準(zhǔn)備又可分為數(shù)據(jù)集成( i n t e g r a t i o n ) 、數(shù)據(jù)選擇和預(yù)分析 ( d a t as e l e c t i o na n dp r e a n a l y s i s ) 。數(shù)據(jù)集成將從操作型環(huán)境中提 取并集成數(shù)據(jù),解決語義二義性問題,消除臟數(shù)據(jù)等。數(shù)據(jù)選擇和預(yù)分 析將負(fù)責(zé)縮小數(shù)據(jù)范圍,提高數(shù)據(jù)挖掘的質(zhì)量。 2 ) 挖掘( m i n i n g ) 數(shù)據(jù)挖掘處理器( d a t am i n i n gp r o c e s s o r ) 綜合利用前面提到的各 種數(shù)據(jù)挖掘方法分析數(shù)據(jù)。 3 ) 表述( p r e s e n t a t i o n ) 與檢驗型工具一樣,數(shù)據(jù)挖掘?qū)@取的信息以便于用戶理解和觀察 的方式反映給用戶,這時可以利用可視化工具?;诓煌瑪?shù)據(jù)集合的分 析結(jié)果除了通過可視化工具提供給用戶外還可以存儲在知識庫中,供日 后進一步分析和比較。 4 ) 評價( a s s e s s ) 如果分析人員對分析結(jié)果不滿意,可以遞歸地執(zhí)行上述三個過程, 西南交通大學(xué)碩士研究生學(xué)位論文第9 頁 直到滿意為止。評價數(shù)據(jù)挖掘工具的主要指標(biāo)有:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)訪問、 算法與建模、模型評價和解釋、用戶界面。 2 3 數(shù)據(jù)挖掘的發(fā)展及應(yīng)用 2 3 1 數(shù)據(jù)挖掘未來研究方向 數(shù)據(jù)挖掘未來研究方向:與數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)集成;與語言模型 系統(tǒng)集成;挖掘各種復(fù)雜類型的數(shù)據(jù);與應(yīng)用相結(jié)合研制和開發(fā)數(shù)據(jù)挖 掘標(biāo)準(zhǔn);支持移動環(huán)境。 2 3 2 數(shù)據(jù)挖掘的應(yīng)用 數(shù)據(jù)挖掘已廣泛的應(yīng)用于銀行金融市場、零售業(yè)、醫(yī)療業(yè)等各行業(yè)。 其應(yīng)用行業(yè)表如下: 表2 - 2 數(shù)據(jù)挖掘應(yīng)用行業(yè)表 行業(yè)數(shù)據(jù)挖掘應(yīng)用 銀行金融保險業(yè)信用評估、客戶定制化金融服務(wù)、授信利用率額度、客戶資產(chǎn)管 理、壞帳分析、道德危機分析、逆向選擇風(fēng)險分析、潛在客戶名 單分析、客戶區(qū)域分隔、交叉銷售、連續(xù)銷售、設(shè)點區(qū)域分析等 零售業(yè)即時輔助購買決鐿、會員客戶營銷、連續(xù)銷售、促銷商品組合、 庫存分析、貨品、商品排架、物流整合及配置輔助決策廣告業(yè)、 客戶反饋率提升、市場區(qū)隔、促銷商品組合等 醫(yī)療業(yè)成本分析、研究分析、預(yù)防醫(yī)學(xué)分折、院內(nèi)感染分析、臨床病因 分析等 生物技術(shù)業(yè)基因圖譜比對、基因序列分析、演化分析等 連鎖店業(yè)設(shè)點區(qū)位分析、庫存分析、成本分析等 制造業(yè) 生產(chǎn)質(zhì)量分析、原物科庫存管理、半成品( 再制品) 庫存管理、 銷售分析、成本分析、生產(chǎn)調(diào)度等 電信業(yè)系統(tǒng)最優(yōu)化、客戶區(qū)分、客戶反饋率提升、費率制定、客戶定制 化行銷等 證券投資業(yè)股票市場預(yù)測、客戶反饋率提升、客戶定制化行銷等 航空業(yè)客戶區(qū)隔、客戶反饋率提升、航段促銷組合、成本分析、客戶定 制化行銷等 教育業(yè)學(xué)生招募、市場區(qū)分、學(xué)生來源分析、建議課程順序、學(xué)習(xí)評價 度量、學(xué)生生涯規(guī)劃等 西南交通大學(xué)碩士研究生學(xué)位論文第1 0 頁 體育競技婁 隊員替換策略、戰(zhàn)術(shù)組合優(yōu)化策略等 海關(guān)部門 提高查獲率、打擊價格瞞騙行為等 科學(xué)研究 公式推導(dǎo)與發(fā)現(xiàn)、知識發(fā)現(xiàn)與信息處理、知識管理等 2 4w e b 數(shù)據(jù)挖掘 近年來,隨著i n t e r n e t 在全球范圍的迅速普及和應(yīng)用,網(wǎng)絡(luò)日益 成為人們生活、工作的重要組成部分。據(jù)估計,網(wǎng)絡(luò)已經(jīng)發(fā)展成為擁有 3 億頁面的分布式信息空間,而且這些信息仍以每4 到6 個月增長一倍 的速度增加。在這些大量、不同的各類w e b 信息數(shù)據(jù)中,蘊含著巨大潛 在價值的信息,如何快速、有效地發(fā)現(xiàn)這些信息資源已成為急待解決的 問題。 2 4 1 概述 w e b 數(shù)據(jù)挖掘是指使用數(shù)據(jù)挖掘技術(shù)從w e b 文檔及w e b 服務(wù)中自動 發(fā)現(xiàn)并提取潛在的、有用的模式或信息,其原理圖如下所示。與傳統(tǒng)的 數(shù)據(jù)挖掘相比,w e b 數(shù)據(jù)挖掘有自身的特點:挖掘?qū)ο笫呛A康?、異?gòu) 的、分布的文檔;w e b 在邏輯上是一個由文檔節(jié)點和超鏈接構(gòu)成的圖: w e b 文檔是半結(jié)構(gòu)化或無結(jié)構(gòu)的,且缺乏機器理解的語義。因此,傳統(tǒng) 數(shù)據(jù)挖掘并不能直接應(yīng)用于w e b 數(shù)據(jù)挖掘,需要對w e b 文檔進行一定的 處理。w e b 挖掘研究覆蓋了多個研究領(lǐng)域,包括國際互聯(lián)網(wǎng)、計算機語 言學(xué)、數(shù)據(jù)庫、信息獲取、統(tǒng)計學(xué)、人工智能中的機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò) 等領(lǐng)域。 圖2 2 w e b 數(shù)據(jù)挖掘原理倒 2 4 2w e b 數(shù)據(jù)挖掘的難點 由于w e b 具有開放性、動態(tài)性與異構(gòu)性等固有特點,所以如何從這 些分散的、異構(gòu)的、沒有統(tǒng)一管理的海量數(shù)據(jù)中快速準(zhǔn)確地獲取信息成 西南交通大學(xué)碩士研究生學(xué)位論文第1 1 頁 為w e b 挖掘所要解決的一個難點,也使得用于w e b 的挖掘技術(shù)不能照搬 數(shù)據(jù)庫的挖掘技術(shù)。w e b 數(shù)據(jù)挖掘的難點表現(xiàn)在如下幾個方面: ( 1 ) 數(shù)據(jù)來源分析 在對網(wǎng)站進行數(shù)據(jù)挖掘時,所需要的數(shù)據(jù)主要來自三個方面:w e b 服務(wù)器中的日志文件、w e b 服務(wù)器中的其他信息以及客戶的背景信息。 ( 2 ) 異構(gòu)數(shù)據(jù)環(huán)境 從數(shù)據(jù)庫研究的角度出發(fā),w e b 網(wǎng)站上的信息也可以看作是一個更 大、更復(fù)雜的數(shù)據(jù)庫。w e b 上的每一站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)源 都是異構(gòu)的,因而每一站點之間的信息和信息的組織不一樣,這就構(gòu)成 了一個巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。 ( 3 ) 半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu) w e b 上的數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)不同:傳統(tǒng)的數(shù)據(jù)庫都有一 定的數(shù)據(jù)模型,可以根據(jù)模型來具體描述特定的數(shù)據(jù);而w e b 上的數(shù)據(jù) 非常復(fù)雜,沒有特定的模型描述。 ( 4 ) 解決半結(jié)構(gòu)化的數(shù)據(jù)源問題 w e b 數(shù)據(jù)挖掘技術(shù)首先要解決半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù) 模型的查詢與集成問題。針對w e b 上的數(shù)據(jù)半結(jié)構(gòu)化的特點,尋找一個 半結(jié)構(gòu)化的數(shù)據(jù)模型是解決問題的關(guān)鍵所在。 2 4 3w e b 數(shù)據(jù)挖掘的分類【1 3 】 w e b 數(shù)據(jù)主要來自于三個方面:w e b 服務(wù)器中的日志文件、w e b 服務(wù) 器中的其他信息以及客戶的背景信息。歸納起來,w e b 數(shù)據(jù)有三種類型: h t m l 標(biāo)記的w e b 文檔數(shù)據(jù)、w e b 文檔內(nèi)的連接的結(jié)構(gòu)數(shù)據(jù)和用戶訪問記 錄數(shù)據(jù)如服務(wù)器的l o g 日志信息。按照對應(yīng)的數(shù)據(jù)類型,w e b 挖掘可分 為:w e b 內(nèi)容挖掘、w e b 結(jié)構(gòu)挖掘、w e b 使用挖掘( 即用戶訪問模式挖掘) ( 如 圖所示) ,而w e b 內(nèi)容挖掘和用戶訪問模式挖掘是w e b 挖掘的兩個主要 方面。 西南交通大學(xué)碩士研究生學(xué)位論文第12 頁 圖2 - 3 w c b 挖掘分類 1 、w e b 內(nèi)容挖掘 w e b 內(nèi)容挖掘是從文檔內(nèi)容或描述中抽取知識的過程。w e b 上的內(nèi) 容挖掘多為基于文本信息的挖掘和基于多媒體文檔( 包括i m a g e 、a u d i o 、 v i d e o ) 的挖掘?;谖谋拘畔⒌耐诰蚴抢脀 e b 文檔中部分標(biāo)記,如 t i t l e 、h e a d 等包含的額外信息,可以提高w e b 文本挖掘的性能。多媒 體挖掘主要是針對w e b 中音頻、視頻、圖形、圖像數(shù)據(jù)進行相應(yīng)的處理, 采用改進的數(shù)據(jù)挖掘方法發(fā)現(xiàn)蘊含在里面的潛在的、有意義的信息和模 式的過程。 許多基于數(shù)據(jù)倉庫的挖掘算法經(jīng)過相應(yīng)的改進處理就可以用于文 本的挖掘。比如數(shù)據(jù)歸納、分類、聚類、關(guān)聯(lián)規(guī)則的挖掘等。w e b 文本 的挖掘?qū)ο罂梢允墙Y(jié)構(gòu)化的、也可以是半結(jié)構(gòu)化的和非結(jié)構(gòu)化的。挖掘 的結(jié)果是對某個文本文件的概括和總結(jié),也可以是對整個文本集的分類 或聚集的結(jié)果。 w e b 上的內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)主要有:文本總結(jié)、文本聚類和關(guān)聯(lián)規(guī) 則n 4 】。 2 、w e b 結(jié)構(gòu)挖掘 w e b 結(jié)構(gòu)挖掘是對w e b 頁面之間的結(jié)構(gòu)進行挖掘,從w w w 上的組織 結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。w e b 結(jié)構(gòu)挖掘主要針對的就是頁面的超鏈 接結(jié)構(gòu),如果有較多的超鏈接指向它,那么該頁面就是重要的,發(fā)現(xiàn)的 這種知識可用來改進搜索路徑等。 挖掘w e b 結(jié)構(gòu)主要是通過對w e b 站點的結(jié)構(gòu)進行分析、變形和歸納, 將w e b 頁面進行分類,以利于信息的檢索。其目的是發(fā)現(xiàn)頁面的結(jié)構(gòu)和 w e b 結(jié)構(gòu),在此基礎(chǔ)上對頁面進行分類和聚類從而找到權(quán)威頁面。 p a g e r a n k 方法( b r i n ea n dp a g e1 9 9 8 ) 就是利用文檔之間鏈接信息來查 找相關(guān)的w e b 頁。 西南交通大學(xué)碩士研究擻紫位論文第13 魘 p 8 9 e r 鑫n k 翡蕊零懋怒是:一個燹囂毅多次孳| 曩,粼這個夏瓤綴有 可能是黧癸的;一個頁面盡管沒有被多次引用,但被一個熏要的蕊謠弓 用,該受瓣也可能最很重要的;一個頁面的重要性被均分并被傳遞到它 鼴弓l 焉懿受藤串。魏瓣予一個套邂,搜索弓l 擎蓉先羈熙褪紜瘦灝?dāng)?shù)我 到k 個頁麗,然后利用公式計算每個頁筒的重要性,然尉進行排序。 3 、焉e b 襞耀挖握 ( 1 ) 穰述 w e b 使用挖掘即w e b 使用記錄挖掘,遽過挖掘相關(guān)的w e b 日志記錄, 暴發(fā)褒溺戶鎊翹餮e b 夏囂戇模式,通過分輯囂惑記錄孛豹嫂建,弼戳識 剮用戶的忠實度、喜好、滿意度,可以發(fā)現(xiàn)潛在閣戶,增強站點的服務(wù) 競爭力。韉e b 棱舔記袋挖疆是通過挖掘w e b 囂惠記錄,米發(fā)瑗用戶訪聞 餮e b 茭瑟懿模式。逐溪夔逶過分糯蠢攆究餮曲瓣恚記錄巾翁袈霉,寒諼 別電子商務(wù)的潛在客戶,增強對最終用戶的互聯(lián)闕信息服務(wù)的質(zhì)鼴,并 竣進轷e b 殿務(wù)器鬻統(tǒng)的性能。 謹(jǐn)e b 筏耀記錄數(shù)據(jù)除了暇務(wù)器貔瞄恚記錄外還包鎊代理駐務(wù)器蠢 恚、測覽器翻志、注掰傣息、羯戶會活信息、交易信息、c o o k i e 巾豹信 感、懲戶套謁、鼠標(biāo)點鴦等一惦用戶與嬙點之闋可能的交互記錄。 ( 2 ) 并e b 酲態(tài)數(shù)據(jù)格式 目前市湎上比較流行的w e b 服務(wù)器,例如i i s ,a p a c h e 等,通常都 縑謄了瓣餮確茭蘧豹每一次游瓣豹鑫卷矮,這蹙記錄項攀鬻e b l o g 壤。 它忠實地記澩了訪問該w e b 服務(wù)器的數(shù)據(jù)流的信息。強志格式如裘所示: 表2 3 服務(wù)器網(wǎng)志格式 域( 蠡蔭d ) 接述d e s “i p 斑 ) 臼期( d a t c ) 請求頁面的時間、日期和時區(qū)( d a t e ,t i m ea d t i m ez o n eo fr e q u e s t ) 鍘【2 6 隱p 療2 0 0 3 :0 4 :4 l 蝤0 0 】 客戶端i p ( c l i o 玳i p ) 遠(yuǎn)程主桃斡l p 或者d n s 入口( f e m b t eh o s t i pa n d ,o f d n so n 拓y ) 用戶名( u s e rn a m e ) 遠(yuǎn)程翳錄的用戶名( r e m o t el o gn a m eo f l h eu s e f ) 、 字節(jié)f 蠹y | 懿) 發(fā)送輕接教靜字節(jié) b 蘿 犧打秘強 拜e d 黯df # c 癆v e 垂) 服勢器( s e r v 。r )服務(wù)器、 地址和端日( s c r v e rn a m e ,i pa d d r 。s sa n d p o n ) 清求f 鵯# e s 螃醛r l 查譎釉技節(jié)u 王i 五唾n e 躥a n ds l e n 垮 狀杰( s t a l n s )運兩繚 壬黼p 狀態(tài)標(biāo)識( h l | ps 括細(xì)sc o d ef e l u 描e d 誰磕ee l 軸n 1 ) 腿努名( s c f v i c en a m e ) 耀戶請求的服務(wù)名稱( r e q e s ta n ds e r v i c en a m 西南交通大學(xué)碩士研究生學(xué)位論文第1 4 頁 耗用時間( t i m et a k e n )完成瀏覽的時間( t i m et a k e nf o rt r a s a c t i o nt oc o m p l e t e ) 協(xié)議版本( p t o t o c 0 1傳輸用的協(xié)議版本( v er s j o n o fu s e dt r a n s f c rp r o i o c 0 1 ) 例t g e t v e r s i o n 、c h t m lh 1 t p ,1 d ” 用戶代理( u s c ra g e n t )服務(wù)提供者( s e r v i c ep f o v i d e f ) 例:m o z ( w i 9 8 ) c o o k i e s 標(biāo)識號( c o o k i e si d ) 參照頁( r e f e r r e r ) 本頁的上一頁 日志文件記錄的內(nèi)容還可以根據(jù)客戶的不同需要,來調(diào)整記錄的信 息。例如i i s 5 0 中w 3 c 擴展日志文件格式中,除了時間這些日志文件 肯定有的元素外,還有多達1 9 項可以選擇記錄的擴展屬性,比較常用 的屬性是所請求的u r i 資源,客戶端i p 地址和時間戳。在w 3 c 擴展日 志文件格式中,缺省的屬性有:時間戳,客戶端i p 地址,訪問方法, u r i 資源,協(xié)議狀態(tài)。 ( 3 ) w e b 使用挖掘分類 w e b 使用挖掘可以分為兩類:一類是將w e b 使用記錄的數(shù)據(jù)轉(zhuǎn)換并 傳遞進傳統(tǒng)的關(guān)系數(shù)據(jù)庫里,再使用數(shù)據(jù)挖掘算法對關(guān)系表中的數(shù)據(jù)進 行常規(guī)挖掘;另一類是將w e b 使用記錄的數(shù)據(jù)直接預(yù)處理再進行挖掘。 w e b 使用挖掘中的一個有趣的問題是在多個用戶使用同一個代理服務(wù)器 的環(huán)境下如何識別某個用戶,如何識別屬于該用戶的會話和使用記錄, 這個問題在很大程度上影響著挖掘質(zhì)量。 2 4 4 w e b 數(shù)據(jù)挖掘的研究方向 w e b 挖掘是把i n t e r n e t 、w w w 和數(shù)據(jù)挖掘結(jié)合起來的一種新興技 術(shù),w e b 挖掘的應(yīng)用非常廣闊,不但涉及頁面信息的提取、站點的分析和 設(shè)計,而且在蓬勃發(fā)展的基于i n t e r n e t 的電子商務(wù)方面也有很好的應(yīng)用 前景。目前,在國內(nèi)w e b 挖掘的研究仍處于起步階段,是前沿性的研究領(lǐng) 域。今后幾年w e b 挖掘研究的主要方向有【“】: 1 ) 在數(shù)據(jù)預(yù)處理方面,多種w e b 數(shù)據(jù)的收集、結(jié)構(gòu)轉(zhuǎn)換等處理技術(shù) 的研究; , 2 ) w e b 挖掘方法和模式識別技術(shù)在構(gòu)造自適應(yīng)站點以及智能站點服 務(wù)的個性化和性能優(yōu)化方面的研究; 3 ) w e b 知識庫的動態(tài)維護、更新,各種知識和模式的評價綜合方法 的研究; 4 ) 基于w e b 挖掘和信息檢索的,高效的、具有自動導(dǎo)航功能的智能 搜索引擎相關(guān)技術(shù)的研究; 兩南交通大攀碩士研究生學(xué)位論文第1 5 頁 5 ) 拳綣穩(wěn)、繚掏數(shù)文本數(shù)撂、委形鷲豫數(shù)據(jù)、多媒缽鼗據(jù)豹麓效挖 稍髀法;1 。 6 ) 研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖搠語言及其標(biāo)準(zhǔn)化; 7 ) 蓊究褰舞發(fā)纂予罾e b 瓣多豢數(shù)據(jù)俸系蘩秘幫驁麓巢藏系統(tǒng),提供 相威的查詢語言,優(yōu)化和維護機制; 8 ) 現(xiàn)毒的數(shù)攝羧援方法與技零的潑避及其內(nèi)殍曲數(shù)據(jù)豹擴鼴,挖掘 算法的適應(yīng)穗和時效髓的研究; 9 ) w e b 文檔內(nèi)的模式發(fā)現(xiàn)及其在倍息提取、文本分毒吁中的應(yīng)用研究 莓; 1 0 ) w e b 挖掘的相關(guān)技術(shù)在電子商務(wù)領(lǐng)域的應(yīng)用研究等。 2 。5 疆e b 使需挖掘 2 ,5 。1w e b 使用嬤掘的分類 若掇辮數(shù)據(jù)采源、數(shù)據(jù)菸型、數(shù)耀煞合中的月戶數(shù)鬃、數(shù)攢集合中 的服務(wù)器數(shù)量等又w 將詳e b 傻露挖藏分為五類; 個整魏搖:針辯單個靂戶的餿用讒錄對該用戶進行建模,結(jié)合該用 戶基本鑲愚分輯德黲使矮習(xí)蠼、個人潦好,曩黝楚在電予囊務(wù)環(huán)壤下為 該用戶提供與眾不閼的個饅純敝務(wù)。 系統(tǒng)改進:w e b 服務(wù)的蝕能和其他服務(wù)質(zhì)輟是衡量用戶滿意威的關(guān) 鍵稽蠢,并e b 愛渣挖撼露鼓邋過磺戶麓攘塞記激發(fā)璦繁煮漿經(jīng)戇艇頸, 以提示站點管理者改進w 曲緩存策略、網(wǎng)絡(luò)傳輸策略、流量負(fù)載平衡機 制和數(shù)掇的分布策峨。此外,可以通:i 建分析網(wǎng)絡(luò)的非法入侵?jǐn)?shù)攢找到系 綾弱點,援嵩蘩點安全鑲,試在窀予誘務(wù)環(huán)壤下蘢爻熏蘩。 站點修改:站點的結(jié)構(gòu)和內(nèi)容是吸引用戶的關(guān)鍵。w e b 用法挖掘通 過挖掘爨戶靜符必溆慕幫反饋情提為站嶷設(shè)計鬈提供改遴姣據(jù),斃魏夏 麗連接情況應(yīng)如何綴織、那縫頁蕊斑髓夠童接訪翹等。 智能商務(wù):用戶怎樣使用w e b 站點的信息覓疑是電子商務(wù)銷售商關(guān) 心瓣重點,溪戶一浚澹霹豹瘸蘩可努海凌暖虧l 、駐窶、鼴買褻離開蓮爭 步驟,w e b 使用挖瀨可以通過分析用戶點擊流等w e b 日惑信息挖掘用戶 行為戇動執(zhí),以幫助銷黌商合理安辯鍛售策略。 耳e b 符誣接述:遂j 窶分辨瘸戶對辯杰靜蔣翊倍淀,統(tǒng)詩各個瑙戶在 廈蕊上的交互情況,對用戶游悶情況進行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論