版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
目錄第一章緒論第二章搜索技術(shù)第三章知識表示第四章推理技術(shù)第五章機器學(xué)習(xí)第六章計算智能第七章數(shù)據(jù)挖掘
第八章智能體技術(shù)數(shù)據(jù)挖掘定義與發(fā)展數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘技術(shù)Web數(shù)據(jù)挖掘大數(shù)據(jù)數(shù)據(jù)挖掘定義與發(fā)展數(shù)據(jù)庫知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabases,KDD)數(shù)據(jù)挖掘(DataMiningDM)數(shù)據(jù)分析(DataAnalysis)數(shù)據(jù)融合(DataFusion)決策支持(DecisionSupporting)數(shù)據(jù)挖掘定義與發(fā)展數(shù)據(jù)挖掘的產(chǎn)生和發(fā)展
苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!
數(shù)據(jù)知識決策模式趨勢事實關(guān)系模型關(guān)聯(lián)規(guī)則序列目標(biāo)市場資金分配貿(mào)易選擇在哪兒做廣告銷售的地理位置金融經(jīng)濟政府POS.人口統(tǒng)計生命周期數(shù)據(jù)爆炸,知識貧乏數(shù)據(jù)挖掘定義與發(fā)展1989IJCAI會議:數(shù)據(jù)庫中的知識發(fā)現(xiàn)討論專題KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994KDD討論專題AdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998KDD國際會議(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2002會議,以及SIGKDDExplorations數(shù)據(jù)挖掘方面更多的國際會議PAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.數(shù)據(jù)挖掘定義與發(fā)展知識發(fā)現(xiàn)的定義
Fayyad,Piatetsky-Shapiro和Smyth在KDD96國際會議的會議論文《FromDataMiningtoKnowledgeDiscovery》一文中將KDD定義為:“Thenontrivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstandablepatternsindata.”KDD指大量數(shù)據(jù)中獲取有效的、新穎的、有潛在作用的和最終可理解的模式的非平凡過程。
數(shù)據(jù)挖掘定義與發(fā)展(1)數(shù)據(jù)集:是指一個有關(guān)事實F的集合,它是用來描述事物有關(guān)方面的信息,是進一步發(fā)現(xiàn)知識的原材料。數(shù)據(jù)可以是一個或一組數(shù)據(jù)庫、數(shù)據(jù)倉庫、電子表格或其他類型的信息庫,在數(shù)據(jù)上往往需要進行數(shù)據(jù)清理、集成和規(guī)約等預(yù)處理。(2)新穎:經(jīng)過知識發(fā)現(xiàn)提取出的模式必須是新穎的,至少對系統(tǒng)來說應(yīng)該如此。模式是否新穎可以通過兩個途徑來衡量:其一是在所得到的數(shù)據(jù)方面,通過對比當(dāng)前得到的數(shù)據(jù)和以前的數(shù)據(jù)或期望得到的數(shù)據(jù)之間的比較,來判斷該模式的新穎程度;其二是在其內(nèi)部所包含的知識方面,通過對比,發(fā)現(xiàn)的模式與已有的模式的關(guān)系來進行判斷。數(shù)據(jù)挖掘定義與發(fā)展
(3)潛在有用:提取出的模式應(yīng)該是有意義的,有潛在的應(yīng)用價值。這可以通過某些函數(shù)的值來衡量。(4)可理解:知識發(fā)現(xiàn)的一個目標(biāo)就是將數(shù)據(jù)庫中隱含的模式以容易被人理解的形式表現(xiàn)出來,從而幫助人們更好地了解數(shù)據(jù)庫中所包含的信息。(5)模式:模式是指用語言來表示的一個表達式,它可用來描述數(shù)據(jù)集的特性,根據(jù)某種興趣度度量,并于數(shù)據(jù)挖掘模塊中進行交互挖掘,以便識別和表示知識的真正有趣的模式。
數(shù)據(jù)挖掘定義與發(fā)展(6)過程:過程是在KDD中包含的步驟,如數(shù)據(jù)的預(yù)處理、模式搜索、知識表示及知識評估、過程優(yōu)化等。(7)非平凡:是對數(shù)據(jù)進行更深層處理的過程,已經(jīng)超越了一般封閉形式的數(shù)量計算,包括對結(jié)構(gòu)、模式和參數(shù)的搜索。(8)有效性:通過KDD從當(dāng)前數(shù)據(jù)所發(fā)現(xiàn)的模式必須有一定的正確程度,否則KDD就毫無作用。數(shù)據(jù)挖掘定義與發(fā)展知識發(fā)現(xiàn)的處理過程
數(shù)據(jù)挖掘定義與發(fā)展
(1)數(shù)據(jù)選擇。根據(jù)用戶的需求從數(shù)據(jù)庫中提取與KDD相關(guān)的數(shù)據(jù)。
(2)數(shù)據(jù)預(yù)處理。主要是對上述數(shù)據(jù)進行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對丟失的數(shù)據(jù)利用統(tǒng)計方法進行填補,形成發(fā)掘數(shù)據(jù)庫。
(3)數(shù)據(jù)轉(zhuǎn)換。從發(fā)掘數(shù)據(jù)庫里選擇數(shù)據(jù),即根據(jù)知識發(fā)現(xiàn)的任務(wù)對數(shù)據(jù)進行再處理,主要通過投影或數(shù)據(jù)庫中的其他操作減少數(shù)據(jù)量。
數(shù)據(jù)挖掘定義與發(fā)展
(4)數(shù)據(jù)挖掘:確定KDD目標(biāo):根據(jù)用戶要求,確定KDD發(fā)現(xiàn)的知識類型,因為對KDD的不同要求,會在具體的知識發(fā)現(xiàn)過程中采用不同的知識發(fā)現(xiàn)算法。確定知識發(fā)現(xiàn)算法:根據(jù)階段5所確定的任務(wù),選擇合適的數(shù)據(jù)挖掘算法,包括選取合適的模型和參數(shù),并使得挖掘算法與整個KDD的評判標(biāo)準(zhǔn)相一致。數(shù)據(jù)挖掘:運用選定的挖掘算法,搜索或產(chǎn)生一個特定的感興趣的模式或數(shù)據(jù)集,從數(shù)據(jù)中提取出用戶所需要的知識,這些知識可以用某種特定的方式表示或使用一些常用的表示方式,如產(chǎn)生式規(guī)則等。數(shù)據(jù)挖掘定義與發(fā)展
(5)模式解釋:對發(fā)現(xiàn)的模式進行解釋,去掉多余的不切題意的模式,轉(zhuǎn)換成某個有用的模式,以使用戶理解。在此過程中,為了取得更為有效的知識,可能會返回前面處理中的某些步驟,以便反復(fù)提取,從而提取出更有效的知識。
(6)知識評價:這一過程主要用于對所獲得的規(guī)則進行價值評定,以決定所得的規(guī)則是否存入基礎(chǔ)知識庫。上述KDD全過程的幾個步驟可以進一步歸納為三個步驟,即數(shù)據(jù)挖掘預(yù)處理(數(shù)據(jù)挖掘前的準(zhǔn)備工作)、數(shù)據(jù)挖掘、數(shù)據(jù)挖掘后處理(數(shù)據(jù)挖掘后的處理工作)。
數(shù)據(jù)挖掘定義與發(fā)展
數(shù)據(jù)挖掘軟件典型數(shù)據(jù)挖掘系統(tǒng)有:SAS公司的EnterpriseMiner、IBM公司的IntelligentMiner、SGI公司的SetMiner、SPSS公司的Clementine、Sybase公司的WarehouseStudio、RuleQuestResearch公司的See5、還有CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest、MicrosoftSQLServer2005等。數(shù)據(jù)挖掘的方法
1.統(tǒng)計方法統(tǒng)計方法是從事物的外在數(shù)量上的表現(xiàn)去推斷該事物可能的規(guī)律性。
(1)傳統(tǒng)方法
漸近理論:當(dāng)樣本趨于無窮多時的統(tǒng)計性質(zhì)
三個階段:搜集數(shù)據(jù)、分析數(shù)據(jù)、推理常用方法:
回歸分析(多元分析、自回歸)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別)、聚類分析(系統(tǒng)聚類、動態(tài)聚類)、探索性分析(主元分析法、相關(guān)分析法)數(shù)據(jù)挖掘的方法(2)模糊集
開發(fā)數(shù)據(jù)的不確定性模型
(3)支持向量機
支持向量機(supportvectormachine,SVM)建立在統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險最小化原則之上,其主要思想是針對兩類分類問題,在高維空間中尋找一個超平面作為兩類的分割,以保證最小的分類錯誤。
數(shù)據(jù)挖掘的方法
(3)支持向量機
不同的分類超平面
最優(yōu)分類超平面及其間隔
線性不可分數(shù)據(jù)挖掘的方法(4)粗糙集
粗糙集合理論(RoughSet,也稱為RS理論)由波蘭數(shù)學(xué)家Pawlak.Z于1982年提出。粗糙集對不精確概念的描述是通過上近似(upperapproximation)和下近似(lowerapproximation)這兩個精確概念來實現(xiàn)的。一個概念(或集合)的下近似是指其中的元組肯定屬于該概念;一個概念(或集合)的上近似是指其中的元組可能屬于該概念。粗糙集方法優(yōu)點:不需要預(yù)先知道的額外信息,如統(tǒng)計中要求的先驗概率和模糊集中要求的隸屬度,算法簡單,易于操作。數(shù)據(jù)挖掘的方法
集合的上、下近似概念示意X數(shù)據(jù)挖掘的方法
2.機器學(xué)習(xí)方法
可能用于機器發(fā)現(xiàn)的機器學(xué)習(xí)方法有:(1)規(guī)則歸納。規(guī)則反映數(shù)據(jù)項中某些屬性或數(shù)據(jù)集中某些數(shù)據(jù)項之間的統(tǒng)計相關(guān)性。(2)決策樹。決策樹的每一個非終葉節(jié)點表示所考慮的數(shù)據(jù)項的測試或決策。(3)范例推理。范例推理是直接使用過去的經(jīng)驗或解法來求解給定的問題。數(shù)據(jù)挖掘的方法(4)
貝葉斯網(wǎng)絡(luò)。貝葉斯信念網(wǎng)絡(luò)是概率分布的圖表示。貝葉斯網(wǎng)絡(luò)基于后驗概念的貝葉斯定理,是建立在數(shù)據(jù)進行統(tǒng)計處理基礎(chǔ)上的方法,將不確定事件通過網(wǎng)絡(luò)連接起來,可以對其他相關(guān)事件的結(jié)果進行預(yù)測,其網(wǎng)絡(luò)變量可以是可見的,也可隱藏在訓(xùn)練樣本中。貝葉斯網(wǎng)絡(luò)具有分類、聚類、預(yù)測和因果關(guān)系分析的功能,其優(yōu)點是易于理解,預(yù)測效果較好,缺點是對發(fā)生頻率很低的事件預(yù)測效果不好。
數(shù)據(jù)挖掘的方法
(5)遺傳算法。在求解過程中,通過最好解的選擇和彼此組合,使期望解的集合愈來愈好。
3.神經(jīng)計算方法4.可視化方法可視化(visualization)就是把數(shù)據(jù)、信息和知識轉(zhuǎn)化為可視的表示形式的過程。數(shù)據(jù)挖掘技術(shù)
按數(shù)據(jù)挖掘任務(wù)分類描述(Description):了解數(shù)據(jù)中潛在的規(guī)律預(yù)言(Predication):用歷史預(yù)測未來
數(shù)據(jù)挖掘技術(shù)概念/類描述關(guān)聯(lián)規(guī)則分析分類(預(yù)言)聚類序列模式異常檢測數(shù)據(jù)挖掘技術(shù)1.概念/類描述(ConceptDescription)
特征化和區(qū)分(CharacterizationandComparision)
概念或類別描述使用匯總的、簡潔的、精確的方式描述每個類和概念,可通過前面的方法得到:
(1)數(shù)據(jù)特征化,一般地匯總所研究類的數(shù)據(jù);
(2)數(shù)據(jù)區(qū)分,將目標(biāo)類與一個或多個比較類進行比較;
(3)數(shù)據(jù)特征化和比較,兩者的結(jié)合。數(shù)據(jù)特征的輸出可以用多種形式輸出,包括扇形圖、條圖、曲線、多位數(shù)據(jù)立方體和交叉表在內(nèi)的多維表。結(jié)果描述也可以用概括關(guān)系或關(guān)聯(lián)規(guī)則形式來表示。數(shù)據(jù)挖掘技術(shù)2.關(guān)聯(lián)分析(AssociationRules)
關(guān)聯(lián)規(guī)則分析就是發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)構(gòu)。規(guī)則形式:
Body?Head[support,confidence]例:buys(x,“diapers”)?buys(x,“beers”)[0.5%,60%]major(x,“CS”)^takes(x,“DB”)?grade(x,“A”)[1%,75%]數(shù)據(jù)挖掘技術(shù)支持度s,一次交易中包含{A,B}的可能性
Support(AB)=P(AB);
可信度
c,包含{A}的交易中也包含B的條件概率
Confidence(AB)=P(B|A)同時滿足大于等于最小支持度閾值(min_support)和最小可信度(min_confidence)的規(guī)則稱作強規(guī)則。滿足大于等于最小支持度(min_support),稱項目集XI是頻繁項目集(FrequentItemset)。數(shù)據(jù)挖掘技術(shù)
對于A
C:support=support({A
、C})=50%confidence=support({A
、C})/support({A})=66.6%最小支持度50%最小可信度50%數(shù)據(jù)挖掘技術(shù)
Apriori算法
基本思想:頻繁項集的任何子集也一定是頻繁的。算法的核心:用頻繁的(k–1)-項集生成候選的頻繁k-項集用數(shù)據(jù)庫掃描和模式匹配計算候選集的支持度算法瓶頸:候選集生成巨大的候選集:多次掃描數(shù)據(jù)庫:數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)庫D掃描DC1L1L2C2C2掃描DC3L3掃描D數(shù)據(jù)挖掘技術(shù)3.分類(Classification)分類是找出描述并區(qū)分數(shù)據(jù)類或概念的分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個,以便能使用模型預(yù)測類標(biāo)記未知的對象類。
常用的分類方法:(1)
信息論方法
ID3方法決策樹方法利用信息論中信息增益尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個節(jié)點,并根據(jù)字段的不同取值建立樹的分枝,在每個分枝子集中重復(fù)建樹的下層節(jié)點。數(shù)據(jù)挖掘技術(shù)
(2)
集合論方法粗集方法、概念格方法
(3)
人工神經(jīng)網(wǎng)絡(luò)方法①前饋網(wǎng)絡(luò):含感知機.反向傳輸模型.函數(shù)式網(wǎng)絡(luò)。②反饋式網(wǎng)絡(luò):用于聯(lián)想記憶和優(yōu)化計算。③自組織網(wǎng)絡(luò):用于聚類。
(4)遺傳算法:模擬生物進化過程的方法。
(5)統(tǒng)計分析方法:貝葉斯網(wǎng),線性回歸分析,線性判別分析,聚類分析,差異分析,因子分析等。數(shù)據(jù)挖掘技術(shù)4.聚類(Clustering)
聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類是一種無監(jiān)督分類法,沒有預(yù)先指定的類。X值聚類示例數(shù)據(jù)挖掘技術(shù)
與分類的區(qū)別:分類依賴于預(yù)先定義的類和帶類標(biāo)號的訓(xùn)練實例,是一種觀察式的學(xué)習(xí);而聚類是找到這個簇的特征或者標(biāo)號的過程。一個有效的聚類算法必須滿足兩個條件:類內(nèi)數(shù)據(jù)對象的強相似性,通常用緊致度描述;類間數(shù)據(jù)對象的弱相似性,常采用分離度描述。數(shù)據(jù)挖掘技術(shù)
聚類算法的分類
聚類分析算法取決于數(shù)據(jù)的類型、聚類的目的和應(yīng)用。(1)基于劃分方法
給定一個包含n個對象的數(shù)據(jù)集和要構(gòu)建的劃分數(shù)目k,劃分方法首先創(chuàng)建一個初始劃分,然后采用一種迭代的重定位技術(shù),嘗試通過對象在劃分間的移動來改進劃分
(2)基于層次方法
層次聚類是將數(shù)據(jù)集分解成幾級進行聚類,層的分解可以用樹形圖來表示以任一樣本數(shù)據(jù)挖掘技術(shù)
(3)基于密度的方法點為基礎(chǔ),當(dāng)該點的給定鄰域內(nèi)包含的數(shù)據(jù)點個數(shù)超過某一給定閾值時,就以其鄰域中的數(shù)據(jù)點為基礎(chǔ)繼續(xù)進行廣度或深度探索,擴展簇的大小。(4)基于網(wǎng)格的方法基于網(wǎng)格的聚類算法的特點是采用一個多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu),從而在該網(wǎng)格結(jié)構(gòu)上進行聚類。(5)基于模型的方法基于模型的方法為每個類假定了一個模型,并試圖尋找數(shù)據(jù)對給定模型的最佳擬合。數(shù)據(jù)挖掘技術(shù)
K-means算法(1)從D中隨機取k個元素,作為k個簇的各自的中心。(2)分別計算剩下的元素到k個簇中心的相似度,將這些元素分別劃歸到相似度最高的簇。
(3)根據(jù)聚類結(jié)果,重新計算k個簇各自的中心。(4)將D中全部元素按照新的中心重新聚類。(5)重復(fù)第4步,直到聚類結(jié)果不再變化。(6)將結(jié)果輸出。數(shù)據(jù)挖掘技術(shù)
例:現(xiàn)有一個數(shù)據(jù)集{1,2,30,15,10,18,3,9,8,25},用K-means算法將這些數(shù)據(jù)聚類。
解:設(shè)k=3,即將數(shù)據(jù)集聚成3類。隨機選取3個數(shù)作為初始簇均值:m1=9,m2=8,m3=25,開始迭代。相似度度量采用的距離值為兩個數(shù)的差的絕對值。第一次迭代得到3個簇是
K1={1,2,3,8},k2={9,10,15}
,k3={18,25,30}
重新計算每個簇的均值,則均值更新為m1=3.5,m2=11.3,m3=24.3第二次迭代得到3個簇
K1={1,2,3},k2={8,9,10,15},k3={18,25,30}新的均值為m1=3.5,m2=11.3,m3=24.3數(shù)據(jù)挖掘技術(shù)
第三次迭代得到3個簇是
K1={1,2,3},k2={8,9,10,15,18}
,k3={25,30}新的均值為m1=2,m2=12,m3=27.5第四次迭代得到3個簇
K1={1,2,3},k2={8,9,10,15,18}
,k3={25,30}每個簇的數(shù)據(jù)不再變化,達到穩(wěn)定,算法終止。數(shù)據(jù)挖掘技術(shù)
相似性度量(1)歐幾里德距離(EuclideanDistance)(2)曼哈頓距離(ManhattanDistance)數(shù)據(jù)挖掘技術(shù)(3)明考斯基距離(MinkowskiDistance)(4)夾角余弦距Ig(CosineDistance)數(shù)據(jù)挖掘技術(shù)5.序列(Sequence)模式序列模式是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。時間序列模式根據(jù)數(shù)據(jù)隨時間變化的趨勢預(yù)測將來的值。這里要考慮到時間的特殊性質(zhì),像一些周期性的時間定義如星期、月、季節(jié)、年等,以及不同的日子如節(jié)假日可能造成的影響,日期本身的計算方法,還有一些需要特殊考慮的地方如時間前后的相關(guān)性(過去的事情對將來有多大的影響力)等。數(shù)據(jù)挖掘技術(shù)例:顧客租借影碟的一個典型的順序是先租“星球大戰(zhàn)”,然后是“帝國反擊戰(zhàn)”,再是“杰達武士歸來”(這三部影片是以故事發(fā)生的時間先后而情節(jié)連續(xù)的)。值得注意的是租借這三部電影的行為并不一定需要是連續(xù)的。在任意兩部之間插租了任何電影,仍然滿足這個序列模式,并且擴展一下,序列模式的元素也可以不只是一個物品(如一部電影),它也可以是一個物品的集合。數(shù)據(jù)挖掘技術(shù)6.異常(Outlier)檢測異常檢測是用來發(fā)現(xiàn)”小的模式”(相對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。
常用方法:基于統(tǒng)計(statistical-based)的方法基于距離(distance-based)的方法基于偏差(deviation-based)的方法基于密度(density-based)的方法6.8知識發(fā)現(xiàn)6.8.7Web數(shù)據(jù)挖掘
1.Web數(shù)據(jù)挖掘定義
網(wǎng)絡(luò)數(shù)據(jù)資源種類:第一類是內(nèi)容(Content),即網(wǎng)頁上的真正數(shù)據(jù);第二類是結(jié)構(gòu)(Structure),即描述內(nèi)容組織的數(shù)據(jù);結(jié)構(gòu)信息包括各種HTML或XML標(biāo)記及其出現(xiàn)的序列等,其中最主要的結(jié)構(gòu)信息是網(wǎng)頁之間的超鏈接;第三類是使用(Usage),是網(wǎng)頁被人瀏覽的記錄,如IP地址、訪問時間等,這些信息可以從Web服務(wù)器的日志文件獲得。第四類是用戶資料(UserProfile),是某個網(wǎng)站中記錄的用戶資料。
Web數(shù)據(jù)挖掘1.Web數(shù)據(jù)挖掘定義
定義:
Web挖掘是對Web文檔的內(nèi)容、Web上可利用資源的使用情況以及資源之間的關(guān)系進行分析,從中發(fā)現(xiàn)有效的、新穎的、潛在有用的、并且最終可理解的模式。
Web數(shù)據(jù)挖掘2.Web數(shù)據(jù)挖掘流程查找資源、信息選擇及預(yù)處理、模式發(fā)現(xiàn)、模式分析。
查找資源從各種Web數(shù)據(jù)源中得到數(shù)據(jù),數(shù)據(jù)可以來自于Web文檔、電子郵件、新聞組或Web日志等;
信息選擇及預(yù)處理從查找得來的資源中除去無用信息,保留有用信息,并將信息進行必要的整理;
模式發(fā)現(xiàn)在一個站點內(nèi)部或在多個站點間自動進行模式發(fā)現(xiàn);
模式分析驗證、解釋所發(fā)現(xiàn)的模式,它可以通過與分析人員進行交互或者由機器自動完成。
Web數(shù)據(jù)挖掘3.Web數(shù)據(jù)挖掘分類
Web挖掘Web內(nèi)容挖掘Web結(jié)構(gòu)挖掘Web使用挖掘文本挖掘多媒體挖掘超鏈接挖掘結(jié)構(gòu)挖掘訪問日志挖掘Web數(shù)據(jù)挖掘
Web內(nèi)容挖掘從Web文檔內(nèi)容或其描述中發(fā)現(xiàn)有用信息的過程。常用的Web內(nèi)容挖掘方法:(1)改進的WWW的搜索引擎,包括WebCrawler,Lycos;(2)數(shù)據(jù)庫方法:把半結(jié)構(gòu)化的Web信息重構(gòu),使得Web信息更結(jié)構(gòu)化,然后就可以使用標(biāo)準(zhǔn)化的數(shù)據(jù)庫查詢機制和數(shù)據(jù)挖掘方法進行分析;(3)對頁面中的文本進行特征描述,特征描述的模型有很多種,向量空間模型(VSM),布爾邏輯模型,概率模型等等。繼而對特征向量進行挖掘,對頁面中的多媒體信息進行多媒體信息挖掘,具體方法有頁面內(nèi)容摘要、分類、聚類以及關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等。Web數(shù)據(jù)挖掘
Web結(jié)構(gòu)挖掘從web結(jié)構(gòu)中發(fā)現(xiàn)潛在鏈接模式的過程。由于文檔之間存在著超鏈接,WWW可以通過這種超鏈接揭示出文檔內(nèi)容之外的一些有價值的信息。例如指向一個頁面的超鏈接數(shù)目就表明了該文檔受歡迎的程度,而其包含的超鏈接數(shù)目就表明該文檔主題的豐富程度。結(jié)構(gòu)挖掘的功能是通過分析一個Web頁面鏈接和被鏈接數(shù)量以及鏈接對象的重要性來建立Web的鏈接結(jié)構(gòu)模式,并為戶提供與請求相關(guān)度較大的Web頁面,提高搜索引擎的精度和查全率。主要有PageRank和Hub/Authority兩種算法。Web數(shù)據(jù)挖掘
Web使用挖掘通過對用戶在訪問WWW服務(wù)器時留下的訪問記錄進行挖掘,從而獲得有關(guān)用戶的訪問模式。服務(wù)器日志包括訪問日志、引用日志和代理日志。
訪問日志記錄了用戶的標(biāo)識、訪問時間、方法、請求的頁面、協(xié)議、服務(wù)器狀態(tài)及傳輸字節(jié)數(shù)等;
引用日志記錄的是被請求頁面的存放位置;
代理日志記錄了用戶使用的瀏覽器和操作系統(tǒng)的類型。根據(jù)三者的內(nèi)在關(guān)系,可以將它們拼接成完整的日志紀(jì)錄并以關(guān)系表形式保存在數(shù)據(jù)庫中。Web數(shù)據(jù)挖掘這些信息中隱含著用戶對特定內(nèi)容的需要。Web使用記錄挖掘是通過處理服務(wù)器日志文件,以發(fā)現(xiàn)用戶的瀏覽模式,如序列模式、關(guān)聯(lián)規(guī)則、用戶聚類和頁面聚類等,理解用戶的行為,從而實現(xiàn):(1)尋找用戶的興趣,進行網(wǎng)頁預(yù)測推薦,為用戶提供個性化服務(wù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 44937.5-2025集成電路電磁發(fā)射測量第5部分:傳導(dǎo)發(fā)射測量工作臺法拉第籠法
- 中學(xué)學(xué)生社團活動經(jīng)費使用效益制度
- 企業(yè)內(nèi)部保密工作流程制度
- 公共交通車輛安全技術(shù)檢測制度
- 2026年人工智能算法深度學(xué)習(xí)應(yīng)用場景題集
- 2026年工程計價與造價分析一級建造師專業(yè)試題
- 2026年工程項目管理知識與技能考核試題庫
- 2026年英語四六級聽力與閱讀預(yù)測模擬題
- 2026年編程馬拉松軟件工程與設(shè)計能力實踐試題庫
- 2025年西點展示柜溫度監(jiān)控合同
- 2025年下屬輔導(dǎo)技巧課件2025年
- 企業(yè)法治建設(shè)培訓(xùn)課件
- (一模)鄭州市2026年高中畢業(yè)年級(高三)第一次質(zhì)量預(yù)測數(shù)學(xué)試卷(含答案及解析)
- 2026中央廣播電視總臺招聘124人參考筆試題庫及答案解析
- 眼科護理與疼痛管理
- 2026年中國聚苯乙烯行業(yè)市場深度分析及發(fā)展前景預(yù)測報告
- 43-麥肯錫-美的集團績效管理模塊最佳實踐分享
- 航空發(fā)動機的熱管理技術(shù)
- 電商平臺一件代發(fā)合作協(xié)議
- 2025年綜合行政執(zhí)法部門招聘《職業(yè)能力綜合應(yīng)用能力》模擬試卷及答案
- 學(xué)前奧數(shù)考試題型及答案
評論
0/150
提交評論