工智能及專家系統(tǒng)敖志剛第6章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)課件_第1頁
工智能及專家系統(tǒng)敖志剛第6章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)課件_第2頁
工智能及專家系統(tǒng)敖志剛第6章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)課件_第3頁
工智能及專家系統(tǒng)敖志剛第6章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)課件_第4頁
工智能及專家系統(tǒng)敖志剛第6章數(shù)據(jù)挖掘與知識發(fā)現(xiàn)課件_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、敖志剛 編制第6章 數(shù)據(jù)挖掘與知識發(fā)現(xiàn) 敖志剛 編制第6章 數(shù)據(jù)挖掘與知識發(fā)現(xiàn) 第6章 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)61 數(shù)據(jù)挖掘的技術(shù)基礎(chǔ)611 數(shù)據(jù)挖掘的概念612 數(shù)據(jù)挖掘的功能和存在的主要問題613 數(shù)據(jù)挖掘成功案例62 數(shù)據(jù)挖掘的方法步驟和語言工具621 數(shù)據(jù)挖掘的方法622 數(shù)據(jù)挖掘語言623 數(shù)據(jù)挖掘的工具624 數(shù)據(jù)挖掘的流程 第6章 數(shù)據(jù)挖掘與知識發(fā)現(xiàn)63 數(shù)據(jù)挖掘系統(tǒng)的組構(gòu)及管理策略631 數(shù)據(jù)挖掘系統(tǒng)的組成632 數(shù)據(jù)挖掘系統(tǒng)的架構(gòu)633 數(shù)據(jù)挖掘管理系統(tǒng)64 數(shù)據(jù)挖掘的研究與發(fā)展641 數(shù)據(jù)挖掘系統(tǒng)的開發(fā)進展642 數(shù)據(jù)挖掘未來研究方向 61 數(shù)據(jù)挖掘的技術(shù)基礎(chǔ) 611 數(shù)據(jù)挖掘

2、的概念1. 技術(shù)的產(chǎn)生面對信息社會,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要信息,人們希望能對其進行更高層次的分析。目前的數(shù)據(jù)庫系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。 2. 當(dāng)前數(shù)據(jù)特點 數(shù)據(jù)規(guī)模巨大; 數(shù)據(jù)分布存儲; 數(shù)據(jù)來源廣; 數(shù)據(jù)特性未知; 數(shù)據(jù)包含不確定信息; 數(shù)據(jù)包含不安全信息; 數(shù)據(jù)日益增長。 3. 數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘DM(Data Mining)也稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)KDD(Knowledge Discover

3、y in Database) 。數(shù)據(jù)挖掘就是通過采用自動或半自動的手段,對數(shù)據(jù)進行一定的處理,從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,發(fā)現(xiàn)和提取有意義的、隱含在其中的、人們事先不知道的、但又是有效的、新穎的、潛在有用的、最終可被理解的信息和知識的過程。從另外一個方面來說,數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu)。與數(shù)據(jù)挖掘相近的同義詞有知識提取、數(shù)據(jù)融合、數(shù)據(jù)/模式分析、數(shù)據(jù)考古學(xué)、數(shù)據(jù)捕撈和信息收獲等等。此定義包括好幾層含義:數(shù)據(jù)源必須是真實的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識;發(fā)現(xiàn)的知識要可接受、可理解、可運用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)

4、的知識,僅支持特定的發(fā)現(xiàn)問題。4. 數(shù)據(jù)挖掘基本概念的區(qū)分 數(shù)據(jù)挖掘與傳統(tǒng)分析方法傳統(tǒng)的數(shù)據(jù)分析如查詢、報表、聯(lián)機應(yīng)用分析等數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識,所得到的信息應(yīng)具有先未知,有效和可實用三個特征。即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺發(fā)現(xiàn)的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。 數(shù)據(jù)挖掘和知識發(fā)現(xiàn) 知識發(fā)現(xiàn)被認(rèn)為是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程,是用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后隱藏的知識。知識發(fā)現(xiàn)研究的問題有:定性知識和定量知識的發(fā)現(xiàn);知識發(fā)現(xiàn)方法;知識發(fā)現(xiàn)的應(yīng)用等。 數(shù)據(jù)挖掘和數(shù)據(jù)倉

5、庫 數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中(見圖6-1)。數(shù)據(jù)挖掘庫是數(shù)據(jù)倉庫的一個邏輯上的子集,而不一定非得是物理上單獨的數(shù)據(jù)庫。建立一個巨大的數(shù)據(jù)倉庫,把各個不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)到一個數(shù)據(jù)倉庫內(nèi),是一項巨大的工程,可能要用幾年的時間花上百萬的錢才能完成。數(shù)據(jù)源數(shù)據(jù)挖掘庫數(shù)據(jù)源數(shù)據(jù)倉庫各分公司數(shù)據(jù)集市分 析數(shù)據(jù)集市數(shù)據(jù)挖掘數(shù)據(jù)集市圖6-1 數(shù)據(jù)挖掘庫從數(shù)據(jù)倉庫中得出圖6-2 數(shù)據(jù)挖掘庫從事務(wù)數(shù)據(jù)庫中得出 數(shù)據(jù)挖掘與信息處理 信息處理基于查詢,可以發(fā)現(xiàn)有用的信息。但是這種查詢的回答反映的是直接存放在數(shù)據(jù)庫中的信息。它們不反映復(fù)雜

6、的模式,或隱藏在數(shù)據(jù)庫中的規(guī)律。 數(shù)據(jù)挖掘與聯(lián)機分析(OLAP) OLAP分析過程在本質(zhì)上是一個演繹推理的過程,是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么,OLAP則更進一步告訴你下一步會怎么樣和如果采取這樣的措施又會怎么樣。用戶首先建立一個假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗證這個假設(shè)是否正確。數(shù)據(jù)挖掘在本質(zhì)上是一個歸納推理的過程,與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。數(shù)據(jù)挖掘和OLAP具有一定的互補性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動之前,OLAP工具能起輔助決策作用。而且在知識發(fā)現(xiàn)的早期階段,OLA

7、P工具用來探索數(shù)據(jù),找到哪些是對一個問題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。 數(shù)據(jù)挖掘與人工智能、統(tǒng)計學(xué) 數(shù)據(jù)挖掘是統(tǒng)計分析方法學(xué)的延伸和擴展。大多數(shù)的統(tǒng)計分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測的準(zhǔn)確度還是令人滿意的,但對使用者的要求很高。數(shù)據(jù)挖掘就是充分利用了統(tǒng)計學(xué)和人工智能技術(shù)的應(yīng)用程序,并把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。數(shù)據(jù)挖掘分析海量數(shù)據(jù)。許多數(shù)據(jù)庫都不適合統(tǒng)計學(xué)分析需要。 5. 數(shù)據(jù)挖掘系統(tǒng)的分類 根據(jù)數(shù)據(jù)模型分類,可以分為有關(guān)系的、事務(wù)的、面向?qū)ο蟮?、對?關(guān)系的、或數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng)

8、。 根據(jù)所處理的數(shù)據(jù)的特定類型分類,可以分為有空間的、時間序列的、文本的、或多媒體的數(shù)據(jù)挖掘系統(tǒng),或WWW 數(shù)據(jù)挖掘系統(tǒng)。 根據(jù)數(shù)據(jù)挖掘的功能,可以分為特征、區(qū)分、關(guān)聯(lián)、聚類、局外者、趨勢和演化分析、偏差分析、類似性分析等數(shù)據(jù)挖掘系統(tǒng)。 根據(jù)所挖掘的知識的粒度或抽象層進行區(qū)分,包括泛化知識(在高抽象層)、原始層知識(在原始數(shù)據(jù)層)或多層知識(考慮若干抽象層)。一個先進的數(shù)據(jù)挖掘系統(tǒng)應(yīng)當(dāng)支持多抽象層的知識發(fā)現(xiàn)。 5. 數(shù)據(jù)挖掘系統(tǒng)的分類 根據(jù)所用的技術(shù)分類:這些技術(shù)可以根據(jù)用戶交互程度(例如,自動系統(tǒng)、交互探查系統(tǒng)、查詢驅(qū)動系統(tǒng)),或所用的數(shù)據(jù)分析方法(例如,面向數(shù)據(jù)庫或數(shù)據(jù)倉庫的技術(shù),機器學(xué)習(xí)

9、、統(tǒng)計、可視化、模式識別、神經(jīng)網(wǎng)絡(luò)等等)描述。 根據(jù)挖掘任務(wù)可以分為:分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。 根據(jù)挖掘?qū)ο罂梢苑譃椋宏P(guān)系型數(shù)據(jù)庫挖掘、面向?qū)ο髷?shù)據(jù)庫挖掘、空間數(shù)據(jù)庫挖掘、時態(tài)數(shù)據(jù)庫挖掘、文本數(shù)據(jù)源挖掘、多媒體數(shù)據(jù)庫挖掘、異質(zhì)數(shù)據(jù)庫挖掘、遺產(chǎn)數(shù)據(jù)庫挖掘、Web數(shù)據(jù)庫挖掘。6. 數(shù)據(jù)挖掘的來源一般情況下,數(shù)據(jù)挖掘在關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、事務(wù)數(shù)據(jù)庫、高級數(shù)據(jù)庫系統(tǒng)和信息庫四種數(shù)據(jù)庫上進行。 關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫是表的集合,每個表都賦予一個唯一的名字。每個表包含一組屬性(列或字段),并通

10、常存放大量元組(記錄或行)。語義數(shù)據(jù)模型,如實體-聯(lián)系(ER)數(shù)據(jù)模型,將數(shù)據(jù)庫作為一組實體和它們之間的聯(lián)系進行建模。通常為關(guān)系數(shù)據(jù)庫構(gòu)造ER模型。 數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個集成的、面向主題的、設(shè)計用于決策支持功能的數(shù)據(jù)庫的集合,數(shù)據(jù)中的每一個數(shù)據(jù)單元在時間上都是和某個時刻相關(guān)的。 一般來講,數(shù)據(jù)倉庫都很巨大,它存儲了幾百萬條記錄。在很多情況下,一個組織可能有幾個局部或部門的數(shù)據(jù)倉庫,這常常叫做數(shù)據(jù)集市。 數(shù)據(jù)倉庫包括以下的數(shù)據(jù)類別:過去細(xì)節(jié)數(shù)據(jù);當(dāng)前(新)細(xì)節(jié)數(shù)據(jù);輕度綜合數(shù)據(jù);高度綜合數(shù)據(jù);元數(shù)據(jù)(數(shù)據(jù)目錄或向?qū)?。 事務(wù)數(shù)據(jù)庫 事務(wù)數(shù)據(jù)庫由一個文件組成,其中每個記錄代表一個事務(wù)。通常,一個

11、事務(wù)包含一個唯一的事務(wù)標(biāo)識號(trans_ID),和一個組成事務(wù)的項的列表(如,在商店購買的商品)。事務(wù)數(shù)據(jù)庫可能有一些與之相關(guān)聯(lián)的附加表,包含關(guān)于銷售的其它信息,如事務(wù)的日期、顧客的ID號、銷售者的ID號、銷售分店等等。 高級數(shù)據(jù)庫系統(tǒng)和信息庫 高級數(shù)據(jù)庫系統(tǒng)和信息庫包含以下6個方面: 空間數(shù)據(jù)庫; 時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫; 流數(shù)據(jù); 多媒體數(shù)據(jù)庫; 面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫; 異種數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫; 文本數(shù)據(jù)庫和萬維網(wǎng)(WWW)。7. 數(shù)據(jù)挖掘研究內(nèi)容和知識類型主要研究內(nèi)容基礎(chǔ)理論、各種挖掘算法和挖掘語言、數(shù)據(jù)倉庫、可視化技術(shù)、定性定量互換模型、智能計算和軟計

12、算在數(shù)據(jù)挖掘中的應(yīng)用、知識表示方法、發(fā)現(xiàn)知識的維護和再利用、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的知識發(fā)現(xiàn)、網(wǎng)絡(luò)數(shù)據(jù)挖掘以及對已有知識的維護和再利用等。所發(fā)現(xiàn)的類型:即廣義知識、概括性描述知識、關(guān)聯(lián)知識、分類知識、預(yù)測型知識、偏差型知識。 8. 數(shù)據(jù)挖掘的應(yīng)用 電信 :客戶群體劃分、客戶流失性分析、客戶信用記分、篩選因特網(wǎng)上的新聞; 銀行:聚類(細(xì)分)、交叉銷售、數(shù)據(jù)庫營銷、背景分析; 百貨公司/超市:購物籃分析 (關(guān)聯(lián)規(guī)則)、預(yù)測準(zhǔn)客戶的需要; 保險:細(xì)分,交叉銷售,流失(原因分析)、欺詐發(fā)現(xiàn); 信用卡: 欺詐探測,細(xì)分; 電子商務(wù):網(wǎng)站日志分析; 稅務(wù)部門:偷漏稅行為探測; 警察機關(guān):犯罪行為分析;

13、醫(yī)學(xué): 醫(yī)療保健。 6.1.2 數(shù)據(jù)挖掘的功能和主要問題1. 數(shù)據(jù)挖掘的功能 自動預(yù)測趨勢和行為。如市場預(yù)測、預(yù)報破產(chǎn)等。 關(guān)聯(lián)分析。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。 聚類。數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。 概念描述。就是對某類對象的內(nèi)涵進行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。 偏差檢

14、測。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。2. 實施數(shù)據(jù)挖掘項目要考慮的問題 超大規(guī)模數(shù)據(jù)庫和高維數(shù)據(jù)問題; 數(shù)據(jù)丟失問題; 變化的數(shù)據(jù)和知識問題; 模式的易懂性問題; 非標(biāo)準(zhǔn)格式的數(shù)據(jù)、多媒體數(shù)據(jù)、面向?qū)ο髷?shù)據(jù)處理問題; 與其他系統(tǒng)的集成問題; 網(wǎng)絡(luò)與分布式環(huán)境下的KDD問題; 個人隱私問題。 3. 數(shù)據(jù)挖掘存在的主要問題 數(shù)據(jù)挖掘技術(shù)和用戶界面問題。 在數(shù)據(jù)庫中挖掘不同類型的知識。 多個抽象層的交互知識挖掘。 結(jié)合背景知識。 數(shù)據(jù)挖掘查詢語言和特定的數(shù)據(jù)挖掘。

15、 數(shù)據(jù)挖掘結(jié)果的表示和顯示。 處理噪音和不完全數(shù)據(jù)。 模式評估興趣度問題。 3. 數(shù)據(jù)挖掘存在的主要問題 性能問題。 數(shù)據(jù)挖掘算法的有效性和可規(guī)模性。即對于大型數(shù)據(jù)庫,數(shù)據(jù)挖掘算法的運行時間必須是可預(yù)計的和可接受的。 并行、分布和增量挖掘算法:許多數(shù)據(jù)庫的大容量、數(shù)據(jù)的廣泛分布和一些數(shù)據(jù)挖掘算法的計算復(fù)雜性是促使開發(fā)并行和分布式數(shù)據(jù)挖掘算法的因素。這些算法將數(shù)據(jù)劃分成部分,這些部分可以并行處理,然后合并每部分的結(jié)果。此外,有些數(shù)據(jù)挖掘過程的高花費導(dǎo)致了對增量數(shù)據(jù)挖掘算法的需要。增量算法與數(shù)據(jù)庫更新結(jié)合在一起,而不必重新挖掘全部數(shù)據(jù)。3. 數(shù)據(jù)挖掘存在的主要問題 關(guān)于數(shù)據(jù)庫類型的多樣性問題: 關(guān)

16、系的和復(fù)雜的數(shù)據(jù)類型的處理:數(shù)據(jù)庫可能包含復(fù)雜的數(shù)據(jù)對象、超文本和多媒體數(shù)據(jù)、空間數(shù)據(jù)、時間數(shù)據(jù)、或事務(wù)數(shù)據(jù)。對于不同類型的數(shù)據(jù),應(yīng)該有不同的數(shù)據(jù)挖掘系統(tǒng)。 由異種數(shù)據(jù)庫和全球信息系統(tǒng)挖掘信息:從具有不同數(shù)據(jù)語義的結(jié)構(gòu)的、半結(jié)構(gòu)的、和無結(jié)構(gòu)的不同數(shù)據(jù)源發(fā)現(xiàn)知識,對數(shù)據(jù)挖掘提出了巨大挑戰(zhàn)。Web 挖掘發(fā)現(xiàn)關(guān)于Web 連接、Web 使用和Web 動態(tài)情況的有趣知識,已經(jīng)成為數(shù)據(jù)挖掘的一個非常具有挑戰(zhàn)性的領(lǐng)域。此外,超大規(guī)模數(shù)據(jù)庫和高維數(shù)據(jù)問題;數(shù)據(jù)丟失問題;變化的數(shù)據(jù)和知識問題;模式的易懂性問題;非標(biāo)準(zhǔn)格式的數(shù)據(jù)、多媒體數(shù)據(jù)、面向?qū)ο髷?shù)據(jù)處理問題;與其他系統(tǒng)的集成問題;網(wǎng)絡(luò)與分布式環(huán)境下的KDD問

17、題;個人隱私問題也是數(shù)據(jù)挖掘項目應(yīng)該考慮的問題。 613 數(shù)據(jù)挖掘成功案例1. 雅虎數(shù)據(jù)挖掘成功案例 閱讀郵件和閱讀新聞的相關(guān)性一個例子雅虎電子郵箱。通過對用戶使用行為的意外模式分析,發(fā)現(xiàn)在每次會話中,人們閱讀郵件和閱讀新聞的行為之間存在很強的相關(guān)關(guān)系。研究人員把這個發(fā)現(xiàn)傳達(dá)給雅虎電子郵箱產(chǎn)品小組,他們首先想到的就是驗證這種關(guān)系的影響。 即時通信對雅虎通的使用情況進行了分析,結(jié)果發(fā)現(xiàn),最重要的因素是讓用戶擴大他們的“好友列表”,至少增加5個新的好友。據(jù)此雅虎精心設(shè)計了相應(yīng)的營銷活動,鼓勵用戶增加好友列表中的好友數(shù)。 雅虎首頁的搜索框一個簡單的例子就是發(fā)現(xiàn),在雅虎的首頁上,把搜索框放在居中的位置

18、(而不是以前的左側(cè))將提高用戶的用量。這個結(jié)果是首先發(fā)現(xiàn)Netscape瀏覽器的用戶比IE的用戶更多地使用了搜索功能。2. NBA數(shù)據(jù)挖掘成功案例今天,NBA的教練有了他們的新式武器:數(shù)據(jù)挖掘。大約20個NBA球隊使用了IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)來優(yōu)化他們的戰(zhàn)術(shù)組合。例如Scout就因為研究了魔術(shù)隊隊員不同的布陣安排,在與邁阿密熱隊的比賽中找到了獲勝的機會。Advanced Scout是一個數(shù)據(jù)分析工具,教練可以用便攜式電腦在家里或在路上挖掘存儲在NBA中心的服務(wù)器上的數(shù)據(jù)。每一場比賽的事件都被統(tǒng)計分類,按得分、助攻、失誤等等。時間標(biāo)記讓教練非常容易地通過

19、搜索NBA比賽的錄像來理解統(tǒng)計發(fā)現(xiàn)的含義。例如:教練通過Advanced Scout發(fā)現(xiàn)本隊的球員在與對方一個球星對抗時有犯規(guī)紀(jì)錄,他可以在對方球星與這個隊員“頭碰頭”的瞬間分解雙方接觸的動作,進而設(shè)計合理的防守策略。3. 商業(yè)銀行數(shù)據(jù)挖掘成功案例例如,美國Firstar銀行等使用的Marksman數(shù)據(jù)挖掘工具,能讀取800到1000個變量并且給它們賦值,可以根據(jù)消費者的家庭貸款、賒帳卡、儲蓄、投資產(chǎn)品等,將客戶分類,進而預(yù)測何時向哪類客戶提供哪種產(chǎn)品 。Mellon銀行使用智能代理數(shù)據(jù)挖掘軟件提高銷售和定價金融產(chǎn)品的精確度,如家庭普通貸款。Mellon銀行銷售部在先期數(shù)據(jù)挖掘項目上使用智能代

20、理尋找信息,主要目的是確定現(xiàn)有Mellon用戶購買特定附加產(chǎn)品:家庭普通信貸限額的傾向,利用該工具可生成用于檢測的模型。智能代理可幫助用戶增強其商業(yè)智能,如交往、分類或回歸分析,依賴這些能力,可對那些有較高傾向購買銀行產(chǎn)品、服務(wù)產(chǎn)品和服務(wù)的客戶進行有目的的推銷。4. 沃爾瑪?shù)慕?jīng)典案例 一般看來,啤酒和尿布是顧客群完全不同的商品。但是沃爾瑪一年內(nèi)數(shù)據(jù)挖掘的結(jié)果顯示,在居民區(qū)中尿布賣得好的店面啤酒也賣得很好。原因其實很簡單,一般太太讓先生下樓買尿布的時候,先生們一般都會犒勞自己兩瓶啤酒。因此啤酒和尿布一起購買的機會是最多的。這是一個現(xiàn)代商場智能化信息分析系統(tǒng)發(fā)現(xiàn)的秘密。這個故事被公認(rèn)是商業(yè)領(lǐng)域數(shù)據(jù)

21、挖掘的誕生。 62 數(shù)據(jù)挖掘的方法步驟和語言工具 621 數(shù)據(jù)挖掘的方法 分析和預(yù)測方法。數(shù)據(jù)挖掘中大量采用統(tǒng)計分析方法,如描述統(tǒng)計、概率論、回歸分析(線性回歸、非線性回歸、多元回歸、泊松回歸、對數(shù)回歸)、時間序列分析、多元分析等。 粗糙集。把那些無法確認(rèn)的個體都?xì)w屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集。粗糙集理論主要特點在于它恰好反映了人們用粗糙集方法處理不分明問題的常規(guī)性,即以不完全信息或知識去處理一些不分明現(xiàn)象的能力,或依據(jù)觀察、度量到的某些不精確的結(jié)果而進行分類數(shù)據(jù)的能力。 621 數(shù)據(jù)挖掘的方法 模糊集。模糊集合論用隸屬程度來描述差異的中間過渡,是一種用精確

22、的數(shù)學(xué)語言對模糊性進行描述的方法。定義:論域X=x上的模糊集合A由隸屬函數(shù)A(x)來表征。其中A(x)在實軸的閉區(qū)間0,1中取值,A(x)的大小反映x對于模糊集合A的隸屬程度。 A(x)的值接近1,表示x隸屬于A的程度很高。 A(x)的值接近0,表示x隸屬于A的程度很低。特例,當(dāng)A的值域取0,1閉區(qū)間的兩個端點,亦即0和1兩個值時,A便退化為一個普通的邏輯子集。隸屬函數(shù)也就退化為普通邏輯值。 621 數(shù)據(jù)挖掘的方法 聚類分析。聚類是對物理的或抽象的對象集合分組的過程。聚類生成的組為簇,簇是數(shù)據(jù)對象的集合。簇內(nèi)部任意兩個對象之間具有較高的相似度,而屬于不同簇的兩個對象間具有較高的相異度。 主要方

23、法有:劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法。 關(guān)聯(lián)規(guī)則。它反映一個事物與其它事物之間的相互依存性和關(guān)聯(lián)性,如果兩個事物或者多個事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個事物就能夠通過其他事物預(yù)測到。 發(fā)現(xiàn)關(guān)聯(lián)規(guī)則需經(jīng)如下兩步: 找出所有頻繁項; 由頻繁項集生成滿足最小信任度閾值的規(guī)則。 621 數(shù)據(jù)挖掘的方法 決策樹。它首先通過一批已知的訓(xùn)練數(shù)據(jù)建立一棵決策樹,然后采用建好的決策樹對數(shù)據(jù)進行預(yù)測。常用的方法有分類及回歸樹法、卡方自動交互探測法等。 人工神經(jīng)網(wǎng)絡(luò)。一種模仿人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入變量或數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗所得的知識不斷調(diào)整參數(shù),以

24、期得到資料的模式。它可以對大量復(fù)雜的數(shù)據(jù)進行分析,并能完成對人腦或計算機來說極為復(fù)雜的模式抽取及趨勢分析。比較典型的學(xué)習(xí)方法是回溯法。通過將輸出結(jié)果同一些已知值進行一系列比較,加權(quán)值不斷調(diào)整,得到一個新的輸出值,再經(jīng)過不斷的學(xué)習(xí)過程,最后該神經(jīng)網(wǎng)絡(luò)得到一個穩(wěn)定的結(jié)果。 多媒體數(shù)據(jù)挖掘。就是通過綜合分析多媒體數(shù)據(jù)的內(nèi)容和語義,從大量多媒體數(shù)據(jù)中發(fā)現(xiàn)隱含的、有效的、有價值的、可理解的模式,得出事件的發(fā)展趨向和關(guān)聯(lián)關(guān)系。 621 數(shù)據(jù)挖掘的方法 數(shù)據(jù)可視化。可視化工具可以通過適當(dāng)?shù)膱D形來表示數(shù)據(jù),并支持多維數(shù)據(jù)的可視化,為數(shù)據(jù)分析人員提供很好的幫助。有些工具甚至提供動畫功能。 遺傳算法。它應(yīng)用算法的

25、適應(yīng)函數(shù)來決定搜索的方向,運用一些擬生物化的人工運算過程進行一代一代的周而復(fù)始的演化,求得一個最佳結(jié)果。 近鄰算法。依據(jù)“Do as your neighbors do”的原則,相鄰數(shù)據(jù)必然有相同的屬性或行為。Knearest鄰居方法的含義為:K表示某個特定數(shù)據(jù)的K個鄰居,可以通過K個鄰居的平均數(shù)據(jù)來預(yù)測該特定數(shù)據(jù)的某個屬性或行為。621 數(shù)據(jù)挖掘的方法 連機分析處理。簡稱OLAP,是基于大型數(shù)據(jù)庫或數(shù)據(jù)倉庫的信息分析過程和用戶接口部分,其目的是滿足決策支持或多維環(huán)境特定的查詢和報表要求。OLAP主要是對用戶當(dāng)前及歷史數(shù)據(jù)進行分析,輔助決策。其典型的應(yīng)用有對銀行信用卡風(fēng)險的分析與預(yù)測等,主要是

26、進行大量的查詢操作,對時間的要求不太嚴(yán)格。 多層次數(shù)據(jù)概化歸納:數(shù)據(jù)庫中的數(shù)據(jù)和對象經(jīng)常包含原始概念層上的詳細(xì)信息,將一個數(shù)據(jù)集合歸納成高概念層次信息的數(shù)據(jù)挖掘技術(shù)被稱為數(shù)據(jù)概化。概念匯總將數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)由低概念層抽象到高概念層,主要有數(shù)據(jù)立方體和面向?qū)傩詢煞N方法。622 數(shù)據(jù)挖掘語言 數(shù)據(jù)挖掘語言的研究經(jīng)歷了兩個階段,第一個階段成果包括DMQL、MSQL和MINE RULE操作器等。第二階段主要包括數(shù)據(jù)挖掘組織協(xié)會(DMG)提出的預(yù)言模型標(biāo)記語言PMML,以及微軟公司提出的OLE DB for Data Mining規(guī)范。 根據(jù)功能和側(cè)重點不同,可將數(shù)據(jù)挖掘分為三種類型:數(shù)據(jù)挖掘查詢語言

27、、數(shù)據(jù)挖掘建模語言、通用數(shù)據(jù)挖掘語言。第一階段的數(shù)據(jù)挖掘語言一般屬于查詢語言;PMML屬于建模語言;OLE DB for DM屬于通用數(shù)據(jù)挖掘語言。下面我們分別介紹其特點和功能。 1. 數(shù)據(jù)挖掘查詢語言 數(shù)據(jù)挖掘查詢語言DMQL(Data Mining Query Language)由數(shù)據(jù)挖掘原語組成,該原語用來定義一個數(shù)據(jù)挖掘任務(wù)。這些原語有以下幾個種類:數(shù)據(jù)庫一部分的規(guī)范以及用戶感興趣的數(shù)據(jù)集(包括感興趣的數(shù)據(jù)庫屬性或數(shù)據(jù)倉庫的維度);挖掘知識的種類;在指導(dǎo)挖掘過程中有用的背景知識;模式估值的興趣度測量;以及挖掘出的知識如何可視化表示。數(shù)據(jù)挖掘原語允許用戶在挖掘過程中從不同的角度或深度與數(shù)

28、據(jù)挖掘系統(tǒng)進行交互式地通信。1. 數(shù)據(jù)挖掘查詢語言 五種基本的數(shù)據(jù)挖掘原語定義: 任務(wù)相關(guān)數(shù)據(jù)原語。用戶感興趣的數(shù)據(jù)集,及表中感興趣的屬性。包括:數(shù)據(jù)庫或數(shù)據(jù)倉庫的名稱;數(shù)據(jù)庫表或數(shù)據(jù)倉庫的立方體;數(shù)據(jù)選擇的條件;相關(guān)屬性或維;數(shù)據(jù)分組定義。 被挖掘知識的種類原語。該原語指定被執(zhí)行的數(shù)據(jù)挖掘的功能,分為五類:特征規(guī)則、辨別規(guī)則、關(guān)聯(lián)規(guī)則、分類/預(yù)言、聚集。 背景知識原語。用戶能夠指定的背景知識。包括:概念層次、對數(shù)據(jù)關(guān)系的用戶信任度。 興趣度測量原語。這個功能是將不感興趣的模式從知識中排除出去。低于用戶指定的支持度和可信度閾值的規(guī)則被認(rèn)為是不感興趣的。興趣度測量原語包括:簡單性、確定性(比如:

29、可信度)、效用、新穎性等。 被發(fā)現(xiàn)模式的表示和可視化原語。這個原語定義被發(fā)現(xiàn)的模式顯示的方式,用戶能夠選擇不同的知識表示形式。包括:規(guī)則、表格、報告、圖表、圖形、決策樹和立方體、向下鉆入和向上累積。 1. 數(shù)據(jù)挖掘查詢語言 除了DMQL以外,還有一些其它數(shù)據(jù)挖掘查詢語言。比如基于SQL的多媒體查詢語言(MSQL)使用了類似SQL的語法和SQL原語(包括排序、分組、和其它原語),能在數(shù)據(jù)挖掘中可能產(chǎn)生大量的規(guī)則。 MSQL提供了一個稱作GetRule和SelectRule的原語,用于規(guī)則產(chǎn)生和規(guī)則選擇。它統(tǒng)一地對待數(shù)據(jù)和規(guī)則,因此,能夠在執(zhí)行數(shù)據(jù)選擇,以及基于查詢的規(guī)則產(chǎn)生時進行優(yōu)化工作,同時也

30、能在操縱或者查詢產(chǎn)生規(guī)則的集合時進行優(yōu)化。其它在數(shù)據(jù)挖掘語言設(shè)計方面的研究工作包括MINE RULE操作器。它同樣遵循類似SQL的語法,是為挖掘關(guān)聯(lián)規(guī)則設(shè)計的規(guī)則產(chǎn)生查詢語言。 2. 數(shù)據(jù)挖掘建模語言 預(yù)言模型標(biāo)記語言PMML(Predictive Model Markup Language)PMML主要目的是允許應(yīng)用程序和聯(lián)機分析處理(OLAP)工具能從數(shù)據(jù)挖掘系統(tǒng)獲得模型,而不用獨自開發(fā)數(shù)據(jù)挖掘模塊。另一個目的是能夠收集使用大量潛在的模型,并且統(tǒng)一管理各種模型的集合。PMML是一種基于擴展性標(biāo)識語言(XML)的語言,用來定義預(yù)言模型。通過使用XML解析器,應(yīng)用程序能夠決定模型輸入和輸出的數(shù)

31、據(jù)類型、模型詳細(xì)的格式,并且按照標(biāo)準(zhǔn)的數(shù)據(jù)挖掘術(shù)語來解釋模型的結(jié)果。 PMML對于那些需要全部學(xué)習(xí)、部分學(xué)習(xí)和分布式學(xué)習(xí)的應(yīng)用程序,這種語言被證明是非常有用的。特別地,PMML非常適合部分學(xué)習(xí)、元學(xué)習(xí)、分布式學(xué)習(xí)、以及相關(guān)領(lǐng)域。使用PMML進行模型定義由以下幾部分組成: 頭文件;數(shù)據(jù)模式;數(shù)據(jù)挖掘模式;預(yù)言模型模式;預(yù)言模型定義;全體模型定義;選擇和聯(lián)合模型和全體模型的規(guī)則;異常處理的規(guī)則。3. 通用數(shù)據(jù)挖掘語言 通用數(shù)據(jù)挖掘語言合并了上述兩種語言的特點,既具有定義模型的功能,又能作為查詢語言與數(shù)據(jù)挖掘系統(tǒng)通信,進行交互和特殊的挖掘。 OLE DB for DM歸類成通用數(shù)據(jù)挖掘語言。 OLE

32、 DB for DM的規(guī)范包括創(chuàng)建原語以及許多重要數(shù)據(jù)挖掘模型的定義和使用。它是一個基于SQL預(yù)言的協(xié)議,為軟件商和應(yīng)用開發(fā)人員提供了一個開放的接口。OLE DB for DM擴充了SQL語言語法,使得商業(yè)分析和開發(fā)人員只是調(diào)用單一確定的API(應(yīng)用程序接口)函數(shù)即可實現(xiàn)數(shù)據(jù)挖掘功能,而不需要特殊的數(shù)據(jù)挖掘技能。 OLE DB for DM定義了重要的新的概念和特點,包括如下幾點: 數(shù)據(jù)挖掘模型DMM(Data Mining Model)。 預(yù)言聯(lián)接操作。 OLE DB for DM模式行集合。 623 數(shù)據(jù)挖掘的工具 1. 數(shù)據(jù)挖掘工具分類數(shù)據(jù)挖掘工具根據(jù)其適用的范圍分為兩類:專用數(shù)據(jù)挖掘工

33、具和通用數(shù)據(jù)挖掘工具。專用數(shù)據(jù)挖掘工具是針對某個特定領(lǐng)域的問題提供解決方案,采用的是特殊的算法,可以處理特殊的數(shù)據(jù),實現(xiàn)特殊的目的,并作了優(yōu)化;而通用數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型,可以做多種模式的挖掘,挖掘什么和用什么來挖掘都由用戶根據(jù)自己的應(yīng)用來選擇。 2. 數(shù)據(jù)挖掘工具的選擇根據(jù)以下幾點選擇數(shù)據(jù)挖掘工具: 數(shù)據(jù)挖掘的功能性。 數(shù)據(jù)挖掘工具的可伸縮性。 操作的簡易性。 數(shù)據(jù)挖掘工具的可視化。 數(shù)據(jù)挖掘工具的開放性。另外對數(shù)據(jù)挖掘工具還應(yīng)考慮是否有多種模式、多種算法、多種校驗方法,是否有較好的數(shù)據(jù)選擇和轉(zhuǎn)換、較好的操作性能和數(shù)據(jù)存取能力、接口功能的好

34、壞等。 3. 數(shù)據(jù)挖掘工具介紹 QUESTQUEST是IBM公司Almaden研究中心開發(fā)的一個多任務(wù)數(shù)據(jù)挖掘系統(tǒng),系統(tǒng)具有如下特點: 提供了專門在大型數(shù)據(jù)庫上進行各種開采的功能:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時間序列聚類、決策樹分類、遞增式主動開采等。 各種開采算法具有近似線性計算復(fù)雜度,可適用于任意大小的數(shù)據(jù)庫。 算法具有找全性,即能將所有滿足指定類型的模式全部尋找出來。 為各種發(fā)現(xiàn)功能設(shè)計了相應(yīng)的并行算法。3. 數(shù)據(jù)挖掘工具介紹 MineSetMineSet是由SGI公司和美國Standford大學(xué)聯(lián)合開發(fā)的多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。MineSet集成多種數(shù)據(jù)挖掘算法和可視化工具,幫助用戶直觀地

35、、實時地發(fā)掘、理解大量數(shù)據(jù)背后的知識。MineSet有如下特點: MineSet以先進的可視化顯示方法聞名于世。 支持多種關(guān)系數(shù)據(jù)庫??梢灾苯訌腛racle、Informix、Sybase的表讀取數(shù)據(jù),也可以通過SQL命令執(zhí)行查詢。 多種數(shù)據(jù)轉(zhuǎn)換功能。 操作簡單、支持國際字符、可以直接發(fā)布到Web。3. 數(shù)據(jù)挖掘工具介紹 DBMinerDBMiner是加拿大SimonFraser大學(xué)開發(fā)的一個多任務(wù)數(shù)據(jù)挖掘系統(tǒng)。設(shè)計目的是把關(guān)系數(shù)據(jù)庫和數(shù)據(jù)開采集成在一起,以面向?qū)傩缘亩嗉壐拍顬榛A(chǔ)發(fā)現(xiàn)各種知識。DBMiner系統(tǒng)具有如下特色: 能完成多種知識的發(fā)現(xiàn):泛化規(guī)則、特性規(guī)則、關(guān)聯(lián)規(guī)則、分類規(guī)則、演化

36、知識、偏離知識等。 綜合了多種數(shù)據(jù)開采技術(shù):面向?qū)傩缘臍w納、統(tǒng)計分析、逐級深化發(fā)現(xiàn)多級規(guī)則、元規(guī)則引導(dǎo)發(fā)現(xiàn)等方法。 提出了一種交互式的類SQL語言數(shù)據(jù)開采查詢語言DMQL。 能與關(guān)系數(shù)據(jù)庫平滑集成。 實現(xiàn)了基于客戶/服務(wù)器體系結(jié)構(gòu)的Unix和PC(Windows/NT)版本的系統(tǒng)。 3. 數(shù)據(jù)挖掘工具介紹 Intelligent Miner由美國IBM公司開發(fā)的數(shù)據(jù)挖掘軟件Intelligent Miner是一種分別面向數(shù)據(jù)庫和文本信息進行數(shù)據(jù)挖掘的軟件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。前者可以挖掘包含在數(shù)據(jù)

37、庫、數(shù)據(jù)倉庫和數(shù)據(jù)中心中的隱含信息,幫助用戶利用傳統(tǒng)數(shù)據(jù)庫或普通文件中的結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)挖掘。它已經(jīng)成功應(yīng)用于市場分析、詐騙行為監(jiān)測及客戶聯(lián)系管理等;后者允許企業(yè)從文本信息進行數(shù)據(jù)挖掘,文本數(shù)據(jù)源可以是文本文件、Web頁面、電子郵件、Lotus Notes數(shù)據(jù)庫等等。3. 數(shù)據(jù)挖掘工具介紹 SAS Enterprise Miner這是一種在我國的企業(yè)中得到采用的數(shù)據(jù)挖掘工具,比較典型的包括上海寶鋼配礦系統(tǒng)應(yīng)用和鐵路部門在春運客運研究中的應(yīng)用。SAS Enterprise Miner是一種通用的數(shù)據(jù)挖掘工具,按照抽樣-探索-轉(zhuǎn)換-建模-評估的方法進行數(shù)據(jù)挖掘??梢耘cSAS數(shù)據(jù)倉庫和OLAP集成

38、,實現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的端到端知識發(fā)現(xiàn)。3. 數(shù)據(jù)挖掘工具介紹 SPSS ClementineSPSS Clementine是一個開放式數(shù)據(jù)挖掘工具,不但支持整個數(shù)據(jù)挖掘流程,從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評估到最終部署的全部過程,還支持?jǐn)?shù)據(jù)挖掘的行業(yè)標(biāo)準(zhǔn)-CRISP-DM。Clementine提供了多種圖形化技術(shù),有助理解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導(dǎo)用戶以最便捷的途徑找到問題的最終解決辦法。其它常用的數(shù)據(jù)挖掘工具還有LEVEL5 Quest 、MineSet (SGI) 、Partek 、SE-Learn 、SPSS 的數(shù)據(jù)挖掘軟件Snob、Ashraf Azmy 的SuperQuery

39、 、WINROSA 、XmdvTool 等。624 數(shù)據(jù)挖掘的流程1. 數(shù)據(jù)挖掘環(huán)境人們可以對大型數(shù)據(jù)庫中先前未知的數(shù)據(jù)進行分析、研究、變換、篩選、過濾、綜合和預(yù)處理??梢酝ㄟ^可視化的工具對挖掘出的規(guī)律和模式進行解釋、評價和驗證,用戶可能要使用各類可視化工具來顯示有關(guān)數(shù)據(jù) 。數(shù)據(jù)庫數(shù)據(jù)挖掘工具可視化工具圖6-3 數(shù)據(jù)挖掘環(huán)境示意圖2. 數(shù)據(jù)挖掘的過程圖6-4 數(shù)據(jù)挖掘的基本過程和主要步驟3. 數(shù)據(jù)挖掘需要的人員 數(shù)據(jù)挖掘在不同的階段需要有不同專長的人員,他們大體可以分為以下三類: 業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。 數(shù)據(jù)分析人

40、員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。 數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。 63 數(shù)據(jù)挖掘系統(tǒng)的組構(gòu)及管理策略 數(shù)據(jù)挖掘系統(tǒng)的組成 數(shù)據(jù)清理 數(shù)據(jù)集成數(shù)據(jù)倉庫數(shù)據(jù) 庫數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評估圖形用戶界面知識庫過濾圖6-5 數(shù)據(jù)挖掘的系統(tǒng)組成數(shù)據(jù)挖掘邏輯模型 挖掘系統(tǒng)管理器DB接口數(shù)據(jù)選擇挖掘引擎抽取算法評價發(fā)現(xiàn)描述知 識 庫數(shù)據(jù)庫分析員輸入領(lǐng)域知識發(fā)現(xiàn)圖6-6 數(shù)據(jù)挖掘邏輯模型數(shù)據(jù)挖掘系統(tǒng)的架構(gòu) 用戶接口挖掘管理器用戶轉(zhuǎn)換器挖掘向?qū)J胶Y選各種形式的知識挖掘內(nèi)核分類方法聚類方法關(guān)聯(lián)分析可視化方法其他數(shù)據(jù)挖掘方法模式表達(dá)與解釋

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論