第一章數(shù)據(jù)挖掘概述.ppt_第1頁
第一章數(shù)據(jù)挖掘概述.ppt_第2頁
第一章數(shù)據(jù)挖掘概述.ppt_第3頁
第一章數(shù)據(jù)挖掘概述.ppt_第4頁
第一章數(shù)據(jù)挖掘概述.ppt_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 主講教師: 胡曉暉 聯(lián)系方式:,從數(shù)據(jù)中挖掘“金子”,應(yīng)用驅(qū)動,1.1-數(shù)據(jù)挖掘的產(chǎn)生背景,發(fā)揮您的想象力,選擇您認(rèn)為可是的答案,案例1:農(nóng)夫山泉用大數(shù)據(jù)賣礦泉水,胡健想知道的問題包括: 怎樣擺放水堆更能促進(jìn)銷售? 什么年齡的消費(fèi)者在水堆前停留更久,他們一次購買的量多大? 氣溫的變化讓購買行為發(fā)生了哪些改變? 競爭對手的新包裝對銷售產(chǎn)生了怎樣的影響? 不少問題目前也可以回答,但它們更多是基于經(jīng)驗(yàn),而不是基于數(shù)據(jù)。,案例2:阿迪達(dá)斯的“黃金羅盤”,案例3:數(shù)據(jù)權(quán)之爭,案例4:紙牌屋你學(xué)不會,案例5:定制愛情,一、數(shù)據(jù)豐富與知識貧乏 數(shù)據(jù)、信息和知識 數(shù)據(jù) 是“客觀事物的屬性、

2、數(shù)量、位置及相互關(guān)系等的抽象表示” 信息 是“數(shù)據(jù)所表示的語義” 知識 是“以各種不同方式把多個(gè)信息關(guān)聯(lián)在一起的信息結(jié)構(gòu)”或者說知識是“多個(gè)信息之間的關(guān)聯(lián)”。-,客觀世界,收集,數(shù)據(jù),信息,知識,分析,深入分析,決策和行動,圖1.1,當(dāng)數(shù)據(jù)量極度增長時(shí),如果沒有有效的方法,由計(jì)算機(jī)及信息技術(shù)來提取有用信息和知識,人們也會感到面對信息海洋像大海撈針一樣束手無策。 據(jù)估計(jì),一個(gè)大型企業(yè)數(shù)據(jù)庫中數(shù)據(jù),只有百分之七得到很好應(yīng)用。這樣,相對于“數(shù)據(jù)過?!焙汀靶畔⒈ā?人們又感到:,“信息貧乏”(Information poor) “數(shù)據(jù)關(guān)在牢籠中”(data in jail), 奈斯伯特(John N

3、aisbett)驚呼 “Wear drowning in information,but starving for knowledge”(人類正被數(shù)據(jù)淹沒,卻饑渴于知識)。,面臨浩渺無際的數(shù)據(jù),人們呼喚從數(shù)據(jù)汪洋中來一個(gè)去粗存精、去偽存真的技術(shù),使之能從已有信息中發(fā)現(xiàn)模式或規(guī)律,使之能夠智能地、自動地將這些原始數(shù)據(jù)轉(zhuǎn)化處理為有用的信息和知識。 而計(jì)算機(jī)另一個(gè)領(lǐng)域-人工智能的發(fā)展,使得這種“發(fā)現(xiàn)”成為可能。于是,從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)及其核心技術(shù)數(shù)據(jù)采掘(DM)便應(yīng)運(yùn)而生了。,有價(jià)值的知識,可怕的數(shù)據(jù),數(shù)據(jù)爆炸但知識貧乏,數(shù)據(jù)挖掘是應(yīng)用驅(qū)動的結(jié)果 近年來,數(shù)據(jù)挖掘之所以引起了信息產(chǎn)業(yè)界的極

4、大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。,二、數(shù)據(jù)挖掘的出現(xiàn),數(shù)據(jù)爆炸,知識貧乏,苦惱: 淹沒在數(shù)據(jù)中 ; 不能制定合適的決策!,數(shù)據(jù),知識,決策,銀行信用卡的發(fā)放 保費(fèi)的確定 商品進(jìn)貨量的確定 油井的加壓注水措施 廣告與銷售之間的關(guān)聯(lián) 商品的關(guān)聯(lián)銷售 客戶群的分析 客戶流失分析等等,諸如此類的問題,現(xiàn)有傳統(tǒng)數(shù)據(jù)庫技術(shù)是無能為力,盡管問題的答案可能就深深隱藏在已有的數(shù)據(jù)庫中,結(jié)果,收集在大型數(shù)據(jù)庫中的數(shù)據(jù)變成了 “數(shù)據(jù)墳?zāi)埂彪y得再訪問的數(shù)據(jù)檔案。 這樣,重要的決定常常不是基于數(shù)據(jù)庫中信息豐富的數(shù)據(jù),而是基于決策者的直覺,因?yàn)闆Q策者缺乏從海量

5、數(shù)據(jù)中提取有價(jià)值知識的工具,數(shù)據(jù)和信息之間的鴻溝要求系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳?zāi)罐D(zhuǎn)換成知識“金塊”。,數(shù)據(jù)倉庫技術(shù)是隨著人們對大型數(shù)據(jù)庫系統(tǒng)研究的不斷深入,在傳統(tǒng)數(shù)據(jù)庫技術(shù)基礎(chǔ)之上發(fā)展而來的,其主要目的就是為決策提供支持,為OLAP、數(shù)據(jù)挖掘深層次的分析提供平臺。 數(shù)據(jù)倉庫是一個(gè)和實(shí)際應(yīng)用密不可分的研究領(lǐng)域,與傳統(tǒng)數(shù)據(jù)庫相比,數(shù)據(jù)倉庫不僅引入了許多新的概念,而且在體系結(jié)構(gòu)、數(shù)據(jù)組織等方面,均有其自身的特點(diǎn)。,數(shù)據(jù)倉庫的產(chǎn)生,一、數(shù)據(jù)挖掘的定義 簡單地說,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識。,1.2 數(shù)據(jù)挖掘基本知識,從89年開始出現(xiàn)KDD(Knowledge Discovery i

6、n Databases )以來,人們對KDD在不同應(yīng)用領(lǐng)域下過很多定義。隨著對KDD研究不斷深入,人們對KDD的理解越來越全面,對KDD的定義不斷修改。,定義1:KDD就是要從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識。,二、數(shù)據(jù)挖掘的步驟 KDD定義中的“非平凡性”主要強(qiáng)調(diào)其搜索有一定的自動性、智能性,而并非對數(shù)據(jù)集中的每一點(diǎn)都要遍歷到。它是一個(gè)多步驟的處理過程,多步驟之間相互影響、反復(fù)調(diào)整,形成一種螺旋上升過程。如下圖:,在何種數(shù)據(jù)源上進(jìn)行數(shù)據(jù)挖掘 數(shù)據(jù)挖掘所依賴的數(shù)據(jù)來源多種多樣,可以是常用的關(guān)系數(shù)據(jù)庫、事物數(shù)

7、據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫等,主要取決于用戶的目的及所處的領(lǐng)域。,由以下步驟組成: 1、數(shù)據(jù)清理 消除重復(fù)的、不完全的、違反語義約束的數(shù)據(jù) 2、數(shù)據(jù)集成 多種數(shù)據(jù)源可以組合在一起,3、數(shù)據(jù)選擇 從數(shù)據(jù)庫中檢索與分析任務(wù)相關(guān)的數(shù)據(jù) 4、數(shù)據(jù)變換 數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作,5、數(shù)據(jù)挖掘 使用智能方法提取數(shù)據(jù)模式 6、模式評估 根據(jù)某種興趣度度量,識別表示知識的真正有趣的模式 7、知識表示 使用可視化和知識表示技術(shù),向用戶提供挖掘的知識,這些知識可以直接提供給決策者,用以輔助決策過程;或者提供給領(lǐng)域?qū)<?,修正已有的專家體系;也可以作為新的知識轉(zhuǎn)存到應(yīng)用系統(tǒng)的知識存儲機(jī)

8、構(gòu)中,比如專家系統(tǒng)、規(guī)則庫等。,三、數(shù)據(jù)挖掘的體系結(jié)構(gòu) 基于這種觀點(diǎn),典型的數(shù)據(jù)挖掘系統(tǒng)具有以下主要成分(見圖1-5):,四、數(shù)據(jù)挖掘的學(xué)科體系 數(shù)據(jù)挖掘涉及多學(xué)科技術(shù)的集成,包括: 數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、高性能計(jì)算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索、圖象與信號處理和空間數(shù)據(jù)分析。,圖1-6,根據(jù)采用的技術(shù)分類,最常用的數(shù)據(jù)挖掘技術(shù)有: 統(tǒng)計(jì)方法 機(jī)器學(xué)習(xí)方法 神經(jīng)計(jì)算 可視化,1.統(tǒng)計(jì)方法 統(tǒng)計(jì)方法是從事物的外在數(shù)量上的表現(xiàn)去推斷該事物可能的規(guī)律性. 最初總是從數(shù)量表現(xiàn)上通過統(tǒng)計(jì)分析看出一些線索,然后提出一定的假說或?qū)W說,做進(jìn)一步深入的理論研究. (1)傳統(tǒng)統(tǒng)計(jì)方法 傳統(tǒng)的統(tǒng)

9、計(jì)學(xué)所研究的主要是漸進(jìn)理論,即當(dāng)樣本趨向無窮多時(shí)的統(tǒng)計(jì)性質(zhì)統(tǒng)計(jì)方法主要考慮測試預(yù)想的假設(shè)是否與數(shù)據(jù)模型擬合,統(tǒng)計(jì)方法的處理過程分: 搜集數(shù)據(jù):采樣、實(shí)驗(yàn)設(shè)計(jì) 分析數(shù)據(jù):建模、知識發(fā)現(xiàn) 進(jìn)行推理:預(yù)測,分類 常見的統(tǒng)計(jì)方法 回歸分析(多元回歸) 判別分析(貝葉斯判別、費(fèi)歇爾判別、非參 數(shù)判別等) 聚類分析(系統(tǒng)聚類、動態(tài)聚類等) 探索性分析(主元分析法,相關(guān)分析法等),(2)模糊集 引入模糊邏輯利用隸屬函數(shù)(0-1)之間來表示 某個(gè)特定值屬于某個(gè)類別的程度;此時(shí),可引入模糊邏輯來描述“高收入”這個(gè)概念。,2. 機(jī)器學(xué)習(xí) Simon對學(xué)習(xí)的定義是:”如果一個(gè)系統(tǒng)能夠通過執(zhí)行某種過程而改進(jìn)它的性能.

10、 這就是學(xué)習(xí)” 目前常用的機(jī)器學(xué)習(xí)方法 (1)決策樹 決策樹是一種分類方法,起源于概念學(xué)習(xí)系統(tǒng)。有名的決策樹方法有ID3,C4.5 ,還有CART和Assistant. 決策樹構(gòu)造的輸入是一組帶有類別標(biāo)記的數(shù)據(jù),構(gòu)造的結(jié)果是一棵二叉或多叉樹。樹中節(jié)點(diǎn)可分為兩類:決策節(jié)點(diǎn)和葉子節(jié)點(diǎn)。,年齡?,信用等級?,學(xué)生?,YES,NO,YES,NO,YES,否,是,30-40,40,30,一般,良好,購買電腦的分類模型,(2) 遺傳算法 遺傳算法是一種新的優(yōu)化技術(shù),基于生物進(jìn)化的概念設(shè)計(jì)了一系列的過程來達(dá)到優(yōu)化的目的。這些過程有基因組合、交叉、變異和自然選擇。 遺傳算法可用于分類等問題的求解,最大的優(yōu)點(diǎn)是

11、效率高(適合用并行算法),但有過早收斂的缺點(diǎn).,(3) 關(guān)聯(lián)分析 關(guān)聯(lián)規(guī)則和時(shí)序分新 關(guān)聯(lián)規(guī)則是由R.Agrawal等1993年提出的,表示數(shù)據(jù)庫中一組對象之間某種關(guān)聯(lián)關(guān)系的規(guī)則(例如,“同時(shí)發(fā)生”或者“從一個(gè)對象可以推出另一個(gè)對象),關(guān)聯(lián)規(guī)則挖掘的一般對象是事務(wù)(Tansactional)數(shù)據(jù)庫. 這種數(shù)據(jù)庫的一個(gè)主要應(yīng)用是零售業(yè),比如超級市場的管理。,例如,5%的顧客購買“挪亞牌”面包(用項(xiàng)目A表示),買“挪亞牌”面包的顧客8%也買“挪亞牌”黃油(用項(xiàng)目B表示),則這條關(guān)聯(lián)規(guī)則可表示為 AB(5%,8%),關(guān)聯(lián)規(guī)則提供的信息用作商品的銷售目錄設(shè)計(jì)、商場貨物布置、生產(chǎn)安排、商品廣告郵寄分析等

12、。,(4) 神經(jīng)網(wǎng)絡(luò) 從結(jié)構(gòu)上模仿生物神經(jīng)網(wǎng)絡(luò),是一種通過訓(xùn)練來學(xué)習(xí)的非線形預(yù)測模型??梢酝瓿煞诸?、回歸等多種數(shù)據(jù)挖掘任務(wù);,神經(jīng)網(wǎng)絡(luò)是指一類新的計(jì)算模型,它是模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機(jī)智而建立的一種計(jì)算模型.其特點(diǎn)是利用大量簡單的計(jì)算單元連成網(wǎng)絡(luò),來實(shí)現(xiàn)大規(guī)模并行計(jì)算.神經(jīng)網(wǎng)絡(luò)的工作機(jī)理是通過學(xué)習(xí),改變神經(jīng)元之間的連接程度. 多層感知機(jī),反傳網(wǎng)絡(luò),自適應(yīng)映射網(wǎng)絡(luò),徐雷的陰陽機(jī),史忠植提出的神經(jīng)場模型,1.5 數(shù)據(jù)挖掘的功能 數(shù)據(jù)挖掘功能 -用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。 數(shù)據(jù)挖掘任務(wù) -描述和預(yù)測。,一、概念/類描述:定性和對比(特征化和區(qū)分) 對含有大量數(shù)據(jù)的數(shù)據(jù)集合進(jìn)行概

13、述性的總結(jié),并獲得簡明、準(zhǔn)確的描述-概念描述 通過綜合、匯總、歸納和對比,分析事物的特征,Ex1: 一個(gè)數(shù)據(jù)挖掘系統(tǒng)要從我校職工數(shù)據(jù)庫中,挖掘出講師情況的概要總結(jié),并給出講師的概念描述 數(shù)據(jù)挖掘系統(tǒng)首先利用SQL查詢語句收集有關(guān)講師的信息數(shù)據(jù),之后利用數(shù)據(jù)概要總結(jié)挖掘算法(如概念爬升)獲得有關(guān)講師情況的概要描述,總結(jié)并用概念描述規(guī)則描述: “62%(age24),概念化輸出可以用多種形式。包括餅圖、條圖、曲線、多維數(shù)據(jù)立方體和包括交叉表在內(nèi)的多維表。 結(jié)果描述也可以用概化關(guān)系(generalized relation)或規(guī)則形式(稱作特征規(guī)則)提供,對比是將目標(biāo)類對象的一般特性與一個(gè)或多個(gè)對比

14、類對象的一般特性比較。 Ex2: 一個(gè)數(shù)據(jù)挖掘系統(tǒng)需要從我校職工數(shù)據(jù)庫中,針對我校副教授的情況(對比數(shù)據(jù)集),對講師情況(目標(biāo)數(shù)據(jù)集)進(jìn)行對比概要總結(jié),并給出講師對比概念描述 “講師:78%(paper=3) and (teaching course3),二、關(guān)聯(lián)分析 (1)發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)間的相互關(guān)聯(lián) (2)多維關(guān)聯(lián) vs. 單維關(guān)聯(lián) 例如: Ex3:age(X, “20.29”) income(X, “20.29K”) buys(X, “PC”) support = 2%, confidence = 60% Ex4:buys(T, “computer”) buys(T, “software

15、”) support = 1%, confidence = 75%,對于關(guān)聯(lián)規(guī)則可以用: (1) 規(guī)則的支持度(support)。規(guī)則的支持度表示滿足規(guī)則的樣本百分比。支持度是概率,表示同時(shí)包含X和Y事務(wù),即項(xiàng)集X和Y的并。 (2)規(guī)則的置信度(confidence)。置信度是條件概率,即包含X的事務(wù)也包含Y的概率。,三、聚類分析 每個(gè)類的標(biāo)識事先不確定,把一組對象按照相似性歸成若干類別,即“物以類聚”。 基本的原則:屬于同一類別的個(gè)體之間的距離盡可能的小而不同類別上的個(gè)體間的距離盡可能的大。,Ex5: 對在一個(gè)商場購買力較大的顧客居住地進(jìn)行聚類分析,以幫助商場主管針對顧客群采取有針對性的營銷

16、策略。,四、孤立點(diǎn)(異常點(diǎn))分析(Outlier analysis) 發(fā)現(xiàn)與數(shù)據(jù)的一般行為不一致的數(shù)據(jù)對象,即異常點(diǎn)。 通??梢詫⑺暈樵胍魯?shù)據(jù)或非常事件,如:欺詐行為等,孤立點(diǎn)可以使用統(tǒng)計(jì)試驗(yàn)檢測。它假定一個(gè)數(shù)據(jù)分布或概率模型, 并使用距離度量,到其他聚類的距離很大的對象被視為孤立點(diǎn)。,五、分類和預(yù)測 分類和預(yù)測模型主要是通過數(shù)據(jù)庫中某些已知數(shù)據(jù)來得到另外一些數(shù)據(jù) 分類 在數(shù)據(jù)庫的一個(gè)對象集中發(fā)現(xiàn)公共的屬性,并根據(jù)分類模型把這些對象分成不同的類的過程。 例如:根據(jù)不同的氣候環(huán)境,對不同地區(qū)進(jìn)行分類; 根據(jù)不同的成績,對學(xué)生進(jìn)行分類 方法表述: 決策樹、分類規(guī)則、神經(jīng)網(wǎng)絡(luò)等,若預(yù)測的變量是離散

17、的(如動物識別,批準(zhǔn)或否決貸款)-分類 若預(yù)測的變量是連續(xù)的(如預(yù)測盈虧情況,工資情況)-回歸,EX7:一個(gè)商場銷售主管想預(yù)測某新商品銷售情況,以便采取相應(yīng)的促銷措施: 可以:利用已銷售的商品根據(jù)顧客對其( price,brand,place_made,type)的反應(yīng),建立一個(gè)分類模型(比如用決策樹表示),葉子節(jié)點(diǎn)有三類(積極,一般,消極) 根據(jù)分類模型,就可以預(yù)測新商品的銷售情況以及顧客最感興趣的商品特征,從而采取相應(yīng)的、合理的促銷活動。,EX8:基于債務(wù)水平、收入水平和工作情況,可以對給定用戶進(jìn)行信用風(fēng)險(xiǎn)分析。 分類算法可以通過判斷以上屬性與已知訓(xùn)練數(shù)據(jù)中風(fēng)險(xiǎn)程度的關(guān)系給出預(yù)言結(jié)果,ALL 信用風(fēng)險(xiǎn)(good:3,bad:4),債務(wù)=“l(fā)ow” 信用風(fēng)險(xiǎn)(good:3,bad:1),債務(wù)=“high” 信用風(fēng)險(xiǎn)(good:0,bad:3),工作類型=selfemployed 信用風(fēng)險(xiǎn)(good:1,bad:1),工作類型=salaried 信用風(fēng)險(xiǎn)(good:2,bad:0),收入=high 信用風(fēng)險(xiǎn)(good:1,bad:0),收入=bad 信用風(fēng)險(xiǎn)(good:0,bad:1),六、趨勢分析(Trend and evol

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論