版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 主講教師: 胡曉暉 聯(lián)系方式:,從數(shù)據(jù)中挖掘“金子”,應用驅動,1.1-數(shù)據(jù)挖掘的產生背景,發(fā)揮您的想象力,選擇您認為可是的答案,案例1:農夫山泉用大數(shù)據(jù)賣礦泉水,胡健想知道的問題包括: 怎樣擺放水堆更能促進銷售? 什么年齡的消費者在水堆前停留更久,他們一次購買的量多大? 氣溫的變化讓購買行為發(fā)生了哪些改變? 競爭對手的新包裝對銷售產生了怎樣的影響? 不少問題目前也可以回答,但它們更多是基于經(jīng)驗,而不是基于數(shù)據(jù)。,案例2:阿迪達斯的“黃金羅盤”,案例3:數(shù)據(jù)權之爭,案例4:紙牌屋你學不會,案例5:定制愛情,一、數(shù)據(jù)豐富與知識貧乏 數(shù)據(jù)、信息和知識 數(shù)據(jù) 是“客觀事物的屬性、
2、數(shù)量、位置及相互關系等的抽象表示” 信息 是“數(shù)據(jù)所表示的語義” 知識 是“以各種不同方式把多個信息關聯(lián)在一起的信息結構”或者說知識是“多個信息之間的關聯(lián)”。-,客觀世界,收集,數(shù)據(jù),信息,知識,分析,深入分析,決策和行動,圖1.1,當數(shù)據(jù)量極度增長時,如果沒有有效的方法,由計算機及信息技術來提取有用信息和知識,人們也會感到面對信息海洋像大海撈針一樣束手無策。 據(jù)估計,一個大型企業(yè)數(shù)據(jù)庫中數(shù)據(jù),只有百分之七得到很好應用。這樣,相對于“數(shù)據(jù)過剩”和“信息爆炸”,人們又感到:,“信息貧乏”(Information poor) “數(shù)據(jù)關在牢籠中”(data in jail), 奈斯伯特(John N
3、aisbett)驚呼 “Wear drowning in information,but starving for knowledge”(人類正被數(shù)據(jù)淹沒,卻饑渴于知識)。,面臨浩渺無際的數(shù)據(jù),人們呼喚從數(shù)據(jù)汪洋中來一個去粗存精、去偽存真的技術,使之能從已有信息中發(fā)現(xiàn)模式或規(guī)律,使之能夠智能地、自動地將這些原始數(shù)據(jù)轉化處理為有用的信息和知識。 而計算機另一個領域-人工智能的發(fā)展,使得這種“發(fā)現(xiàn)”成為可能。于是,從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)及其核心技術數(shù)據(jù)采掘(DM)便應運而生了。,有價值的知識,可怕的數(shù)據(jù),數(shù)據(jù)爆炸但知識貧乏,數(shù)據(jù)挖掘是應用驅動的結果 近年來,數(shù)據(jù)挖掘之所以引起了信息產業(yè)界的極
4、大關注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉換成有用的信息和知識。,二、數(shù)據(jù)挖掘的出現(xiàn),數(shù)據(jù)爆炸,知識貧乏,苦惱: 淹沒在數(shù)據(jù)中 ; 不能制定合適的決策!,數(shù)據(jù),知識,決策,銀行信用卡的發(fā)放 保費的確定 商品進貨量的確定 油井的加壓注水措施 廣告與銷售之間的關聯(lián) 商品的關聯(lián)銷售 客戶群的分析 客戶流失分析等等,諸如此類的問題,現(xiàn)有傳統(tǒng)數(shù)據(jù)庫技術是無能為力,盡管問題的答案可能就深深隱藏在已有的數(shù)據(jù)庫中,結果,收集在大型數(shù)據(jù)庫中的數(shù)據(jù)變成了 “數(shù)據(jù)墳墓”難得再訪問的數(shù)據(jù)檔案。 這樣,重要的決定常常不是基于數(shù)據(jù)庫中信息豐富的數(shù)據(jù),而是基于決策者的直覺,因為決策者缺乏從海量
5、數(shù)據(jù)中提取有價值知識的工具,數(shù)據(jù)和信息之間的鴻溝要求系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳墓轉換成知識“金塊”。,數(shù)據(jù)倉庫技術是隨著人們對大型數(shù)據(jù)庫系統(tǒng)研究的不斷深入,在傳統(tǒng)數(shù)據(jù)庫技術基礎之上發(fā)展而來的,其主要目的就是為決策提供支持,為OLAP、數(shù)據(jù)挖掘深層次的分析提供平臺。 數(shù)據(jù)倉庫是一個和實際應用密不可分的研究領域,與傳統(tǒng)數(shù)據(jù)庫相比,數(shù)據(jù)倉庫不僅引入了許多新的概念,而且在體系結構、數(shù)據(jù)組織等方面,均有其自身的特點。,數(shù)據(jù)倉庫的產生,一、數(shù)據(jù)挖掘的定義 簡單地說,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識。,1.2 數(shù)據(jù)挖掘基本知識,從89年開始出現(xiàn)KDD(Knowledge Discovery i
6、n Databases )以來,人們對KDD在不同應用領域下過很多定義。隨著對KDD研究不斷深入,人們對KDD的理解越來越全面,對KDD的定義不斷修改。,定義1:KDD就是要從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識。,二、數(shù)據(jù)挖掘的步驟 KDD定義中的“非平凡性”主要強調其搜索有一定的自動性、智能性,而并非對數(shù)據(jù)集中的每一點都要遍歷到。它是一個多步驟的處理過程,多步驟之間相互影響、反復調整,形成一種螺旋上升過程。如下圖:,在何種數(shù)據(jù)源上進行數(shù)據(jù)挖掘 數(shù)據(jù)挖掘所依賴的數(shù)據(jù)來源多種多樣,可以是常用的關系數(shù)據(jù)庫、事物數(shù)
7、據(jù)庫、文本數(shù)據(jù)庫、多媒體數(shù)據(jù)庫等,主要取決于用戶的目的及所處的領域。,由以下步驟組成: 1、數(shù)據(jù)清理 消除重復的、不完全的、違反語義約束的數(shù)據(jù) 2、數(shù)據(jù)集成 多種數(shù)據(jù)源可以組合在一起,3、數(shù)據(jù)選擇 從數(shù)據(jù)庫中檢索與分析任務相關的數(shù)據(jù) 4、數(shù)據(jù)變換 數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作,5、數(shù)據(jù)挖掘 使用智能方法提取數(shù)據(jù)模式 6、模式評估 根據(jù)某種興趣度度量,識別表示知識的真正有趣的模式 7、知識表示 使用可視化和知識表示技術,向用戶提供挖掘的知識,這些知識可以直接提供給決策者,用以輔助決策過程;或者提供給領域專家,修正已有的專家體系;也可以作為新的知識轉存到應用系統(tǒng)的知識存儲機
8、構中,比如專家系統(tǒng)、規(guī)則庫等。,三、數(shù)據(jù)挖掘的體系結構 基于這種觀點,典型的數(shù)據(jù)挖掘系統(tǒng)具有以下主要成分(見圖1-5):,四、數(shù)據(jù)挖掘的學科體系 數(shù)據(jù)挖掘涉及多學科技術的集成,包括: 數(shù)據(jù)庫技術、統(tǒng)計學、機器學習、高性能計算、模式識別、神經(jīng)網(wǎng)絡、數(shù)據(jù)可視化、信息檢索、圖象與信號處理和空間數(shù)據(jù)分析。,圖1-6,根據(jù)采用的技術分類,最常用的數(shù)據(jù)挖掘技術有: 統(tǒng)計方法 機器學習方法 神經(jīng)計算 可視化,1.統(tǒng)計方法 統(tǒng)計方法是從事物的外在數(shù)量上的表現(xiàn)去推斷該事物可能的規(guī)律性. 最初總是從數(shù)量表現(xiàn)上通過統(tǒng)計分析看出一些線索,然后提出一定的假說或學說,做進一步深入的理論研究. (1)傳統(tǒng)統(tǒng)計方法 傳統(tǒng)的統(tǒng)
9、計學所研究的主要是漸進理論,即當樣本趨向無窮多時的統(tǒng)計性質統(tǒng)計方法主要考慮測試預想的假設是否與數(shù)據(jù)模型擬合,統(tǒng)計方法的處理過程分: 搜集數(shù)據(jù):采樣、實驗設計 分析數(shù)據(jù):建模、知識發(fā)現(xiàn) 進行推理:預測,分類 常見的統(tǒng)計方法 回歸分析(多元回歸) 判別分析(貝葉斯判別、費歇爾判別、非參 數(shù)判別等) 聚類分析(系統(tǒng)聚類、動態(tài)聚類等) 探索性分析(主元分析法,相關分析法等),(2)模糊集 引入模糊邏輯利用隸屬函數(shù)(0-1)之間來表示 某個特定值屬于某個類別的程度;此時,可引入模糊邏輯來描述“高收入”這個概念。,2. 機器學習 Simon對學習的定義是:”如果一個系統(tǒng)能夠通過執(zhí)行某種過程而改進它的性能.
10、 這就是學習” 目前常用的機器學習方法 (1)決策樹 決策樹是一種分類方法,起源于概念學習系統(tǒng)。有名的決策樹方法有ID3,C4.5 ,還有CART和Assistant. 決策樹構造的輸入是一組帶有類別標記的數(shù)據(jù),構造的結果是一棵二叉或多叉樹。樹中節(jié)點可分為兩類:決策節(jié)點和葉子節(jié)點。,年齡?,信用等級?,學生?,YES,NO,YES,NO,YES,否,是,30-40,40,30,一般,良好,購買電腦的分類模型,(2) 遺傳算法 遺傳算法是一種新的優(yōu)化技術,基于生物進化的概念設計了一系列的過程來達到優(yōu)化的目的。這些過程有基因組合、交叉、變異和自然選擇。 遺傳算法可用于分類等問題的求解,最大的優(yōu)點是
11、效率高(適合用并行算法),但有過早收斂的缺點.,(3) 關聯(lián)分析 關聯(lián)規(guī)則和時序分新 關聯(lián)規(guī)則是由R.Agrawal等1993年提出的,表示數(shù)據(jù)庫中一組對象之間某種關聯(lián)關系的規(guī)則(例如,“同時發(fā)生”或者“從一個對象可以推出另一個對象),關聯(lián)規(guī)則挖掘的一般對象是事務(Tansactional)數(shù)據(jù)庫. 這種數(shù)據(jù)庫的一個主要應用是零售業(yè),比如超級市場的管理。,例如,5%的顧客購買“挪亞牌”面包(用項目A表示),買“挪亞牌”面包的顧客8%也買“挪亞牌”黃油(用項目B表示),則這條關聯(lián)規(guī)則可表示為 AB(5%,8%),關聯(lián)規(guī)則提供的信息用作商品的銷售目錄設計、商場貨物布置、生產安排、商品廣告郵寄分析等
12、。,(4) 神經(jīng)網(wǎng)絡 從結構上模仿生物神經(jīng)網(wǎng)絡,是一種通過訓練來學習的非線形預測模型??梢酝瓿煞诸?、回歸等多種數(shù)據(jù)挖掘任務;,神經(jīng)網(wǎng)絡是指一類新的計算模型,它是模仿人腦神經(jīng)網(wǎng)絡的結構和某些工作機智而建立的一種計算模型.其特點是利用大量簡單的計算單元連成網(wǎng)絡,來實現(xiàn)大規(guī)模并行計算.神經(jīng)網(wǎng)絡的工作機理是通過學習,改變神經(jīng)元之間的連接程度. 多層感知機,反傳網(wǎng)絡,自適應映射網(wǎng)絡,徐雷的陰陽機,史忠植提出的神經(jīng)場模型,1.5 數(shù)據(jù)挖掘的功能 數(shù)據(jù)挖掘功能 -用于指定數(shù)據(jù)挖掘任務中要找的模式類型。 數(shù)據(jù)挖掘任務 -描述和預測。,一、概念/類描述:定性和對比(特征化和區(qū)分) 對含有大量數(shù)據(jù)的數(shù)據(jù)集合進行概
13、述性的總結,并獲得簡明、準確的描述-概念描述 通過綜合、匯總、歸納和對比,分析事物的特征,Ex1: 一個數(shù)據(jù)挖掘系統(tǒng)要從我校職工數(shù)據(jù)庫中,挖掘出講師情況的概要總結,并給出講師的概念描述 數(shù)據(jù)挖掘系統(tǒng)首先利用SQL查詢語句收集有關講師的信息數(shù)據(jù),之后利用數(shù)據(jù)概要總結挖掘算法(如概念爬升)獲得有關講師情況的概要描述,總結并用概念描述規(guī)則描述: “62%(age24),概念化輸出可以用多種形式。包括餅圖、條圖、曲線、多維數(shù)據(jù)立方體和包括交叉表在內的多維表。 結果描述也可以用概化關系(generalized relation)或規(guī)則形式(稱作特征規(guī)則)提供,對比是將目標類對象的一般特性與一個或多個對比
14、類對象的一般特性比較。 Ex2: 一個數(shù)據(jù)挖掘系統(tǒng)需要從我校職工數(shù)據(jù)庫中,針對我校副教授的情況(對比數(shù)據(jù)集),對講師情況(目標數(shù)據(jù)集)進行對比概要總結,并給出講師對比概念描述 “講師:78%(paper=3) and (teaching course3),二、關聯(lián)分析 (1)發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)間的相互關聯(lián) (2)多維關聯(lián) vs. 單維關聯(lián) 例如: Ex3:age(X, “20.29”) income(X, “20.29K”) buys(X, “PC”) support = 2%, confidence = 60% Ex4:buys(T, “computer”) buys(T, “software
15、”) support = 1%, confidence = 75%,對于關聯(lián)規(guī)則可以用: (1) 規(guī)則的支持度(support)。規(guī)則的支持度表示滿足規(guī)則的樣本百分比。支持度是概率,表示同時包含X和Y事務,即項集X和Y的并。 (2)規(guī)則的置信度(confidence)。置信度是條件概率,即包含X的事務也包含Y的概率。,三、聚類分析 每個類的標識事先不確定,把一組對象按照相似性歸成若干類別,即“物以類聚”。 基本的原則:屬于同一類別的個體之間的距離盡可能的小而不同類別上的個體間的距離盡可能的大。,Ex5: 對在一個商場購買力較大的顧客居住地進行聚類分析,以幫助商場主管針對顧客群采取有針對性的營銷
16、策略。,四、孤立點(異常點)分析(Outlier analysis) 發(fā)現(xiàn)與數(shù)據(jù)的一般行為不一致的數(shù)據(jù)對象,即異常點。 通常可以將它視為噪音數(shù)據(jù)或非常事件,如:欺詐行為等,孤立點可以使用統(tǒng)計試驗檢測。它假定一個數(shù)據(jù)分布或概率模型, 并使用距離度量,到其他聚類的距離很大的對象被視為孤立點。,五、分類和預測 分類和預測模型主要是通過數(shù)據(jù)庫中某些已知數(shù)據(jù)來得到另外一些數(shù)據(jù) 分類 在數(shù)據(jù)庫的一個對象集中發(fā)現(xiàn)公共的屬性,并根據(jù)分類模型把這些對象分成不同的類的過程。 例如:根據(jù)不同的氣候環(huán)境,對不同地區(qū)進行分類; 根據(jù)不同的成績,對學生進行分類 方法表述: 決策樹、分類規(guī)則、神經(jīng)網(wǎng)絡等,若預測的變量是離散
17、的(如動物識別,批準或否決貸款)-分類 若預測的變量是連續(xù)的(如預測盈虧情況,工資情況)-回歸,EX7:一個商場銷售主管想預測某新商品銷售情況,以便采取相應的促銷措施: 可以:利用已銷售的商品根據(jù)顧客對其( price,brand,place_made,type)的反應,建立一個分類模型(比如用決策樹表示),葉子節(jié)點有三類(積極,一般,消極) 根據(jù)分類模型,就可以預測新商品的銷售情況以及顧客最感興趣的商品特征,從而采取相應的、合理的促銷活動。,EX8:基于債務水平、收入水平和工作情況,可以對給定用戶進行信用風險分析。 分類算法可以通過判斷以上屬性與已知訓練數(shù)據(jù)中風險程度的關系給出預言結果,ALL 信用風險(good:3,bad:4),債務=“l(fā)ow” 信用風險(good:3,bad:1),債務=“high” 信用風險(good:0,bad:3),工作類型=selfemployed 信用風險(good:1,bad:1),工作類型=salaried 信用風險(good:2,bad:0),收入=high 信用風險(good:1,bad:0),收入=bad 信用風險(good:0,bad:1),六、趨勢分析(Trend and evol
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 優(yōu)惠促銷活動方案策劃(3篇)
- 夜宵城活動策劃方案(3篇)
- 隧洞止水施工方案(3篇)
- 企業(yè)內部審計項目管理與實施指南(標準版)
- 年度銷售激勵方案
- 2025年大學公共衛(wèi)生與預防醫(yī)學(營養(yǎng)與食品衛(wèi)生學)試題及答案
- 2025年高職(汽車整形技術)汽車整形試題及答案
- 2025年大學通識核心(思維能力訓練)試題及答案
- 2025年大學(車輛工程)汽車電子技術綜合測試卷及解析
- 2025年中職體育教育(體育理論)試題及答案
- 吸煙有害健康課件教學
- 2025年公司押運年終總結樣本(五篇)
- 2025屆央國企校招筆試真題及答案
- 2025年新蘇教版七上生物知識點歸納
- 鋁單板幕墻施工工藝與鋁單板幕墻施工方案
- 2025教育機構全職教師勞動合同(示范文本)
- 安全協(xié)議責任書模板
- 卵巢顆粒細胞瘤的診治進展2025
- 2025甘肅慶陽正寧縣公安局招聘警務輔助人員40人考試參考試題及答案解析
- 新一代能源管理系統(tǒng)建設方案
- 小型手持式采茶機
評論
0/150
提交評論