研究生第六章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持匯編資料_第1頁
研究生第六章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持匯編資料_第2頁
研究生第六章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持匯編資料_第3頁
研究生第六章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持匯編資料_第4頁
研究生第六章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的決策支持匯編資料_第5頁
已閱讀5頁,還剩96頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第6章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘 的決策(juc)支持共一百零一頁6.1 數(shù)據(jù)倉庫的基本原理6.1.1 數(shù)據(jù)倉庫概念(ginin)6.1.2 數(shù)據(jù)倉庫結(jié)構(gòu)6.1.3 數(shù)據(jù)集市6.1.4 元數(shù)據(jù)共一百零一頁6.1.1 數(shù)據(jù)倉庫的概念(ginin) (1)W.H.Inmon在建立(jinl)數(shù)據(jù)倉庫一書中,對數(shù)據(jù)倉庫的定義為: 數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的,不同時間的數(shù)據(jù)集合,用于支持經(jīng)營管理中決策制定過程。共一百零一頁1、數(shù)據(jù)倉庫的概念(ginin)(2)SAS軟件研究所定義: 數(shù)據(jù)倉庫是一種管理技術(shù),旨在通過通暢、合理、全面(qunmin)的信息管理,達到有效的決策支持。共一百零一頁1、數(shù)據(jù)

2、倉庫的概念(ginin) 傳統(tǒng)數(shù)據(jù)庫用于事務(wù)處理,也叫操作型處理,是指對數(shù)據(jù)庫聯(lián)機進行日常操作,即對一個或一組記錄的查詢和修改,主要(zhyo)為企業(yè)特定的應(yīng)用服務(wù)的。用戶關(guān)心的是響應(yīng)時間,數(shù)據(jù)的安全性和完整性。 數(shù)據(jù)倉庫用于決策支持,也稱分析型處理,用于決策分析,它是建立決策支持系統(tǒng)(DSS)的基礎(chǔ)。共一百零一頁操作(cozu)型數(shù)據(jù)(DB數(shù)據(jù))與分析型數(shù)據(jù)(DW數(shù)據(jù))之間的差別為:共一百零一頁2、數(shù)據(jù)倉庫特點(tdin)(1)數(shù)據(jù)倉庫是面向主題的 主題是數(shù)據(jù)歸類的標準,每一個主題基本對應(yīng)一個宏觀的分析領(lǐng)域。 例如(lr),銀行的數(shù)據(jù)倉庫的主題:客戶 DW的客戶數(shù)據(jù)來源: 從銀行儲蓄DB、信

3、用卡DB、貸款DB等三個DB中抽取同一客戶的數(shù)據(jù)整理而成。 在DW中分析客戶數(shù)據(jù),可決定是否繼續(xù)給予貸款共一百零一頁2、數(shù)據(jù)倉庫特點(tdin)(2)數(shù)據(jù)倉庫是集成的 數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成對不同的數(shù)據(jù)來源進行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和編碼統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義,異名同義,單位不統(tǒng)一,字長不一致等。 總之,將原始數(shù)據(jù)結(jié)構(gòu)做一個從面向應(yīng)用到面向主題(zht)的大轉(zhuǎn)變。共一百零一頁2、數(shù)據(jù)倉庫特點(tdin)(3)數(shù)據(jù)倉庫是穩(wěn)定的 數(shù)據(jù)倉庫中包括了大量的歷史數(shù)據(jù)。數(shù)據(jù)經(jīng)集成進入數(shù)據(jù)倉庫后是極少或根本不更新的。(4)數(shù)據(jù)倉庫是隨時間(shjin)變化的 數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)

4、時限在510年,故數(shù)據(jù)的鍵碼包含時間項,標明數(shù)據(jù)的歷史時期,這適合DSS進行時間趨勢分析。 數(shù)據(jù)庫只包含當前數(shù)據(jù),即存取某一時間的正確的有效的數(shù)據(jù)。共一百零一頁2、數(shù)據(jù)倉庫特點(tdin) (5)數(shù)據(jù)倉庫的數(shù)據(jù)量大. 大型DW是一個TB(1000GB)級數(shù)據(jù)庫問題(一般為10GB級相當于一般數(shù)據(jù)庫100MB的100倍) (6)數(shù)據(jù)倉庫的硬件要求(yoqi)較高 需要一個巨大的硬件平臺需要一個并行的數(shù)據(jù)庫系統(tǒng). 最好的數(shù)據(jù)倉庫是大的和昂貴的。共一百零一頁 近期基本數(shù)據(jù):是最近時期的業(yè)務(wù)數(shù)據(jù),是數(shù)據(jù)倉庫用戶最感興趣的部分(b fen),數(shù)據(jù)量大。 歷史基本數(shù)據(jù):近期基本數(shù)據(jù)隨時間的推移,由數(shù)據(jù)倉庫

5、的時間控制機制轉(zhuǎn)為歷史基本數(shù)據(jù)。 輕度綜合數(shù)據(jù):是從近期基本數(shù)據(jù)中提取出的,這層數(shù)據(jù)是按時間段選取,或者按數(shù)據(jù)屬性(attributes)和內(nèi)容(contents)進行綜合。 高度綜合數(shù)據(jù)層:這一層的數(shù)據(jù)是在輕度綜合數(shù)據(jù)基礎(chǔ)上的再一次綜合,是一種準決策數(shù)據(jù)。6.1.2 數(shù)據(jù)倉庫結(jié)構(gòu)(jigu)共一百零一頁 元數(shù)據(jù):整個數(shù)據(jù)倉庫的組織結(jié)構(gòu)由元數(shù)據(jù)組織,它不包含數(shù)據(jù)倉庫中的實際數(shù)據(jù)信息。 作用: (1)定位數(shù)據(jù)倉庫的目錄內(nèi)容(nirng) (2)數(shù)據(jù)從業(yè)務(wù)環(huán)境向數(shù)據(jù)倉庫環(huán)境傳遞時數(shù)據(jù)倉庫的目錄內(nèi)容 (3)指導(dǎo)從當前基本數(shù)據(jù)到輕度綜合數(shù)據(jù)到高度綜合數(shù)據(jù)的綜合算法的選擇。 組成: (1)數(shù)據(jù)結(jié)構(gòu) (2

6、)用于綜合的算法 (3)從業(yè)務(wù)環(huán)境到DW規(guī)劃6.1.2 數(shù)據(jù)倉庫結(jié)構(gòu)(jigu)共一百零一頁數(shù)據(jù)倉庫結(jié)構(gòu)圖共一百零一頁 元數(shù)據(jù)是數(shù)據(jù)倉庫的重要組成部分。元數(shù)據(jù)描述了數(shù)據(jù)倉庫的數(shù)據(jù)和環(huán)境(hunjng),即關(guān)于數(shù)據(jù)的數(shù)據(jù)(meta data)。元數(shù)據(jù)就相當于數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)字典 元數(shù)據(jù)包括四種元數(shù)據(jù)關(guān)于數(shù)據(jù)源的元數(shù)據(jù)關(guān)于數(shù)據(jù)模型的元數(shù)據(jù)關(guān)于數(shù)據(jù)倉庫映射的元數(shù)據(jù)關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)6.1.4 元數(shù)據(jù)(shj)共一百零一頁 它是現(xiàn)有的業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源的描述信息。這類元數(shù)據(jù)是對不同平臺(pngti)上的數(shù)據(jù)源的物理結(jié)構(gòu)和含義的描述。具體為: (1)數(shù)據(jù)源中所有物理數(shù)據(jù)結(jié)構(gòu),包括所有的數(shù)據(jù)項及數(shù)據(jù)

7、類型。 (2)所有數(shù)據(jù)項的業(yè)務(wù)定義。 (3)每個數(shù)據(jù)項更新的頻率,以及由誰或哪個過程更新的說明。 (4)每個數(shù)據(jù)項的有效值。1、關(guān)于(guny)數(shù)據(jù)源的元數(shù)據(jù)共一百零一頁 這類元數(shù)據(jù)描述了數(shù)據(jù)倉庫中有什么數(shù)據(jù)以及數(shù)據(jù)之間的關(guān)系,它們是用戶使用管理數(shù)據(jù)倉庫的基礎(chǔ)。這類元數(shù)據(jù)可以支持用戶從數(shù)據(jù)倉庫中獲取數(shù)據(jù)。 數(shù)據(jù)倉庫的數(shù)據(jù)模型是星型模型。 通常企業(yè)數(shù)據(jù)模型被用作建立倉庫數(shù)據(jù)模型的起始點,再對模型加以修改(xigi)和變換。2、關(guān)于(guny)數(shù)據(jù)模型的元數(shù)據(jù)共一百零一頁 這類元數(shù)據(jù)是數(shù)據(jù)源與數(shù)據(jù)倉庫數(shù)據(jù)間的映射。 當數(shù)據(jù)源中的一個數(shù)據(jù)項與數(shù)據(jù)倉庫建立了映射關(guān)系,就應(yīng)該記下這些數(shù)據(jù)項發(fā)生的任何變換

8、或變動。即用元數(shù)據(jù)反映(fnyng)數(shù)據(jù)倉庫中的數(shù)據(jù)項是從哪個特定的數(shù)據(jù)源填充的,經(jīng)過那些轉(zhuǎn)換、變換和加載過程3、關(guān)于(guny)數(shù)據(jù)倉庫映射的元數(shù)據(jù)共一百零一頁3、關(guān)于(guny)數(shù)據(jù)倉庫映射的元數(shù)據(jù)一個抽取要經(jīng)過以下幾個步聚獲取過濾驗證(ynzhng)融合綜合裝載存檔 從源系統(tǒng)的數(shù)據(jù)到數(shù)據(jù)倉庫中的目標數(shù)據(jù)的轉(zhuǎn)移是一項復(fù)雜的工作,其工作量占整個數(shù)據(jù)倉庫開發(fā)的70%共一百零一頁 這類元數(shù)據(jù)是數(shù)據(jù)倉庫中信息的使用情況描述。 數(shù)據(jù)倉庫的用戶最關(guān)心的是兩類元數(shù)據(jù): (1)元數(shù)據(jù)告訴數(shù)據(jù)倉庫中有什么數(shù)據(jù),它們從哪里來。即如何按主題查看數(shù)據(jù)倉庫的內(nèi)容。 (2)元數(shù)據(jù)提供已有的可重復(fù)利用的查詢語言信息。如

9、果(rgu)某個查詢能夠滿足他們的需求,或者與他們的愿望相似,他們就可以再次使用那些查詢而不必從頭開始編程。 關(guān)于數(shù)據(jù)倉庫使用的元數(shù)據(jù)能幫助用戶到數(shù)據(jù)倉庫查詢所需要的信息,用于解決企業(yè)問題。4、關(guān)于數(shù)據(jù)倉庫使用(shyng)的元數(shù)據(jù)共一百零一頁1.數(shù)據(jù)集市的產(chǎn)生數(shù)據(jù)倉庫工作范圍和成本常常是巨大的。開發(fā)數(shù)據(jù)庫是代價很高、時間較長的大項目。提供更緊密集成的數(shù)據(jù)集市就應(yīng)運產(chǎn)生。目前,全世界對數(shù)據(jù)倉庫總投資的一半以上(yshng)均集中在數(shù)據(jù)集市上。6.1.3 數(shù)據(jù)(shj)集市(Data Mart)共一百零一頁數(shù)據(jù)集市(Data Marts)是一種更小、更集中的數(shù)據(jù)倉庫,為公司提供分析商業(yè)數(shù)據(jù)的一條

10、廉價途徑。數(shù)據(jù)集市是指具有特定應(yīng)用的數(shù)據(jù)倉庫,主要針對某個應(yīng)用或者具體部門級的應(yīng)用,支持用戶獲得(hud)競爭優(yōu)勢或者找到進入新市場的具體解決方案2.數(shù)據(jù)集市(jsh)概念共一百零一頁3.數(shù)據(jù)集市(jsh)與數(shù)據(jù)倉庫的關(guān)系數(shù)據(jù)集市不等于數(shù)據(jù)倉庫,多個數(shù)據(jù)集市簡單合并起來不能成為數(shù)據(jù)倉庫。各數(shù)據(jù)集市之間對詳細數(shù)據(jù)和歷史數(shù)據(jù)的存儲存在大量冗余。同一個問題(wnt)在不同的數(shù)據(jù)集市的查詢結(jié)果可能不一致,甚至互相矛盾。各數(shù)據(jù)集市之間以及與源數(shù)據(jù)庫系統(tǒng)之間難以管理。共一百零一頁 1、規(guī)模小2、特定的應(yīng)用3、面向部門4、由業(yè)務(wù)部門定義,設(shè)計和開發(fā)5、由業(yè)務(wù)部門管理(gunl)和維護6、快速實現(xiàn)7、購買較便

11、宜8、投資快速回收9、工具集的緊密集成10、更詳細的、預(yù)先存在的數(shù)據(jù)倉庫的摘要子集11、可升級到完整的數(shù)據(jù)倉庫4.數(shù)據(jù)(shj)集市的特性共一百零一頁5.兩種數(shù)據(jù)集市(jsh)結(jié)構(gòu)從屬數(shù)據(jù)(shj)集市(Dependent Data Mart) 從屬:數(shù)據(jù)直接來自中央數(shù)據(jù)庫,能夠保持數(shù)據(jù)的一致性。 關(guān)鍵業(yè)務(wù)部門建立從屬的數(shù)據(jù)集市,可以很好的查詢反應(yīng)速度。共一百零一頁5.兩種數(shù)據(jù)(shj)集市結(jié)構(gòu)獨立(dl)數(shù)據(jù)集市(Independent Data Mart) 獨立:數(shù)據(jù)直接來自各生產(chǎn)系統(tǒng)。 從投資考慮,用來解決各個部門比較迫切的決策問題。共一百零一頁6.數(shù)據(jù)集市(jsh)與數(shù)據(jù)倉庫的差別數(shù)據(jù)

12、倉庫是基于整個企業(yè)的數(shù)據(jù)模型建立的,它面向企業(yè)范圍(fnwi)的主題;數(shù)據(jù)集市是按照某一特定部門的數(shù)據(jù)模型建立的,由于每個部門有自己特定的需求,因此,對他們對數(shù)據(jù)集市的期望也不一樣,也稱作部門級數(shù)據(jù)倉庫部門的主題與企業(yè)的主題之間可能存在關(guān)聯(lián),也可能不存在關(guān)聯(lián)。數(shù)據(jù)集市的數(shù)據(jù)組織一般采用星形模型,大型數(shù)據(jù)倉庫的數(shù)據(jù)組織采用第三范式。共一百零一頁6.2 數(shù)據(jù)倉庫系統(tǒng)(xtng) 6.2.1數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu) 數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫(DW)、倉庫管理(gunl)和分析工具三部分組成共一百零一頁1、數(shù)據(jù)倉庫管理系統(tǒng)(1)定義部分 用于定義和建立數(shù)據(jù)倉庫系統(tǒng)。它包括:設(shè)計和定義數(shù)據(jù)倉庫的數(shù)據(jù)庫定義數(shù)據(jù)來源

13、確定從源數(shù)據(jù)向數(shù)據(jù)倉庫復(fù)制數(shù)據(jù)時的清理和增強規(guī)則(2)數(shù)據(jù)獲取部分 該部件(bjin)把數(shù)據(jù)從源數(shù)據(jù)中提取出來,依定義部件(bjin)的規(guī)則,抽取、轉(zhuǎn)化和裝載數(shù)據(jù)進入數(shù)據(jù)倉庫。 共一百零一頁(3)管理(gunl)部分 它用于管理數(shù)據(jù)倉庫的工作,包括:對數(shù)據(jù)倉庫中數(shù)據(jù)的維護把倉庫數(shù)據(jù)送出給分散的倉庫服務(wù)器或DSS用戶對倉庫數(shù)據(jù)的安全、歸檔、備份、恢復(fù)等處理工作1、數(shù)據(jù)倉庫管理系統(tǒng)共一百零一頁(4)信息目錄部件(元數(shù)據(jù)) 數(shù)據(jù)倉庫的目錄數(shù)據(jù)是元數(shù)據(jù),由三部分組成: 技術(shù)(jsh)目錄:由定義部件生成,關(guān)于數(shù)據(jù)源、目標、清理規(guī)則、變換規(guī)則以及數(shù)據(jù)源和倉庫之間的映象信息。 業(yè)務(wù)目錄:由倉庫管理員生成,

14、關(guān)于倉庫數(shù)據(jù)的來源及當前值;預(yù)定義的查詢和報表細節(jié);合法性要求等。 信息引導(dǎo)器:使用戶容易訪問倉庫數(shù)據(jù)。利用固定查詢或建立新的查詢,生成暫時的或永久的倉庫數(shù)據(jù)集合的能力等。(5)DBMS部分 DW的存儲形式仍為關(guān)系型數(shù)據(jù)庫。1、數(shù)據(jù)倉庫管理系統(tǒng)共一百零一頁 分析工具集分兩類工具:(1)查詢工具 數(shù)據(jù)倉庫的查詢不是指對記錄級數(shù)據(jù)的查詢,而是指對分析要求的查詢。 一般包含: 可視化工具:以圖形化方式(fngsh)展示數(shù)據(jù),可以幫助了解數(shù)據(jù)的結(jié)構(gòu)、關(guān)系以及動態(tài)性。2、數(shù)據(jù)倉庫工具集共一百零一頁 多維分析工具(OLAP工具): 通過對信息的多種可能的觀察形式進行快速、一致和交互性的存取,這樣便利用戶對

15、數(shù)據(jù)進行深入的分析和觀察。 多維數(shù)據(jù)的每一維代表對數(shù)據(jù)的一個特定(tdng)的觀察視角,如時間、地域、業(yè)務(wù)等。2、數(shù)據(jù)倉庫工具集共一百零一頁(2)數(shù)據(jù)挖掘工具(gngj) 從大量數(shù)據(jù)中挖掘具有規(guī)律性知識,需要利用數(shù)據(jù)挖掘(Data Mining)工具。2、數(shù)據(jù)倉庫工具集共一百零一頁3、數(shù)據(jù)倉庫的運行(ynxng)結(jié)構(gòu) 數(shù)據(jù)倉庫應(yīng)用是一個典型的客戶/服務(wù)器(C/S)結(jié)構(gòu)形式 數(shù)據(jù)倉庫采用服務(wù)器結(jié)構(gòu),客戶端所做的工作有:客戶交互、格式化查詢、結(jié)果顯示、報表生成等。 服務(wù)器端完成各種輔助決策的SQL查詢、復(fù)雜的計算和各類綜合功能等。 現(xiàn)在,越來越普通(ptng)的一種形式是三層C/S結(jié)構(gòu)形式,即在客

16、戶與數(shù)據(jù)倉庫服務(wù)器之間增加一個多維數(shù)據(jù)分析(OLAP)服務(wù)器。共一百零一頁 OLAP服務(wù)器將加強和規(guī)范化決策支持的服務(wù)工作,集中(jzhng)和簡化了原客戶端和數(shù)據(jù)倉庫服務(wù)器的部分工作,降低了系統(tǒng)數(shù)據(jù)傳輸量。 這種結(jié)構(gòu)形式工作效率更高。三層C/S結(jié)構(gòu)(jigu)共一百零一頁6.2.2 數(shù)據(jù)倉庫的存儲(cn ch)數(shù)據(jù)倉庫存儲采用多維數(shù)據(jù)模型。維就是相同類數(shù)據(jù)的集合,商店、時間和產(chǎn)品都是維各個商店的集合是一維,時間的集合是一維,商品的集合是一維。每一個商店、每一段時間、每一種商品就是某一維的一個成員。每一個銷售事實由一個特定的商品、一個特定的時間、一個特定的商品組成。兩維表,如通常的電子表格。三

17、維構(gòu)成立方體,若再增加一維,則圖形(txng)很難想象,也不容易在屏幕上畫出來。共一百零一頁數(shù)據(jù)倉庫是以多維表型的“維表事實表”結(jié)構(gòu)形式組織的,共有三種形式:1、星型模型大多數(shù)的數(shù)據(jù)倉庫都采用“星型模型”。星型模型是由“事實表”(大表)以及多個(du )“維表”(小表)所組成?!笆聦嵄怼敝写娣糯罅筷P(guān)于企業(yè)的事實數(shù)據(jù)(數(shù)量數(shù)據(jù))。 例如:多個時期的數(shù)據(jù)可能會出現(xiàn)在同一個“事實表”中?!熬S表”中存放描述性數(shù)據(jù),維表是圍繞事實表建立的較小的表6.2.2 數(shù)據(jù)倉庫的存儲(cn ch)共一百零一頁共一百零一頁2、雪花模型雪花模型是對星型模型的擴展,雪花模型對星型模型的維表進一步層次化,原來的各維表可能被

18、擴展為小的事實表,形成一些局部的“層次”區(qū)域。它的優(yōu)點是最大限度地減少數(shù)據(jù)存儲量,以及把較小的維表聯(lián)合在一起來改善查詢性能。在上面星型模型的數(shù)據(jù)中 ,對“產(chǎn)品表”“日期(rq)表”“地區(qū)表”進行擴展形成雪花模型數(shù)據(jù)見下圖。6.2.2 數(shù)據(jù)倉庫的存儲(cn ch)共一百零一頁共一百零一頁3、星網(wǎng)模型星網(wǎng)模型是將多個星型模型連接(linji)起來形成網(wǎng)狀結(jié)構(gòu)。多個星型模型通過相同的維,如時間維,連接(linji)多個事實表。6.2.2 數(shù)據(jù)倉庫的存儲(cn ch)共一百零一頁第(2)部分(b fen) 6.3 聯(lián)機(lin j)分析處理(OLAP) 6.4 數(shù)據(jù)倉庫的決策支持共一百零一頁6.3 聯(lián)

19、機分析(fnx)處理聯(lián)機分析處理(On Line Analytical Processing,OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd(科德)于1993年提出的。在數(shù)據(jù)倉庫系統(tǒng)中,聯(lián)機分析處理是重要的數(shù)據(jù)分析工具。OLAP的基本思想是從多方面和多角度以多維的形式來觀察(gunch)企業(yè)的狀態(tài)和了解企業(yè)的變化。共一百零一頁6.3.1 基本概念OLAP是在OLTP(聯(lián)機事務(wù)處理系統(tǒng) )的基礎(chǔ)上發(fā)展起來的。OLTP是以數(shù)據(jù)庫為基礎(chǔ)的,面對的是操作人員和低層管理人員,對基本數(shù)據(jù)的查詢和增、刪、改等進行處理。OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的數(shù)據(jù)分析處理。它有兩個特點:一是在線性(On Line

20、),由客戶機/服務(wù)器這種體系結(jié)構(gòu)來完成的;二是多維分析,這也是OLAP的核心所在。總結(jié):聯(lián)機分析處理是一種用于組織大型商務(wù)數(shù)據(jù)庫和支持商務(wù)智能的技術(shù)。OLAP 數(shù)據(jù)庫分為一個或多個多維數(shù)據(jù)集,每個多維數(shù)據(jù)集都由多維數(shù)據(jù)集管理員組織和設(shè)計以適應(yīng)用戶檢索和分析數(shù)據(jù)的方式,從而(cng r)更易于創(chuàng)建和使用所需的數(shù)據(jù)透視表和數(shù)據(jù)透視圖。共一百零一頁1、OLAP的定義(dngy)聯(lián)機分析處理是共享多維信息的快速分析。它體現(xiàn)了四個特征:(1)快速性:用戶對OLAP的快速反應(yīng)能力有很高的要求。 (2)可分析性:OLAP系統(tǒng)應(yīng)能處理任何(rnh)邏輯分析和統(tǒng)計分析。 (3)多維性:系統(tǒng)必須提供對數(shù)據(jù)分析的多

21、維視圖和分析。(4)信息性:OLAP系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量的信息。 共一百零一頁2、OLAP準則(zhnz) 1993年,E.F.Codd提出(t ch)OLAP的12條準則,其主要的準則有: 1)多維數(shù)據(jù)分析; 2)客戶/服務(wù)器結(jié)構(gòu); 3)多用戶支持; 4)一致的報表性能等。 共一百零一頁2、OLAP準則(zhnz) 多維概念視圖企業(yè)的數(shù)據(jù)空間本身就是多維的。因此OLAP的概念模型也應(yīng)是多維的。用戶可以對多維數(shù)據(jù)模型進行切片、切塊、旋轉(zhuǎn)坐標或進行多維的聯(lián)合(linh)(概括和聚集)分析。共一百零一頁 穩(wěn)定的報表性能報表操作不應(yīng)隨維數(shù)增加而削弱,即當數(shù)據(jù)維數(shù)和數(shù)據(jù)的綜合層次增加時

22、,提供的報表能力和響應(yīng)速度不應(yīng)該有明顯(mngxin)的降低。 2、OLAP準則(zhnz) 共一百零一頁 客戶/服務(wù)器體系結(jié)構(gòu) OLAP是建立在客戶/ 服務(wù)器體系結(jié)構(gòu)上的。要求多維數(shù)據(jù)庫服務(wù)器能夠被不同的應(yīng)用(yngyng)和工具所訪問。2、OLAP準則(zhnz) 共一百零一頁 多用戶支持 當多個用戶要在同一分析模式(msh)上并行工作,需要這些功能的支持。靈活的報表生成 報表必須充分反映數(shù)據(jù)分析模型的多維特征,并可按用戶需要的方式來顯示它。2、OLAP準則(zhnz) 共一百零一頁3、OLAP的基本概念OLAP是針對特定問題(wnt)的聯(lián)機數(shù)據(jù)訪問和分析。 (1)變量 :變量是數(shù)據(jù)的實際

23、意義,即描述數(shù)據(jù)“是什么”。 (2)維:維是人們觀察數(shù)據(jù)的特定角度。如產(chǎn)品維、顧客維、時間維等。 (3)維的層次:數(shù)據(jù)的細節(jié)不同程度為維的層次。如日、月、季、年是時間維的層次。 (4)維成員:維的一個取值稱為該維的一個維成員。如“某年某月某日”是時間維的一個成員。 共一百零一頁3、OLAP的基本概念5)多維數(shù)組:一個多維數(shù)組可以表示為:(維1,維2,維n,變量) 一個5維的結(jié)構(gòu),即(產(chǎn)品,地區(qū),時間(shjin),銷售渠道,銷售額)。(6)數(shù)據(jù)單元(單元格):多維數(shù)組的取值稱為數(shù)據(jù)單元。 如:5維數(shù)據(jù)單元(牙膏,上海,1998年12月,批發(fā),銷售額為100000)。 共一百零一頁4、OLAP與

24、OLTP的關(guān)系(gun x)與比較(1)OLTP (聯(lián)機事務(wù)處理系統(tǒng) )OLTP是低層人員利用計算機網(wǎng)絡(luò)對數(shù)據(jù)庫中的數(shù)據(jù)進行查詢、增、刪、改等操作,以完成事務(wù)處理工作。OLTP利用數(shù)據(jù)庫快速地處理(chl)具體業(yè)務(wù)。OLTP應(yīng)用要求多個查詢并行。 共一百零一頁4、OLAP與OLTP的關(guān)系(gun x)與比較(2)OLAPOLAP是高層人員對數(shù)據(jù)倉庫進行信息分析處理。 存取大量的數(shù)據(jù) 包含聚集的數(shù)據(jù) 按層次對比不同時間周期的聚集數(shù)據(jù) 以不同的方式來表現(xiàn)數(shù)據(jù) 要包含數(shù)據(jù)元素之間的復(fù)雜的計算 能夠快速(kui s)的響應(yīng)用戶的查詢 共一百零一頁4、OLAP與OLTP的關(guān)系(gun x)與比較(3)O

25、LAP與OLTP對比(dub)(對比(dub)表)OLTPOLAP數(shù)據(jù)庫數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)細節(jié)性數(shù)據(jù)綜合性數(shù)據(jù)當前數(shù)據(jù)歷史數(shù)據(jù)一次性處理的數(shù)據(jù)量小一次處理的數(shù)據(jù)量大對響應(yīng)時間要求高響應(yīng)時間合理用戶數(shù)量大用戶相對較少面向應(yīng)用,事務(wù)驅(qū)動面向分析,分析驅(qū)動共一百零一頁 6.3.2 OLAP的數(shù)據(jù)組織 MOLAP(多維OLAP)和ROLAP(關(guān)系OLAP)是OLAP的兩種具體形式: ROLAP是基于關(guān)系數(shù)據(jù)庫存儲方式建立(jinl)的OLAP。多維數(shù)據(jù)映射成平面型的關(guān)系表。采用星型模型。MOLAP是基于多維數(shù)據(jù)庫存儲方式建立的OLAP;表現(xiàn)為“超立方”結(jié)構(gòu),類似于多維數(shù)組的結(jié)構(gòu)。在分析中,需要“旋轉(zhuǎn)”數(shù)

26、據(jù)立方體以及“切片” 、“切塊”等操作。共一百零一頁MOLAP和ROLAP的對比(dub)表MOLAPROLAP固定維可變維維交叉計算多維視圖行級計算超大型數(shù)據(jù)庫讀-寫應(yīng)用維數(shù)據(jù)變化速度快數(shù)據(jù)集市數(shù)據(jù)倉庫共一百零一頁例如,以“產(chǎn)品(chnpn)、城市、時間”三維數(shù)據(jù),如圖 6.3.3 OLAP的決策(juc)支持: OLAP多維數(shù)據(jù)分析共一百零一頁1、基本功能:切片(qi pin)和切塊 對三維數(shù)據(jù),通過“切片” ,分別從城市(chngsh)和產(chǎn)品等不同的角度觀察銷售情況: 共一百零一頁2)鉆 取鉆取:例如,1995年各部門(bmn)銷售收入表如下:共一百零一頁對時間維進行(jnxng)下鉆操

27、作,獲得新表如下:鉆 取(續(xù))共一百零一頁旋轉(zhuǎn)(xunzhun)前的數(shù)據(jù)旋 轉(zhuǎn)共一百零一頁旋轉(zhuǎn)(xunzhun)后的數(shù)據(jù)旋 轉(zhuǎn)(續(xù))共一百零一頁旋轉(zhuǎn)(xunzhun)后再切片共一百零一頁 假設(shè)有一個5維數(shù)據(jù)模型,5個維分別為:商店,方案,部門,時間,銷售。 1三維表查詢 在指定“商店=ALL,方案=現(xiàn)有(xin yu)”情況的三維表(行為部門,列為時間和銷售量)6.3.4、OLAP實例(shl) 共一百零一頁20042005%增長率銷售量利潤增長%銷售量利潤增長%銷售量利潤增長服裝234,67027.2381,10221.562.4(20.0)家具62,54833.866,00531.15.6

28、(8.0)汽車375,09822.4325,40227.2(13.2)21.4所有其它202,38821.3306,67721.750.71.9指定(zhdng)商店、方案后的三維表 共一百零一頁20042005%增長率銷售利潤增長%銷售利潤增長%銷售利潤增長汽車375,09822.4325,40227.2(13.2)21.4維修195,05114.2180,78615.0(7.3)5.6附件116,28043.9122,545音樂63,7678.222,07114.2(63.4)7.3 2、向下鉆取 對汽車部門向下鉆取出具體(jt)項目的銷售情況和利潤增長情況。 共一百零

29、一頁1995Sales服裝381,102家具66,005汽車325,402所有其它306,6773、切片表 切片(Slice)操作是除去一些(yxi)列或行不顯示 共一百零一頁1995銷售量現(xiàn)有計劃差量差量%服裝381,102350,00031,1028.9家具66,00569,000(2,995)(4.3)汽車325,402300,00025,4028.5所有其它306,677350,000(44,322)12.74、旋轉(zhuǎn)表 這次旋轉(zhuǎn)操作得到1995年的交叉表方案(fng n)為:現(xiàn)有、計劃、 差量、差量%。共一百零一頁6.4.2 數(shù)據(jù)倉庫的決策(juc)支持美國(mi u)著名的NCR數(shù)據(jù)

30、倉庫公司對數(shù)據(jù)倉庫總結(jié)5種決策支持能力。 1、報表 2、隨機分析 3、預(yù)測 4、實時決策 5、事件觸發(fā)的自動決策共一百零一頁1、報表(bobio)數(shù)據(jù)倉庫所面臨的最大挑戰(zhàn)是數(shù)據(jù)集成。傳統(tǒng)的環(huán)境經(jīng)常有上百個數(shù)據(jù)源,每一數(shù)據(jù)源都有各自定義的標準和實施技術(shù)。 建立的數(shù)據(jù)倉庫是通過收集各種來源(liyun)的數(shù)據(jù),來回答預(yù)先設(shè)置的一些問題,告訴決策者“發(fā)生了什么”。它為以后數(shù)據(jù)倉庫的發(fā)展奠定了基礎(chǔ)。 共一百零一頁2、隨機(su j)分析數(shù)據(jù)倉庫應(yīng)用的第二種決策(juc)支持是,從“發(fā)生了什么”轉(zhuǎn)向“為什么會發(fā)生”。分析活動就是了解報表數(shù)據(jù)的涵義,需要更多更詳細的數(shù)據(jù)進行各種角度的分析。在第二階段的數(shù)據(jù)

31、倉庫主要用于隨機分析。 共一百零一頁3、預(yù)測(yc)數(shù)據(jù)倉庫的第三種決策支持(zhch)是幫助決策者來預(yù)測未來,回答“將要發(fā)生什么”。數(shù)據(jù)倉庫需要利用歷史資料創(chuàng)建預(yù)測模型。共一百零一頁4、實時(sh sh)決策數(shù)據(jù)倉庫的第4種決策支持是企業(yè)需要準確了解“正在發(fā)生什么”,從而需要建立動態(tài)數(shù)據(jù)倉庫(實時數(shù)據(jù)庫),用于支持戰(zhàn)術(shù)型決策,即實時決策。有效地解決當前的實際問題。第1到第3種決策支持的數(shù)據(jù)倉庫都以支持企業(yè)內(nèi)部戰(zhàn)略性決策為重點,幫助企業(yè)制定發(fā)展(fzhn)戰(zhàn)略。 第4種決策支持側(cè)重在戰(zhàn)術(shù)性決策支持。動態(tài)數(shù)據(jù)倉庫能夠逐項產(chǎn)品、逐個店鋪、逐秒地作出最佳決策支持。共一百零一頁5、事件(shjin)觸

32、發(fā)的自動決策數(shù)據(jù)倉庫的第5種決策支持(zhch)是由事件觸發(fā),利用動態(tài)數(shù)據(jù)庫自動決策,達到“希望發(fā)生什么”。 例如,電子貨架標簽技術(shù)結(jié)合動態(tài)數(shù)據(jù)倉庫,可以幫助企業(yè)按照自己的意愿實現(xiàn)復(fù)雜的價格管理自動化,以便以最低的損耗售出最多的存貨。共一百零一頁 6.5 知識發(fā)現(xiàn)與數(shù)據(jù)挖掘 6.6 數(shù)據(jù)挖掘的決策(juc)支持及應(yīng)用第(3)部分(b fen)共一百零一頁演變(ynbin)階段商業(yè)(shngy)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集(20世紀60年代)數(shù)據(jù)訪問(20世紀80年代)數(shù)據(jù)倉庫決策支持(20世紀90年代數(shù)據(jù)挖掘(正在流行)“過去五年中整個有關(guān)聯(lián)鎖超市總收入是多少?”“聯(lián)鎖超市第一分部去年

33、三月的銷售額是多少?”“聯(lián)鎖超市第一分部去年三月的銷售額是多少?第二分部據(jù)此可得出什么結(jié)論?”“下個月第二分部的銷售會怎么樣?為什么?”計算機、磁帶和磁盤關(guān)系數(shù)據(jù)庫(RDBMS),查詢語言(SQL),ODBCOLAP、多維數(shù)據(jù)庫和數(shù)據(jù)倉庫高級算法、多處理器計算機和海量數(shù)據(jù)庫IBM和CDCOracle、Sybase、Informix、IBM和MicrosoftPilot、Comshare、Arbor、Cognos和MicrostrategyPilot、Lockheed、IBM、SGI和其他初創(chuàng)公司提供歷史性的靜態(tài)的數(shù)據(jù)在記錄級提供歷史性動態(tài)數(shù)據(jù)在各種層次上提供回溯的動態(tài)數(shù)據(jù)提供預(yù)測性信息表 數(shù)據(jù)

34、挖掘的演變進程共一百零一頁產(chǎn) 品ClementineDarwinData mining WorkstationData EngineIBM Intelligent MinerF-DBMSIDISInformation HarvesterKnowledge SeekerNeural WarePrisonRe Mind技 術(shù)供應(yīng)商規(guī)則(guz)歸納神經(jīng)網(wǎng)絡(luò)、遺傳算法等神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)、模糊邏輯(lu j)、信號處理多種技術(shù)分數(shù)維規(guī)則發(fā)現(xiàn)模糊專家系統(tǒng)規(guī)則發(fā)現(xiàn)、決策樹神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)基于實例的推理、歸納邏輯Ingegral SolutionsThinking Machines Corp.HNC Sof

35、tware Inc.MIT GmbhIBM Corp.Cross/Z International Inc.Informational Discovery Inc.Informational HarvestingAngoss Software Int1 Ltd.Neural Ware Inc.Nestor Inc.Cognitive Systems表 一些主要的數(shù)據(jù)挖掘產(chǎn)品共一百零一頁數(shù)據(jù)挖掘的興起(xngq) (1)80年在美國(mi u)召開了第一屆國際機器學(xué)習(xí)研討會; (2)89年8月于美國底特律市召開的第一屆KDD國際學(xué)術(shù)會議; (3)95年在加拿大召開了第一屆知識發(fā)現(xiàn)和數(shù)據(jù)挖掘國際學(xué)術(shù)

36、會議; (4)我國于87年召開了第一屆全國機器學(xué)習(xí)研討會。共一百零一頁6.5.1 知識(zh shi)發(fā)現(xiàn)與數(shù)據(jù)挖掘概念知識發(fā)現(xiàn)(KDD):從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程。 KDD過程定義: 從數(shù)據(jù)集中提取出可信的、新穎的、潛在有用的,以及最終可理解(lji)的模式的高級處理過程。 “模式”可以看成是“知識”的雛形,經(jīng)過驗證、完善后形成知識。數(shù)據(jù)挖掘(DM):KDD過程中的一個特定步驟,它用專門算 法從數(shù)據(jù)中抽取模式(patterns)。共一百零一頁數(shù)據(jù)源數(shù)據(jù)數(shù)據(jù)集成目標數(shù)據(jù)預(yù)處理后數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)模式知識數(shù)據(jù)選擇預(yù)處理數(shù)據(jù)挖掘數(shù)據(jù)轉(zhuǎn)換結(jié)果表達和解釋數(shù)據(jù)準備數(shù)據(jù)挖掘結(jié)果表達和解釋KDD過程(guc

37、hng)共一百零一頁6.5.2 數(shù)據(jù)挖掘方法(fngf)和技術(shù)(一)歸納學(xué)習(xí)方法 分為兩大類:信息論方法(決策樹方法)和集合論方法 1、信息論方法(決策樹方法) 利用信息論的原理建立(jinl)決策樹或者是決策規(guī)則樹。 (1)ID3方法:Quiulan研制的ID3方法是利用信息論中互信息建立決策樹。 (2)IBLE方法:我們研制的IBLE方法,是利用信息論中信道容量,尋找數(shù)據(jù)庫中信息量大的多個字段的取值建立決策規(guī)則樹。共一百零一頁 2、集合論方法 (1)粗糙集(Rough Set)方法 對數(shù)據(jù)庫中的條件屬性集與決策屬性集建立上下近似關(guān)系,對下近似集合建立確定性規(guī)則,對上近似集合建立不確定性規(guī)則

38、(含可信度)。 (2)關(guān)聯(lián)規(guī)則挖掘 在交易事務(wù)數(shù)據(jù)庫中,挖掘出不同商品集的關(guān)聯(lián)關(guān)系,即發(fā)現(xiàn)哪些商品頻繁地被顧客同時(tngsh)購買。6.5.2 數(shù)據(jù)挖掘方法(fngf)和技術(shù)共一百零一頁 (二)仿生物技術(shù) 仿生物技術(shù)典型的方法是神經(jīng)網(wǎng)絡(luò)方法和遺傳算法。 1、神經(jīng)網(wǎng)絡(luò)方法:包括:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)等多個神經(jīng)網(wǎng)絡(luò)方法。 2、遺傳算法:這是模擬生物進化過程的算法。 它由三個基本算子組成:繁殖(選擇)、交叉(重組)、變異(突變) 遺傳算法起到產(chǎn)生(chnshng)優(yōu)良后代的作用,經(jīng)過若干代的遺傳,將得到滿足要求的后代(問題的解)。6.5.2 數(shù)據(jù)挖掘方法(fngf)和技術(shù)共一百零一頁

39、(三)公式發(fā)現(xiàn) 在工程和科學(xué)數(shù)據(jù)庫中對若干數(shù)據(jù)項(變量) 進行一定的數(shù)學(xué)運算(yn sun),求得相應(yīng)的數(shù)學(xué)公式。 1物理定律發(fā)現(xiàn)系統(tǒng)BACON BACON發(fā)現(xiàn)系統(tǒng)完成了物理學(xué)中大量定律的重新發(fā)現(xiàn)。 2經(jīng)驗公式發(fā)現(xiàn)系統(tǒng)FDD 我們研制了FDD發(fā)現(xiàn)系統(tǒng),尋找由數(shù)據(jù)項的初等函數(shù)或復(fù)合函數(shù)組合成的經(jīng)驗公式。 6.5.2 數(shù)據(jù)挖掘方法(fngf)和技術(shù)共一百零一頁(四)統(tǒng)計分析方法(fngf) 利用統(tǒng)計學(xué)原理通過對總體中的樣本數(shù)據(jù)進行分析得出描述和推斷該總體信息和知識的方法。(五)模糊數(shù)學(xué)方法 利用模糊集合理論進行數(shù)據(jù)挖掘,如模糊聚類、模糊分類等。 (六)可視化技術(shù) 利用可視化技術(shù)分析數(shù)據(jù)庫,找到潛在

40、的有用信息。6.5.2 數(shù)據(jù)挖掘方法(fngf)和技術(shù)共一百零一頁6.5.3 數(shù)據(jù)挖掘的知識(zh shi)表示(一)主要有四種:規(guī)則、決策樹、濃縮數(shù)據(jù)、公式。 1、規(guī)則 規(guī)則知識由前提條件和結(jié)論兩部分組成 前提條件由字段項(屬性)的取值的合?。ㄅc) 和析?。ɑ颍┙M合而成。 結(jié)論為決策(juc)字段項(屬性)的取值或者類別組成。共一百零一頁共一百零一頁2、決策樹例如:上例的人群數(shù)據(jù)庫,按ID3方法得到(d do)的決策樹如下:數(shù)據(jù)挖掘的知識(zh shi)表示(二)共一百零一頁 3、知識基(濃縮數(shù)據(jù)) 例如上例的人群數(shù)據(jù)庫,通過計算(j sun)可以得出身高是不重要的字段,刪除它后,再合并相同

41、數(shù)據(jù)元組,得到濃縮數(shù)據(jù)如下表:數(shù)據(jù)挖掘的知識(zh shi)表示(三)共一百零一頁 5、公式 例如,太陽系行星運動數(shù)據(jù)中包含行星運動周期(旋轉(zhuǎn)一周所需時間,天),以及它與太陽的距離(jl)(圍繞太陽旋轉(zhuǎn)的橢圓軌道的長半軸,百萬公里),數(shù)據(jù)如下表:發(fā)現(xiàn)(fxin)的公式為:d3/p2=25數(shù)據(jù)挖掘的知識表示(五)共一百零一頁6.6 數(shù)據(jù)挖掘的決策支持(zhch)及應(yīng)用 6.6.1 數(shù)據(jù)挖掘的決策支持分類有: 關(guān)聯(lián)分析、時序模式、聚類、分類、偏差檢測、預(yù)測。1、關(guān)聯(lián)分析 若兩個或多個數(shù)據(jù)項的取值之間重復(fù)出現(xiàn)且概率很高時,它就存在某種關(guān)聯(lián),可以建立起這些(zhxi)數(shù)據(jù)項的關(guān)聯(lián)規(guī)則。 2、時序模式

42、通過時間序列搜索出重復(fù)發(fā)生概率較高的模式。這里強調(diào)時間序列的影響。 共一百零一頁3、聚類:在數(shù)據(jù)庫中找出一系列有意義的子集,即類。 4、分類:對數(shù)據(jù)庫中的類,找出該類別的概念描述規(guī)則。 5、偏差檢測: 在數(shù)據(jù)庫中找出異常數(shù)據(jù)。6、預(yù)測:利用(lyng)歷史數(shù)據(jù)找出變化規(guī)律的模型,并用此模型預(yù)測未來。6.6 數(shù)據(jù)挖掘的決策(juc)支持及應(yīng)用共一百零一頁6.6.2 數(shù)據(jù)挖掘失敗(shbi)的原因選擇了錯誤的數(shù)據(jù)挖掘問題忽略了管理層的支持者對數(shù)據(jù)挖掘的看法和數(shù)據(jù)挖掘能干什么、不能干什么沒有為數(shù)據(jù)準備留下了足夠的時間,這比通常所預(yù)計的需要更多的努力只注意總的結(jié)果,而不注意單個記錄。沒有詳細記錄數(shù)據(jù)挖掘的過程和結(jié)果。忽略可疑(ky)的發(fā)現(xiàn),快速往下進行。盲目一遍又一遍運行數(shù)據(jù)挖掘算法,不仔細考慮數(shù)據(jù)分析的下一步驟對結(jié)果的測量方法和管理層支持者的測量方法不同。共一百零一頁萬豪酒店(ji din)數(shù)據(jù)挖掘舉

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論