商業(yè)智能原理、技術(shù)及應(yīng)用 第2版 課件 第3章 商業(yè)智能原理(上)_第1頁
商業(yè)智能原理、技術(shù)及應(yīng)用 第2版 課件 第3章 商業(yè)智能原理(上)_第2頁
商業(yè)智能原理、技術(shù)及應(yīng)用 第2版 課件 第3章 商業(yè)智能原理(上)_第3頁
商業(yè)智能原理、技術(shù)及應(yīng)用 第2版 課件 第3章 商業(yè)智能原理(上)_第4頁
商業(yè)智能原理、技術(shù)及應(yīng)用 第2版 課件 第3章 商業(yè)智能原理(上)_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

主講教師:戴小廷商業(yè)智能數(shù)據(jù)與商業(yè)決策支持

—步入數(shù)據(jù)的紛繁世界商業(yè)智能概述

—初步了解商業(yè)智能商業(yè)智能原理

—洞察商業(yè)智能核心技術(shù)商業(yè)智能的敏捷實現(xiàn)

—了解商業(yè)智能實現(xiàn)工具理論篇應(yīng)用篇案例篇(課內(nèi)實驗)—掌握商業(yè)智能實現(xiàn)工具(專周實訓(xùn))—商業(yè)智能行業(yè)典型應(yīng)用第3章商業(yè)智能原理一、數(shù)據(jù)倉庫的基本原理二、數(shù)據(jù)倉庫系統(tǒng)三、數(shù)據(jù)倉庫的開發(fā)與應(yīng)用四、聯(lián)機分析處理五、數(shù)據(jù)挖掘六、數(shù)據(jù)挖掘的決策支持及應(yīng)用了解數(shù)據(jù)倉庫系統(tǒng)的結(jié)構(gòu)、開發(fā)和應(yīng)用;初步掌握數(shù)據(jù)倉庫原理、聯(lián)機分析處理技術(shù)和數(shù)據(jù)挖掘技術(shù)方法;會應(yīng)用聯(lián)機分析處理技術(shù)分析數(shù)據(jù);能夠進行簡單的關(guān)聯(lián)規(guī)則挖掘。本章學(xué)習(xí)目標(biāo)5第一節(jié)數(shù)據(jù)倉庫的基本原理6

數(shù)據(jù)倉庫的產(chǎn)生1996年,中國IT界兩大熱門話題:互聯(lián)網(wǎng)絡(luò)

數(shù)據(jù)倉庫美國FORTUNE雜志統(tǒng)計2000家商務(wù)公司中,90%應(yīng)用DW。計算機應(yīng)用初期電子數(shù)據(jù)處理(EDP)決策支持系統(tǒng)(DSS)執(zhí)行信息系統(tǒng)(EIS)數(shù)據(jù)倉庫探求企業(yè)辦公室(OA)開發(fā)環(huán)境財會部(AM)→數(shù)據(jù)結(jié)構(gòu)→(全局數(shù)據(jù))很難一致人事部(PM)系統(tǒng)結(jié)構(gòu)一什么是數(shù)據(jù)倉庫?7沒有(一致的)全局信息→很難產(chǎn)生正確的決策沒有(完整的)歷史數(shù)據(jù)→歷史數(shù)據(jù)分析(經(jīng)驗)發(fā)展趨勢預(yù)測隱含信息挖掘→更難支持企業(yè)決策研究企業(yè)范圍內(nèi)的數(shù)據(jù)集成多數(shù)據(jù)庫系統(tǒng)面向問題的分析海量數(shù)據(jù)存儲產(chǎn)生一項新的信息技術(shù)

DataWarehouseDW的概念起源于20世紀(jì)80年代,美國著名信息工程學(xué)家W.H.Inmon博士提出數(shù)據(jù)倉庫的概念。8數(shù)據(jù)倉庫定義以1992年W.H.Inmon出版《BuildingtheDataWarehouse》為標(biāo)志,數(shù)據(jù)倉庫迅速發(fā)展起來,Inmon也被譽為“數(shù)據(jù)倉庫之父”。W.H.Inmon對數(shù)據(jù)倉庫的定義是:“數(shù)據(jù)倉庫是支持決策過程的、面向主題的、集成的、隨時間變化的、穩(wěn)定的數(shù)據(jù)集合。9

對比內(nèi)容

數(shù)據(jù)庫

數(shù)據(jù)倉庫數(shù)據(jù)內(nèi)容當(dāng)前值歷史的、存檔的、歸納的、計算的數(shù)據(jù)數(shù)據(jù)目標(biāo)面向業(yè)務(wù)操作程序,重復(fù)處理面向主題域,分析應(yīng)用數(shù)據(jù)特性動態(tài)變化,按字段更新靜態(tài)、不能直接更新,只能定時添加、刷新數(shù)據(jù)結(jié)構(gòu)高度結(jié)構(gòu)化、復(fù)雜,適合操作計算簡單、適合分析使用頻率高中到低數(shù)據(jù)訪問量每個事務(wù)只訪問少量記錄有的事務(wù)可能需要訪問大量記錄對響應(yīng)時間的要求以秒為單位時間長數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較10數(shù)據(jù)庫數(shù)據(jù)倉庫JJones女1945年7月20日。。。。。JJones去年有兩張罰單一次大事故。。。。。JJonesMain大街123號已婚。。。。。JJones兩個孩子高血壓。。。。。人壽保險汽車保險房產(chǎn)保險健康保險JJones女1945年7月20日出生去年兩張罰單一次大事故已婚兩個孩子高血壓。。。。。。顧客實例:11數(shù)據(jù)倉庫的特點面向主題主題是在較高層次上對數(shù)據(jù)抽象面向主題的數(shù)據(jù)組織分為兩步驟抽取主題確定每個主題所包含的數(shù)據(jù)內(nèi)容集成的數(shù)據(jù)倉庫是穩(wěn)定的隨時間變化的題在數(shù)據(jù)倉庫中都是由一組關(guān)系表實12數(shù)據(jù)倉庫的特點——面向主題13數(shù)據(jù)倉庫的特點面向主題集成的數(shù)據(jù)倉庫的數(shù)據(jù)是從原有的分散數(shù)據(jù)庫數(shù)據(jù)中抽取來的消除數(shù)據(jù)表述的不一致性(數(shù)據(jù)的清洗)數(shù)據(jù)的綜合數(shù)據(jù)倉庫是穩(wěn)定的隨時間變化的14數(shù)據(jù)倉庫的特點——集成15數(shù)據(jù)倉庫的特點面向主題集成的數(shù)據(jù)倉庫是穩(wěn)定的數(shù)據(jù)倉庫的主要數(shù)據(jù)操作是查詢、分析不進行一般意義上的數(shù)據(jù)更新(過期數(shù)據(jù)可能被刪除)數(shù)據(jù)倉庫強化查詢、淡化并發(fā)控制和完整性保護等技術(shù)隨時間變化的16插入刪除插入修改刪除訪問修改訪問數(shù)據(jù)的逐個記錄方式處理數(shù)據(jù)的批量載入/訪問數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)倉庫的特點——數(shù)據(jù)倉庫是穩(wěn)定的17數(shù)據(jù)倉庫的特點面向主題集成的數(shù)據(jù)倉庫是穩(wěn)定的隨時間變化的不斷增加新的數(shù)據(jù)內(nèi)容不斷刪除舊的數(shù)據(jù)內(nèi)容定時綜合數(shù)據(jù)倉庫中數(shù)據(jù)表的鍵碼都包含時間項,以標(biāo)明數(shù)據(jù)的歷史時期18數(shù)據(jù)倉庫的特點——隨時間變化數(shù)據(jù)庫數(shù)據(jù)倉庫時間期限:當(dāng)前到60—90天記錄更新鍵碼結(jié)構(gòu)可能包括也可能不包括時間元素時間期限:5—10年數(shù)據(jù)的復(fù)雜快照鍵碼結(jié)構(gòu)包括時間元素19二數(shù)據(jù)集市人們在早期開發(fā)企業(yè)級數(shù)據(jù)倉庫時,一般是先建立一個全局的數(shù)據(jù)倉庫,然后在此基礎(chǔ)上建立各種應(yīng)用,即采用“自頂向下”的方法,但在開發(fā)的過程中會出現(xiàn)以下問題:如果按“自頂向下”的方法建立企業(yè)級數(shù)據(jù)倉庫,建設(shè)規(guī)模往往較大,建設(shè)周期長,投資大。在數(shù)據(jù)倉庫建好后,隨著使用數(shù)據(jù)倉庫的部門增多,對數(shù)據(jù)倉庫資源的競爭將成為企業(yè)面臨的一個難題。各個部門都希望能定制數(shù)據(jù)倉庫中的數(shù)據(jù),但數(shù)據(jù)倉庫是面向企業(yè)的

。為解決上述問題,數(shù)據(jù)集市就應(yīng)運而生了。20數(shù)據(jù)集市的定義數(shù)據(jù)集市(DataMart)——具有特定應(yīng)用的數(shù)據(jù)倉庫,從數(shù)據(jù)源中收集數(shù)據(jù),是企業(yè)數(shù)據(jù)倉庫的一個子集。主要針對某個具有戰(zhàn)略意義的應(yīng)用或者具體部門級的應(yīng)用,支持用戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢或者找到進入新市場的具體解決方案。人力資源數(shù)據(jù)集市財務(wù)數(shù)據(jù)集市運輸數(shù)據(jù)集市倉儲數(shù)據(jù)集市等21數(shù)據(jù)集市的特點數(shù)據(jù)集市除具有數(shù)據(jù)倉庫的基本特征以外,還具有以下特點:(1)規(guī)模較小,靈活,可以按照多種方式來組織,如按特定的應(yīng)用、部門、地域、主題等。(2)開發(fā)工作一般由業(yè)務(wù)部門主持定義、設(shè)計、實施、管理和維護。(3)能夠快速實現(xiàn),代價較低,投資回收期短,風(fēng)險小。(4)具集的緊密集成。(5)有利于進一步升級到完整的數(shù)據(jù)倉庫或形成分布式數(shù)據(jù)倉庫。

22數(shù)據(jù)集市的類型數(shù)據(jù)集市可以分為兩種:獨立的數(shù)據(jù)集市(IndependentDataMart),數(shù)據(jù)直接來源于數(shù)據(jù)源。從屬的數(shù)據(jù)集市(DependeantDataMart),數(shù)據(jù)來源于中央的數(shù)據(jù)倉庫。23數(shù)據(jù)源數(shù)據(jù)源分析工具分析工具獨立數(shù)據(jù)集市兩種數(shù)據(jù)集市分析工具中央數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)據(jù)源從屬數(shù)據(jù)集市分析工具分析工具24第二節(jié)數(shù)據(jù)倉庫系統(tǒng)25數(shù)據(jù)倉庫管理工具抽取、轉(zhuǎn)換裝載元數(shù)據(jù)庫數(shù)據(jù)建模工具數(shù)據(jù)倉庫系統(tǒng)=數(shù)據(jù)倉庫(DW)+倉庫管理+分析工具關(guān)系數(shù)據(jù)數(shù)據(jù)文件其它數(shù)據(jù)當(dāng)前數(shù)據(jù)歷史數(shù)據(jù)用戶查詢工具C/S工具OLAP工具DM工具源數(shù)據(jù)倉庫管理數(shù)據(jù)倉庫分析工具數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)圖一數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)26數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫居系統(tǒng)的核心地位是信息挖掘的基礎(chǔ)數(shù)據(jù)倉庫管理系統(tǒng)是整個系統(tǒng)的引擎負責(zé)管理整個系統(tǒng)的運轉(zhuǎn)主要包含ETL、元數(shù)據(jù)庫和數(shù)據(jù)建模工具27數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)倉庫系統(tǒng)的工具層一般的查詢工具、功能強大的分析工具是整個系統(tǒng)發(fā)揮作用的關(guān)鍵主要包括:(1)查詢工具主要是對分析結(jié)果的查詢很少有對記錄級數(shù)據(jù)的查詢28數(shù)據(jù)倉庫系統(tǒng)(2)驗證型工具多維分析工具(OLAP工具)用戶首先提出假設(shè),然后利用各種工具通過反復(fù)、遞歸的檢索查詢以驗證或否定假設(shè)(3)發(fā)掘型工具從大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)模式預(yù)測趨勢和行為29數(shù)據(jù)倉庫支持的一個集成化產(chǎn)品一個集成化的產(chǎn)品集數(shù)據(jù)倉庫系統(tǒng)31粒度——是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。細化程度越高,粒度級就越??;

細化程度越低,粒度級就越大。粒度——細節(jié)的級別粒度的劃分決定了數(shù)據(jù)倉庫中數(shù)據(jù)量的大小和查詢的詳細程度。多重粒度二數(shù)據(jù)倉庫的存儲基本概念32粒度的一個例子高細化低細化每月200個記錄每月40,000個字節(jié)每月一個記錄每月200個字節(jié)通過檢索可以回答無細節(jié)無法回答詢問某一運單的細節(jié)33

分割分割——將當(dāng)前細節(jié)數(shù)據(jù)分散到各自的物理單元中去以便能分別獨立處理,以提高數(shù)據(jù)處理效率。分片——數(shù)據(jù)分割后的獨立單元。數(shù)據(jù)的分割提高了數(shù)據(jù)管理的靈活性

重構(gòu)、索引、重組、恢復(fù)、監(jiān)控分割的標(biāo)準(zhǔn):日期、地域、業(yè)務(wù)領(lǐng)域。34分割的一個例子分片9分片8分片72014分片6分片5分片42013分片3分片2分片12012金融收入倉儲收入運輸收入35數(shù)據(jù)倉庫的數(shù)據(jù)組織形式簡單堆積數(shù)據(jù)輪轉(zhuǎn)綜合數(shù)據(jù)簡化直接數(shù)據(jù)連續(xù)數(shù)據(jù)數(shù)據(jù)更新數(shù)據(jù)更新方式批量更新初次數(shù)據(jù)提取時將采用批量更新增量更新當(dāng)數(shù)據(jù)源中的數(shù)據(jù)發(fā)生改變時,采用增量更新,避免較大的網(wǎng)絡(luò)負載和處理開銷實時更新數(shù)據(jù)源中的數(shù)據(jù)發(fā)生變化時,隨之改變數(shù)據(jù)倉庫中的數(shù)據(jù)周期更新按固定的周期將數(shù)據(jù)源中的數(shù)據(jù)更新反映到數(shù)據(jù)倉庫中,開銷更小。如果數(shù)據(jù)在一個周期內(nèi),數(shù)據(jù)有變化,通常只能反映出最后一次的更新數(shù)據(jù),這個問題基本通過數(shù)據(jù)源的日志來解決。數(shù)據(jù)都是歷史數(shù)據(jù),但弊端是數(shù)據(jù)丟失,37數(shù)據(jù)倉庫的基本數(shù)據(jù)模式多維數(shù)據(jù)模型事實表——存放與分析主題相關(guān)的維編號和度量的基本數(shù)據(jù)維——人們觀察數(shù)據(jù)的特定角度,是每個事物的屬性,也是度量的取值條件度量——事實表中的數(shù)據(jù)屬性,一般是數(shù)值型數(shù)據(jù)維表——表示維的各種表維——量的取值條件,維用外鍵表示38數(shù)據(jù)倉庫的基本數(shù)據(jù)模式星型模式(StarSchema)以事實表為中心若干維表與事實表相聯(lián)簡潔、查詢方便且易于理解39星型模式產(chǎn)品標(biāo)識符類標(biāo)識符大類標(biāo)識符產(chǎn)品名類名大類名現(xiàn)貨存量銷售表產(chǎn)品標(biāo)識符商店標(biāo)識符日期標(biāo)識符單價銷售金額日期表日期標(biāo)識符日月季年商店標(biāo)識符市名省名國名洲名商店表產(chǎn)品表40數(shù)據(jù)倉庫的基本數(shù)據(jù)模式雪花模式(SnowflakeSchema)維一般是由若干層次組成把維按其層次結(jié)構(gòu)表示成若干個表規(guī)范化、節(jié)省存儲空間但需多做連接操作41雪花模式銷售表產(chǎn)品標(biāo)識符商店標(biāo)識符日期標(biāo)識符單價銷售金額日期表日期標(biāo)識符日月月季月表季年季表產(chǎn)品表產(chǎn)品標(biāo)識符類標(biāo)識符產(chǎn)品名現(xiàn)貨存量類表類標(biāo)識符大類標(biāo)識符類名大類表大類標(biāo)識符大類名商店表商店標(biāo)識符市名市名市名省名市表省名國名省表國名洲名國表三OLTP與OLAP環(huán)境下的數(shù)據(jù)庫模式示例OLTP環(huán)境采購子系統(tǒng)訂單(訂單號,供應(yīng)商號,商品號,數(shù)量,日期,總金額)商品(商品號,類別,單價)供應(yīng)商(供應(yīng)商號,供應(yīng)商名,地址,電話)銷售子系統(tǒng)顧客(顧客號,姓名,年齡,文化程度,地址,電話)銷售(員工號,顧客號,商品號,數(shù)量,單價,日期)OLTP環(huán)境(續(xù))庫存管理子系統(tǒng)領(lǐng)料單(領(lǐng)料單號,領(lǐng)料人,商品號,數(shù)量,日期)進料單(進料單號,訂單號,進料人,收料人,日期)庫存(商品號,庫房號,庫存量,日期)庫房(庫房號,庫房管理員,地點,庫存商品描述)人事子系統(tǒng)員工(員工號,姓名,性別,年齡,文化程度,部門號)部門(部門號,部門名稱,部門主管,電話)OLAP環(huán)境下商品商品固有信息:商品號,商品名,類別,顏色等;商品采購信息:商品號,供應(yīng)商號,供應(yīng)價,供應(yīng)量,供應(yīng)日期等;商品銷售信息:商品號,顧客號,售價,銷售量,銷售日期等;商品庫存信息:商品號,庫房號,庫存量,日期等。OLAP環(huán)境下(續(xù))供應(yīng)商供應(yīng)商固有信息:供應(yīng)商號,供應(yīng)商名,地址,電話等;供應(yīng)商品信息:供應(yīng)商號,商品號,供應(yīng)價,供應(yīng)日期,供應(yīng)量等。顧客顧客固有信息:顧客號,顧客名,性別,年齡,文化程度,地址,電話等。顧客購物信息:顧客號,商品號,售價,購買日期,購買量等。46第三節(jié)數(shù)據(jù)倉庫的開發(fā)與應(yīng)用一數(shù)據(jù)倉庫的開發(fā)策略有反饋的平行開發(fā)歐式有反饋的由上而下模式有反饋的由下而上模式

平行開發(fā)模式由上而下模式由下而上模式數(shù)據(jù)倉庫開發(fā)策略二數(shù)據(jù)倉庫設(shè)計的步驟元數(shù)據(jù)模型業(yè)務(wù)數(shù)據(jù)理解和需求分析分析主題和元數(shù)據(jù)概念模型設(shè)計事實及其量度和粒度維度模式確定邏輯模型設(shè)計數(shù)據(jù)倉庫的物理存儲方式物理模型設(shè)計數(shù)據(jù)倉庫生成需求分析49在數(shù)據(jù)倉庫設(shè)計的開始,首先要做的事是有關(guān)分析人員需確定領(lǐng)域的分析對象,這個對象就是主題。如在商場中經(jīng)常需要分析的主題是商品、顧客與供應(yīng)商。主題是一種較高層次的抽象,對它的認識與表示是一個逐步完善的過程。因此,在開始時不妨先確定一個初步的主題概念以利于設(shè)計工作的開始,此后隨著設(shè)計工作的進一步開展,再逐步擴充與完善。

設(shè)計步驟一:需求分析50準(zhǔn)備具體的物理實現(xiàn)環(huán)境,包括:

設(shè)計步驟二:概念設(shè)計在明確主題與已有數(shù)據(jù)源的情況下,用E-R圖和信息包圖方法建立一個數(shù)據(jù)倉庫抽象數(shù)據(jù)模型。概念模型的評估:其內(nèi)容包括數(shù)據(jù)倉庫的性能指標(biāo),如數(shù)據(jù)存取能力,模型重組能力,數(shù)據(jù)裝載能力等。在評估基礎(chǔ)上提出數(shù)據(jù)倉庫的軟硬件平臺要求,包括計算機、網(wǎng)絡(luò)結(jié)構(gòu)、操作系統(tǒng)、數(shù)據(jù)庫及數(shù)據(jù)倉庫軟件的選購要求等。51在邏輯模型設(shè)計基礎(chǔ)上確定數(shù)據(jù)的存儲結(jié)構(gòu)、索引策略、存儲分配及數(shù)據(jù)存放位置等與物理有關(guān)的內(nèi)容。物理模型設(shè)計的具體方法與數(shù)據(jù)庫設(shè)計中的大致相似。

設(shè)計步驟三:邏輯模型設(shè)計

設(shè)計步驟四:物理模型設(shè)計在數(shù)據(jù)倉庫概念模型基礎(chǔ)上可以設(shè)計邏輯模型。52

設(shè)計步驟五:數(shù)據(jù)倉庫生成根據(jù)邏輯模型與物理模型用數(shù)據(jù)倉庫的建模語言定義數(shù)據(jù)模式。根據(jù)元數(shù)據(jù)編制數(shù)據(jù)抽取程序,將數(shù)據(jù)源中的數(shù)據(jù)作加工以形成數(shù)據(jù)倉庫中的數(shù)據(jù)。數(shù)據(jù)加載:將數(shù)據(jù)源中的數(shù)據(jù),通過數(shù)據(jù)抽取程序加載到數(shù)據(jù)倉庫中去。53第四節(jié)聯(lián)機分析處理OLAP(On-lineAnalyticalProcessing)技術(shù)數(shù)據(jù)倉庫是管理決策分析的基礎(chǔ),要有效地利用數(shù)據(jù)倉庫的信息資源,必須要有強大的工具對數(shù)據(jù)倉庫的信息進行分析決策。

OLAP(在線分析處理或聯(lián)機分析處理)就是一個應(yīng)用廣泛的數(shù)據(jù)倉庫使用技術(shù)。它可以根據(jù)分析人員的要求,迅速靈活地對當(dāng)量的數(shù)據(jù)進行復(fù)雜的查詢處理,并以直觀的容易理解的形式將查詢結(jié)果提供給各種決策人員,使他們能夠迅速準(zhǔn)確地掌握企業(yè)的運營情況,了解市場的需求。55一聯(lián)機分析處理的定義在線分析處理是一類軟件技術(shù),利用它可以使分析人員、管理人員以及主管從多種信息視角通過快速、一致和交互地訪問數(shù)據(jù),達到對數(shù)據(jù)的洞察。這些視角是從原始數(shù)據(jù)轉(zhuǎn)換過來的,反映了企業(yè)的真實維度,易于被用戶理解。是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入觀察。是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術(shù)核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。OLAP(On-LineAnalyticalProcessing)業(yè)務(wù)處理系統(tǒng)數(shù)據(jù)準(zhǔn)備區(qū)數(shù)據(jù)倉庫OLAP服務(wù)器客戶端可視化處理底層中間層頂層數(shù)據(jù)抽取數(shù)據(jù)清理轉(zhuǎn)換多維化數(shù)據(jù)加載OLAP在三層數(shù)據(jù)倉庫結(jié)構(gòu)中的位置OLAP的特性1.快速性.用戶對OLAP的快速反應(yīng)能力有很高的要求。2.可分析性.OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的邏輯與統(tǒng)計分析。3.多維性.多維性是OLAP的關(guān)鍵屬性。系統(tǒng)能夠提供對數(shù)據(jù)分析的多維視圖和多維分析。4.信息性.

不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲在何處,OLAP系統(tǒng)應(yīng)能及時獲得信息,并且管理大容量信息。OLAP的基本概念

維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時的一類屬性,屬性集合構(gòu)成一個維。如時間維是某個商品銷售量隨時間發(fā)生的變化,從時間維對商品的銷售進行觀察。維的層次:人們觀察數(shù)據(jù)的某個特定角度(即某個維)還可以存在細節(jié)程度不同的各個描述方面(時間維:日期、月份、季度、年)。維的成員:維的一個取值。是數(shù)據(jù)項在某維中位置的描述。(“某年某月某日”是在時間維上位置的描述)多維數(shù)組:維和變量的組合表示。一個多維數(shù)組可以表示為:(維1,維2,…,維n,觀察變量),(時間,地區(qū),產(chǎn)品,銷售額)。多維數(shù)據(jù)集:是用一個多維數(shù)組來表示,決策分析的基礎(chǔ),也是OLAP的核心,常稱立方體或者超立方。OLAP展現(xiàn)在用戶面前的是一幅幅多維視圖。數(shù)據(jù)單元(單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,$100000)。OLAP:多維分析用維的方法觀察數(shù)據(jù)產(chǎn)品,時間,地區(qū),財務(wù)指標(biāo)等數(shù)據(jù)模型等同于業(yè)務(wù)模型主營業(yè)務(wù)收入分析分公司服務(wù)城市時間收入種類北京上海天津北京廣東...Q1Q4運輸收入倉儲。。。Q2Q3OLAP多維數(shù)據(jù)分析切片和切塊(SliceandDice)在多維數(shù)據(jù)結(jié)構(gòu)中,按二維進行切片,按三維進行切塊,可得到所需要的數(shù)據(jù)。如在“城市、產(chǎn)品、時間”三維立方體中進行切塊和切片,可得到各城市、各產(chǎn)品的銷售情況。鉆取(Drill)

鉆取包含向下鉆取(Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作,鉆取的深度與維所劃分的層次相對應(yīng)。旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。主營業(yè)務(wù)收入分析分公司服務(wù)城市時間收入種類北京上海天津北京廣東...Q1Q4運輸收入倉儲。。。Q2Q3OLAP的分析方法:切片和切塊(SliceandDice)OLAP的分析方法:鉆取(drill-down)按時間維向下鉆取按時間維向上鉆取602014年OLAP:旋轉(zhuǎn)/轉(zhuǎn)軸按照不同的順序組合維,對數(shù)據(jù)進行考察數(shù)據(jù)立方體旋轉(zhuǎn)a)旋轉(zhuǎn)前b)旋轉(zhuǎn)后65OLAP與OLTPOLTP系統(tǒng)——聯(lián)機事務(wù)處理

On-LineTransactionProcessing

事件驅(qū)動,面向應(yīng)用。

如:銀行的儲蓄系統(tǒng)OLAP系統(tǒng)——聯(lián)機分析處理

On-LineAnalyticalProcessing

跨部門,面向主題。OLTP與OLAP對比66面向分析,分析驅(qū)動面向應(yīng)用,事務(wù)驅(qū)動面向決策人員,支持管理需要面向操作人員,支持日常操作用戶數(shù)量相對較少用戶數(shù)量大響應(yīng)時間合理對響應(yīng)時間要求高一次處理的數(shù)據(jù)量大一次處理的數(shù)據(jù)量小周期性更新經(jīng)常更新歷史數(shù)據(jù)當(dāng)前數(shù)據(jù)綜合性數(shù)據(jù)細節(jié)性數(shù)據(jù)數(shù)據(jù)庫/數(shù)據(jù)倉庫數(shù)據(jù)(分析型)數(shù)據(jù)庫數(shù)據(jù)(操作型)OLAPOLTP67基于關(guān)系數(shù)據(jù)庫的OLAP——ROLAP以二維表與多維聯(lián)系來表達多維數(shù)據(jù)(綜合數(shù)據(jù))星型結(jié)構(gòu)事實表,存儲事實的量及各維的碼值(BCNF)維表,對每一個維,至少有一個表用來保存該維的元數(shù)據(jù)(多層次、冗余)事實表通過外鍵與每個維表相聯(lián)系雪花、星座、雪暴模擬多維方式顯示(觀察)數(shù)據(jù)二OLAP的數(shù)據(jù)組織68基于多維數(shù)據(jù)庫的OLAP——MOLAP以多維方式組織數(shù)據(jù)(綜合數(shù)據(jù))以多維方式顯示(觀察)數(shù)據(jù)多維數(shù)據(jù)庫的形式類似于交叉表,可直觀地表述一對多、多對多的關(guān)系如:產(chǎn)品、地區(qū)、銷售額關(guān)系多維多維數(shù)據(jù)庫由許多經(jīng)壓縮的、類似于數(shù)組的對象構(gòu)成,帶有高度壓縮的索引及指針結(jié)構(gòu)以關(guān)系數(shù)據(jù)庫存放細節(jié)數(shù)據(jù)、以多維數(shù)據(jù)庫存放綜合數(shù)據(jù)69MOLAP與ROLAPMOLAP計算速度較快支持的數(shù)據(jù)容量較小缺乏細節(jié)數(shù)據(jù)的OLAPROLAP結(jié)構(gòu)較復(fù)雜以關(guān)系模擬多維支持適當(dāng)細節(jié)的OLAP較成熟HOLAP是以上兩種的綜合用關(guān)系數(shù)據(jù)庫存放細節(jié)數(shù)據(jù)用多維數(shù)據(jù)庫存放綜合數(shù)據(jù)同時具有ROLAP的可伸縮性和MOLAP的快速技術(shù)70桌面級工具BrioQuery(ROLAP)BusinessObjects(ROLAP)CognosImpromptu(ROLAP)CognosPowerPlay(MOLAP)服務(wù)器級OLAPHyperionEssbase(原ArborSoftwareEssbase(MOLAP))MicroStrategyDSSAgent(ROLAP)Oracle’sExpress(hybridMOLAP/ROLAP)71實例1:一個3維的模型,3個維為:部門,時間,銷售。它的三維立方體,三維表三OLAP應(yīng)用實例時間部門銷售20182019汽車家具服裝

銷售量利潤增長%72三維表—切片—下鉆—旋轉(zhuǎn)21.730667721.3202388所有其他27.232540222.4375098汽車31.16600533.862548家具21.538110227.2234670服裝利潤增長%銷售量利潤增長%銷售量20192018實例2:在當(dāng)下的競爭環(huán)境下,企業(yè)為了分析,定位,拓展新的市場,必須對目標(biāo)進行多維分析,OLAP是多維數(shù)據(jù)分析工具的集合。例子:以魯東商業(yè)銀行在2000年至2005年之間的貸款數(shù)據(jù)進行的多維分析案例9張表間的關(guān)系及各表包含的字段表為分析需求分析主題魯東商業(yè)銀行貸款金額分析分析的數(shù)值(事實)貸款總額、正常貸款額以及不良貸款額。分析的角度(維度)信貸機構(gòu)、時間、貸款類別、貸款期限和經(jīng)營狀況。分析粒度(維度級別)信貸機構(gòu):市行、支行和管轄機構(gòu)。時間:年、季度和月。貸款類別:貸款的類別。貸款期限:貸款期限、貸款期限明細。經(jīng)營狀況:經(jīng)營狀況。案例構(gòu)造事實表的視圖:分析數(shù)據(jù)庫中的數(shù)據(jù)表間關(guān)系案例構(gòu)建數(shù)據(jù)倉庫和多維數(shù)據(jù)集連接數(shù)據(jù)源創(chuàng)建數(shù)據(jù)倉庫建立多維數(shù)據(jù)集選擇事實數(shù)據(jù)表建立“信貸機構(gòu)”維度建立“借款日期”維度建立“貸款類別”維度建立“貸款期限”維度建立“經(jīng)營狀況”維度完成多維數(shù)據(jù)集的建立案例使用多維數(shù)據(jù)集瀏覽器查看數(shù)據(jù)案例替換網(wǎng)格中的維度:“借款日期”替換“貸款類別”案例添加“貸款期限”維度案例下鉆“借款日期”維度。下鉆是上卷的逆操作,它是沿著維的層次向下,查看更詳細的數(shù)據(jù)案例上卷“借款日期”維度。上卷是沿著維的層次向上聚集匯總數(shù)據(jù)案例切片:篩選經(jīng)營狀況為“虧損”的企業(yè)。當(dāng)顯示維和上下文維的參與度之和等于2時,稱之為切片(一個維度固定,根據(jù)其他維度變化來看分析)案例切塊:篩選“經(jīng)營狀況”為“虧損”的企業(yè)、“貸款期限”為“短期貸款”。當(dāng)顯示維和上下文維的參與度之和大于2時稱之為切塊案例通過實例可知,OLAP主要實現(xiàn)如下幾種功能通常包含交互式查詢和對數(shù)據(jù)的分析2提供分析的建模功能3生成概括數(shù)據(jù)和聚集,層次4支持功能模型以進行預(yù)測、趨勢分析和統(tǒng)計分析5檢索并顯示二維或三維表格、圖表或圖形化的數(shù)據(jù)6快速響應(yīng)查詢7OLAP主要實現(xiàn)功能給出數(shù)據(jù)倉庫中數(shù)據(jù)的多維邏輯視圖1具有多維數(shù)據(jù)存儲引擎,按陣列存儲數(shù)據(jù)885AnyQuestions?86粒度——細節(jié)的級別高細化——低粒度例如:一個顧客一個月內(nèi)的訂單的細節(jié)低細化——高粒度例如:一個顧客一個月內(nèi)的訂單的綜合87數(shù)據(jù)的分割難以管理容易管理分片88簡單堆積文件1月1日1月2日1月3日……2月1日2月2日

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論