版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3章
在線分析處理01OLAP簡介OLAP產(chǎn)生的原因美團點評的OLAP應用OLAP基本概念OLAP的特性OLAP的應用OLAP產(chǎn)生的原因累計數(shù)據(jù)激增增加了提取信息的難度聯(lián)機事務處理系統(tǒng)對于分析處理的功能令人不滿數(shù)據(jù)倉庫促進OLAP技術的發(fā)展OLAP產(chǎn)生的原因美團點評的OLAP應用即席查詢:指用戶通過手寫SQL來完成一些臨時的數(shù)據(jù)分析需求。固化查詢:指對一些固化下來的取數(shù)、看數(shù)的需求,通過數(shù)據(jù)產(chǎn)品的形式提供給用戶,從而提高數(shù)據(jù)分析和運營的效率。HIVE維度組合的聚合成本高數(shù)據(jù)導入和查詢速度慢集群的計算壓力大OLAP美團點評的OLAP應用MPP搜索引擎架構預計算系統(tǒng)Kylin有很好的數(shù)據(jù)量和靈活性支持,但是對響應時間是沒有保證的。犧牲了靈活性換取很好的性能,在搜索類查詢上能做到亞秒級響應。進一步犧牲靈活性換取性能,以實現(xiàn)對超大數(shù)據(jù)集的秒級響應。聯(lián)機事務處理
與聯(lián)機分析處理OLAP概念OLAP委員會的定義:OLAP(聯(lián)機分析處理)
:是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉化出來的、能夠真正為用戶所理解的、并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術OLAP的目標:滿足決策支持或多維環(huán)境特定的查詢和報表需求OLAPOLAP相關概念度量:度量表示用來聚合分析的數(shù)字信息,度量的集合組合成了一個特殊的維度。(如數(shù)量、銷售額、利潤等)維度:維度是一組屬性,表示與多維數(shù)據(jù)集中度量值相關的領域,并且用于分析多維數(shù)據(jù)集中的度量值。維的成員:一個成員是維度(包括度量)上的項目值。度量維度維的成員OLAP基本概念多維數(shù)據(jù)集(Cube)Cube是指一組用于分析數(shù)據(jù)的相關度量值和維度,是分析服務中存儲和分析的基本單位。Cube是聚合數(shù)據(jù)的集合,允許查詢并快速返回結果。Cube就像一個坐標系,每一個Dimension代表一個坐標系,要想得到一個一個點,就必須在每一個坐標軸上取得一個值,而這個點就是Cube中的Cell。如下圖所示。Cube能夠包含不同維度的度量值,因此Cube有時也稱為統(tǒng)一維度模型。維度的創(chuàng)建省市縣產(chǎn)品系列大類小類廠商產(chǎn)品產(chǎn)地分類廠商日期年季度月日OLAP特性用戶對OLAP的快速反應能力有很高的要求OLAP系統(tǒng)應能處理與應用有關的任何邏輯分析和統(tǒng)計分析。系統(tǒng)必須提供對數(shù)據(jù)的多維視圖和分析,包括對層次維和多重層次維的完全支持。不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲在何處,OLAP系統(tǒng)應能及時獲得信息,并且管理大容量信息。快速性可分析性多維性信息性OLAP應用如食品的生產(chǎn)商、服裝廠。通常每月或者每周都會對市場的經(jīng)營狀況和產(chǎn)品的銷售情況分析一次。生活消費品行業(yè)零售業(yè)金融服務業(yè)點擊流分析如各大超市、連鎖店,面臨的主要問題是數(shù)據(jù)量巨大。如銀行、保險業(yè),OLAP主要用來對金融產(chǎn)品的銷售情況進行分析,分析時要具體到每個客戶。電子商務網(wǎng)站通常都會通過日志的形式記錄客戶在網(wǎng)上的所有行為,為更精細地分析用戶行為提供了可能。小試牛刀搶答加分環(huán)節(jié)1.OLAP產(chǎn)生的原因(
)A、累計數(shù)據(jù)激增
B、不夠滿意的聯(lián)機事務處理系統(tǒng)C、數(shù)據(jù)倉庫的發(fā)展
D、滿意的聯(lián)機處理系統(tǒng)多選2.OLAP的相關概念中有(
)A、度量
B、維的成員C、多維數(shù)據(jù)集
D、維度3.OLAP特性包括(
)A.快速性B.可分析性C.多維性D.信息小試牛刀搶答加分環(huán)節(jié)多選02OLAP多維數(shù)據(jù)分析OLAP多維分析切片切塊鉆取旋轉OLAP多維分析多維分析多維分析是一種數(shù)據(jù)分析過程,在此過程中,將數(shù)據(jù)分成兩類:維度和度量多維數(shù)據(jù)分析是以海量數(shù)據(jù)為基礎的復雜數(shù)據(jù)分析技術查詢結果直觀易懂幫助企業(yè)制定方案,增加效益OLAP多維分析場景決策者可能想知道“A部門和B部門今年8月份和去年8月份在銷售總額上的對比情況,并且銷售額按10~20萬、20~30萬、30~40萬,以及40萬以上的分組”在實際決策過程中,決策者需要的數(shù)據(jù)往往不是某一指標單一的值,他們希望能從多個角度來觀察一個或多個指標的值,并找出這些指標之間的關系。OLAP多維分析上卷下鉆切塊多維分析對數(shù)據(jù)的操作旋轉切片多維數(shù)據(jù)分析可以對以多維形式組織起來的數(shù)據(jù)進行上卷、下鉆、切片、切塊、旋轉等各種分析操作,以便剖析數(shù)據(jù),使得分析者、決策者能夠從多個角度、多個側面觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深入了解包含在數(shù)據(jù)中的信息和內涵,幫助其輔助決策。切片切片切塊切塊圖B圖A鉆取鉆取(Drill)
:鉆取包含向下鉆取(Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作,
鉆取的深度與維所劃分的層次相對應。上卷上卷是在數(shù)據(jù)立方體中執(zhí)行聚集操作,通過在維度級別中上升或通過消除某個或某些維度來觀察更概括的數(shù)據(jù)。圖A圖B鉆取下鉆下鉆是通過在維度級別中下降或通過引入某個或某些維度來更細致的觀察數(shù)據(jù)。圖A圖B旋轉通過旋轉可以得到不同視角的數(shù)據(jù)。將圖A全球運輸總額立方體通過旋轉實現(xiàn)時間維和線路維的互換,旋轉結果如下圖B所示。圖A圖B1.構造多維數(shù)據(jù)的方法有(
)A.超立方結構B.多立方結構C.平面結構小試牛刀搶答加分環(huán)節(jié)多選2.多維數(shù)據(jù)分析可以對以多維形式組織起來的數(shù)據(jù)進行哪些操作?(
)A.上卷B.下鉆C.切片D.切塊和旋轉03OLAP分類OLAP分類按數(shù)據(jù)存儲格式劃分關系OLAP多維OLAP混合型OLAPROLAP支持多維原始數(shù)據(jù)和匯總數(shù)據(jù)基于關系數(shù)據(jù)庫的實現(xiàn)不存儲數(shù)據(jù)副本,占用空間小存在的不足:由于ROLAP不存儲源數(shù)據(jù)副本的特點,它最大的障礙就是從數(shù)據(jù)庫中產(chǎn)生報表或處理多維數(shù)據(jù)時會影響操作類型數(shù)據(jù)庫的使用,降低了事務執(zhí)行的性能。MOLAPROLAP主要通過一些軟件工具或中間軟件實現(xiàn),物理層仍采用關系數(shù)據(jù)庫的存儲結構,因此稱為虛擬OLAP(VirtualOLAP)虛擬OLAPMOLAP將OLAP分析所用到的多維數(shù)據(jù)物理上存儲為多維數(shù)組的形式,形成“立方體”的結構。原理由于MOLAP采用了新的存儲結構,從物理層實現(xiàn)起,因此又稱為物理OLAP(PhysicalOLAP)物理OLAPROLAP和MOLAPRIDitem…daymonthquarteryeardollars_sold1001TV…1510Q42017250.61002TV…2310Q42017175……………………5001TV…all10Q4201745786.08數(shù)據(jù)怎樣實際地存放在ROLAP和MOLAP結構中?我們首先看看ROLAP。如名稱所示,ROLAP使用關系表存放聯(lián)機分析處理數(shù)據(jù)。RID為1001和1002的元組數(shù)據(jù)在基本事實級,銷售日期分別是2017年10月15日和2017年10月23日。RID為5001的元組,day的值被泛化為all,因此對應的time值為2017年10月,也就是說,顯示的dollars_sold是一個聚集值。HOLAPROLAPMOLAPHOLAP在HOLAP中,原始數(shù)據(jù)和ROLAP一樣存儲在原來的關系數(shù)據(jù)庫中,而聚合數(shù)據(jù)則以多維的形式存儲。OLAP分類
ROLAPMOLAPHOLAP描述基于關系數(shù)據(jù)庫的OLAP實現(xiàn)關系型數(shù)據(jù)庫關系型數(shù)據(jù)庫細節(jié)數(shù)據(jù)存儲位置基于多維數(shù)據(jù)組織的OLAP實現(xiàn)數(shù)據(jù)立方體數(shù)據(jù)立方體聚合后數(shù)據(jù)存儲位置基于混合數(shù)據(jù)組織的OLAP實現(xiàn)關系型數(shù)據(jù)庫數(shù)據(jù)立方體效率查詢效率最低空間換效率,查詢時效率高查詢效率比ROLAP高,但低于MOLAP聚合時間由于存儲在關系型的數(shù)據(jù)庫中聚合時間低生成cube時需要大量的時間和空間聚合時需要比ROLAP更多的時間具體使用過程中需要用到何種OLAP分析結構,需要針對業(yè)務的具體情況進行選擇,ROLAP、MOLAP與HOLAP的對比情況如下表:多維數(shù)據(jù)模型-星型模型常見的模型:星型模型和雪花型模型。星型模型:當所有維度表連接到事實表上的時候,整個圖就像一個星星,故稱之為星型模型。雪花模型雪花模型:當有多個維度表沒有直接連接到事實表上,而是通過其他維度表連接到事實表上時,其圖形就像雪花,故稱雪花模型。星型模型與雪花模型的對比星型模型和雪花模型對比:對比內容雪花模型
星型模型
數(shù)據(jù)優(yōu)化規(guī)范化數(shù)據(jù),消除冗余,其業(yè)務層級和維度都將存儲在數(shù)據(jù)模型之中。反規(guī)范化數(shù)據(jù),業(yè)務層級不會通過維度之間的參照完整性來部署。業(yè)務模型數(shù)據(jù)模型的業(yè)務層級是由一個不同維度表主鍵-外鍵的關系來代表的。所有必要的維度表在事實表中都只擁有外鍵。性能雪花模型在維度表、事實表之間的連接很多,因此性能方面會比較低。只需要將需要的維度表和事實表連接即可。ETL雪花模型加載數(shù)據(jù)集市,ETL操作在設計上更加復雜,而且由于附屬模型的限制,不能并行化。星型模型加載維度表,不需要再維度之間添加附屬模型,ETL就相對簡單,而且可以實現(xiàn)高度的并行化。事實星座復雜的應用可能需要多個事實表共享維表。這種模型可以看做星型模型的匯集,因此稱做星系模型或事實星座。OLAP與OLTP區(qū)別VS“OLTP”“OLAP”O(jiān)LAP是面向市場的,用于數(shù)據(jù)分析OLAP采用星型或雪花模型和面向主題的數(shù)據(jù)庫設計123OLTP是面向顧客的,用于事務和查詢處理OLTP采用實體-聯(lián)系ER模型和面向應用的數(shù)據(jù)庫設計123OLTP系統(tǒng)管理當前數(shù)據(jù)OLAP系統(tǒng)管理大量歷史數(shù)據(jù),提供匯總和聚集機制OLTP系統(tǒng)的訪問主要由短的原子事務組成4OLAP系統(tǒng)的訪問大部分是只讀操作4ROLAP、MOLAP與HOLAP的性能對比具體使用過程中需要用到何種OLAP分析結構,需要針對業(yè)務的具體情況進行選擇,ROLAP、MOLAP與HOLAP的對比情況如下表所示:ROLAPMOLAPHOLAP描述基于關系數(shù)據(jù)庫的OLAP實現(xiàn)關系型數(shù)據(jù)庫關系型數(shù)據(jù)庫細節(jié)數(shù)據(jù)存儲位置基于多維數(shù)據(jù)組織的OLAP實現(xiàn)數(shù)據(jù)立方體數(shù)據(jù)立方體聚合后數(shù)據(jù)存儲位置基于混合數(shù)據(jù)組織的OLAP實現(xiàn)關系型數(shù)據(jù)庫數(shù)據(jù)立方體效率查詢效率最低空間換效率,查詢時效率高查詢效率比ROLAP高,但低于MOLAP聚合時間由于存儲在關系型的數(shù)據(jù)庫中聚合時間低生成cube時需要大量的時間和空間聚合時需要比ROLAP更多的時間ROLAP體系結構ROLAPServer采用多維數(shù)據(jù)組技術存儲數(shù)據(jù),并對稀疏數(shù)據(jù)采用壓縮技術處理,提供切片、切塊和旋轉等分析操作。稀疏數(shù)據(jù)是指,數(shù)據(jù)框中絕大多數(shù)數(shù)值缺失或者為零的數(shù)據(jù)。MOLAP體系結構MOLAP體系結構源于中間件技術和傳統(tǒng)關系型數(shù)據(jù)庫管理系統(tǒng)不具有較強的可伸縮性。以ROLAPServer為中間件,增加了ROLLUP、CUBE等操作,擴充了SQL為MultipleSQL支持復雜的多維分析。HOLAP體系結構HOLAP體系結構集成了ROLAP的可伸縮性和MOLAP的快速計算的特點。將大量詳細數(shù)據(jù)存放在關系型數(shù)據(jù)庫中,聚集數(shù)據(jù)存放在MOLAP中。1.關于星型模型的特性,說法錯誤的是:(
)A.反規(guī)范化數(shù)據(jù),業(yè)務層級不會通過維度之間的參照完整性來部署。B.所有必要的維度表在事實表中都只擁有外鍵。C.只需要將需要的維度表和事實表連接即可。D.ETL操作在設計上更加復雜,而且由于附屬模型的限制,不能并行化。小試牛刀搶答加分環(huán)節(jié)單選2.下述選項的特性中哪個是關于雪花模型的:(
)A.在維度表、事實表之間的連接很多,因此性能方面會比較低。B.星型模型加載維度表,不需要在維度之間添加附屬模型,ETL就相對簡單,而且可以實現(xiàn)高度的并行化。C.反規(guī)范化數(shù)據(jù),業(yè)務層級不會通過維度之間的參照完整性來部署。D.所有必要的維度表在事實表中都只擁有外鍵。3.關于OLTP與OLAP的區(qū)別,說法正確的是(
)A.前者是細節(jié)性數(shù)據(jù),后者是綜合性和提煉性數(shù)據(jù)B.前者是當前值數(shù)據(jù),后者是歷史數(shù)據(jù)C.前者不可更新但周期性刷新,后者可更新D.前者一次處理的數(shù)據(jù)量小,后者一次處理的數(shù)據(jù)量大小試牛刀搶答加分環(huán)節(jié)多選4.關于星型模型的說法中錯誤的是(
)A.規(guī)范化數(shù)據(jù),消除冗余,其業(yè)務層級和維度都將存儲在數(shù)據(jù)模型之中。B.數(shù)據(jù)模型的業(yè)務層級是由一個不同維度表主鍵-外鍵的關系來代表的。C.星型模型在維度表、事實表之間的連接很多,因此性能方面會比較低。D.星型模型加載數(shù)據(jù)集市,ETL操作在設計上更加復雜,而且由于附屬模型的限制,不能并行化。小試牛刀搶答加分環(huán)節(jié)多選小試牛刀搶答加分環(huán)節(jié)多選5.關于雪花模型的說法中正確的是()A.規(guī)范化數(shù)據(jù),消除冗余,其業(yè)務層級和維度都將存儲在數(shù)據(jù)模型之中。B.數(shù)據(jù)模型的業(yè)務層級是由一個不同維度表主鍵-外鍵的關系來代表的。C.雪花模型在維度表、事實表之間的連接很多,因此性能方面會比較低。D.雪花模型加載數(shù)據(jù)集市,ETL操作在設計上更加復雜,而且由于附屬模型的限制,不能并行化。04主流OLAP工具主流OLAP產(chǎn)品IBMCognosPowerplayOracleEssbaseMicrosoftSSASMicroStrategyIBMCognosPowerplay輕松自如地探察數(shù)據(jù)簡便直觀的顯示方式和趨勢分析快速高效地訪問信息靈活的部署能力強有力的立方體創(chuàng)建高效的OLAP分析與報表HyperionEssbase以服務器為中心的分布式體系結構具有幾百個計算公式快速的響應時間,支持多用戶同時讀寫
有300多個用Essbase作為平臺的開發(fā)商用戶可以自己構件復雜的查詢支持多種財務標準MicrosoftSSASMicrosoftSSAS是用于SQLServer數(shù)據(jù)庫用于BI的組件,通過SSAS可以創(chuàng)建多維數(shù)據(jù)庫,并在之上進行數(shù)據(jù)挖掘操作SSASSSAS采用類似數(shù)組的結構,避免了連接操作,提高分析性能;提供一組存儲過程語言來支持對數(shù)據(jù)的抽??;用戶可通過Web和電子表格使用;靈活的數(shù)據(jù)組織方式,數(shù)據(jù)可以存放在;有內建的分析函數(shù)和4GL用戶自己定制查詢MicroStrategy核心的智能服務器是提供報表、分發(fā)、和多維分析服務的組件,同時也提供集群和多數(shù)據(jù)源的選項,用戶可以用桌面來開發(fā)報表,一般是IT用戶使用,也可以利用Web用戶來開發(fā),一般比較適合最終用戶。開放的API(包括COM、XML、Java)零客戶端的web前端展現(xiàn)工具支持大量用戶及大數(shù)據(jù)量訪問,支持TB級數(shù)據(jù)適合二次開發(fā)以及大量復雜二次運算OLAP工具比較比較項目CognosPowerPlayEssbaseSSASMicroStrategy產(chǎn)品價格價格中等價格最高價格最低價格中等市場份額用戶數(shù)量最多大型企業(yè)BI項目大型企業(yè)BI項目加入中國較晚開發(fā)應用輕便、快捷界面友好、上手迅速部署復雜較為復雜幾大主流OLAP產(chǎn)品各有優(yōu)缺點,接下來對這幾種主流OLAP工具從產(chǎn)品價格、市場份額和開發(fā)應用三個方面進行比較:OLAP實現(xiàn)步驟
01明確問題
02選擇工具
03方案實施經(jīng)濟性不論各種影響工具選擇的因素如何,不論你為自己還是為他人建立模型,也不論你是采用快速原型法還是在實現(xiàn)前先設計邏輯模型,你都需要經(jīng)過幾個獨立的步驟來定義立方體、維、層次、成員、公式和數(shù)據(jù)鏈接,這些過程我們稱為模型建立步驟。用戶需求一組分析人員訪問的是同一個工作表,或者訪問許多個不同但又部分重疊的工作表;所分析的數(shù)據(jù)在一個可直接訪問的數(shù)據(jù)倉庫,或者是幾個互聯(lián)的數(shù)據(jù)庫內,或在一個數(shù)據(jù)集市內;只有一個作為數(shù)據(jù)倉庫的SQL關系數(shù)據(jù)庫服務器,但在客戶端有一堆SQL報表撰寫工具需求調研需求文檔定義模型定義OLAP解決方案的最常見順序是直接在OLAP軟件內從關系數(shù)據(jù)庫內的星形結構的數(shù)據(jù)開始。典型的情況可能是把數(shù)據(jù)存放在一個或多個事實表及其關聯(lián)的維表內。然后在OLAP環(huán)境內,數(shù)據(jù)倉庫的數(shù)據(jù)被鏈接到OLAP模型,模型中建立了維表和OLA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年經(jīng)濟法案例分析企業(yè)法律風險防范與應對策略題庫
- 2026年股票投資基礎考試題與詳細答案解析
- 外貿財務知識
- 2026年綿陽飛行職業(yè)學院單招綜合素質筆試參考題庫含詳細答案解析
- 2026年長春醫(yī)學高等??茖W校單招綜合素質考試參考題庫含詳細答案解析
- 2026年河南職業(yè)技術學院單招綜合素質筆試參考題庫含詳細答案解析
- 2026年貴陽幼兒師范高等??茖W校單招綜合素質筆試備考試題含詳細答案解析
- 2026年鶴壁能源化工職業(yè)學院單招職業(yè)技能考試模擬試題含詳細答案解析
- 2026年廣州城建職業(yè)學院單招職業(yè)技能考試參考題庫含詳細答案解析
- 2026年江蘇財會職業(yè)學院單招綜合素質考試參考題庫含詳細答案解析
- 鵬城實驗室雙聘管理辦法
- 隧道滲漏檢測技術-洞察及研究
- 2025年人教版(2024)小學信息科技四年級(全一冊)教學設計(附教材目錄 P208)
- x探傷安全管理制度
- 財政分局對賬管理制度
- 噴水機車間管理制度
- 云師大附中 2026 屆高三高考適應性月考(一)-地理試卷(含答案)
- 商業(yè)銀行反洗錢風險管理自評估制度研究
- 2025年度法院拍賣合同模板:法院拍賣拍賣保證金退還合同
- 《浙江省城市體檢工作技術導則(試行)》
- DB34∕T 1555-2011 存量房交易計稅價格評估技術規(guī)范
評論
0/150
提交評論