版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
數(shù)據(jù)倉庫與數(shù)據(jù)立方體Contents數(shù)據(jù)倉庫背景及定義01數(shù)據(jù)倉庫系統(tǒng)架構(gòu)02數(shù)據(jù)立方體03OLAP0405本章小結(jié)數(shù)據(jù)倉庫產(chǎn)生的背景數(shù)據(jù)的一項重要作用是為管理決策人員提供幫助,通過對數(shù)據(jù)進行整合、清洗和分析,管理人員能夠得到更準確、更全面的信息支持,從而做出更具前瞻性和決策性的選擇。一種直接的想法是利用數(shù)據(jù)庫進行統(tǒng)計分析,形成如圖3-1所示的自然演化的體系架構(gòu)。數(shù)據(jù)倉庫產(chǎn)生的背景自然演化的體系架構(gòu)主要存在以下缺陷:缺乏統(tǒng)一的數(shù)據(jù)來源缺乏統(tǒng)一的時間基準數(shù)據(jù)口徑差異數(shù)據(jù)獲取效率低數(shù)據(jù)集成時間長看懂數(shù)據(jù)困難以及數(shù)據(jù)加工速度慢數(shù)據(jù)倉庫概念的提出為了應對這些問題,提出了數(shù)據(jù)倉庫的概念。與“分散式管理”的自然演化體系架構(gòu)不同,數(shù)據(jù)倉庫是一種“中央集中式管理”的數(shù)據(jù)架構(gòu)。這種管理架構(gòu)會對數(shù)據(jù)統(tǒng)一進行清洗、整合和建模,使得數(shù)據(jù)變得更加一致、準確和可信,消除不同數(shù)據(jù)源之間的口徑差異,提高數(shù)據(jù)一致性和質(zhì)量。數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理者的決策過程。
面向主題的(subject-oriented):數(shù)據(jù)倉庫的構(gòu)建通常圍繞的是一些比較重要的主題而構(gòu)建,例如產(chǎn)品、客戶或銷售等。集成的(integrated):數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫進行數(shù)據(jù)抽取、清理的基礎上經(jīng)過系統(tǒng)加工、匯總和整理得到的時變的(time-variant):數(shù)據(jù)倉庫可以保存過去的數(shù)據(jù),并且可以顯示數(shù)據(jù)隨著時間的推移而發(fā)生的變化。非易失的(nonvolatile):數(shù)據(jù)倉庫的非易失性意味著數(shù)據(jù)在數(shù)據(jù)倉庫中是安全的、不容易丟失的。數(shù)據(jù)倉庫與數(shù)據(jù)庫之間的區(qū)別數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別,在本質(zhì)上就是在線事務處理(OLTP)和在線分析處理(OLAP)的區(qū)別Contents數(shù)據(jù)倉庫背景及定義01數(shù)據(jù)倉庫系統(tǒng)架構(gòu)02數(shù)據(jù)立方體03OLAP0405本章小結(jié)基本架構(gòu)介紹每個數(shù)據(jù)倉庫系統(tǒng)的核心都有三個主要的組件,分別是:數(shù)據(jù)來源、提取-加載-轉(zhuǎn)換(ELT)過程以及數(shù)據(jù)倉庫本身。大部分數(shù)據(jù)倉庫系統(tǒng)還有數(shù)據(jù)應用部分數(shù)據(jù)倉庫系統(tǒng)分層意義數(shù)據(jù)倉庫系統(tǒng)的分層模式是一種在數(shù)據(jù)倉庫設計中常用的組織模式,通過將數(shù)據(jù)按照不同的層級進行劃分和管理,以實現(xiàn)更高效、更靈活的數(shù)據(jù)處理和利用。數(shù)據(jù)倉庫系統(tǒng)的分層模式主要具備以下幾點作用:分層模式使得數(shù)據(jù)組織結(jié)構(gòu)更清晰提供數(shù)據(jù)血緣追蹤功能減少重復開發(fā)簡化復雜的問題減少業(yè)務的影響數(shù)據(jù)倉庫分層介紹從數(shù)據(jù)倉庫的基本架構(gòu)圖中可以看到,數(shù)據(jù)倉庫包含了多個層級,其中每個層級都有著其特定的功能和處理原則。下面依次介紹數(shù)據(jù)倉庫各層級的用途和處理原則
原始數(shù)據(jù)層(OperationalDataStore)是數(shù)據(jù)倉庫中的一個重要組成部分,它用于存儲從各個業(yè)務系統(tǒng)中提取的、經(jīng)過簡單清洗和整合后的原始數(shù)據(jù)。原始數(shù)據(jù)層通常是數(shù)據(jù)倉庫架構(gòu)中的第一層,也是與業(yè)務系統(tǒng)交互的接口。數(shù)據(jù)倉庫分層介紹數(shù)據(jù)明細層(DataWarehouseDetail)中的數(shù)據(jù)是原始數(shù)據(jù)層數(shù)據(jù)經(jīng)過清洗、轉(zhuǎn)換后得到的明細數(shù)據(jù),保留了數(shù)據(jù)加載過程中的全部信息。同時包含了各種維度表和事實表,可以支持復雜的查詢和分析需求。此外還保留了歷史數(shù)據(jù),能夠支持時間上的溯源和趨勢分析。該層中的數(shù)據(jù)質(zhì)量較高,經(jīng)過清洗、轉(zhuǎn)換、整合等處理,確保數(shù)據(jù)準確性和一致性。數(shù)據(jù)倉庫分層介紹數(shù)據(jù)匯總層(DataWarehouseSummary)通常用于存儲經(jīng)過清洗、轉(zhuǎn)換和集成后的數(shù)據(jù)。這一層位于數(shù)據(jù)倉庫的核心位置,主要負責將來自數(shù)據(jù)源的數(shù)據(jù)進行整合,并提供給決策支持系統(tǒng)和業(yè)務智能應用程序使用。數(shù)據(jù)倉庫分層介紹數(shù)據(jù)應用層(ApplicationDataStore)是根據(jù)業(yè)務需要,由數(shù)據(jù)明細層、數(shù)據(jù)匯總層數(shù)據(jù)統(tǒng)計而出的結(jié)果,該層旨在為數(shù)據(jù)分析和報表生成等工作提供高性能的數(shù)據(jù)查詢和訪問能力,以支持業(yè)務決策和報告需求。該層與數(shù)據(jù)應用部分結(jié)合之后,可以為用戶提供靈活的數(shù)據(jù)查詢和分析功能,支持用戶通過圖表、報表等形式直觀地分析數(shù)據(jù),使用戶能夠根據(jù)自身需求快速獲取所需數(shù)據(jù),并進行多維分析、數(shù)據(jù)挖掘等操作。Contents數(shù)據(jù)倉庫背景及定義01數(shù)據(jù)倉庫系統(tǒng)架構(gòu)02數(shù)據(jù)立方體03OLAP0405本章小結(jié)數(shù)據(jù)立方體的基本概念數(shù)據(jù)立方體是一種多維數(shù)據(jù)集合,通常用于存儲和分析數(shù)據(jù)倉庫中的大量數(shù)據(jù)。它由一個或多個維度和度量組成,維度表示數(shù)據(jù)的屬性或者類別,度量則表示要分析的數(shù)據(jù)指標。通過將數(shù)據(jù)按照不同維度組織,可以形成一個多維數(shù)據(jù)集合,這種數(shù)據(jù)結(jié)構(gòu)就是數(shù)據(jù)立方體。數(shù)據(jù)立方體的基本概念需要注意的是,盡管人們經(jīng)常把數(shù)據(jù)立方體看作三維幾何結(jié)構(gòu),但是在數(shù)據(jù)倉庫中,數(shù)據(jù)立方體是N維的,而不限于三維。數(shù)據(jù)立方體主要具備以下特點:1)多維性:數(shù)據(jù)立方體是一個多維數(shù)據(jù)集合,可以包含多個維度和度量,從而更全面地描述數(shù)據(jù)。2)預計算:為了提高查詢效率,數(shù)據(jù)立方體通常會事先計算并存儲聚合數(shù)據(jù),而不是每次查詢時都重新計算。3)快速響應:由于預計算的結(jié)果,數(shù)據(jù)立方體可以快速響應用戶的查詢請求,提高數(shù)據(jù)分析的效率。4)易于理解:通過數(shù)據(jù)立方體,用戶可以直觀地理解數(shù)據(jù)之間的關系,進行交互式分析和探索。數(shù)據(jù)立方體的基本概念二維數(shù)據(jù)立方體四維數(shù)據(jù)立方體三維數(shù)據(jù)立方體數(shù)據(jù)立方體的組成元素數(shù)據(jù)立方體的組成元素主要包括維度、度量、層次、聚集、維度表和事實表等1)維度(Dimensions):維度是數(shù)據(jù)立方體中用于對數(shù)據(jù)進行分類和分組的屬性或者特征。2)度量(Measures):度量是數(shù)據(jù)立方體中需要進行分析和計算的指標或數(shù)值,用來衡量業(yè)務績效或者其他關鍵性能指標。3)層次(Hierarchies):層次定義了維度之間的父子關系,描述了維度值之間的層級結(jié)構(gòu)。4)聚集(Aggregates):聚集是預先計算并存儲在數(shù)據(jù)立方體中的匯總數(shù)據(jù),例如總銷售額、平均利潤等。5)維度表(DimensionTables):維度表是包含維度屬性信息的表格,用于描述維度的具體內(nèi)容和特征。6)事實表(FactTable):事實表是包含度量信息的表格,用于存儲需要分析的數(shù)值型數(shù)據(jù)。多維數(shù)據(jù)模型的模式多維數(shù)據(jù)模型的模式定義了數(shù)據(jù)在多個維度上的組織結(jié)構(gòu)和關聯(lián)關系。目前最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型,包括星形模式、雪花模式和事實星座模式等星形模式(starschema):星型模式是數(shù)據(jù)倉庫中最常用的多維數(shù)據(jù)模型之一,它采用星型結(jié)構(gòu)來組織數(shù)據(jù)。在星型模式中,中心是一個事實表(FactTable),周圍圍繞著多個維度表(DimensionTables),構(gòu)成了一個星型的結(jié)構(gòu)。多維數(shù)據(jù)模型的模式多維數(shù)據(jù)模型的模式定義了數(shù)據(jù)在多個維度上的組織結(jié)構(gòu)和關聯(lián)關系。目前最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型,包括星形模式、雪花模式和事實星座模式等雪花模式(snowflakeschema):雪花模式是一種數(shù)據(jù)倉庫多維數(shù)據(jù)模型設計結(jié)構(gòu),是在星型模式的基礎上發(fā)展而來的設計模式。在雪花模式中,維度表被進一步規(guī)范化,因此比星型模式具有更復雜的結(jié)構(gòu),其組成要素包括事實表、維度表和規(guī)范化維度表。多維數(shù)據(jù)模型的模式多維數(shù)據(jù)模型的模式定義了數(shù)據(jù)在多個維度上的組織結(jié)構(gòu)和關聯(lián)關系。目前最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型,包括星形模式、雪花模式和事實星座模式等事實星座模式(factconstellation):復雜的應用可能需要多個事實表共享維表。這種模式可以看做星形模式的匯集,因此稱做星系模式(galaxyschema)或事實星座。事實星座模式支持復雜的數(shù)據(jù)關系和多變的數(shù)據(jù)分析需求,適用于需要處理多種不同業(yè)務過程和度量的場景。事實星座的組成要素包括多個事實表、多個維度表和事實表之間的聯(lián)系。Contents數(shù)據(jù)倉庫背景及定義01數(shù)據(jù)倉庫系統(tǒng)架構(gòu)02數(shù)據(jù)立方體03OLAP0405本章小結(jié)OLAP概念在線分析處理OLAP,是一種用于快速分析、探索和匯總多維數(shù)據(jù)的計算技術(shù)。OLAP技術(shù)是基于數(shù)據(jù)倉庫中數(shù)據(jù)立方體的操作,旨在幫助用戶進行復雜的數(shù)據(jù)分析和提供決策支持,OLAP的核心特點如下:多維性:OLAP能夠處理多維數(shù)據(jù),允許用戶以不同的角度(維度)對數(shù)據(jù)進行分析,支持多維數(shù)據(jù)切片和切塊操作。實時分析:OLAP技術(shù)支持用戶對數(shù)據(jù)進行即時的、動態(tài)的分析,用戶可以隨時根據(jù)需要進行數(shù)據(jù)探索和交互式查詢。聯(lián)機:OLAP能夠直接連接到數(shù)據(jù)倉庫或數(shù)據(jù)源,具有快速響應用戶查詢的特點,以便用戶可以實時獲取數(shù)據(jù)分析結(jié)果。分析功能:OLAP提供強大的分析功能,如數(shù)據(jù)的上卷、下鉆、轉(zhuǎn)軸、切片和切塊等方法,幫助用戶深入分析數(shù)據(jù)OLAP的基本操作OLAP依托于多維數(shù)據(jù)模型,定義了一系列專門針對數(shù)據(jù)分析的基本操作類型,主要包括:上卷(Roll-up)、下鉆(Drill-down)、切片(Slice)、切塊(Dice)以及轉(zhuǎn)軸(Pivot)。通過這些基本操作的組合使用,用戶可以很方便的在數(shù)據(jù)倉庫中完成對數(shù)據(jù)的處理和分析OLAP的基本操作上卷(roll-up):上卷操作是將數(shù)據(jù)從較低層次的維度匯總到較高層次的維度,減少數(shù)據(jù)的細節(jié),以獲得總體性的視圖。下圖顯示了在維location上對中心立方體執(zhí)行上卷操作的結(jié)果。所展示的上卷操作沿location的分層,由city層向上到country層聚集數(shù)據(jù)。OLAP的基本操作下鉆(drill-down):下鉆操作是在匯總數(shù)據(jù)的基礎上,查看較低層次的細節(jié)數(shù)據(jù),以便深入了解具體細節(jié)。下圖顯示沿著“day<month<quarter<year”定義的time維的概念分層向下,在中心立方體執(zhí)行下鉆操作的結(jié)果。這里下鉆由time維的分層結(jié)構(gòu)向下,從quarter層到更詳細的month層。OLAP的基本操作切片(slice):切片是選取多維數(shù)據(jù)集中的一個子集,即在某個固定維度上進行數(shù)據(jù)的篩選和分析。下圖表示了一個切片操作,它對中心立方體使用條件time=“Q1”對維time選擇銷售數(shù)據(jù)。OLAP的基本操作切塊(dice):切塊是在多維數(shù)據(jù)集中選擇兩個或多個維度的交叉區(qū)塊(subset),對其進行分析和比較。下圖表示了一個切塊操作,它涉及三個維,根據(jù)如下條件對中心立方體切塊:(location=“南京”or“武漢”)and(time=“Q1”or“Q2”)and(item=“日常用品”or“飲料”)。OLAP的基本操作轉(zhuǎn)軸(pivot):轉(zhuǎn)軸操作是改變多維數(shù)據(jù)立方體中的視角,重新排列維度的位置以獲得新的數(shù)據(jù)觀察角度。下圖顯示了一個轉(zhuǎn)軸操作,其中item和location軸在一個2-D切片上轉(zhuǎn)動。OLAP系統(tǒng)的實現(xiàn)分類常見的OLAP系統(tǒng)可以分為以下三類::多維聯(lián)機實時分析系統(tǒng)(MOLAP),關系型聯(lián)機實時分析系統(tǒng)(ROLAP),混合型聯(lián)機實時分析系統(tǒng)(HOLAP)MOLAP通過基于數(shù)組的多維存儲引擎,支持數(shù)據(jù)的多維視圖。它們將多維視圖直接映射到數(shù)據(jù)立方體數(shù)組結(jié)構(gòu)。典型的MOLAP框架如下圖所示。MOLAP中的數(shù)據(jù)來自數(shù)據(jù)倉庫或者來自存儲在多維立方體中的操作型數(shù)據(jù)源。底層數(shù)據(jù)的復雜性對于MOLAP工具的使用者是隱藏的。OLAP系統(tǒng)的實現(xiàn)分類常見的OLAP系統(tǒng)可以分為以下三類::多維聯(lián)機實時分析系統(tǒng)(MOLAP),關系型聯(lián)機實時分析系統(tǒng)(ROLAP),混合型聯(lián)機實時分析系統(tǒng)(HOLAP)ROLAP介于關系型數(shù)據(jù)庫(后端)和客戶前端工具之間。它們使用關系的或擴充關系的數(shù)據(jù)庫管理系統(tǒng)存儲并管理數(shù)據(jù)倉庫數(shù)據(jù),而OLAP中間件支持其余部分。典型的ROLAP框架的高層視圖如圖3-17所示。ROLAP工具也提供本章之前描述的常用OLAP功能。ROLAP服務將查詢轉(zhuǎn)換成SQL語句,SQL語句被發(fā)送到由關系型數(shù)據(jù)庫支持的數(shù)據(jù)倉庫中。關系型數(shù)據(jù)庫執(zhí)行查詢,并將查詢的結(jié)果集合發(fā)送到ROLAP服務器上,最終交給OLAP/BI工具終端用戶。OLAP系統(tǒng)的實現(xiàn)分類常見的OLAP系統(tǒng)可以分為以下三類::多維聯(lián)機實時分析系統(tǒng)(MOLAP),關系型聯(lián)機實時分析系統(tǒng)(ROLAP),混合型聯(lián)機實時分析系統(tǒng)(HOLAP)混合OLAP方法結(jié)合ROLAP和MOLAP技術(shù),得益于ROLAP較大的可伸縮性和MOLAP的快速計算,使得其既能處理大規(guī)模數(shù)據(jù),又能提供快速查詢性能。HOLAP在數(shù)據(jù)存儲和查詢時能夠根據(jù)需求自動選擇合適的存儲方式,既可以利用多維數(shù)據(jù)立方體進行快速查詢,也可以利用關系型數(shù)據(jù)庫支持復雜查詢。Contents數(shù)據(jù)倉庫背景及定義01數(shù)據(jù)倉庫系統(tǒng)架構(gòu)02數(shù)據(jù)立方體03OLAP0405本章小結(jié)本章小結(jié)數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉庫的產(chǎn)生背景主要是由于企業(yè)需要更好地管理和分析海量數(shù)據(jù)以支持決策,而傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)無法滿足復雜的分析需求。數(shù)據(jù)倉庫核心組件包括數(shù)據(jù)來源、ELT、數(shù)據(jù)倉庫和數(shù)據(jù)應用等。數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 無塵車間新風系統(tǒng)操作與維護手冊
- 金屬制品設備傳感器校準與維修手冊
- 攝影工作室客戶2025年拍攝合同協(xié)議
- 電子信息工程 PCB 設計與制板手冊
- 終端設備運行維護服務手冊
- 老年高血壓獨居老人安全監(jiān)測與應急處理方案
- 老年高血壓急癥的降壓藥物撤減方案
- 老年高血壓合并高脂血癥的個體化治療策略
- 機械設備日常故障診斷與檢測技術(shù)手冊
- 老年髖部骨折手術(shù)患者術(shù)后活動耐力提升方案
- 應收會計面試題及答案
- 加固專業(yè)承包合同
- 國家職業(yè)技術(shù)技能標準 5-01-05-01 中藥材種植員 人社廳發(fā)200994號
- 年終食堂工作總結(jié)
- 時間管理與提升工作效率課件
- 職業(yè)教育現(xiàn)代學徒制人才培養(yǎng)模式
- 結(jié)直腸癌患者健康教育處方
- 新課標必修數(shù)學5解三角形內(nèi)容分析及教學建議
- 積分制員工激勵實施方案
- LY/T 2378-2014木質(zhì)生物質(zhì)固體成型燃料爐具通用技術(shù)條件
- 公務員辭去公職申請表
評論
0/150
提交評論