版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
OLAP與數(shù)據(jù)倉庫講解第一頁,共93頁。第一部分
OLAP(on-lineanalyticalprocessing)介紹
報(bào)告人:鄧文標(biāo)
2006/9/30第二頁,共93頁。OLAP介紹提綱一、發(fā)展背景二、什么是OLAP?三、相關(guān)基本概念四、OLAP特性五、OLAP多維數(shù)據(jù)結(jié)構(gòu)六、OLAP多維數(shù)據(jù)分析七、OLAP分類八、OLAP體系結(jié)構(gòu)九、OLAP評價(jià)準(zhǔn)則十、流行的OLAP工具十一、OLAP發(fā)展十二、OLAP展望第三頁,共93頁。一、發(fā)展背景60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲)。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的需要,SQL對大型數(shù)據(jù)庫進(jìn)行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。
OLTP數(shù)據(jù)
OLAP數(shù)據(jù)
原始數(shù)據(jù) 導(dǎo)出數(shù)據(jù) 細(xì)節(jié)性數(shù)據(jù) 綜合性和提煉性數(shù)據(jù) 當(dāng)前值數(shù)據(jù) 歷史數(shù)據(jù) 可更新 不可更新,但周期性刷新 一次處理的數(shù)據(jù)量小 一次處理的數(shù)據(jù)量大 面向應(yīng)用,事務(wù)驅(qū)動 面向分析,分析驅(qū)動 面向操作人員,支持日常操作面向決策人員,支持管理需要 第四頁,共93頁。二、什么是OLAP?定義1:OLAP(聯(lián)機(jī)分析處理)是針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進(jìn)行深入觀察。定義2:OLAP(聯(lián)機(jī)分析處理)
是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(OLAP委員會的定義)OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。第五頁,共93頁。三、相關(guān)基本概念1.維:是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性,屬性集合構(gòu)成一個(gè)維(時(shí)間維、地理維等)。2.維的層次:人們觀察數(shù)據(jù)的某個(gè)特定角度(即某個(gè)維)還可以存在細(xì)節(jié)程度不同的各個(gè)描述方面(時(shí)間維:日期、月份、季度、年)。3.維的成員:維的一個(gè)取值。是數(shù)據(jù)項(xiàng)在某維中位置的描述。(“某年某月某日”是在時(shí)間維上位置的描述)4.多維數(shù)組:維和變量的組合表示。一個(gè)多維數(shù)組可以表示為:(維1,維2,…,維n,變量)。(時(shí)間,地區(qū),產(chǎn)品,銷售額)5.數(shù)據(jù)單元(單元格):多維數(shù)組的取值。(2000年1月,上海,筆記本電腦,$100000)第六頁,共93頁。四、OLAP特性(1)快速性:用戶對OLAP的快速反應(yīng)能力有很高的要求。系統(tǒng)應(yīng)能在5秒內(nèi)對用戶的大部分分析要求做出反應(yīng)。
(2)可分析性:OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)的任何邏輯分析和統(tǒng)計(jì)分析。(3)多維性:多維性是OLAP的關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)的多維視圖和分析,包括對層次維和多重層次維的完全支持。。(4)信息性:不論數(shù)據(jù)量有多大,也不管數(shù)據(jù)存儲在何處,OLAP系統(tǒng)應(yīng)能及時(shí)獲得信息,并且管理大容量信息。第七頁,共93頁。五、OLAP多維數(shù)據(jù)結(jié)構(gòu)1.超立方結(jié)構(gòu)(Hypercube)
超立方結(jié)構(gòu)指用三維或更多的維數(shù)來描述一個(gè)對象,每個(gè)維彼此垂直。數(shù)據(jù)的測量值發(fā)生在維的交叉點(diǎn)上,數(shù)據(jù)空間的各個(gè)部分都有相同的維屬性。(收縮超立方結(jié)構(gòu)。這種結(jié)構(gòu)的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維)。
2.多立方結(jié)構(gòu)(Multicube)即將超立方結(jié)構(gòu)變?yōu)樽恿⒎浇Y(jié)構(gòu)。面向某一特定應(yīng)用對維進(jìn)行分割,它具有很強(qiáng)的靈活性,提高了數(shù)據(jù)(特別是稀疏數(shù)據(jù))的分析效率。
第八頁,共93頁。六、OLAP多維數(shù)據(jù)分析1.切片和切塊(SliceandDice)在多維數(shù)據(jù)結(jié)構(gòu)中,按二維進(jìn)行切片,按三維進(jìn)行切塊,可得到所需要的數(shù)據(jù)。如在“城市、產(chǎn)品、時(shí)間”三維立方體中進(jìn)行切塊和切片,可得到各城市、各產(chǎn)品的銷售情況。2.鉆取(Drill)
鉆取包含向下鉆取(Drill-down)和向上鉆取(Drill-up)/上卷(Roll-up)操作,鉆取的深度與維所劃分的層次相對應(yīng)。
3.旋轉(zhuǎn)(Rotate)/轉(zhuǎn)軸(Pivot)通過旋轉(zhuǎn)可以得到不同視角的數(shù)據(jù)。第九頁,共93頁。OLAP的分析方法(一)切片、切塊第十頁,共93頁。OLAP的分析方法(二)鉆取按時(shí)間維向下鉆取按時(shí)間維向上鉆取60第十一頁,共93頁。OLAP的分析方法(三)旋轉(zhuǎn)第十二頁,共93頁。七、OLAP分類按照存儲方式OLAPMOLAPHOLAPROLAP按照處理地點(diǎn)ClientOLAPServerOLAP
第十三頁,共93頁。OLTP、ROLAP與MOLAP模式第十四頁,共93頁。ROLAP的星型模式(StarSchema)事實(shí)表:用來存儲事實(shí)的度量值和各個(gè)維的碼值。維表:用來存放維的元數(shù)據(jù)(維的層次、成員類別等描述信息)。Budget銷售數(shù)據(jù)表事實(shí)數(shù)據(jù)表產(chǎn)品類型維度表客戶群維度表時(shí)間維度表客戶地區(qū)維度表第十五頁,共93頁。MOLAP的多維立方體(Multicube)
第十六頁,共93頁。數(shù)據(jù)組織形式RDB數(shù)據(jù)組織-MDDB數(shù)據(jù)組織-關(guān)系表中綜合數(shù)據(jù)的存放
多維數(shù)據(jù)庫中綜合數(shù)據(jù)的存放
產(chǎn)品名稱地區(qū)銷售量冰箱東北50冰箱西北60冰箱華北100彩電東北40彩電西北70彩電華北80空調(diào)東北90空調(diào)西北120空調(diào)華北140
東北西北華北冰箱5060100彩電407080空調(diào)90120140產(chǎn)品名稱地區(qū)銷售量冰箱東北50冰箱西北60冰箱華北100冰箱總和210彩電東北40彩電西北70彩電華北80彩電總和190空調(diào)東北90空調(diào)西北120空調(diào)華北140空調(diào)總和350總和東北180總和西北250總和華北320總和總和750
東北西北華北總和冰箱5060100210彩電407080190空調(diào)90120140350總和180250320750第十七頁,共93頁。ROLAP與MOLAP比較ROLAP優(yōu)勢沒有大小限制現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)可以沿用.可以通過SQL實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的存儲現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對OLAP做了很多優(yōu)化,包括并行存儲、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴(kuò)展(cube,rollup)等大大提高ROALP的速度MOLAP優(yōu)勢性能好、響應(yīng)速度快專為OLAP所設(shè)計(jì)支持高性能的決策支持計(jì)算復(fù)雜的跨維計(jì)算多用戶的讀寫操作行級的計(jì)算第十八頁,共93頁。ROLAP與MOLAP比較(續(xù))ROLAP缺點(diǎn)一般比MDD響應(yīng)速度慢不支持有關(guān)預(yù)計(jì)算的讀寫操作SQL無法完成部分計(jì)算無法完成多行的計(jì)算無法完成維之間的計(jì)算MOLAP缺點(diǎn)增加系統(tǒng)復(fù)雜度,增加系統(tǒng)培訓(xùn)與維護(hù)費(fèi)用受操作系統(tǒng)平臺中文件大小的限制,難以達(dá)到TB級(只能10~20G)需要進(jìn)行預(yù)計(jì)算,可能導(dǎo)致數(shù)據(jù)爆炸無法支持維的動態(tài)變化缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn)第十九頁,共93頁。八、OLAP體系結(jié)構(gòu)ROLAPArchitectureMOLAPArchitecture
SQLResultSetInfo.RequestResultSetDatabaseServer
RDBMSFront-endToolROALPArchitectureROLAPServerMetadataRequestProcessingSQL
ResultSetInfo.RequestResultSetLoadDatabaseServer
RDBMSFront-endToolMOALPArchitectureMOLAPServerMetadataRequestProcessing第二十頁,共93頁。八、HOLAP體系結(jié)構(gòu)(續(xù))HOLAPArchitectureResultSetORSQLQuerySQL
ResultSetInfo.RequestResultSetLoadDatabaseServer
RDBMSFront-endToolHybridArchitectureMOLAPServer第二十一頁,共93頁。九、OLAP評價(jià)準(zhǔn)則準(zhǔn)則1OLAP模型必須提供多維概念模型準(zhǔn)則2透明性準(zhǔn)則準(zhǔn)則3存取能力準(zhǔn)則準(zhǔn)則4穩(wěn)定的報(bào)表性能準(zhǔn)則5客戶/服務(wù)器體系結(jié)構(gòu)準(zhǔn)則6維的等同性準(zhǔn)則準(zhǔn)則7動態(tài)稀疏矩陣處理準(zhǔn)則準(zhǔn)則8多用戶支持能力準(zhǔn)則準(zhǔn)則9非受限的跨維操作準(zhǔn)則10直觀的數(shù)據(jù)處理準(zhǔn)則11靈活的報(bào)表生成準(zhǔn)則12非受限的維與維的層次第二十二頁,共93頁。十、流行的OLAP工具介紹OLAP產(chǎn)品HyperionEssbaseOracleExpressIBMDB2OLAPServerSybasePowerdimensionInformixMetacubeMicrosoftPlatoBrioCognosBusinessObjectMicroStrategyOLAP產(chǎn)品涉及的業(yè)務(wù)操作由外部或內(nèi)部數(shù)據(jù)源批量裝入數(shù)據(jù)由業(yè)務(wù)系統(tǒng)增量裝入數(shù)據(jù)沿?cái)?shù)據(jù)層次匯總數(shù)據(jù)對基于業(yè)務(wù)模型的新數(shù)據(jù)進(jìn)行計(jì)算時(shí)間序列分析高復(fù)雜的查詢沿?cái)?shù)據(jù)層次細(xì)化分析隨機(jī)查詢多個(gè)聯(lián)機(jī)會話(多用戶同時(shí)訪問)第二十三頁,共93頁。流行的OLAP工具介紹(續(xù))?HyperionEssbase
以服務(wù)器為中心的分布式體系結(jié)構(gòu)有超過100個(gè)的應(yīng)用程序有300多個(gè)用Essbase作為平臺的開發(fā)商具有幾百個(gè)計(jì)算公式,支持多種計(jì)算用戶可以自己構(gòu)件復(fù)雜的查詢。快速的響應(yīng)時(shí)間,支持多用戶同時(shí)讀寫有30多個(gè)前端工具可供選擇支持多種財(cái)務(wù)標(biāo)準(zhǔn)能與ERP或其他數(shù)據(jù)源集成全球用戶超過1500家OracleExpressOracleDW支持GB~TB數(shù)量級采用類似數(shù)組的結(jié)構(gòu),避免了連接操作,提高分析性能提供一組存儲過程語言來支持對數(shù)據(jù)的抽取用戶可通過Web和電子表格使用靈活的數(shù)據(jù)組織方式,數(shù)據(jù)可以存放在ExpressServer內(nèi),也可直接在RDB上使用有內(nèi)建的分析函數(shù)和4GL用戶自己定制查詢?nèi)虺^3000家第二十四頁,共93頁。流行的OLAP工具介紹(續(xù))IBMDB2OLAPServer把HyperionEssbase的OLAP引擎和DB2的關(guān)系數(shù)據(jù)庫集成在一起。與EssbaseAPI完全兼容數(shù)據(jù)用星型模型存放在關(guān)系數(shù)據(jù)庫DB2中InformixMetacube采用metacube技術(shù),通過OLE和ODBC對外開放,采用中間表技術(shù)實(shí)現(xiàn)多維分析引擎,提高響應(yīng)時(shí)間和分析能力開放的體系結(jié)構(gòu)可以方便地與其他數(shù)據(jù)庫及前臺工具進(jìn)行集成SybasePowerdimension數(shù)據(jù)垂直分割(按“列”存儲)采用了突破性的數(shù)據(jù)存取方法bit-wise索引技術(shù)在數(shù)據(jù)壓縮和并行處理方面有多到之處提供有效的預(yù)連接(Pro-Jion)技術(shù)第二十五頁,共93頁。十一、OLAP發(fā)展應(yīng)用領(lǐng)域市場和銷售分析(MarketingandSalesanalysis)電子商務(wù)分析(Clickstreamanalysis)基于歷史數(shù)據(jù)的營銷(Databasemarketing)預(yù)算(Budgeting)財(cái)務(wù)報(bào)告與整合(Financialreportingandconsolidation)管理報(bào)告(Managementreporting)利益率分析(Profitabilityanalysis)質(zhì)量分析(Qualityanalysis)OLAP標(biāo)準(zhǔn)APB-1(AQT-AnalyticalQueryTime作為統(tǒng)計(jì)指標(biāo))第二十六頁,共93頁。從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘(OLAM/OLAP挖掘)將聯(lián)機(jī)分析處理與數(shù)據(jù)挖掘以及在多維數(shù)據(jù)庫中發(fā)現(xiàn)知識集成在一起。聯(lián)機(jī)分析挖掘提供在不同的數(shù)據(jù)子集和不同的抽象層上進(jìn)行數(shù)據(jù)挖掘的工具.聯(lián)機(jī)分析挖掘?yàn)橛脩暨x擇所期望的數(shù)據(jù)挖掘功能動態(tài)修改挖掘任務(wù)提供了靈活性。超立方體計(jì)算與傳統(tǒng)挖掘算法的結(jié)合先進(jìn)行立方體計(jì)算,后進(jìn)行數(shù)據(jù)挖掘先對多維數(shù)據(jù)作數(shù)據(jù)挖掘,然后再利用立方體計(jì)算算法對挖掘結(jié)果分析立方體計(jì)算與數(shù)據(jù)挖掘同時(shí)進(jìn)行回溯特性O(shè)LAP基于Web的應(yīng)用靜態(tài)方法靜態(tài)HTML報(bào)表動態(tài)方法通過HTML模板及元數(shù)據(jù)動態(tài)生成報(bào)表改進(jìn)方法使用Java或ActiveX十一、OLAP發(fā)展(續(xù))第二十七頁,共93頁。用戶圖形界面API數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫元數(shù)據(jù)OLAM引擎OLAP引擎MDDB數(shù)據(jù)方API數(shù)據(jù)庫API基于約束的數(shù)據(jù)挖掘數(shù)據(jù)清理過濾挖掘結(jié)果數(shù)據(jù)集成數(shù)據(jù)過濾數(shù)據(jù)集成第一層數(shù)據(jù)存儲第二層多維數(shù)據(jù)庫第三層OLAP/OLAM第四層用戶界面一個(gè)集成的OLAM和OLAP結(jié)構(gòu)用戶圖形界面API數(shù)據(jù)庫數(shù)據(jù)倉庫數(shù)據(jù)庫元數(shù)據(jù)OLAM引擎OLAP引擎MDDB數(shù)據(jù)方API數(shù)據(jù)庫API基于約束的數(shù)據(jù)挖掘數(shù)據(jù)清理過濾挖掘結(jié)果數(shù)據(jù)集成數(shù)據(jù)過濾數(shù)據(jù)集成第一層數(shù)據(jù)存儲第二層多維數(shù)據(jù)庫第三層OLAP/OLAM第四層用戶界面一個(gè)集成的OLAM和OLAP結(jié)構(gòu)第二十八頁,共93頁。OLAP的Web表現(xiàn)方式靜態(tài)方法靜態(tài)HTML報(bào)表動態(tài)方法通過HTML模板及元數(shù)據(jù)動態(tài)生成報(bào)表改進(jìn)方法使用Java或ActiveXCGIAPIHTMLJavaScripActiveX客戶瀏覽器Web服務(wù)器應(yīng)用OLAPServer基于Web的OLAP結(jié)構(gòu)DatabaseServer第二十九頁,共93頁。十二、OLAP展望面向?qū)ο蟮穆?lián)機(jī)分析處理O3LAP(Object-OrientedOLAP)對象關(guān)系的聯(lián)機(jī)分析處理OROLAP(ObjectRelationalOLAP)分布式聯(lián)機(jī)分析處理DOLAP(DistributedOLAP)時(shí)態(tài)聯(lián)機(jī)分析處理TOLAP(TemporalOLAP)第三十頁,共93頁。OLAP第二部分
OLAP設(shè)計(jì)基礎(chǔ)知識介紹報(bào)告人:鄧文標(biāo)
2006-09-30第三十一頁,共93頁。提綱成員和時(shí)間序列數(shù)據(jù)類型維類型立方體類型、存儲、更新維和立方體的命名空值處理多維表達(dá)式(MDX)簡介SQL與MDX比較OLAP安全性問題創(chuàng)建OLAPServices數(shù)據(jù)庫的步驟第三十二頁,共93頁。成員和時(shí)間序列數(shù)據(jù)類型成員輸入成員導(dǎo)出成員在運(yùn)行中計(jì)算得到,只有表達(dá)式被存儲在多維數(shù)據(jù)庫里既可以作為維成員,也可以作為度量成員時(shí)間序列數(shù)據(jù)類型定義:在一個(gè)存儲單元里存儲一個(gè)時(shí)間序列的數(shù)據(jù)。條件:起始時(shí)間,時(shí)間周期,周期之間的數(shù)據(jù)轉(zhuǎn)換規(guī)則優(yōu)點(diǎn):可以省去時(shí)間維,簡化了對時(shí)間的處理減少多維數(shù)據(jù)庫對數(shù)據(jù)單元的數(shù)量限制缺點(diǎn):數(shù)據(jù)轉(zhuǎn)換復(fù)雜,增加額外數(shù)據(jù)準(zhǔn)備步驟新的數(shù)據(jù)增加,在矩陣中增加列,矩陣變龐大第三十三頁,共93頁。成員和時(shí)間序列數(shù)據(jù)類型(續(xù))
彩電冰箱各地區(qū)總和東北dddddddweekweekdddddddddddddd西北weekweekddddddddddddddweekweek華北ddddddddddddddddddddddddddddddddddd總銷
售量
ddddddddddddddddddddddddddddddddddd每個(gè)單元存放兩周的時(shí)間序列數(shù)據(jù)第三十四頁,共93頁。維類型共享維:用于多個(gè)立方體的維
私有維:限于某個(gè)立方體內(nèi)的維常規(guī)維:以表列或列的表達(dá)式為基礎(chǔ)的維虛擬維:由常規(guī)維的成員屬性定義的維本質(zhì):從邏輯上來說是維的替代層次(邏輯維度)優(yōu)點(diǎn):沒有聚合數(shù)據(jù),不會增加立方體結(jié)構(gòu)大小和處理時(shí)間(查詢時(shí)計(jì)算)提供更多的維分析,比常規(guī)維查詢時(shí)間要慢靈活使用實(shí)際維的多重屬性來減少維的多重顯示第三十五頁,共93頁。2000Jan37Feb95Mar581999Jan89Feb25Mar1520001999Jan3789Feb9525Mar5815第三十六頁,共93頁。父子維定義:父子維:基于單個(gè)維度表中的兩個(gè)列,這兩列一起定義了維度成員 中的沿襲關(guān)系。(兩列必須有相同的數(shù)據(jù)類型,而且在同一 個(gè)表內(nèi))組成成員鍵列:標(biāo)識每個(gè)成員。父鍵列:標(biāo)識每個(gè)成員的父代。該信息用于創(chuàng)建父子鏈接,該鏈接 將在創(chuàng)建后組合到代表單個(gè)元數(shù)據(jù)級別的單個(gè)成員層次結(jié) 構(gòu)中。成員名稱列:提供成員的名稱,供瀏覽顯示用。第三十七頁,共93頁。第三十八頁,共93頁。立方體類型常規(guī)立方體:為輸入數(shù)據(jù)的聚合定義的框 架結(jié)構(gòu)虛擬立方體:是一個(gè)或多個(gè)常規(guī)(虛擬) 立方體的連接視圖組成:任何立方體的任何維優(yōu)點(diǎn):可以解決常規(guī)立方體遇到的問題可以解決安全性問題在常規(guī)立方體中被禁用的維級可以在虛擬立方體中啟用第三十九頁,共93頁。立方體數(shù)據(jù)結(jié)構(gòu)的分區(qū)存儲分區(qū):實(shí)現(xiàn)數(shù)據(jù)的邏輯分段(減少重復(fù)數(shù) 據(jù)和清除重要數(shù)據(jù))立方體數(shù)據(jù)結(jié)構(gòu)可以存儲到一個(gè)或多個(gè)分區(qū)上每個(gè)分區(qū)可以使用不同的存儲模式(ROLPA、MOLAP、HOLAP)分區(qū)可以組合優(yōu)點(diǎn):有助于數(shù)據(jù)結(jié)構(gòu)進(jìn)行管理和協(xié)調(diào)第四十頁,共93頁。立方體結(jié)構(gòu)的更新增量更新將新數(shù)據(jù)添加到立方體中的分區(qū)并更新聚合。此方法不處理對立方體結(jié)構(gòu)(度量值、維度等)或?qū)ζ洮F(xiàn)有源數(shù)據(jù)的更改。增量更新用新數(shù)據(jù)創(chuàng)建臨時(shí)分區(qū)并把它合并到現(xiàn)有分區(qū)中。刷新清除并重新加載立方體數(shù)據(jù),并重新計(jì)算它的聚合。在立方體源數(shù)據(jù)已更改、但其結(jié)構(gòu)未更改的情況下使用此方法。完全處理在當(dāng)前定義基礎(chǔ)上完全重新構(gòu)造立方體,然后重新計(jì)算它的數(shù)據(jù)。第四十一頁,共93頁。維和立方體的命名先于其他對象命名命名不可改變多重層次由維名(24個(gè)字符)指定第四十二頁,共93頁??罩堤幚碛米鲾?shù)值運(yùn)算中時(shí)表現(xiàn)為零用作字符串操作時(shí)表現(xiàn)為空字符串用作數(shù)字值相比較時(shí),放在零之前用作字符串相比較時(shí),放在空字符串之前用IsEmpty()函數(shù)來驗(yàn)證一個(gè)單元是否為空第四十三頁,共93頁。多維表達(dá)式MDX(MultiDimensionalExpressions)簡介MDX是一種用來處理多維數(shù)據(jù)存儲,支持多維 對象與數(shù)據(jù)的定義和操作的語言。MDX語句SELECT{[Measures].[Sales],[Measures].[Units]}ONCOLUMNS,{[Time].[2000].[Q1],[Time].[2000].[Q2]}ONROWSFROMSalesWHERE([CITY].[上海])SalesUnits2000Q1825100Q249658第四十四頁,共93頁。MDX基本語法SELECT{<axis_specification>[,<axis_specification>…]}FROM<CUBE_NAME>WHERE(slicer_specification)<axis_specification>被定義成:[NONEMPTY]<SET>[<dimension_properties>]ON<axis_name><axis_name>被定義成:COLUMNS/ROWS/PAGES/SECTIONS/CHAPTERS/…AXIS(0)AXIS(1)AXIS(2)AXIS(3)AXIS(4)第四十五頁,共93頁。MDX語句舉例SELECT {[Measures].[StoreSales],[Measures].[StoreCost], [Measures].[UnitSales]}oncolumns, NONEMPTY[Customer].[Country].membersonrowsFROMSalesWHERE([Time].[2000])第四十六頁,共93頁。WITH語句WITH創(chuàng)建計(jì)算成員
第四十七頁,共93頁。WITH語句創(chuàng)建計(jì)算成員語法[WITHMEMBER<member_name>AS'<value_expression>'][,…] SELECT[<axis_specification>[,<axis_specification>...]]FROM[<cube_specification>][WHERE[<slicer_specification>]]
<member_name>值是計(jì)算成員的完全合法名稱,其中包括了該計(jì)算成員所關(guān)聯(lián)的維度或級別。<value_expression>值在經(jīng)過計(jì)算后,將返回計(jì)算成員的值。第四十八頁,共93頁。WITH語句計(jì)算成員實(shí)例withmember[Measures].[StoreProfitRate]as'([Measures].[StoreSales]-[Measures].[StoreCost])/[Measures].[StoreCost]',format='#.00%'select{[Measures].[StoreCost],[Measures].[StoreSales],[Measures].[StoreProfitRate]}oncolumns,Order([Product].[ProductDepartment].members,[Measures].[StoreProfitRate],DESC)onrowsfromSaleswhere([Time].[2000].[Q1])第四十九頁,共93頁。MDX表達(dá)式計(jì)算成員第五十頁,共93頁。MDX表達(dá)式計(jì)算成員實(shí)例第五十一頁,共93頁。SQL和MDX比較行列與維度MDX具有引用多個(gè)維度的能力(維度稱作一個(gè)軸,“列”和“行”只是前兩個(gè)軸的別名)SQL處理查詢時(shí)僅涉及列和行這兩個(gè)維度(“列”和“行”)Select與where子句在SQL中,SELECT子句用于定義查詢的列布局,而WHERE子句用于定義行布局,用于篩選查詢所返回的數(shù)據(jù)。在MDX中SELECT子句可用于定義幾個(gè)軸維度,而WHERE子句可用來多維數(shù)據(jù)限制于特定的維度或成員,用于提供查詢所返回的數(shù)據(jù)切片。第五十二頁,共93頁。SQL和MDX比較(續(xù))SQL查詢的過程與MDX查詢的創(chuàng)建過程SQL查詢的創(chuàng)建針對二維表的結(jié)構(gòu)(多表的行列)MDX查詢的創(chuàng)建針對多維數(shù)據(jù)立方體(多個(gè)維度)“視覺”SQL結(jié)果集的視覺形象是直觀的,集合是一個(gè)行與列組成的二維表格。MDX結(jié)果集的視覺形象就不直觀,因?yàn)槎嗑S結(jié)果集可以有三個(gè)以上的維度,所以將該結(jié)構(gòu)形象化比較困難。引用數(shù)據(jù)單元SQL中列名稱和行的唯一標(biāo)識即可MDX在引用數(shù)據(jù)單元時(shí),不管數(shù)據(jù)形成的是單個(gè)單元還是一組單元,都使用一種非常特定并且統(tǒng)一的語法。第五十三頁,共93頁。
天津北京南京上海
Time
商品類型商品類型商品類型商品類型
家計(jì)電安家計(jì)電安家計(jì)電安家計(jì)電安 庭算庭算庭算庭算 娛娛娛娛 樂機(jī)話全樂機(jī)話全樂機(jī)話全樂機(jī)話全Q1854882896231087968388728187464359160582514400Q29438906469811301024419258947695268268092531512Q31032924597891034104845100294079558728812102330501Q4112999263870114210915498497886459784927103838580第五十四頁,共93頁。OLAP安全性問題管理員安全性最終用戶安全性用戶帳號和組最終用戶安全性級別數(shù)據(jù)庫、立方體和挖掘模型角色數(shù)據(jù)庫安全性立方體安全性維度安全性單元安全性挖掘模型安全性第五十五頁,共93頁。數(shù)據(jù)庫安全性數(shù)據(jù)庫安全性由數(shù)據(jù)庫角色來控制。如果在數(shù)據(jù)庫角色中找到了用戶名,則最終用戶可以查看該數(shù)據(jù)庫的名稱和其中的立方體的列表(包括虛擬的和鏈接的立方體)。但是,最終用戶只能訪問那些已經(jīng)指派了數(shù)據(jù)庫角色的立方體。如果在數(shù)據(jù)庫角色中沒有找到用戶名,最終用戶不能查看或訪問服務(wù)器上的任何對象。第五十六頁,共93頁。立方體安全性數(shù)據(jù)庫角色為同名的立方體角色提供了默認(rèn)值。數(shù)據(jù)庫角色可以分配給立方體角色。立方體角色設(shè)置來確定。立方體中可以刪除角色,無須從數(shù)據(jù)庫中刪除。在授予最終用戶對數(shù)據(jù)庫中立方體的訪問權(quán)限之前,必須授予他們數(shù)據(jù)庫訪問權(quán)限。第五十七頁,共93頁。維度安全性在數(shù)據(jù)庫角色或立方體角色中,可以實(shí)施維度安全性來指定維度成員。維度安全性是可選的。如果不指定維度安全性,最終用戶會看到他們被授權(quán)訪問的立方體中的所有維度成員。第五十八頁,共93頁。單元安全性在立方體角色中控制單元安全性。單元安全性是可選的。如果沒有指定單元安全性,最終用戶會看見他們有權(quán)訪問的立方體的所有單元值。如果指定了維度安全性,某些成員的單元有可能成為不可查看的。第五十九頁,共93頁。挖掘模型安全性數(shù)據(jù)庫角色指派給數(shù)據(jù)庫中的任意挖掘模型。數(shù)據(jù)庫角色為同名挖掘模型角色提供默認(rèn)值。挖掘模型角色中的設(shè)置決定。用戶只能訪問那些指派了角色的挖掘模型。第六十頁,共93頁。創(chuàng)建OLAPServices數(shù)據(jù)庫的步驟了解數(shù)據(jù)和目的設(shè)計(jì)各維和立方體方案創(chuàng)建與源數(shù)據(jù)的連接創(chuàng)建基于源數(shù)據(jù)表的各維創(chuàng)建立方體與事實(shí)表和各維的連接分區(qū)處理定義聚合數(shù)據(jù)的必須的計(jì)算第六十一頁,共93頁。第三部分
創(chuàng)建OLAPServices
數(shù)據(jù)庫實(shí)例演示第六十二頁,共93頁。第四部分
數(shù)據(jù)倉庫概念、設(shè)計(jì)及應(yīng)用報(bào)告人:鄧文標(biāo)2006年9月30日第六十三頁,共93頁。提綱1.為什么要建立數(shù)據(jù)倉庫2.數(shù)據(jù)倉庫的概念及特性3.數(shù)據(jù)倉庫的結(jié)構(gòu)4.數(shù)據(jù)倉庫的設(shè)計(jì)5.數(shù)據(jù)倉庫的開發(fā)過程6.數(shù)據(jù)倉庫的典型應(yīng)用第六十四頁,共93頁。事務(wù)處理環(huán)境不適宜DSS應(yīng)用的原因
事務(wù)處理和分析處理的性能特性不同操作型處理對數(shù)據(jù)的存取操作頻率高而每次操作處理的時(shí)間短;
在分析處理環(huán)境中,某個(gè)DSS應(yīng)用程序可能需要連續(xù)幾個(gè)小時(shí),從而消耗大量的系統(tǒng)資源。數(shù)據(jù)集成問題數(shù)據(jù)動態(tài)集成問題歷史數(shù)據(jù)問題數(shù)據(jù)的綜合問題
第六十五頁,共93頁。抽取程序用抽取程序能將數(shù)據(jù)從高性能聯(lián)機(jī)事務(wù)處理方式中轉(zhuǎn)移出來,在需要總體分析數(shù)據(jù)時(shí)就與聯(lián)機(jī)事務(wù)處理性能不發(fā)生沖突。用抽取程序能將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理范圍內(nèi)移出時(shí),數(shù)據(jù)的控制方式就發(fā)生了轉(zhuǎn)變。第六十六頁,共93頁。蜘蛛網(wǎng)問題數(shù)據(jù)缺乏可信性數(shù)據(jù)無時(shí)基數(shù)據(jù)算法上的差異抽取的多層次外部數(shù)據(jù)問題無起始的公共數(shù)據(jù)源生產(chǎn)率低根據(jù)全部數(shù)據(jù)生成企業(yè)報(bào)表定位數(shù)據(jù)需要瀏覽大量文件抽取程序很多,并且每個(gè)都是定制的,不得不克服很多技術(shù)上的障礙。數(shù)據(jù)轉(zhuǎn)化為信息的不可行性數(shù)據(jù)沒有集成化缺乏將數(shù)據(jù)轉(zhuǎn)化為信息所需的歷史數(shù)據(jù)第六十七頁,共93頁。體系結(jié)構(gòu)設(shè)計(jì)環(huán)境的層次數(shù)據(jù)操作層只保存原始數(shù)據(jù)并且服務(wù)于高性能事務(wù)處理領(lǐng)域;數(shù)據(jù)倉庫層存儲不更新的原始數(shù)據(jù),此外一些導(dǎo)出數(shù)據(jù)也在此存在;數(shù)據(jù)的部門層幾乎只存放導(dǎo)出數(shù)據(jù);在數(shù)據(jù)個(gè)體層中完成大多數(shù)啟發(fā)式分析操作層原子/數(shù)據(jù)倉庫層部門層個(gè)體層第六十八頁,共93頁。數(shù)據(jù)倉庫的概念
數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合。
[WilliamH.Inmon]
與其他數(shù)據(jù)庫應(yīng)用不同的是,數(shù)據(jù)倉庫更像一種過程,對分布在企業(yè)內(nèi)部各處的業(yè)務(wù)數(shù)據(jù)的整合、加工和分析的過程。第六十九頁,共93頁。數(shù)據(jù)倉庫的特性
面向主題典型的主題領(lǐng)域:客戶;產(chǎn)品;交易;帳目集成的數(shù)據(jù)提取、凈化、轉(zhuǎn)換、裝載非易失的數(shù)據(jù)倉庫的數(shù)據(jù)通常是一起載入和訪問的,但并不進(jìn)行一般意義上的數(shù)據(jù)更新隨時(shí)間的變化性數(shù)據(jù)倉庫中的時(shí)間期限要遠(yuǎn)遠(yuǎn)長于操作型系統(tǒng)中的時(shí)間期限(5~10年);數(shù)據(jù)倉庫中的數(shù)據(jù)是一系列某一時(shí)刻生成的復(fù)雜的快照;數(shù)據(jù)倉庫的鍵碼結(jié)構(gòu)總是包含某時(shí)間元素。第七十頁,共93頁。數(shù)據(jù)倉庫的結(jié)構(gòu)早期細(xì)節(jié)級當(dāng)前細(xì)節(jié)級輕度綜合級數(shù)據(jù)集市高度綜合級元數(shù)據(jù)操作型轉(zhuǎn)換第七十一頁,共93頁。
數(shù)據(jù)倉庫設(shè)計(jì)中的幾個(gè)重要概念
ETLETL(Extract/Transformation/Load)—用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗、轉(zhuǎn)換,最終按照預(yù)先定義好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。元數(shù)據(jù)關(guān)于數(shù)據(jù)的數(shù)據(jù),指在數(shù)據(jù)倉庫建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)源定義,目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù)。同時(shí)元數(shù)據(jù)還包含關(guān)于數(shù)據(jù)含義的商業(yè)信息。粒度數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細(xì)化或綜合程度的級別。細(xì)化程度越高,粒度級就越??;相反,細(xì)化程度越低,粒度級就越大。分割結(jié)構(gòu)相同的數(shù)據(jù)被分成多個(gè)數(shù)據(jù)物理單元。任何給定的數(shù)據(jù)單元屬于且僅屬于一個(gè)分割。第七十二頁,共93頁。典型的元數(shù)據(jù)包括:數(shù)據(jù)倉庫表的結(jié)構(gòu)數(shù)據(jù)倉庫表的屬性數(shù)據(jù)倉庫的源數(shù)據(jù)(記錄系統(tǒng))從記錄系統(tǒng)到數(shù)據(jù)倉庫的映射數(shù)據(jù)模型的規(guī)格說明抽取日志訪問數(shù)據(jù)的公用例行程序第七十三頁,共93頁。
數(shù)據(jù)倉庫設(shè)計(jì)中的幾個(gè)重要概念
(續(xù))DataMart數(shù)據(jù)集市--小型的,面向部門或工作組級數(shù)據(jù)倉庫。OperationDataStore操作數(shù)據(jù)存儲—ODS是能支持企業(yè)日常的全局應(yīng)用的數(shù)據(jù)集合,是不同于DB的一種新的數(shù)據(jù)環(huán)境,是DW擴(kuò)展后得到的一個(gè)混合形式。四個(gè)基本特點(diǎn):面向主題的(Subject-Oriented)、集成的、可變的、當(dāng)前或接近當(dāng)前的。datamodel數(shù)據(jù)模型--(1)邏輯數(shù)據(jù)結(jié)構(gòu),包括由DBMS為有效進(jìn)行數(shù)據(jù)庫處理提供的操作和約束;(2)用于表示數(shù)據(jù)的系統(tǒng)(例如,ERD或關(guān)系型模型)。
artifact
人工關(guān)系
--在DSS環(huán)境中用于表示參照完整性的一種設(shè)計(jì)技術(shù)。第七十四頁,共93頁。企業(yè)數(shù)據(jù)模型到數(shù)據(jù)倉庫數(shù)據(jù)模型的轉(zhuǎn)換除去純粹用于操作型環(huán)境的數(shù)據(jù)在企業(yè)鍵碼結(jié)構(gòu)中增加時(shí)間元素增加導(dǎo)出數(shù)據(jù)創(chuàng)建人工關(guān)系第七十五頁,共93頁。數(shù)據(jù)模型的規(guī)范化/反規(guī)范化為了減少程序在表中的跳轉(zhuǎn)、節(jié)省I/O,需將多個(gè)相關(guān)的表合并;引入冗余數(shù)據(jù);當(dāng)訪問概率有很大懸殊時(shí),要對數(shù)據(jù)做進(jìn)一步分離;在物理數(shù)據(jù)庫的設(shè)計(jì)中引入導(dǎo)出數(shù)據(jù)可以減少I/O;建立所謂的“創(chuàng)造的”索引或創(chuàng)造的簡要記錄(如卷中的前十名顧客是——)第七十六頁,共93頁。數(shù)據(jù)倉庫體系結(jié)構(gòu)OLTP數(shù)據(jù)源數(shù)據(jù)倉庫數(shù)據(jù)集市?數(shù)據(jù)采集及整合數(shù)據(jù)的映射規(guī)則、模型。。。
(元數(shù)據(jù)管理)數(shù)據(jù)倉庫項(xiàng)目流程管理及系統(tǒng)性能管理和監(jiān)控?數(shù)據(jù)展現(xiàn)及決策生產(chǎn)財(cái)務(wù)結(jié)算外部航線分析總量分析市場分析InfoPump數(shù)據(jù)分析、DM終端用戶終端用戶第七十七頁,共93頁。從操作型的現(xiàn)存系統(tǒng)到數(shù)據(jù)倉庫中數(shù)據(jù)轉(zhuǎn)換工作的難點(diǎn)現(xiàn)有系統(tǒng)缺乏數(shù)據(jù)集成,跨越不同應(yīng)用的數(shù)據(jù)集成性很差存取現(xiàn)存系統(tǒng)的效率,掃描已有文件成了數(shù)據(jù)倉庫體系結(jié)構(gòu)設(shè)計(jì)者主要面對的問題時(shí)基的變化數(shù)據(jù)要濃縮第七十八頁,共93頁。概念:數(shù)據(jù)周期、簡要記錄數(shù)據(jù)周期:是指從操作型數(shù)據(jù)發(fā)生改變起,到這個(gè)變化反映到數(shù)據(jù)倉庫中所用的時(shí)間。從操作型環(huán)境知道數(shù)據(jù)的改變到這個(gè)變化反映到數(shù)據(jù)倉庫中至少應(yīng)該經(jīng)歷24小時(shí)。簡要記錄:或聚集記錄,是把不同操作型數(shù)據(jù)的詳細(xì)信息聚集在一個(gè)記錄中而形成的記錄。好處:①減少數(shù)據(jù)量;②為用戶的訪問和分析提供了一種緊湊的方便的數(shù)據(jù)組織形式;缺點(diǎn):信息的詳細(xì)程度將會降低。
第七十九頁,共93頁。數(shù)據(jù)倉庫的建模數(shù)據(jù)模型所有的實(shí)體都是平等關(guān)系。僅僅從數(shù)據(jù)模型的角度來著手設(shè)計(jì)數(shù)據(jù)倉庫會產(chǎn)生一種“平面”效應(yīng)。星型連接事實(shí)表:位于星型連接的中央,它是被大量載入數(shù)據(jù)的實(shí)體。維表:周圍的其它實(shí)體。在很多情況下:文本數(shù)據(jù)與數(shù)值數(shù)據(jù)是分離開的。通過數(shù)據(jù)預(yù)連接和建立有選擇的數(shù)據(jù)冗余,設(shè)計(jì)者為訪問和分析過程大大簡化了數(shù)據(jù)。星型連接應(yīng)用于設(shè)計(jì)數(shù)據(jù)倉庫中很大的實(shí)體,而數(shù)據(jù)模型則應(yīng)用于數(shù)據(jù)倉庫中較小的實(shí)體。第八十頁,共93頁。VendordataVendordataVendordatavendor_id供應(yīng)商cust_id客戶order_id發(fā)貨OrderdataOrderdataorder_id訂單CustdataCustdataCustdataNonkeydataOrderdataOrderdataOrderdata產(chǎn)品ProductdataProductdataProductdataProductidVendoridNonkeydatacustidNonkeydataorderidNonkeydataproductid第八十一頁,共93頁。數(shù)據(jù)建模的十條戒律①必須回答緊迫的問題;②必須有正確的事實(shí)表;③將有正確的維表,描述必須按最終用戶的業(yè)務(wù)術(shù)語表達(dá);④必須理解數(shù)據(jù)倉庫所影響的公司過程或影響數(shù)據(jù)倉庫的公司過程;⑤對于事實(shí)表,應(yīng)該有正確的“粒度”;⑥根據(jù)需要存儲正確長度的公司歷史數(shù)據(jù);⑦以一種對于公司有意義的方式來集成所有必要的數(shù)據(jù);⑧創(chuàng)建必要的總結(jié)表;⑨創(chuàng)建必要的索引
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026上半年安徽事業(yè)單位聯(lián)考安慶市宜秀區(qū)招聘23人筆試參考題庫及答案解析
- 2026新疆第一師阿拉爾市大學(xué)生鄉(xiāng)村醫(yī)生專項(xiàng)計(jì)劃招聘13人筆試參考題庫及答案解析
- 2026湖南鎂宇科技有限公司第一次招聘8人筆試參考題庫及答案解析
- 2026新疆鴻聯(lián)建設(shè)工程項(xiàng)目管理咨詢有限公司哈密分公司招聘12人考試備考題庫及答案解析
- 2026中國太平洋壽險(xiǎn)安順中支招聘13人考試參考題庫及答案解析
- 北京順義高麗營社區(qū)衛(wèi)生服務(wù)中心招聘3人筆試模擬試題及答案解析
- 2026年鋼鐵冶煉高溫防護(hù)措施
- 2026年材料力學(xué)性能實(shí)驗(yàn)中的模塊化設(shè)計(jì)
- 2026年甘肅省隴南市武都區(qū)馬營中心衛(wèi)生院金廠分院鄉(xiāng)村醫(yī)生招聘考試備考題庫及答案解析
- 2026上半年貴州事業(yè)單位聯(lián)考大方縣招聘210人筆試模擬試題及答案解析
- 2026貴州省省、市兩級機(jī)關(guān)遴選公務(wù)員357人考試備考題庫及答案解析
- 兒童心律失常診療指南(2025年版)
- 北京通州產(chǎn)業(yè)服務(wù)有限公司招聘備考題庫必考題
- (正式版)DBJ33∕T 1307-2023 《 微型鋼管樁加固技術(shù)規(guī)程》
- 2026年基金從業(yè)資格證考試題庫500道含答案(完整版)
- 2025年寵物疫苗行業(yè)競爭格局與研發(fā)進(jìn)展報(bào)告
- 綠化防寒合同范本
- 2025年中國礦產(chǎn)資源集團(tuán)所屬單位招聘筆試參考題庫附帶答案詳解(3卷)
- 氣體滅火系統(tǒng)維護(hù)與保養(yǎng)方案
- GB/T 10922-202555°非密封管螺紋量規(guī)
- ESD護(hù)理教學(xué)查房
評論
0/150
提交評論