復旦商務智能概論--2 數(shù)據(jù)倉庫Data Warehouse_第1頁
復旦商務智能概論--2 數(shù)據(jù)倉庫Data Warehouse_第2頁
復旦商務智能概論--2 數(shù)據(jù)倉庫Data Warehouse_第3頁
復旦商務智能概論--2 數(shù)據(jù)倉庫Data Warehouse_第4頁
復旦商務智能概論--2 數(shù)據(jù)倉庫Data Warehouse_第5頁
已閱讀5頁,還剩54頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、1,數(shù)據(jù)倉庫 Data Warehouse,趙衛(wèi)東 博士復旦大學軟件學院,2,事務型處理,事務型處理:即操作型處理,是指對數(shù)據(jù)庫的聯(lián)機操作處理OLTP。事務型處理是用來協(xié)助企業(yè)對響應事件或事務的日常商務活動進行處理。它是事件驅(qū)動、面向應用的,通常是對一個或一組記錄的增、刪、改以及簡單查詢等(大量、簡單、重復和例行性)。 在事務型處理環(huán)境中,數(shù)據(jù)庫要求能支持日常事務中的大量事務,用戶對數(shù)據(jù)的存取操作頻率高而每次操作處理的時間短。,3,分析型處理,分析型處理:用于管理人員的決策分析,例如DSS、 EIS和多維分析等。它幫助決策者分析數(shù)據(jù)以察看趨向、判斷問題。 分析型處理經(jīng)常要訪問大量的歷史數(shù)據(jù),支

2、持復雜的查詢。 分析型處理過程中經(jīng)常用到外部數(shù)據(jù),這部分數(shù)據(jù)不是由事務型處理系統(tǒng)產(chǎn)生的,而是來自于其他外部數(shù)據(jù)源。,4,事務型處理數(shù)據(jù)和分析型處理數(shù)據(jù)的區(qū)別,5,數(shù)據(jù)庫系統(tǒng)的局限性,數(shù)據(jù)庫適于存儲高度結構化的日常事務細節(jié)數(shù)據(jù),而決策型數(shù)據(jù)多為歷史性、匯總性或計算性數(shù)據(jù),多表現(xiàn)為靜態(tài)數(shù)據(jù),不需直接更新,但可周期性刷新。 決策分析型數(shù)據(jù)是多維性,分析內(nèi)容復雜。 在事務處理環(huán)境中,決策者可能并不關心具體的細節(jié)信息,在決策分析環(huán)境中,如果這些細節(jié)數(shù)據(jù)量太大一方面會嚴重影響分析效率,另一方面這些細節(jié)數(shù)據(jù)會分散決策者的注意力。,6,數(shù)據(jù)庫系統(tǒng)的局限性(續(xù)),當事務型處理環(huán)境和分析型處理環(huán)境在同一個數(shù)據(jù)庫系

3、統(tǒng)中,事務型處理對數(shù)據(jù)的存取操作頻率高,操作處理的時間短,而分析型處理可能需要連續(xù)運行幾個小時,從而消耗大量的系統(tǒng)資源。 決策型分析數(shù)據(jù)的數(shù)據(jù)量大,這些數(shù)據(jù)有來自企業(yè)內(nèi)部的,也有來自企業(yè)外部的。來自企業(yè)外部的數(shù)據(jù)又可能來自不同的數(shù)據(jù)庫系統(tǒng),在分析時如果直接對這些數(shù)據(jù)操作會造成分析的混亂。對于外部數(shù)據(jù)中的一些非結構化數(shù)據(jù),數(shù)據(jù)庫系統(tǒng)常常是無能為力。,7,多庫系統(tǒng)的限制,可用性:源站點或通信網(wǎng)絡故障將導致系統(tǒng)癱瘓, 源站點不能通過網(wǎng)絡在線聯(lián)入多庫系統(tǒng)。 響應速度:全局查詢多級轉換和通信傳輸, 延遲和低層效率影響響應速度。 系統(tǒng)性能:總體性能取決于源站點中性能最低的系統(tǒng), 影響系統(tǒng)性能的發(fā)揮; 系統(tǒng)

4、開銷:每次查詢要啟動多個局部系統(tǒng), 通信和運行開銷大。,8,實施數(shù)據(jù)倉庫的條件,數(shù)據(jù)積累已達到一定規(guī)模 面臨激烈的市場競爭 在IT方面的資金能得到保障,9,數(shù)據(jù)倉庫的發(fā)展,自從NCR公司為Wal Mart建立了第一個數(shù)據(jù)倉庫。 1996年,加拿大的IDC公司調(diào)查了62家實現(xiàn)了數(shù)據(jù)倉庫的歐美企業(yè),結果表明:數(shù)據(jù)倉庫為企業(yè)提供了巨大的收益。 早期的數(shù)據(jù)倉庫大都采用當時流行的客戶/服務器結構。近年來分布式對象技術飛速發(fā)展,整個數(shù)據(jù)倉庫體系結構從功能上劃分為若干個分布式對象,這些分布式對象不僅可以直接用于建立數(shù)據(jù)倉庫,還可以在應用程序中向用戶提供調(diào)用的接口。 IBM的實驗室在數(shù)據(jù)倉庫方面已經(jīng)進行了10

5、多年的研究,并將研究成果發(fā)展成為商用產(chǎn)品。 其他數(shù)據(jù)庫廠商在數(shù)據(jù)倉庫領域也紛紛提出了各自的解決方案。,10,數(shù)據(jù)倉庫(Data Warehouse),數(shù)據(jù)倉庫用來保存從多個數(shù)據(jù)庫或其它信息源選取的數(shù)據(jù), 并為上層應用提供統(tǒng)一 用戶接口,完成數(shù)據(jù)查詢和分析。支持整個企業(yè)范圍的主要業(yè)務來建立的,主要特點是,包含大量面向整個企業(yè)的綜合信息及導出信息。 數(shù)據(jù)倉庫是作為DSS服務基礎的分析型DB,用來存放大容量的只讀數(shù)據(jù),為制定決策提供所需要的信息。 數(shù)據(jù)倉庫是與操作型系統(tǒng)相分離的、基于標準企業(yè)模型集成的、帶有時間屬性的、面向主題及不可更新的數(shù)據(jù)集合。 以1992年W H Inmon出版Building

6、 the Data Warehouse為標志,數(shù)據(jù)倉庫發(fā)展速度很快。 W H Inmon被譽為數(shù)據(jù)倉庫之父。 W H Inmon對數(shù)據(jù)倉庫所下的定義:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持管理決策的過程。,11,面向主題,數(shù)據(jù)倉庫中的數(shù)據(jù)是按照各種主題來組織的。主題在數(shù)據(jù)倉庫中的物理實現(xiàn)是一系列的相關表,這不同于面向應用環(huán)境。如保險公司按照應用組織可能是汽車保險、生命保險、傷亡保險,而數(shù)據(jù)倉庫是按照客戶、政策、保險金和索賠來組織數(shù)據(jù)。 面向主題的數(shù)據(jù)組織方式可在較高層次上對分析對象的數(shù)據(jù)給出完整、一致的描述,能完整、統(tǒng)一的刻畫各個分析對象所涉及的企業(yè)的各項數(shù)據(jù)以及

7、數(shù)據(jù)之間的聯(lián)系,從而適應企業(yè)各個部門的業(yè)務活動特點和企業(yè)數(shù)據(jù)的動態(tài)特征,從根本上實現(xiàn)數(shù)據(jù)與應用的分離。,12,集成性,數(shù)據(jù)倉庫中的數(shù)據(jù)是從原有分散的源數(shù)據(jù)庫中提取出來的,其每一個主題所對應的源數(shù)據(jù)在原有的數(shù)據(jù)庫中有許多冗余和不一致,且與不同的應用邏輯相關。為了創(chuàng)建一個有效的主題域,必須將這些來自不同數(shù)據(jù)源的數(shù)據(jù)集成起來,使之遵循統(tǒng)一的編碼規(guī)則。,13,穩(wěn)定性,數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)有很長的時間跨度,通常是5-10年。 數(shù)據(jù)倉庫中的數(shù)據(jù)反映的是一段時間內(nèi)歷史數(shù)據(jù)的內(nèi)容,是不同時點的數(shù)據(jù)庫快照的集合,以及基于撰寫快照進行統(tǒng)計、綜合和重組的導出數(shù)據(jù)。主要供企業(yè)高層決策分析之用,所涉及的數(shù)據(jù)操作主要是查詢,

8、一般情況下并不進行修改操作. 數(shù)據(jù)倉庫中的數(shù)據(jù)是不可實時更新的,僅當超過規(guī)定的存儲期限,才將其從數(shù)據(jù)倉庫中刪除,提取新的數(shù)據(jù)經(jīng)集成后輸入數(shù)據(jù)倉庫。,14,時變性,時變性:許多商業(yè)分析要求對發(fā)展趨勢做出預測,對發(fā)展趨勢的分析需要訪問歷史數(shù)據(jù)。因此數(shù)據(jù)倉庫必須不斷捕捉OLTP數(shù)據(jù)庫中變化的數(shù)據(jù),生成數(shù)據(jù)庫的快照,經(jīng)集成后增加到數(shù)據(jù)倉庫中去;另外數(shù)據(jù)倉庫還需要隨時間的變化刪去過期的、對分析沒有幫助的數(shù)據(jù),并且還需要按規(guī)定的時間段增加綜合數(shù)據(jù)。,15,支持管理決策,數(shù)據(jù)倉庫支持OLAP(聯(lián)機分析處理)、數(shù)據(jù)挖掘和決策分析。OLAP從數(shù)據(jù)倉庫中的綜合數(shù)據(jù)出發(fā),提供面向分析的多維模型,并使用多維分析的方法

9、從多個角度、多個層次對多維數(shù)據(jù)進行分析,使決策者能夠以更加自然的方式來分析數(shù)據(jù)。數(shù)據(jù)挖掘則以數(shù)據(jù)倉庫和多維數(shù)據(jù)庫中的數(shù)據(jù)為基礎,發(fā)現(xiàn)數(shù)據(jù)中的潛在模式和進行預測。因此,數(shù)據(jù)倉庫的功能是支持管理層進行科學決策,而不是事務處理。,16,BI系統(tǒng)VS決策盲點,某大型國有企業(yè)老總當他查看近十年企業(yè)的生產(chǎn)和運營數(shù)據(jù)時,手邊得到了各種各樣不同的數(shù)據(jù)報表。這些數(shù)據(jù)報表大致可以分成兩種類型:一種是兩年前、即ERP上線之前的,這是一些簡單、雜亂而又枯燥的數(shù)字;另一種是有了ERP以后的,數(shù)據(jù)變得清楚而有條理起來,同時還有來自ERP、CRM、SCM以及計費業(yè)務等不同應用的數(shù)據(jù)和各種分析報告。在仔細查看這些報表之后,這

10、位國企老總驚訝地發(fā)現(xiàn),不同的系統(tǒng)可以得出截然相反的兩種結論。例如某一產(chǎn)品,它的動態(tài)成本反映在ERP系統(tǒng)和CRM、SCM系統(tǒng)里面相差很大,如果引用ERP和CRM里面的數(shù)據(jù),它就是一款很成功、銷量很好的產(chǎn)品,但在SCM里面來看,它的采購和物流成本過高,導致了這款看起來很成功的產(chǎn)品實際上是一筆賠錢的買賣。,17,BI系統(tǒng)VS決策盲點(續(xù)),其實從這些來自不同系統(tǒng)的數(shù)據(jù)基礎產(chǎn)生不同的判斷很正常,因為這些系統(tǒng)并不會去周密地“思考”在自己“職責”之外的事情。這樣就給企業(yè)的領導提交了相當多顧此失彼的分析報告,結果就是導致了許多市場決策上的混亂和失誤。 把企業(yè)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)(企業(yè)內(nèi)部數(shù)據(jù)就是指上述通過業(yè)

11、務系統(tǒng)SCM、ERP、CRM等收集到的數(shù)據(jù),這些數(shù)據(jù)可能在不同的硬件、數(shù)據(jù)庫、網(wǎng)絡環(huán)境中,為不同的業(yè)務部門服務。外部數(shù)據(jù)是市場信息和外部競爭對手的信息)。進行有效的集成,形成直觀的、易于理解的信息,再進行分析和思考,為企業(yè)的各層決策及分析人員使用。,18,數(shù)據(jù)倉庫的技術要求,復雜分析的高性能體現(xiàn):涉及大量數(shù)據(jù)的聚集、綜合等,在進行復雜查詢時經(jīng)常會使用多表的聯(lián)接、累計、分類、排序等操作。 對提取出來的數(shù)據(jù)進行集成:數(shù)據(jù)倉庫中的數(shù)據(jù)是從多個應用領域中提取出來的,在不同的應用領域和不同的數(shù)據(jù)庫系統(tǒng)中都有不同的結構和形式,所以如何對數(shù)據(jù)進行集成也是構建數(shù)據(jù)倉庫的一個重要方面。 對進行高層決策的最終用戶

12、的界面支持:提供各種分析應用工具。,19,數(shù)據(jù)倉庫系統(tǒng)的結構,20,數(shù)據(jù)倉庫系統(tǒng)的結構(2),21,數(shù)據(jù)倉庫系統(tǒng)的結構(3),22,數(shù)據(jù)倉庫流程,23,IBM 信息分析框架,24,數(shù)據(jù)倉庫系統(tǒng)的組成(1),源數(shù)據(jù):數(shù)據(jù)倉庫中的數(shù)據(jù)來源于多個數(shù)據(jù)源,它不僅可以是企業(yè)內(nèi)部的關系型數(shù)據(jù)庫,還包括非傳統(tǒng)數(shù)據(jù),如文件、HTML文檔等。 數(shù)據(jù)倉庫管理系統(tǒng): 元數(shù)據(jù)庫及元數(shù)據(jù)管理部件:元數(shù)據(jù)庫用來存儲由定義部件生成的關于源數(shù)據(jù)、目標數(shù)據(jù)、提取規(guī)則、轉換規(guī)則以及源數(shù)據(jù)與數(shù)據(jù)倉庫之間的映射信息等。 數(shù)據(jù)轉換部件:該部件把數(shù)據(jù)從源數(shù)據(jù)中提取出來,依定義部件的規(guī)則將不同數(shù)據(jù)格式的源數(shù)據(jù)轉換成數(shù)據(jù)倉庫的數(shù)據(jù)格式并裝載

13、進數(shù)據(jù)倉庫。 數(shù)據(jù)集成部件:該部件根據(jù)定義部件的規(guī)則、統(tǒng)一各源數(shù)據(jù)的編碼規(guī)則,并凈化數(shù)據(jù),根據(jù)元數(shù)據(jù)中定義的數(shù)據(jù)組織形式對數(shù)據(jù)進行匯總、聚合計算。 數(shù)據(jù)倉庫管理部件:它主要用于維護數(shù)據(jù)倉庫中的數(shù)據(jù),備份、恢復數(shù)據(jù)以及管理數(shù)據(jù)的安全權限問題。,25,數(shù)據(jù)倉庫系統(tǒng)的組成(2),數(shù)據(jù)倉庫前端工具集 查詢/報表工具:以圖形化方式和報表方式顯示數(shù)據(jù),幫助了解數(shù)據(jù)的結構、關系以及動態(tài)性。 OLAP工具:通過對信息的多種可能的觀察形式進行快速、一致和交互性的存取,便于用戶對數(shù)據(jù)進行深入的分析和觀察。 數(shù)據(jù)挖掘工具:從大量數(shù)據(jù)中挖掘出具有規(guī)律性的知識,以及數(shù)據(jù)之間的內(nèi)在聯(lián)系。 前端開發(fā)工具:提供用戶編程接口,

14、便于在現(xiàn)有系統(tǒng)的基礎上進行二次開發(fā),增強系統(tǒng)的伸縮性。 數(shù)據(jù)倉庫:在數(shù)據(jù)倉庫系統(tǒng)中,數(shù)據(jù)倉庫是一個數(shù)據(jù)存儲集合,它的存儲形式通常有多維數(shù)據(jù)庫,關系型數(shù)據(jù)庫及其他存儲方式。,26,數(shù)據(jù)轉換,統(tǒng)一數(shù)據(jù)編碼:數(shù)據(jù)倉庫中的數(shù)據(jù)從各個數(shù)據(jù)源提取出來的,盡管經(jīng)過轉換后數(shù)據(jù)格式已經(jīng)統(tǒng)一,但數(shù)據(jù)的編碼、描述在各個源系統(tǒng)中都有很大的區(qū)別。為了改進數(shù)據(jù)倉庫中數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)倉庫中數(shù)據(jù)的可用性,必須統(tǒng)一數(shù)據(jù)編碼。本系統(tǒng)中編碼轉換主要包括: 日期格式轉換:大多數(shù)業(yè)務環(huán)境中有許多不同的日期和時間類型,所以,幾乎每個數(shù)據(jù)倉庫的實現(xiàn)都必須將日期和時間變換成標準的數(shù)據(jù)格式。數(shù)據(jù)倉庫必須用單一的模式規(guī)定日期和時間信息。 測量

15、單位的轉換:數(shù)據(jù)倉庫中對于數(shù)值型字段應保持一致的單位。在元數(shù)據(jù)庫中創(chuàng)建表Units和UnitTypes來表示各種單位的換算關系。表UnitTypes記錄了數(shù)據(jù)倉庫系統(tǒng)中的單位類型,初始元數(shù)據(jù)庫中共分六種單位類型:時間單位、貨幣單位、重量單位、長度單位、面積單位、體積單位。在表Units中記錄了單位名、單位類型以及同類型單位之間的相互轉換關系。,27,轉換器的設計與實現(xiàn),轉換器的功能:數(shù)據(jù)結構轉換和數(shù)據(jù)類型轉換。 從數(shù)據(jù)源中提取數(shù)據(jù)并轉換格式的過程:先將各類數(shù)據(jù)庫系統(tǒng)中不同格式的數(shù)據(jù)轉換成文本文件,然后再利用批拷貝命令將數(shù)據(jù)導入目標系統(tǒng)中。以使數(shù)據(jù)倉庫獲得新的數(shù)據(jù)提供決策分析使用。 數(shù)據(jù)準備區(qū)的

16、使用:首先從源數(shù)據(jù)中提取數(shù)據(jù),轉換成數(shù)據(jù)倉庫所要求的格式后存儲在數(shù)據(jù)倉庫的一個稱為數(shù)據(jù)準備區(qū)的緩沖區(qū)中。在該區(qū)域中,可以暫時存儲原始數(shù)據(jù),然后由集成器對數(shù)據(jù)進行清理、集成后再裝載到數(shù)據(jù)倉庫中。,28,數(shù)據(jù)凈化,當數(shù)據(jù)從源數(shù)據(jù)庫中提取到數(shù)據(jù)準備區(qū)后,必須先進行數(shù)據(jù)凈化才可以裝載到數(shù)據(jù)倉庫中去。數(shù)據(jù)凈化主要指對數(shù)據(jù)字段的有效值檢驗。有效值的檢驗通常包括:范圍檢驗、枚舉字段取值和相關檢驗。范圍檢驗要求數(shù)據(jù)保證落在預期的范圍之內(nèi),通常對數(shù)據(jù)范圍和日期范圍進行檢驗,如對任何在指定范圍之外的日期的發(fā)票都應刪除。枚舉字段取值指對一個記錄在該字段的取值,若不在指定的值中,則應該刪除。相關檢驗要求將一個字段中的

17、值與另外一個字段中的值進行相關檢驗,即在數(shù)據(jù)庫中某個字段應與另一個字段形成外鍵約束。,29,監(jiān)控器捕捉數(shù)據(jù)變化的途徑,數(shù)據(jù)倉庫提供的是離線數(shù)據(jù), 與源數(shù)據(jù)存在時間差。 時標方法:指在數(shù)據(jù)庫中的數(shù)據(jù)設一個時標,如果新插入或更新一個數(shù)據(jù)記錄,在記錄中插入新的時標或加上更新時的時標,然后根據(jù)時標判斷哪些數(shù)據(jù)是變化的,并把變化的數(shù)據(jù)追加到數(shù)據(jù)倉庫中去。 DELTA文件:該文件是由應用產(chǎn)生的,并記錄了應用所改變的所有內(nèi)容。利用DELTA文件記錄數(shù)據(jù)的變化,不需要掃描整個數(shù)據(jù)庫,所以效率較高,但生成的DELTA文件的應用并不普遍。 映象文件:在上次提取數(shù)據(jù)庫數(shù)據(jù)到數(shù)據(jù)倉庫之后及本次提取數(shù)據(jù)庫數(shù)據(jù)之前,對數(shù)

18、據(jù)庫分別作一次快照,然后通過比較兩幅快照的不同來確定要追加的數(shù)據(jù)。這種方法需要占用大量的系統(tǒng)資源,對系統(tǒng)的性能影響比較大。 日志文件:由于日志文件是數(shù)據(jù)庫的固有機制,所以它對系統(tǒng)性能的影響比較小,另外它還有DELTA文件的優(yōu)點,提取數(shù)據(jù)只局限于日志文件而不用掃描整個數(shù)據(jù)庫。所以日志文件是最可行的一種方法。,30,信息集成服務,Copyright IBM Corporation,31,IBM的解決方案,32,元數(shù)據(jù),數(shù)據(jù)倉庫的所有數(shù)據(jù)都要通過元數(shù)據(jù)來管理和控制。元數(shù)據(jù)描述關于源數(shù)據(jù)的說明,包括源數(shù)據(jù)的來源、源數(shù)據(jù)的名稱、源數(shù)據(jù)的定義、源數(shù)據(jù)的創(chuàng)建時間等對源數(shù)據(jù)進行管理所需要的信息。 源數(shù)據(jù)的來源

19、說明源數(shù)據(jù)是從哪個系統(tǒng)、哪個歷史數(shù)據(jù)、哪個辦公數(shù)據(jù)、哪個Web頁、哪個外部系統(tǒng)抽取而來。源數(shù)據(jù)說明源數(shù)據(jù)在數(shù)據(jù)倉庫的作用、用途、數(shù)據(jù)類型和長度等。,33,元數(shù)據(jù)(2),元數(shù)據(jù):是用來描述數(shù)據(jù)的數(shù)據(jù)。它描述和定位數(shù)據(jù)組件、它們的起源及它們在數(shù)據(jù)倉庫進程中的活動;關于數(shù)據(jù)和操作的相關描述(輸入、計算和輸出)。元數(shù)據(jù)可用文件存在元數(shù)據(jù)庫中。元數(shù)據(jù)反映數(shù)據(jù)倉庫中的數(shù)據(jù)項是從哪個特定的數(shù)據(jù)源填充的,經(jīng)過哪些轉換、集成過程。 要有效的管理數(shù)據(jù)倉庫,必須設計一個描述能力強、內(nèi)容完善的元數(shù)據(jù)。,34,元數(shù)據(jù)管理器,客戶端登錄:負責接收客戶端登錄信息并進行用戶權限檢查。 元數(shù)據(jù)管理器的用戶接口:以接口形式向用戶

20、提供對元數(shù)據(jù) 增、刪、改、查的服務,包括:源數(shù)據(jù)信息、數(shù)據(jù)倉庫信息、星型模型信息、維信息、維表字段信息、事實表字段信息、映射事實表字段信息、映射維表字段信息、鏈接事實表與維表字段的信息。 元數(shù)據(jù)的存儲:元數(shù)據(jù)管理器中的元數(shù)據(jù)存儲程序負責接收由接口程序傳遞來的關于對元數(shù)據(jù)進行增加、修改和刪除等信息,并根據(jù)所提供的參數(shù)執(zhí)行存儲過程,將元數(shù)據(jù)的有關信息保存于服務器端的元數(shù)據(jù)庫中。,35,元數(shù)據(jù)管理器的設計與實現(xiàn),元數(shù)據(jù)的作用:定義數(shù)據(jù)倉庫的作用,指明數(shù)據(jù)倉庫中信息的內(nèi)容和位置,刻畫數(shù)據(jù)的抽取和轉換規(guī)則,存儲與數(shù)據(jù)倉庫主題有關的各種商業(yè)信息。 在客戶端提供圖形化界面工具。例如,用戶想在多維模型中加入一

21、維或者在某一維中加入維元素,不僅可以通過圖形化界面工具完成而且可以在用戶自已編寫的應用程序中調(diào)用應用程序接口函數(shù),修改后的結果將記入元數(shù)據(jù)庫中。然后系統(tǒng)將根據(jù)元數(shù)據(jù)庫中的新內(nèi)容進行數(shù)據(jù)的追加。,36,操作數(shù)據(jù)存儲,37,數(shù)據(jù)倉庫中的數(shù)據(jù)組織,多級數(shù)據(jù),38,數(shù)據(jù)倉庫的數(shù)據(jù)模型,39,數(shù)據(jù)倉庫建模和設計,Process of building an abstract model for the data, which is stored in the data and represents the data warehouse content.,40,概念模型,由于大多數(shù)商務數(shù)據(jù)是多維的,但傳統(tǒng)

22、的數(shù)據(jù)模型表示三維以上的數(shù)據(jù)有一定困難。概念模型簡化了這個過程并且允許用戶與開發(fā)者和其他用戶建立聯(lián)系: 確定系統(tǒng)邊界:決策類型、需要的信息、原始信息 確定主題域及其內(nèi)容:主題域的公共鍵碼、聯(lián)系、屬性組 確定維度:如時間維、銷售位置維、產(chǎn)品維、組別維等 確定類別:相應維的詳細類別 確定指標和事實:用于進行分析的數(shù)值化信息,41,實例,例試畫出銷售分析的概念模型。 解:首先根據(jù)銷售分析的實際需求,確定信息包的維度、類別和指標與事實: (1)維度:包括日期維、銷售地點維、銷售產(chǎn)品維、年齡組別維、性別維等。 (2)類別:確定各維的詳細類別,如:日期維包括年(10)、季度(40)、月(120)等類別,括

23、號中的數(shù)字分別指出各類別的數(shù)量;銷售地點維包括國家(15)、區(qū)域(45)、城市(280)、區(qū)(880)、商店(2000)等類別,括號中的數(shù)字同樣分別指出各類別的數(shù)量;類似地,可以確定銷售產(chǎn)品、年齡組別維、性別維等的詳細類別。 (3)度量和事實:確定用于進行分析的數(shù)值化信息,包括預測銷售量、實際銷售量和預測偏差等。,42,銷售分析的概念模型,信息包: 銷售分析 維度,類別,43,概念模型圖實例,44,邏輯模型,星型圖:數(shù)據(jù)倉庫的數(shù)據(jù)模型的第二層是向最終的數(shù)據(jù)結構添加某些細節(jié)的星型圖模型。與傳統(tǒng)的關系模型相比,星型圖模型簡化了用戶分析所需的關系,從支持決策的角度去定義數(shù)據(jù)實體,更適合大量復雜查詢。

24、 星形圖包括了三種邏輯實體:指標、維度和詳細類別 維表的本質(zhì)是多維分析空間在某個角度上的投影,多個維表共同建立一個多維分析空間。,45,sales數(shù)據(jù)倉庫的雪花模式,46,Information Modelling of Sales Information Demand,Unique Identifier,Attribute,Strong Entity Type,1-n Relationship,0-n Relationship,Derived Attribute,Weak Entity Type,47,DW Layer and the Mapping to Information Model

25、,Data Warehouse Layer (logical layer),Information Model (conceptual layer),Map Information Objects To Database fields,- Rename Objects to User friendly names - Calculate fields - Define object display attributes - Convert currencies etc.,48,星型模型例子,49,物理數(shù)據(jù)模型,物理數(shù)據(jù)模型:數(shù)據(jù)模型的第三層,它是星型圖模型在數(shù)據(jù)倉庫中的實現(xiàn),如物理的存取方式、

26、數(shù)據(jù)存儲結構等。 在物理設計時,常常要按數(shù)據(jù)的重要程度、使用頻率以及對響應時間的要求進行分類,并將不同類的數(shù)據(jù)分別存儲在不同的存儲設備中。重要程度高、經(jīng)常存取并對響應時間高的數(shù)據(jù)就存放在高速存儲設備上,如硬盤;存取頻率低或?qū)Υ嫒№憫獣r間要求低的數(shù)據(jù)則可以放在低速存儲設備上。,50,粒度,粒度:對數(shù)據(jù)倉庫中的數(shù)據(jù)綜合程度高低的一個度量,它既影響數(shù)據(jù)倉庫中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉庫所能回答詢問的種類。 粒度越小,綜合程度越低,回答查詢的種類越多; 粒度越高,綜合程度越高,查詢的效率也越高。 在數(shù)據(jù)倉庫中可將小粒度的數(shù)據(jù)存儲在低速存儲器上;大粒度的數(shù)據(jù)存儲在高速存儲器上。,51,維度,維度:是一

27、個物理特性(如時間、地點、產(chǎn)品等),它是表達數(shù)據(jù)倉庫中信息的一個基本途徑,可作為標識數(shù)據(jù)的索引。通常的報表只包含有行和列兩維,但在數(shù)據(jù)倉庫中所存儲的數(shù)據(jù)大多是用多維(三維或三維以上)視圖表示的。 例如: 一個銷售系統(tǒng)中的數(shù)據(jù)可分為時間維、產(chǎn)品維和地理位置維等; 一個財務系統(tǒng)中的數(shù)據(jù)可分為時間維、支出維和收入維等; 一個企業(yè)決策支持系統(tǒng)中的數(shù)據(jù)可分為成本開支維、銷售收入維、利潤維、股票價值維等。,52,聚合,在數(shù)據(jù)倉庫技術中,每一維可包括多個層次,這些層次反過來可以向用戶提供某一層次的數(shù)據(jù)。例如,在地理位置維中,由所有的街區(qū)組成了地區(qū),由所有的地區(qū)組成了城市等。聚合就是指在維的不同層次內(nèi)移動數(shù)據(jù)

28、,從而構成維內(nèi)不同層次的數(shù)據(jù)集,使用戶不僅能夠在一個維度內(nèi)觀察數(shù)據(jù),而且能夠在維度內(nèi)的不同層次上觀察數(shù)據(jù)。 聚合和匯總不同,53,分解與合成,分解與合成是在一個維度內(nèi)進一步細分數(shù)據(jù)或?qū)?shù)據(jù)按照另一標準組合的過程。例如,當以地理位置維觀察數(shù)據(jù)時,用戶可以首先以國家(如中國)為單位觀察數(shù)據(jù),然后可以選擇觀察某一個地區(qū)(如華東地區(qū))的數(shù)據(jù),接下來可以選擇觀察某一個省或城市(如上海)的數(shù)據(jù),這就是數(shù)據(jù)分解的過程。而合成則是分解的逆過程,例如用戶開始以省市為觀察對象,接著再以地區(qū)、國家等為觀察對象,就是一個數(shù)據(jù)合成的過程。,54,數(shù)據(jù)倉庫的數(shù)據(jù)組織,為了提高分析和決策的效率和有效性,分析型處理及其數(shù)據(jù)必須與事務型處理及其數(shù)據(jù)相分離,把分析型處理所需要的數(shù)據(jù)從事務型處理環(huán)境中提取出來,按照分析型處理的要求進行重新組織,建立單獨的分析處理環(huán)境。數(shù)據(jù)倉庫正是構建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術。 數(shù)據(jù)倉庫的數(shù)據(jù)組織結構不同于一般的數(shù)據(jù)庫系統(tǒng),需要將從原有的業(yè)務數(shù)據(jù)庫中獲得的基本數(shù)據(jù)和綜合數(shù)據(jù)分成一些不同的級別。在數(shù)據(jù)倉庫中,數(shù)據(jù)按照粒度從小到大可分為四個級別:早期細節(jié)級、當前細節(jié)級、輕度細節(jié)級和高度細節(jié)級。從事務型處理環(huán)境中提取的源數(shù)據(jù)經(jīng)過綜合后,首先進入當前細節(jié)級,并根據(jù)需要進行進一步的綜合進入輕度綜合級或高度綜合級,老化的數(shù)據(jù)將進入早期細節(jié)級。,55,數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論