版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)倉庫設(shè)計,胡正耀 09105015,一、數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu),RDBMS,數(shù)據(jù)文件,其他,綜合數(shù)據(jù),當(dāng)前數(shù)據(jù),歷史數(shù)據(jù),元數(shù)據(jù),抽取、轉(zhuǎn)換、裝載,數(shù)據(jù)倉庫,OLAP工具,DM工具,查詢工具,分析工具,報表工具,抽取.轉(zhuǎn)換.裝載,源數(shù)據(jù)庫,DW管理工具,數(shù)據(jù)建模工具,數(shù)據(jù)源,二、建立DW的兩種方式,1.自頂向下型 “自頂向下”的開發(fā)策略是指對原來分散存儲在企業(yè)各處的OLTP數(shù)據(jù)庫中的有用數(shù)據(jù)通過提取、清潔、轉(zhuǎn)換、聚集等處理步驟建立一個全局性數(shù)據(jù)倉庫。這個全局的數(shù)據(jù)倉庫將提供給用戶一個一致的數(shù)據(jù)格式,一致的軟件環(huán)境。從理論上說,決策支持所需的數(shù)據(jù)都應(yīng)該包含在這個全局?jǐn)?shù)據(jù)倉庫中。數(shù)據(jù)集市中存儲的數(shù)據(jù)
2、是為某個部門的DSS應(yīng)用而專門從全局?jǐn)?shù)據(jù)倉庫中提取的,它是全局?jǐn)?shù)據(jù)倉庫中數(shù)據(jù)的一個子集。在“自頂向下”的模式中,數(shù)據(jù)集市和數(shù)據(jù)倉庫的關(guān)系是單方向的,即數(shù)據(jù)從數(shù)據(jù)倉庫流向數(shù)據(jù)集市。,原有數(shù)據(jù)和應(yīng)用源,抽取、轉(zhuǎn)換、遷移,數(shù)據(jù)倉庫,數(shù)據(jù)倉庫/數(shù)據(jù)集市 元數(shù)據(jù),數(shù) 據(jù) 集 市,自頂向下的數(shù)據(jù)倉庫結(jié)構(gòu),二、建立DW的兩種方式,2.自下向上型 “自底向上”模式是從建立各個部門或特定的商業(yè)問題的數(shù)據(jù)集市開始,全局性數(shù)據(jù)倉庫建立在這些數(shù)據(jù)集市的基礎(chǔ)上?!白缘紫蛏稀蹦J降奶攸c是初期投資少,見效快,因為它在建立部門數(shù)據(jù)集市時只需要較少的人做決策,解決的是較小的商業(yè)問題?!白缘紫蛏稀钡拈_發(fā)模式可以使一個單位在數(shù)據(jù)倉
3、庫發(fā)展初期盡可能少地花費資金,也可以在做出有效的投入之前評估技術(shù)的收益情況。,原有數(shù)據(jù)和應(yīng)用源,抽取、轉(zhuǎn)換、遷移,數(shù)據(jù)倉庫,數(shù)據(jù)倉庫/數(shù)據(jù)集市 元數(shù)據(jù),數(shù)據(jù)集市,自下向上的數(shù)據(jù)倉庫結(jié)構(gòu),“平行開發(fā)”模式是指在一個全局性數(shù)據(jù)倉庫的數(shù)據(jù)模型的指導(dǎo)下,數(shù)據(jù)集市的建立和全局性數(shù)據(jù)倉庫的建立同時進行。在“平行開發(fā)”模式中由于數(shù)據(jù)集市的建立是在一個統(tǒng)一的全局?jǐn)?shù)據(jù)模型的指導(dǎo)下進行的,可避免各部門在開發(fā)各自的數(shù)據(jù)集市時的盲目性,減少各數(shù)據(jù)集市之間的數(shù)據(jù)冗余和不一致。在“平行開發(fā)”模式中數(shù)據(jù)集市的這種相對獨立性有利于全局性數(shù)據(jù)庫的建設(shè)。一旦全局性數(shù)據(jù)倉庫建立好后,各部門的數(shù)據(jù)集市將成為全局?jǐn)?shù)據(jù)倉庫的一個子集#全
4、局?jǐn)?shù)據(jù)倉庫將負(fù)責(zé)為各部門已建成和即將要建的數(shù)據(jù)集市提供數(shù)據(jù)。,二、建立DW的兩種方式,兩種方式的比較: 自頂向下 的方法是在單個項目階段中實現(xiàn)數(shù)據(jù)倉庫,需要在項目開始時完成更多計劃和設(shè)計工作。這就需要涉及參與數(shù)據(jù)倉庫實現(xiàn)的每個工作組、 部門或業(yè)務(wù)線中的人員。要使用的數(shù)據(jù)源、安全性、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標(biāo)準(zhǔn)和整個數(shù)據(jù)模型的有關(guān)決策一般需要在真正的實現(xiàn)開始之前就完成,建設(shè)規(guī)模往往較大,建設(shè)周期長,投資大。,二、建立DW的兩種方式,兩種方式的比較: 自下向上的實現(xiàn)包含數(shù)據(jù)倉庫的計劃和設(shè)計,無需等待安置好更大業(yè)務(wù)范圍的數(shù)據(jù)倉庫設(shè)計。這并不意味著不會開發(fā)更大業(yè)務(wù)范圍的數(shù)據(jù)倉庫設(shè)計;隨著初始數(shù)據(jù)倉 庫
5、實現(xiàn)的擴展,將逐漸增加對它的構(gòu)建?,F(xiàn)在,該方法得到了比自頂向下方法更廣泛的接受,因為數(shù)據(jù)倉庫的直接結(jié)果可以實現(xiàn),并可以用作擴展更大業(yè)務(wù)范圍實現(xiàn)的證明。,二、建立DW的兩種方式,兩種方式的比較: 一種折中方案: 每種實現(xiàn)方法都有利弊。在許多情況下,最好的方法可能是某兩種的組合。該方法的關(guān)鍵之一就是確定業(yè)務(wù)范圍的架構(gòu)需要用于支持集成的計劃和設(shè)計的程度,因為數(shù)據(jù)倉庫是用自底向上的方法進行構(gòu)建。在使用自底向上或階段性數(shù)據(jù)倉庫項目模型來構(gòu)建業(yè)務(wù)范圍架構(gòu)中的一系列數(shù)據(jù)集市時,您可以一個接一個地集成不同業(yè)務(wù) 主題領(lǐng)域中的數(shù)據(jù)集市,從而形成設(shè)計良好的業(yè)務(wù)數(shù)據(jù)倉庫。這樣的方法可以極好地適用于業(yè)務(wù)。在這種方法中,
6、可以把數(shù)據(jù)集市理解為整個數(shù)據(jù)倉庫系統(tǒng)的邏輯子 集,換句話說數(shù)據(jù)倉庫就是一致化了的數(shù)據(jù)集市的集合。這種方案的實施步驟通常分如下幾步: (1) 從整個企業(yè)的角度定義計劃和需求 (2) 構(gòu)建完整的倉庫體系結(jié)構(gòu) (3) 使數(shù)據(jù)內(nèi)容一致而且標(biāo)準(zhǔn)化 (4) 將數(shù)據(jù)倉庫作為一種超級數(shù)據(jù)集市來實施,隨著數(shù)據(jù)倉庫技術(shù)的發(fā)展 , 數(shù)據(jù)倉庫的實現(xiàn)策略已從原先的“自頂向下”一種模式發(fā)展到了六種模式。 1 、“自頂向下”模式 2 、“自底向上”模式 3 、“平行開發(fā)”模式 為了解決用戶需求變化的問題 , 在業(yè)界引入了三種模式。 4 、“有反饋的自頂向下”模式 5 、“有反饋的自底向上”模式 6 、“有反饋的平行開發(fā)”模
7、式,三、數(shù)據(jù)倉庫構(gòu)建步驟,數(shù)據(jù)建模,概念模型設(shè)計,邏輯模型設(shè)計,物理模型設(shè)計,OLAP應(yīng)用,完善維護系統(tǒng),應(yīng)用與維護,確定系統(tǒng)邊界,確定主題域,總體分析設(shè)計,技術(shù)環(huán)境設(shè)備,三、數(shù)據(jù)倉庫構(gòu)建步驟,1)收集和分析業(yè)務(wù)需求; 2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計; 3)定義數(shù)據(jù)源; 4)選擇數(shù)據(jù)倉庫技術(shù)和平臺; 5)從操作型數(shù)據(jù)庫中提取、轉(zhuǎn)換和凈化數(shù)據(jù)到數(shù)據(jù)倉庫; 6)選擇訪問和報表工具; 7)選擇數(shù)據(jù)庫連接軟件; 8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件; 9)更新數(shù)據(jù)倉庫;,三、數(shù)據(jù)倉庫建立的基本框架,需求分析,運行維護,模型設(shè)計,物理設(shè)計,技術(shù)選擇,數(shù)據(jù)處理,應(yīng)用設(shè)計,應(yīng)用開發(fā),產(chǎn)品選擇,項 目 管 理
8、,四、數(shù)據(jù)的獲取,數(shù)據(jù)倉庫所需要的數(shù)據(jù)不像業(yè)務(wù)處理系統(tǒng)那樣直接從業(yè)務(wù)發(fā)生地獲取,而是從與業(yè)務(wù)處理發(fā)生直接聯(lián)系的業(yè)務(wù)處理系統(tǒng)那里獲取,如傳統(tǒng)的基于C/S結(jié)構(gòu)的在線事物處理系統(tǒng)OLTP。這些業(yè)務(wù)處理系統(tǒng)中的數(shù)據(jù)往往與業(yè)務(wù)處理聯(lián)系在一起,只為業(yè)務(wù)的日常處理服務(wù),而不為決策分析服務(wù)。所以DW從業(yè)務(wù)處理系統(tǒng)那里獲取數(shù)據(jù)時,并不能將原數(shù)據(jù)庫中的數(shù)據(jù)直接加載到DW中,而是要進行一系列的處理。,四、數(shù)據(jù)的獲取,數(shù)據(jù)進入數(shù)據(jù)倉庫的基本過程 操作數(shù)據(jù)向數(shù)據(jù)倉庫的移動包括以下五個過程:,五、設(shè)計模型的選擇,數(shù)據(jù)倉庫是多維數(shù)據(jù)庫,它擴展了關(guān)系數(shù)據(jù)庫模型,以星形架構(gòu)為主要結(jié)構(gòu)方式的,并在它的基礎(chǔ)上,擴展出理論雪花形架構(gòu)
9、和數(shù)據(jù)星座等方式,但不管是哪一種架構(gòu),維度表、事實表和事實表中的量度都是必不可少的組成要素。 邏輯模型指數(shù)據(jù)倉庫數(shù)據(jù)的邏輯表現(xiàn)形式。從最終應(yīng)用的功能和性能的角度來看,數(shù)據(jù)倉庫的數(shù)據(jù)邏輯模型也許是整個項目最重要的方面,需要領(lǐng)域?qū)<业膮⑴c。從內(nèi)容上看,涉及的方面有確立主題域,粒度層次的劃分,確定數(shù)據(jù)分割策略,關(guān)系模式的確定。 數(shù)據(jù)倉庫的邏輯設(shè)計模型有:第三范式,星型模式,雪花模式,混合模式,五、設(shè)計模型的選擇,大多數(shù)人在設(shè)計中央數(shù)據(jù)倉庫的邏輯模型時,都按照第三范式來設(shè)計;而在進行物理實施時,則由于數(shù)據(jù)庫引擎的限制,不得不對邏輯模型進行不規(guī)范處理 (De-Normalize), 以提高系統(tǒng)的響應(yīng)速度
10、,這當(dāng)然是以增加系統(tǒng)的復(fù)雜度、維護工作量、磁盤使用比率 (指原始數(shù)據(jù)與磁盤大小的比率)并降低系統(tǒng)執(zhí)行動態(tài)查詢能力為代價的。,在數(shù)據(jù)倉庫的應(yīng)用環(huán)境中,主要有兩種負(fù)載:一種是回答重復(fù)性的問題;另一種是回答交互性的問題。 動態(tài)查詢具有較明顯的交互性特征,即在一個問題答案的基礎(chǔ)上進行進一步的探索,這種交互過程常稱為數(shù)據(jù)挖掘或者知識探索,對于以第一種負(fù)載為主的部門數(shù)據(jù)集市,當(dāng)數(shù)據(jù)量不大、報表較固定時可以采用星型模式; 對于中央數(shù)據(jù)倉庫,考慮到系統(tǒng)的可擴展能力、投資成本和易于管理等多種因素,最好采用第三范式。,標(biāo)準(zhǔn)的關(guān)系數(shù)據(jù)表不能滿足數(shù)據(jù)的分析能力,所以對表進行非標(biāo)準(zhǔn)化處理以形成數(shù)據(jù)倉庫中特有的星形架構(gòu)方
11、式,但這樣一來,如果所有的分析維度都作為事實表的一個直接維度,數(shù)據(jù)的冗余是相當(dāng)大的。在星形架構(gòu)的基礎(chǔ)上擴展出雪花形架構(gòu),實質(zhì)上是在分析查詢的性能和數(shù)據(jù)倉庫的存儲容量兩個方面進行權(quán)衡的結(jié)果。 下表比較了兩種類型的架構(gòu)差異。只有明確了這些差異,才能在設(shè)計數(shù)據(jù)倉庫時選擇最合適的架構(gòu)方式。,五、設(shè)計模型的選擇,總結(jié): 對于部門數(shù)據(jù)集市,當(dāng)數(shù)據(jù)量不大、報表較固定時可以采用星型模式; 對于企業(yè)級數(shù)據(jù)倉庫,考慮到系統(tǒng)的可擴展能力、投資成本和易于管理等多種因素,最好采用第三范式。,五、設(shè)計模型的選擇,數(shù)據(jù)倉庫系統(tǒng)的建設(shè)作為一個漸進、迭代的過程,其發(fā)展趨勢是從現(xiàn)有的初步應(yīng)用如報表分析、數(shù)據(jù)集市,向深度和廣度復(fù)雜
12、分析和數(shù)據(jù)挖掘技術(shù)應(yīng)用發(fā)展,其依賴的數(shù)據(jù)存儲模型,包括邏輯模型和物理模型,也是一個不斷發(fā)展,不斷豐富完善的過程。,六、粒度的設(shè)計,在數(shù)據(jù)倉庫中的數(shù)據(jù)分為4個級別:早期細(xì)節(jié)級、當(dāng)前細(xì)節(jié)級、輕度綜合級和高度綜合級。源數(shù)據(jù)經(jīng)過綜合后,首先進入當(dāng)前細(xì)節(jié)級,并根據(jù)具體需要進行進一步綜合,從而進入輕度綜合級乃至高度綜合級,老化的數(shù)據(jù)將進入早期細(xì)節(jié)級。從中可以看出,數(shù)據(jù)倉庫中存在著不同的綜合級別,這就是 “粒度”的直觀表現(xiàn)。 粒度模型是數(shù)據(jù)倉庫設(shè)計中需要解決的十分重要的問題之一。所謂粒度是指數(shù)據(jù)倉庫中數(shù)據(jù)單元的詳細(xì)程度和級別。數(shù)據(jù)越詳細(xì),粒度就越小,級別也就越低;數(shù)據(jù)綜合度越高,粒度就越大,級別也就越高。,
13、數(shù)據(jù)倉庫中的數(shù)據(jù)細(xì)節(jié)級別,六、粒度的設(shè)計,設(shè)計步驟 粗略估算,確定合適的粒度級的起點,可以粗略估算數(shù)據(jù)倉庫中將來的數(shù)據(jù)行數(shù)和所需的直接存取存儲空間。 確定雙重或單一的粒度。 確定粒度的級別,六、粒度的設(shè)計,設(shè)計原則 粒度在數(shù)據(jù)倉庫生命周期中是重要的考慮因素。它由業(yè)務(wù)問題所驅(qū)動,受技術(shù)的制約。如果粒度太大,就會丟失個別細(xì)節(jié),就要花更多的處理時間來解開聚合;而若粒度太小,就會由于一葉障目而不見森林,許多寶貴的處理時間都浪費在建立聚合上。因此粒度設(shè)計主要是權(quán)衡粒度級別,對于業(yè)務(wù)量大,分析要求比較高的情況下,最佳解決辦法則是采用多重粒度的形式。 而針對具體的某個事實的粒度而言,應(yīng)當(dāng)采用“最小粒度原則”
14、,即將量度的粒度設(shè)置到最小。 假設(shè)目前的數(shù)據(jù)最小記錄到秒,即數(shù)據(jù)庫中記錄了每秒的交易額。那么,如果可以確認(rèn),在將來的分析需求中,時間只需要精確到天就可以的話,就可以在ETL處理過程中,按天來匯總數(shù)據(jù),此時,數(shù)據(jù)倉庫中量度的粒度就是“天”;反過來,如果不能確認(rèn)將來的分析需求在時間上是否需要精確到秒,那么,就需要遵循“最小粒度原則”,精確到“秒”以滿足查詢的可能需求。,七、數(shù)據(jù)倉庫物理模型設(shè)計,數(shù)據(jù)倉庫的物理模型就是數(shù)據(jù)倉庫邏輯模型在物理系統(tǒng)中的實現(xiàn)模式。其中包括了邏輯模型中各種實體表的具體化,例如表的數(shù)據(jù)結(jié)構(gòu)類型、索引策略、數(shù)據(jù)存放位置和數(shù)據(jù)存儲分配等。在進行物理模型的設(shè)計實現(xiàn)時,所考慮的因素有:I/O存取時間、空間利用率及維護的代價。 設(shè)計存儲結(jié)構(gòu) 設(shè)計索引策略 設(shè)計索引策略,七、數(shù)據(jù)倉庫物理模型設(shè)計,DW物理模型的優(yōu)化 在計算機中存儲器和計算機間的傳輸速度比計算機的運算速度慢很多,計算機內(nèi)部的運算速度以毫微秒為計算級,而數(shù)據(jù)的傳輸速度是以毫秒為計算級。因此,物理模型是影響DW性能的主要因素。,常見的幾種DW物理模型的優(yōu)化方法,依據(jù)DW數(shù)據(jù)量大但操作單一的特點,可以通過以下幾個方面改善物理數(shù)據(jù)模型的設(shè)計: 1.合并表 2.引入冗余(反范式) 3.建立數(shù)據(jù)序列 4.表的物理分割 5.生成導(dǎo)出數(shù)據(jù) 6.建立廣義索引,八、建立DW需要考慮的因素,DW+OLDP+DM DSS的可行性方案
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中職(新能源汽車檢測與維修)電池管理系統(tǒng)單元測試題及答案
- 2025年高職建筑工程(門窗工程施工)試題及答案
- 2025年中職安全(應(yīng)用實操技巧)試題及答案
- 2025年大學(xué)第三學(xué)年(藝術(shù)教育)舞蹈教學(xué)方法試題及答案
- 2025年中職大數(shù)據(jù)與會計(財務(wù)審計基礎(chǔ))試題及答案
- 2025年中職(環(huán)境監(jiān)測技術(shù))環(huán)境工程基礎(chǔ)試題及答案
- 2025年大學(xué)護理學(xué)(護理質(zhì)量管理)試題及答案
- 2025年高職物流裝卸搬運管理(裝卸搬運管理)試題及答案
- 2025年大學(xué)衛(wèi)生檢驗與檢疫(衛(wèi)生檢疫研究)試題及答案
- 2026年德州職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)考試備考題庫帶答案解析
- 2025年母子公司間投資合同范本
- 醫(yī)院安全生產(chǎn)下一步工作計劃
- 實驗室質(zhì)控考核管理
- 2025青海省生態(tài)環(huán)保產(chǎn)業(yè)有限公司招聘11人筆試考試參考題庫及答案解析
- 銷毀物品協(xié)議書范本
- 2025高一英語上學(xué)期期末復(fù)習(xí)資料
- 辦公室主任年度述職報告
- 婦產(chǎn)科產(chǎn)房培訓(xùn)大綱
- 建筑工地安全檢查自評表模板
- 2025年新能源汽車車路協(xié)同通信在數(shù)字孿生中的應(yīng)用報告
- 高層建筑腳手架安全使用規(guī)范對比
評論
0/150
提交評論