《數(shù)據(jù)倉庫的設(shè)計A》PPT課件.ppt_第1頁
《數(shù)據(jù)倉庫的設(shè)計A》PPT課件.ppt_第2頁
《數(shù)據(jù)倉庫的設(shè)計A》PPT課件.ppt_第3頁
《數(shù)據(jù)倉庫的設(shè)計A》PPT課件.ppt_第4頁
《數(shù)據(jù)倉庫的設(shè)計A》PPT課件.ppt_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第4章 數(shù)據(jù)倉庫的設(shè)計與開發(fā) (一),2,4.1 數(shù)據(jù)倉庫分析與設(shè)計 4.2 數(shù)據(jù)倉庫開發(fā) 4.3 數(shù)據(jù)倉庫技術(shù)與開發(fā)的困難,內(nèi)容安排,需求 分析,數(shù)據(jù) 裝載,信息 查詢,概念 設(shè)計,邏輯 設(shè)計,物理 設(shè)計,數(shù)據(jù) 抽取,數(shù)據(jù) 轉(zhuǎn)換,知識 探索,數(shù)據(jù)倉庫增長,數(shù)據(jù)倉庫維護,數(shù)據(jù)倉庫評估,決策 支持,數(shù)據(jù) 獲取,分析與 設(shè)計,維護與評估,數(shù)據(jù)倉庫開發(fā)過程,4,工具介紹,9,4.1數(shù)據(jù)倉庫分析與設(shè)計,4.1.1 需求分析 4.1.2 概念模型設(shè)計 4.1.3 邏輯模型設(shè)計 4.1.4 物理模型設(shè)計 4.1.5 數(shù)據(jù)倉庫的索引技術(shù),10,4.1.1 需求分析,1.確定主題域 2.支持決策的數(shù)據(jù)來源 3

2、.數(shù)據(jù)倉庫的成功標(biāo)準(zhǔn)和關(guān)鍵性能指標(biāo) 4.數(shù)據(jù)量與更新頻率,11,1.確定主題域,(1)明確對于決策分析最有價值的主題領(lǐng)域有哪些? (2)每個主題域的商業(yè)維度是哪些?每個維度的粒度層次有哪些? (3)制定決策的商業(yè)分區(qū)是什么? (4)不同地區(qū)需要哪些信息來制定決策? (5)對哪個區(qū)域提供特定的商品和服務(wù)?,12,2.支持決策的數(shù)據(jù)來源,(1)哪些源數(shù)據(jù)(操作型)與商品主題有關(guān)? (2)在已有報表和在線查詢中得到什么樣的信息? (3)提供決策支持的細節(jié)程度是怎樣的?,13,3.數(shù)據(jù)倉庫的成功標(biāo)準(zhǔn)和關(guān)鍵性能指標(biāo),(1)衡量數(shù)據(jù)倉庫成功的標(biāo)準(zhǔn)是什么? (2)哪些關(guān)鍵的性能指標(biāo)?如何監(jiān)控? (3)對數(shù)據(jù)

3、倉庫的期望是什么? (4)對數(shù)據(jù)倉庫的預(yù)期用途有哪些? (5)對計劃中的數(shù)據(jù)倉庫的考慮要點是什么?,14,4.數(shù)據(jù)量與更新頻率,(1)數(shù)據(jù)倉庫的總數(shù)據(jù)量有多少? (2)決策支持所需的數(shù)據(jù)更新頻率是多少?時間間隔是多長? (3)每種決策分析與不同時間的標(biāo)準(zhǔn)對比如何? (4)數(shù)據(jù)倉庫中的信息需求的時間界限是什么?,15,通過需求分析,需要的數(shù)據(jù)包括:,1.數(shù)據(jù)源 (1)可用的數(shù)據(jù)源 (2)數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu) (3)數(shù)據(jù)源的位置 (4)數(shù)據(jù)源的計算機環(huán)境 (5)數(shù)據(jù)抽取過程 (6)可用的歷史數(shù)據(jù),2.數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)倉庫中的數(shù)據(jù)是為決策分析服務(wù),而源 系統(tǒng)的數(shù)據(jù)為業(yè)務(wù)處理服務(wù)。 需要決定如何正確地將這些

4、源數(shù)據(jù)轉(zhuǎn)換成適 合數(shù)據(jù)倉庫存儲的數(shù)據(jù)。,3.數(shù)據(jù)存儲 數(shù)據(jù)倉庫所需要的數(shù)據(jù)的詳細程度,包括 足夠的關(guān)于存儲需求的信息,估計數(shù)據(jù)倉 庫需要多少歷史和存檔數(shù)據(jù)。,4.決策分析 (1)向下層鉆取分析 (2)向上層鉆取分析 (3)橫向鉆取分析 (4)切片分析 (5)特別查詢報表,需求分析簡單舉例:,20,4.1.2概念模型設(shè)計,概念模型的特點是: (1)能真實反映現(xiàn)實世界,能滿足用戶對數(shù)據(jù)的分析,達到?jīng)Q策支持的要求,它是現(xiàn)實世界的一個真實模型。 (2)易于理解,便利和用戶交換意見,在用戶的參與下,能有效地完成對數(shù)據(jù)倉庫的成功設(shè)計。 (3)易于更改,當(dāng)用戶需求發(fā)生變化時,容易對概念模型修改和擴充。 (4

5、)易于向數(shù)據(jù)倉庫的數(shù)據(jù)模型(星型模型)轉(zhuǎn)換。,概念模型最常用的表示方法是實體關(guān)系法(E-R法)。 E-R圖描述的是實體以及實體之間的聯(lián)系, 用長方形表示實體,在數(shù)據(jù)倉庫中就表示主題,橢圓形表示主題的屬性,并用無向邊把主題與其屬性連接起來; 用菱形表示主題之間的聯(lián)系,用無向邊把菱形分別與有關(guān)的主題連接。 若主題之間的聯(lián)系也具有屬性,則把屬性和菱形也用無向邊連接上。,例子,有兩個主題:商品和客戶,主題也是實體。 商品有如下屬性組: 商品的固有信息(商品號、商品名、類別、價格等); 商品庫存信息(商品號、庫房號、庫存量、日期等); 商品銷售信息(商品號、客戶號、銷售量等); 客戶有如下屬性組: 客戶

6、固有信息(客戶號、客戶名、住址、電話等); 客戶購物信息(客戶號、商品號、售價、購買量等)。 商品的銷售信息與用戶的購物信息是一致的,它們是兩個主題之間的聯(lián)系。,商品,商品固 有信息,商品號,商品庫 存信息,銷售信息,購物 信息,客戶,客戶固 有信息,客戶號,=,24,4.1.3邏輯模型設(shè)計,主要工作為: (1)主題域進行概念模型(ER圖)到邏輯模型(星型模型)的轉(zhuǎn)換 (2)粒度層次劃分 (3)關(guān)系模式定義 (4)定義記錄系統(tǒng),25,1、主題域進行概念模型到邏輯模型的轉(zhuǎn)換,星型模型的設(shè)計步驟如下: (1)確定決策分析需求 決策需求是建立多維數(shù)據(jù)模型的依據(jù)。 (2)從需求中識別出事實 選擇或設(shè)計

7、反映決策主題業(yè)務(wù)的表,如在“商品”主題中,以“銷售業(yè)務(wù)”作為事實表。 (3)確定維 確定影響事實的各種因素,對銷售業(yè)務(wù)的維包括商店,地區(qū),部門,城市,時間,商品等,如圖4.2所示。,26,圖4.2 銷售業(yè)務(wù)的多維數(shù)據(jù),(4)確定數(shù)據(jù)匯總水平 數(shù)據(jù)倉庫中對數(shù)據(jù)不同粒度的集成和綜合,形成了多層次、多種知識的數(shù)據(jù)結(jié)構(gòu)。例如,對于時間維,可以以“年”、“月”或者“日”等不同水平進行匯總。,(5)設(shè)計事實表和維表 設(shè)計事實表和維表的具體屬性。在事實表中應(yīng)該記錄哪些屬性是由維表的數(shù)量決定的。一般來說,與事實表相關(guān)的維表的數(shù)量應(yīng)該適中,太少的維表會影響查詢的質(zhì)量,用戶得不到需要的數(shù)據(jù),太多的維表又會影響查詢

8、的速度。,(6)按使用的DBMS和分析用戶工具,證實設(shè)計方案的有效性 根據(jù)系統(tǒng)使用的DBMS,確定事實表和維表的具體實現(xiàn)。由于不同的DBMS對數(shù)據(jù)存儲有不同的要求,因此設(shè)計方案是否有效還要放在DBMS中進行檢驗,(7)隨著需求變化修改設(shè)計方案 隨著應(yīng)用需求的變化,整個數(shù)據(jù)倉庫的數(shù)據(jù)模式也可能會發(fā)生變化。因此在設(shè)計之初,充分考慮數(shù)據(jù)模型的可修改性可以節(jié)省系統(tǒng)維護的代價。,從的ER圖轉(zhuǎn)換成星型模型實例說明,(1)業(yè)務(wù)數(shù)據(jù)的E-R圖,(2)E-R圖向多維表的轉(zhuǎn)換 該問題的多維表模型中,商品維包括部門、商品和商品大類,地點維包括地區(qū)和商店,忽略存貨,而只注意銷售事實。在E-R圖中不出現(xiàn)的時間,在多維模

9、型中增加時間維。 在多維模型中,實體與維之間建立映射關(guān)系,聯(lián)系多個實體的實體就成為事實,此處銷售實體作為事實,其他實體作為維。然后用維關(guān)鍵字將它轉(zhuǎn)換為星型模型,如圖4.5所示。,31,E-R圖向多維模型的轉(zhuǎn)換,利用維關(guān)鍵字制定的星型模型,在各維中,只有部門,商品類,地區(qū),商店的編號沒有具體的說明。 為了打印報表將增加這些編號的名稱說明,即部門名、商店名等,在維表中增加這些說明,即修改該星型模型。,修改后的星型模型,35,2、粒度層次劃分,所謂粒度是指數(shù)據(jù)倉庫中數(shù)據(jù)單元的詳細程度和級別。 數(shù)據(jù)越詳細,粒度越小,層次級別就越低;數(shù)據(jù)綜合度越高,粒度越大,層次級別就越高。 進行粒度劃分,首先要確定所

10、有在數(shù)據(jù)倉庫中建立的表,然后估計每個表的大約行數(shù)。,36,3、關(guān)系模式定義,在概念模型設(shè)計時,我們就確定了數(shù)據(jù)倉庫的基本主題,并對每個主題的公共碼鍵、基本內(nèi)容等做了描述。 在這一步里,我們將要對選定的當(dāng)前實施的主題進行模式劃分,形成多個表,并確定各個表的關(guān)系模式。,37,“商品”主題,公共碼鍵:商品號。 商品固有信息: 商品表(商品號、商品名、類型、顏色)細節(jié)級 商品銷售信息: 銷售表1(商品號、客戶號、銷售量、)細節(jié)級 銷售表2(商品號、時間段1、銷售量、)綜合級 銷售表n(商品號、時間段n、銷售量、)綜合級,38,4、定義記錄系統(tǒng),定義記錄系統(tǒng)是建立數(shù)據(jù)倉庫中的數(shù)據(jù)以源系統(tǒng)中的數(shù)據(jù)的對照記

11、錄。 記錄系統(tǒng)的定義要記入數(shù)據(jù)倉庫的元數(shù)據(jù)。 商品主題的記錄系統(tǒng)在元數(shù)據(jù)中可描述如下表所示。,39,表:記錄系統(tǒng)的定義,40,4.1.4 物理模型設(shè)計,確定一個最適合應(yīng)用要求的物理結(jié)構(gòu)(包括存儲結(jié)構(gòu)和存取方法)。 (1)估計存儲容量 (2)確定數(shù)據(jù)的存儲計劃 (3)確定索引策略 (4)確定數(shù)據(jù)存放位置 (5)確定存儲分配,41,1.估計存儲容量,(1)對每一個數(shù)據(jù)庫表確定數(shù)據(jù)量 (2)對所有的表確定索引 (3)估計臨時存儲,42,2.確定數(shù)據(jù)的存儲計劃,(1)建立聚集(匯總)計劃 (2)確定數(shù)據(jù)分區(qū)方案 (3)建立聚類選項,43,3.確定索引策略,在數(shù)據(jù)倉庫中由于數(shù)據(jù)量很大,需要對數(shù)據(jù)的存取路

12、徑進行仔細設(shè)計和選擇,建立專用的復(fù)雜的索引,以獲得最高的存取效率。 采用BTree索引,它是一個高效的索引,見圖4.7所示。B樹是一個平衡(balance)樹,即每個葉結(jié)點到根節(jié)點的路徑長度相同。B樹索引是一個多級索引。,44,4.確定數(shù)據(jù)存放位置,在物理設(shè)計時,我們常常要按數(shù)據(jù)的重要程度、使用頻率以及對響應(yīng)時間的要求進行分類,并將不同類的數(shù)據(jù)分別存儲在不同的存儲設(shè)備中。 重要程度高、經(jīng)常存取并對響應(yīng)時間要求高的數(shù)據(jù)就存放在高速存儲設(shè)備上,如硬盤; 存取頻率低或?qū)Υ嫒№憫?yīng)時間要求低的數(shù)據(jù)則可以放在低速存儲設(shè)備上,如磁盤或磁帶。,45,5.確定存儲分配,物理存儲中以文件、塊和記錄來實現(xiàn)。一個文件

13、包括很多塊,每個塊包括若干條記錄。 文件中的塊是數(shù)據(jù)庫的數(shù)據(jù)和內(nèi)存之間I/O傳輸?shù)幕締挝?,在那里對?shù)據(jù)進行操作。 用一個簡例來說明邏輯模型和物理模型的內(nèi)容,見下圖所示。,47,4.1.5 數(shù)據(jù)倉庫的索引技術(shù),1.位索引技術(shù) 2.標(biāo)識技術(shù) 3.廣義索引,48,1.位索引技術(shù),(1)Bit-Wise索引技術(shù) (2)B-Tree技術(shù)與Bit-Wise索引技術(shù)對比,對于每一個記錄的字段滿足查詢條件的真假值用“1”或“0”的方式表示,或者用該字段中不同取值(即多位二進制)來表示。 例如,檢索“美國加州有多少男性未申請保險?” 利用BitWise技術(shù)得到有兩個記錄 滿足條件。,=2,51,(2)B-Tr

14、ee技術(shù)與Bit-Wise索引技術(shù)對比,Bit-Wise索引技術(shù)比B-Tree技術(shù)能提高相應(yīng)速度10100倍。 對于檢索“美國加州有多少男性未申請保險?”為例,假設(shè)數(shù)據(jù)庫有10M記錄,每個記錄長800個字節(jié),每一頁16K字節(jié)。 按傳統(tǒng)的關(guān)系數(shù)據(jù)庫的檢索:需要經(jīng)過50萬次I/O操作。 按BitWise檢索:對于10M個記錄建立三列的BitWise索引。存取這些索引只要進行235次I/O操作。,52,2.標(biāo)識技術(shù),姓名 籍貫 職稱 年齡 陳文東 江西 教授 56 何玉輝 河北 講師 32 李寶 湖南 副教授 37 施東 江蘇 講師 28 曹文 湖南 副教授 36 趙玉 吉林 講師 32 黃小斌 江

15、蘇 講師 28 賽英花 山東 副教授 32 彭宏 江西 講師 25 廖宇宙 湖南 教授 42,樣本記錄:,數(shù)據(jù)庫中的每個實體創(chuàng)建一個標(biāo)識?!敖鳌痹诩炛惺?1標(biāo)識?!?8”在年齡中是02標(biāo)識?!爸v師”在職稱名中有一個03標(biāo)識。上面的數(shù)據(jù)庫可以被減化為一系列標(biāo)識,如下面所示:,姓名 籍貫 職稱 年齡 陳文東 01 江西 01 教授 01 25 01 何玉輝 02 河北 02 副教授 02 28 02 李寶 03 湖南 03 講師 03 32 03 施東 04 江蘇 04 36 04 曹文 05 吉林 05 37 05 趙玉 06 山東 06 42 06 黃小斌 07 56 07 賽英花 08 彭宏 09 廖宇宙 10,54,數(shù)據(jù)庫被精簡如下:,記錄1 01,01,01,07 記錄2 02,02,03,03 記錄3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論