版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述 數(shù)據(jù)倉(cāng)庫(kù)的三級(jí)模型 數(shù)據(jù)倉(cāng)庫(kù)概念模型 數(shù)據(jù)倉(cāng)庫(kù)邏輯模型 數(shù)據(jù)倉(cāng)庫(kù)物理模型 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)的步驟 數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)過程,數(shù)據(jù)倉(cāng)庫(kù)模型和建立過程,第3章,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述,1,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述,1,數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì) 面向應(yīng)用來(lái)進(jìn)行設(shè)計(jì),根據(jù)具體的操作事件和操作對(duì)象(實(shí)體)來(lái)進(jìn)行設(shè)計(jì); 目的是建立一個(gè)操作型的數(shù)據(jù)環(huán)境。 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) 面向分析的; 從最基本的主題開始,不斷完善已有主題,發(fā)展新主題; 最終建立起一個(gè)面向主題的分析型數(shù)據(jù)環(huán)境。,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述,1,數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì) 面向明確的應(yīng)用需求 設(shè)計(jì)人員能夠清晰地了解應(yīng)用的需求和數(shù)據(jù)流程 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) 很難獲得對(duì)用戶需求
2、的確切了解 應(yīng)用人員往往是企業(yè)的中高層人員 他們自己一開始不知道想看什么,需要人引導(dǎo) 后期又想什么東西都看,需要給他解釋,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述,1,數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì) 為了進(jìn)行OLAP處理 通常是對(duì)一個(gè)或者一組記錄的查詢和修改 主要為企業(yè)的特定應(yīng)用服務(wù)的 事務(wù)處理響應(yīng)時(shí)間、數(shù)據(jù)的安全性和完整性是系統(tǒng)的目標(biāo) 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) 為了分析決策 主要目標(biāo)是保證數(shù)據(jù)的四個(gè)特征(面向主題、集成的、穩(wěn)定的、時(shí)變的),建立起一個(gè)全局一致的數(shù)據(jù)環(huán)境,作為企業(yè)決策支持的基礎(chǔ),數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述,1,數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì) 數(shù)據(jù)來(lái)源主要是業(yè)務(wù)操作員的輸入 描述如何通過操作員輸入獲取數(shù)據(jù) 描述如何將獲取的數(shù)據(jù)按照OLAP的需求合理
3、存放 如何使得OLTP的性能更加優(yōu)化 如何保證事務(wù)處理的安全性 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) 數(shù)據(jù)來(lái)源于業(yè)務(wù)系統(tǒng) 主要解決如何從業(yè)務(wù)系統(tǒng)中得到完整一致的數(shù)據(jù) 如何對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換、清洗、綜合 如何有效提高數(shù)據(jù)分析的效率與準(zhǔn)確性,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述,1,數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì) “需求驅(qū)動(dòng)”,先收集需求、分析需求,再進(jìn)行設(shè)計(jì)和開發(fā); 系統(tǒng)的需求在收集和分析需求階段之后就定下來(lái)了,一旦進(jìn)入構(gòu)建數(shù)據(jù)庫(kù)階段,系統(tǒng)的需求就基本不變了。 所以系統(tǒng)設(shè)計(jì)一般采用系統(tǒng)生命周期法(Systems Development Life Cycle ,SDLC)。 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì) “數(shù)據(jù)驅(qū)動(dòng)”,從業(yè)務(wù)系統(tǒng)已經(jīng)存在的數(shù)據(jù)出發(fā),獲取之后對(duì)數(shù)據(jù)進(jìn)行集成并
4、檢查數(shù)據(jù)的準(zhǔn)確性 按照分析領(lǐng)域?qū)?shù)據(jù)及數(shù)據(jù)之間的聯(lián)系重新考察,組織數(shù)據(jù)倉(cāng)庫(kù)中的主題。 “數(shù)據(jù)驅(qū)動(dòng)”的系統(tǒng)設(shè)計(jì)方法的優(yōu)點(diǎn)是可以通過了解原有數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)和需要建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)中主題的數(shù)據(jù)的共同性,最大限度地利用現(xiàn)有系統(tǒng),減少系統(tǒng)建設(shè)的工作量。 對(duì)這種需求不確定的開發(fā)過程,設(shè)計(jì)方法有很大的不同,采用與SDLC相反的CLDS法。,收集應(yīng)用需求,分析應(yīng)用需求,構(gòu)建數(shù)據(jù)庫(kù),應(yīng)用編程,系統(tǒng)測(cè)試,系統(tǒng)實(shí)施,DB,應(yīng)用A,應(yīng)用B,應(yīng)用C,數(shù)據(jù)倉(cāng)庫(kù)建模,數(shù)據(jù)獲取與集成,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),DSS應(yīng)用編程,系統(tǒng)測(cè)試,理解需求,DW,DB,DB,外部數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)方法概述,1,SDLC方法,CLDS方法,數(shù)據(jù)倉(cāng)庫(kù)的
5、三級(jí)模型,2,概念模型(設(shè)計(jì)定義和主要工作) 從客觀世界到主觀認(rèn)識(shí)的映射 首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界的模型和語(yǔ)言來(lái)描述 邏輯模型(設(shè)計(jì)定義和主要工作) 數(shù)據(jù)倉(cāng)庫(kù)一般是建立在關(guān)系數(shù)據(jù)庫(kù)基礎(chǔ)上,所以采用的邏輯模型是關(guān)系模型 主題還有主題之間的關(guān)系都用關(guān)系來(lái)表示 邏輯模型描述了數(shù)據(jù)倉(cāng)庫(kù)的主題的邏輯實(shí)現(xiàn),每個(gè)主題對(duì)應(yīng)關(guān)系表的關(guān)系模式的定義 物理模型(設(shè)計(jì)定義和主要工作) 邏輯模型在數(shù)據(jù)倉(cāng)庫(kù)中的實(shí)現(xiàn),如數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)的索引策略、數(shù)據(jù)的存儲(chǔ)策略以及存儲(chǔ)分配優(yōu)化等,數(shù)據(jù)倉(cāng)庫(kù)的三級(jí)模型,2,高級(jí)模型 即概念模型,用E-R圖表示 首先將現(xiàn)實(shí)世界抽象為概念模型,然后再用適合計(jì)算機(jī)世界
6、的模型和語(yǔ)言來(lái)描述 中級(jí)模型 數(shù)據(jù)項(xiàng)(Data item set,DIS)模型 E-R圖的細(xì)分 每個(gè)主題都與一個(gè)DIS對(duì)應(yīng) DIS中的數(shù)據(jù)份為4個(gè)組別:基本數(shù)據(jù)組、二級(jí)數(shù)據(jù)組、連接數(shù)據(jù)組和類型數(shù)據(jù)組 低級(jí)模型 物理數(shù)據(jù)模型,數(shù)據(jù)倉(cāng)庫(kù)的三級(jí)模型,2,客戶ID 姓名 性別 身份證號(hào)碼,住址 文化程度 電話 Email,商品ID,交易ID 商品金額 購(gòu)買時(shí)間,交易ID 商品金額 購(gòu)買時(shí)間,交易ID 商品金額 購(gòu)買時(shí)間,連接數(shù)據(jù)組,基本數(shù)據(jù)組,類型數(shù)據(jù)組,二級(jí)數(shù)據(jù)組,電器,服裝,圖書,數(shù)據(jù)倉(cāng)庫(kù)概念模型,3,概念模型的定義和主要工作,3.1,概念模型 是數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型的第一層或最高層。 由于大多數(shù)業(yè)
7、務(wù)數(shù)據(jù)是多維的,但傳統(tǒng)的數(shù)據(jù)模型表示三維以上的數(shù)據(jù)有一定困難。 數(shù)據(jù)倉(cāng)庫(kù)中可以采用信息包圖來(lái)表示概念模型 信息包圖允許用戶設(shè)計(jì)多維信息包并與開發(fā)者和其他用戶建立聯(lián)系。 這種模型集中在用戶對(duì)信息包的需要,信息包提供了分析人員思維模式的可視化表示。 工作 確定系統(tǒng)邊界:決策類型、需要的信息、原始信息 確定主題域及其內(nèi)容:主題域的公共鍵碼、主題域之間的聯(lián)系、屬性組 確定維度:如時(shí)間維、銷售位置維、產(chǎn)品維、組別維等 確定級(jí)別:相應(yīng)維的詳細(xì)層次 確定度量:也稱指標(biāo)和事實(shí),用于進(jìn)行分析的數(shù)值化信息,維度 級(jí)別,度量,數(shù)據(jù)倉(cāng)庫(kù)的概念模型,信息包:,例畫出銷售分析的信息包圖 概念 首先根據(jù)銷售分析的實(shí)際需求,
8、確定信息包的維度、類別和指標(biāo)與事實(shí): 維度:包括日期維、銷售地點(diǎn)維、銷售產(chǎn)品維、年齡組別維、性別維等。 (維度)級(jí)別:確定各維的詳細(xì)類別 如:日期維包括年(10)、季度(40)、月(120)等類別,括號(hào)中的數(shù)字分別指出各類別的數(shù)量; 銷售地點(diǎn)維包括國(guó)家(15)、區(qū)域(45)、城市(280)、區(qū)(880)、商店(2000)等類別,括號(hào)中的數(shù)字同樣分別指出各類別的數(shù)量; 類似地,可以確定銷售產(chǎn)品、年齡組別維、性別維等的詳細(xì)類別。 度量:確定用于進(jìn)行分析的數(shù)值化信息,包括預(yù)測(cè)銷售量、實(shí)際銷售量和預(yù)測(cè)偏差等。,數(shù)據(jù)倉(cāng)庫(kù)的概念模型,度量: 預(yù)測(cè)銷售量、實(shí)際銷售量、預(yù)測(cè)偏差,商店(2000),區(qū)(880)
9、,產(chǎn)品(240),城市(280),月(120),產(chǎn)品組(48),區(qū)域(45),季度(40),性別組(2),年齡組(8),產(chǎn)品類(6),國(guó)家(15),年(10),性別,年齡組別,銷售產(chǎn)品,銷售地點(diǎn),日期,信息包: 銷售分析 維度,級(jí)別,數(shù)據(jù)倉(cāng)庫(kù)的概念模型,維度是一個(gè)物理特性(如時(shí)間、地點(diǎn)、產(chǎn)品等),它是表達(dá)數(shù)據(jù)倉(cāng)庫(kù)中信息的一個(gè)基本途徑,可作為標(biāo)識(shí)數(shù)據(jù)的索引。通常的報(bào)表只包含有行和列兩維,但在數(shù)據(jù)倉(cāng)庫(kù)中所存儲(chǔ)的數(shù)據(jù)大多是用多維(三維或三維以上)視圖表示的。 維度是多維數(shù)據(jù)集的結(jié)構(gòu)性特性。它們是事實(shí)數(shù)據(jù)表中用來(lái)描述數(shù)據(jù)的分類的有組織的層次結(jié)構(gòu)(級(jí)別)。這些分類和級(jí)別描述了一些相似的成員集合。 所有維
10、度均直接或間接地基于表,定義此維度的列,選擇列的順序至關(guān)重要。,數(shù)據(jù)倉(cāng)庫(kù)概念模型,3,維度的定義,3.3,選擇下表中的“區(qū)域”列,再選擇“州”列,即可定義維度。 State_id 區(qū)域 州 1東部緬因 2東部俄亥俄 3西部愛達(dá)荷 4西部德克薩斯,3,維度定義,3.3,數(shù)據(jù)倉(cāng)庫(kù)概念模型,4月份我在北京賣掉了價(jià)值十萬(wàn)美元的可樂,例子1,關(guān)系數(shù)據(jù)庫(kù)的記錄視圖: 產(chǎn)品 時(shí)間 地區(qū) 銷量 VCD機(jī) 2002.3.10 北京 5728 傳真機(jī) 2002.3.10 北京 6739 刻錄機(jī) 2002.3.10 北京 3976 復(fù)印機(jī) 2002.3.10 北京 6395 打印機(jī) 2002.3.10 上海 636
11、5 傳真機(jī) 2002.3.10 上海 6744,3,維度定義,3.3,數(shù)據(jù)倉(cāng)庫(kù)概念模型,例子2,多維數(shù)據(jù)庫(kù)視圖:,時(shí)間,02.3.10,02.3.11,上海,北京,VCD,地區(qū),產(chǎn)品,5782,6365,傳統(tǒng)型: 二維(關(guān)系型) 記錄、字段 數(shù)據(jù)倉(cāng)庫(kù): 多維(立方體) 維、單一事實(shí),傳統(tǒng)型的一個(gè)二維表,在數(shù)據(jù)倉(cāng)庫(kù)中可能需要多個(gè)立方體來(lái)表示; 數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)立方體可能由多個(gè)傳統(tǒng)型的表組成; 產(chǎn)品 時(shí)間 地區(qū) 數(shù)量 金額 VCD機(jī) 2002.3.10 北京 5728 2345556,銷售數(shù)量立方體 銷售金額立方體,一個(gè)二維表的數(shù)據(jù)可裝載到兩個(gè)立方體,維的層次: 關(guān)系數(shù)據(jù)庫(kù)在字段上做文章,數(shù)據(jù)倉(cāng)庫(kù)在
12、維上做文章; 維不僅是查詢數(shù)據(jù)的一個(gè)角度,而且提供查詢的深度; 年 所有產(chǎn)品 全國(guó) 季 產(chǎn)品大類 地區(qū) 月 產(chǎn)品小類 城市 日 產(chǎn)品 超市 同一屬性數(shù)據(jù)可有多種歸類層次: 顧客 - 性別 - 所有顧客、顧客 - 文化程度 - 所有顧客,時(shí)間維 每個(gè)數(shù)據(jù)倉(cāng)庫(kù)都用到 無(wú)限的;粒度要求高時(shí),細(xì)分?jǐn)?shù)據(jù)劇增。,維度的分解與合成 是在一個(gè)維度內(nèi)進(jìn)一步細(xì)分?jǐn)?shù)據(jù)或?qū)?shù)據(jù)按照另一標(biāo)準(zhǔn)組合的過程。 例如,當(dāng)以地理位置維觀察數(shù)據(jù)時(shí),用戶可以首先以國(guó)家(如中國(guó))為單位觀察數(shù)據(jù),然后可以選擇觀察某一個(gè)地區(qū)(如華東地區(qū))的數(shù)據(jù),接下來(lái)可以選擇觀察某一個(gè)省或城市(如上海)的數(shù)據(jù),這就是數(shù)據(jù)分解的過程。 而合成則是分解的逆過
13、程,例如用戶開始以省市為觀察對(duì)象,接著再以地區(qū)、國(guó)家等為觀察對(duì)象,就是一個(gè)數(shù)據(jù)合成的過程。,數(shù)據(jù)倉(cāng)庫(kù)概念模型,3,維度的定義,3.3,我們有大量的會(huì)員 年齡在20 60 歲 月薪在0 8000 元 55% 的會(huì)員被我們認(rèn)可為忠實(shí)會(huì)員(好會(huì)員) 55%會(huì)員都是些什么會(huì)員?,數(shù)據(jù)倉(cāng)庫(kù)概念模型,3,維度的定義,3.3,維度分解的例子,維度分解的例子,維度分解的例子,維度分解的例子,維度合成的例子,加拿大某大學(xué)數(shù)據(jù)庫(kù),ANY Canada foreign B.C Ontario China India Vancouver Victoria Beijing . Bombay ,“出生地”維度之級(jí)別,維度
14、合成的例子,Bumaby, .,Vancouver,Victoria British Columbia Calgary, .Edmonton, Lethbridge Alberta Hamilton, Toronto,Waterloo Ontario Bombay, .,New Delhi India Beijing,Nanjing,.,Shanghai China India,China foreign British Columbia,Alberta,.,Ontario Canada foreign,Canada ANY(place),維度合成的例子,biology,chemistry,c
15、omputing,.,physics science literature,music,.,painting art science, art ANY(major) freshman,sophomore,junior,senior undergraduate M.S.,M.A.,Ph.D. graduate undergraduate,graduate ANY(status) 0.0-1.99 poor 2.0-2.99 average 3.0-3.99 good 4.0-4.99 excellent poor,average,good,excellent ANY(grade),維度合成的例子
16、,年級(jí)與學(xué)位之維度級(jí)別,freshman sophomore junior senior,M.S. M.A. Ph.D,undergraduate graduate,ANY,維度合成的例子,維度合成的例子,將研究生數(shù)據(jù)合成出來(lái),策略1:屬性移除(Attribute Removal),Names這個(gè)屬性中有許多不同的屬性值,且沒有較高的概念層級(jí)可以表示它,所以Names屬性可以被移除,策略:維級(jí)別的爬升,假如某一屬性在概念階層中存在著一個(gè)更高層級(jí)的概念,則該屬性值就以其更高層級(jí)的值來(lái)取代 “history” 、“physics”、 “math”、 “biology”會(huì)由“science”取代 “
17、literature”、“ music”、 “painting”會(huì)由“art”取代,策略:數(shù)據(jù)計(jì)數(shù)的傳播(vote propagation),屬性值向上爬升后,若產(chǎn)生相同的 tuple,則將相同的 tuple 合并為一筆一般化tuple,并將 vote 值累加到歸納后的tuple 中,策略:數(shù)據(jù)計(jì)數(shù)的傳播(vote propagation),層次結(jié)構(gòu)是維度中成員的集合以及這些成員之間的相對(duì)位置。對(duì)于由數(shù)據(jù)挖掘模型創(chuàng)建的維度,其層次結(jié)構(gòu)代表該挖掘模型的節(jié)點(diǎn)結(jié)構(gòu)。 (1)均衡層次結(jié)構(gòu)和不均衡層次結(jié)構(gòu) 在均衡層次結(jié)構(gòu)中,層次結(jié)構(gòu)的所有分支都降至同一級(jí)別,而且每個(gè)成員的邏輯父代就是其上一級(jí)成員。所有的
18、葉節(jié)點(diǎn)與根節(jié)點(diǎn)的距離相同 洲法國(guó)巴黎 洲英國(guó)倫敦 在不均衡層次結(jié)構(gòu)中,層次結(jié)構(gòu)的分支降至不同級(jí)別。葉節(jié)點(diǎn)距根節(jié)點(diǎn)的距離不同的維度層次結(jié)構(gòu) CEO職員 CEO部門經(jīng)理職員,數(shù)據(jù)倉(cāng)庫(kù)概念模型,3,維度的層次結(jié)構(gòu),3.4,(2)不齊整層次結(jié)構(gòu) 在不齊整層次結(jié)構(gòu)中,一個(gè)成員的邏輯父代至少有一個(gè)并不直接位于該成員上一級(jí)。這將導(dǎo)致層次結(jié)構(gòu)的分支降至不同的級(jí)別。 例如,Geography 維度由級(jí)別 Country、Province 和 City 組成。Geneva 的邏輯父代是 Switzerland,因?yàn)?Switzerland 沒有劃分省份。 (3)具有多個(gè)層次結(jié)構(gòu)的維度,數(shù)據(jù)倉(cāng)庫(kù)概念模型,3,維度的
19、層次結(jié)構(gòu),3.4,度量是基于特定維度的一組事實(shí)或指標(biāo)。度量值是一組值,基于事實(shí)數(shù)據(jù)表中的一列,而且通常為數(shù)字。 例如一個(gè)多維數(shù)據(jù)集具有以下架構(gòu)和單個(gè)度量值 Sales(基于 Sales 事實(shí)數(shù)據(jù)表中的 Sales_Amount 列)。,使用聚合函數(shù)計(jì)算 度量值使用聚合函數(shù)(Sum、Min、Max、Count等),可以獲得并查詢到需要的各種值,比如: 1. 對(duì) customer A,retail store A 和 product A 的 Sales 度量值的查詢返回為 800 2. 對(duì) customer A,retail store A 和 product category AB 的 Sale
20、s 度量值的查詢返回 4,單元是多維數(shù)據(jù)集的原子元素,或者為來(lái)自與該多維數(shù)據(jù)集相關(guān)聯(lián)的每個(gè)維度的某個(gè)成員的唯一邏輯交集。 實(shí)質(zhì)上,多維數(shù)據(jù)集由按度量值、級(jí)別以及維度組織的單元組成。,例如,下列關(guān)系圖描述的多維數(shù)據(jù)集有一個(gè)帶陰影的單元,“源”維度的“航空”成員。 路線維度的非洲成員。 “時(shí)間”維度的“第四季度”成員。 度量值維度的包成員。,計(jì)算單元由下列三個(gè)元素構(gòu)造 1. 計(jì)算子多維數(shù)據(jù)集 維度(包括 Measures維度)的所有成員,該選項(xiàng)通常不包括計(jì)算成員。 維度(包括Measures維度)的單個(gè)指定的成員。 維度中指定級(jí)別上的所有成員,該選項(xiàng)通常不包括計(jì)算成員。 維度中指定成員的所有后代。
21、 維度中指定級(jí)別上指定成員的所有后代。 解析為包含上述集合之一的集合中的 MDX 表達(dá)式。 該列集合與該列集合中未指定的所有其它維度的每個(gè)其它成員的組合定義計(jì)算子多維數(shù)據(jù)集。,2. 計(jì)算條件 進(jìn)一步限制計(jì)算單元功能應(yīng)用的 MDX 邏輯表達(dá)式。 3. 計(jì)算公式 用來(lái)計(jì)算包含于計(jì)算子多維數(shù)據(jù)集中的單元的值的 MDX 值表達(dá)式。,多維數(shù)據(jù)集是包含維度和度量值的多維結(jié)構(gòu)。 維度定義多維數(shù)據(jù)集的結(jié)構(gòu),而度量值提供最終用戶感興趣的數(shù)值。 多維數(shù)據(jù)集內(nèi)的單元位置由各維度成員的交集確定,通過對(duì)度量值進(jìn)行聚合得到單元中的值。 多維數(shù)據(jù)集提供一種便于使用的查詢數(shù)據(jù)的機(jī)制,不但快捷,而且響應(yīng)時(shí)間一致。 一個(gè)多維數(shù)據(jù)
22、集最多可包含 128 個(gè)維度(每個(gè)維度中可包含數(shù)百萬(wàn)成員)和 1,024 個(gè)度量值。,多維數(shù)據(jù)集結(jié)構(gòu) 每個(gè)多維數(shù)據(jù)集架構(gòu)均包括一個(gè)事實(shí)數(shù)據(jù)表以及一個(gè)或多個(gè)維度表。 多維數(shù)據(jù)集的度量值出自事實(shí)數(shù)據(jù)表中的列,多維數(shù)據(jù)集的維度出自維度表中的列。 多維數(shù)據(jù)集存儲(chǔ) 可以使用不同的技術(shù)和多種模式存儲(chǔ)多維數(shù)據(jù)集的數(shù)據(jù)和聚合。 多維數(shù)據(jù)集需要大量存儲(chǔ)空間,用以包含多維結(jié)構(gòu)中的數(shù)據(jù)和聚合。影響存儲(chǔ)空間要求的一個(gè)因素是稀疏度。,數(shù)據(jù)倉(cāng)庫(kù)邏輯模型,4,邏輯模型的定義和主要工作,4.1,邏輯模型 是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型的第二層。 與傳統(tǒng)的關(guān)系模型相比,簡(jiǎn)化了用戶分析所需的關(guān)系,進(jìn)而數(shù)據(jù)結(jié)構(gòu)也得到簡(jiǎn)化 從支持決策的角度去定
23、義數(shù)據(jù)實(shí)體,更適合大量復(fù)雜查詢。 有多個(gè)維(度)表,但是只有一個(gè)事實(shí)表 通常有兩種邏輯模型表示法:星型模型和雪花模型 工作 分析主題,定義邏輯模型(星型模型或雪花模型) 確定數(shù)據(jù)粒度的選擇 確定數(shù)據(jù)分割策略 如需要,增加導(dǎo)出字段等,星形模型包含三種邏輯實(shí)體: 維度表 邏輯上通過key關(guān)聯(lián) 維度表往往包含相當(dāng)多的屬性 典型的屬性是文本的、離散的 維度往往含有層次(級(jí)別) 主鍵(primary key)往往是系統(tǒng)產(chǎn)生的 很可能是共享的 事實(shí)表 對(duì)應(yīng)聯(lián)系,星形模型包含三種邏輯實(shí)體: 維度表 事實(shí)表 一個(gè)數(shù)據(jù)倉(cāng)庫(kù)(OLAP)模型只有一個(gè)事實(shí)表 事實(shí)表經(jīng)常有百萬(wàn)行或更多 事實(shí)往往是數(shù)字“量度” 有些事實(shí)
24、可以被累加,另一些不能 最小粒度原則 不歡迎描述性屬性(瘦高vs. 矮胖) 對(duì)應(yīng)聯(lián)系,星形模型包含三種邏輯實(shí)體: 維度表 事實(shí)表 對(duì)應(yīng)聯(lián)系 維度表與事實(shí)表不是絕對(duì)的 同一個(gè)表,可以同時(shí)是維度表與事實(shí)表 同一個(gè)表,可以有時(shí)是維度表,有時(shí)是事實(shí)表 一個(gè)事實(shí)表對(duì)應(yīng)多個(gè)不同維表 一個(gè)維表可對(duì)應(yīng)不同的事實(shí)表,示例1,示例2,示例3,星形模式,時(shí)間維,事實(shí)表,示例3,多維模型,雪花模型的特點(diǎn) 維表進(jìn)一步層次化,改善查詢性能 增加表數(shù)量,增加查詢復(fù)雜性 節(jié)省存儲(chǔ)空間 層次性好,示例1,Date Month,Date,Sales Fact Table,Date,Product,Store,Customer,u
25、nit_sales,dollar_sales,Yen_sales,Measurements,Month Year,Month,Year,Year,示例2,兩種模型比較 星型模型通過預(yù)連接和建立有選擇的數(shù)據(jù)冗余,為用戶訪問和分析過程大大簡(jiǎn)化了數(shù)據(jù)。 星型模型效率比較高,因?yàn)檠┗P途S表層次多,查詢的時(shí)候連接操作較多。 雪花模型通過最大限度的減少數(shù)據(jù)存儲(chǔ)量以及聯(lián)合較小的維表來(lái)改善查詢性能。 雪花模型增加了用戶必須處理的表數(shù)量,增加了某些查詢的復(fù)雜性,但這種方式可以使系統(tǒng)進(jìn)一步專業(yè)化和實(shí)用化,同時(shí)降低了系統(tǒng)的通用程度。 雪花模型的維表可能是規(guī)范化形式,以便減少冗余,易于維護(hù),節(jié)省存儲(chǔ)空間。,選擇建議
26、 星型模型結(jié)構(gòu)效率上優(yōu)于雪花模型,首選星型 如果存儲(chǔ)空間上存在瓶頸,可以考慮使用雪花模型 如果維護(hù)方面要求簡(jiǎn)便性,可以考慮使用雪花模型,產(chǎn)品銷售 事實(shí)表:銷售記錄 銷售額 成本 產(chǎn)品件數(shù) 維度表 時(shí)間 產(chǎn)品 銷售人員 客戶 商店 促銷,網(wǎng)站分析 事實(shí)表:點(diǎn)擊記錄 人次數(shù) 人數(shù) 維度表 時(shí)間 網(wǎng)站 IP (地域) 瀏覽器,電信行業(yè) 事實(shí)表:打電話的記錄 通話時(shí)間 本地費(fèi) 長(zhǎng)途費(fèi) 維度表 時(shí)間 客戶年齡 客戶信息 手機(jī)型號(hào) 電信服務(wù)類型,財(cái)務(wù)/預(yù)算分析 事實(shí)表:財(cái)務(wù)歷史 實(shí)際費(fèi)用 預(yù)算費(fèi)用 維度表 時(shí)間 部門 科目,每月電話呼叫信息,每天電話呼叫信息,電話呼叫情況信息,電話呼叫明細(xì)信息,粒度的第一
27、種形式 粒度:對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)綜合程度高低的一個(gè)度量,它既影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉(cāng)庫(kù)所能回答詢問的種類。 粒度越小,綜合程度越低,回答查詢的種類越多; 粒度越高,綜合程度越高,查詢的效率也越高。 在數(shù)據(jù)倉(cāng)庫(kù)中可將小粒度的數(shù)據(jù)存儲(chǔ)在低速存儲(chǔ)器上;大粒度的數(shù)據(jù)存儲(chǔ)在高速存儲(chǔ)器上。,粒度的第二種形式:樣本數(shù)據(jù)庫(kù) 樣本數(shù)據(jù)庫(kù):在分析過程中,有許多探索的過程有時(shí)分析的目的并不要求精確的結(jié)果,只需要得到相對(duì)準(zhǔn)確、能反映趨勢(shì)的數(shù)據(jù),所以可以提取出樣本數(shù)據(jù)庫(kù)。 樣本數(shù)據(jù)庫(kù)的粒度:是根據(jù)采樣率的高低來(lái)劃分的,采樣粒度不同的樣本數(shù)據(jù)庫(kù)可以具有相同的綜合級(jí)別,它是按一定的采樣率從細(xì)節(jié)數(shù)據(jù)庫(kù)或輕度
28、綜合數(shù)據(jù)庫(kù)中提取的一個(gè)子集。 樣本數(shù)據(jù)庫(kù)的抽取按照數(shù)據(jù)的重要程度不同進(jìn)行,利用樣本數(shù)據(jù)庫(kù)采集重要數(shù)據(jù)進(jìn)行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。,數(shù)據(jù)粒度級(jí)別 原因:數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)量不同,需要解決的問題多種多樣(細(xì)節(jié)問題、綜合問題) 因此,不同的問題采用不同的數(shù)據(jù)粒度級(jí)別。在數(shù)據(jù)量較小的環(huán)境下,可以采用單一的數(shù)據(jù)粒度;對(duì)于大數(shù)據(jù)量,需要采用雙重或多重粒度 單一粒度 直接存儲(chǔ)細(xì)節(jié)數(shù)據(jù)并定期在細(xì)節(jié)數(shù)據(jù)基礎(chǔ)上進(jìn)行數(shù)據(jù)綜合 從數(shù)據(jù)裝載之后,所有細(xì)節(jié)數(shù)據(jù)都將保留在數(shù)據(jù)倉(cāng)庫(kù)中 存儲(chǔ)期限(510年)到了之后,才會(huì)導(dǎo)到后備設(shè)備(如磁帶)中,雙重粒度 對(duì)于細(xì)節(jié)數(shù)據(jù)只保留近期的數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中,當(dāng)保
29、留周期到達(dá)時(shí),將距離當(dāng)前較遠(yuǎn)的數(shù)據(jù)導(dǎo)出到磁盤上,從而為新的數(shù)據(jù)騰出空間。 數(shù)據(jù)倉(cāng)庫(kù)中只保留在細(xì)節(jié)數(shù)據(jù)保留周期內(nèi)的數(shù)據(jù),對(duì)于這個(gè)周期之后的信息,數(shù)據(jù)倉(cāng)庫(kù)只保留其綜合數(shù)據(jù)。 兩者的區(qū)別 細(xì)節(jié)數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)的高速存儲(chǔ)設(shè)備中存儲(chǔ)的時(shí)間長(zhǎng)短不同,如何確定數(shù)據(jù)粒度 粒度選擇的標(biāo)準(zhǔn)主要是數(shù)據(jù)倉(cāng)庫(kù)表的總行數(shù)。 因?yàn)閿?shù)據(jù)的存取通常是通過存取索引來(lái)實(shí)現(xiàn)的,而索引是對(duì)應(yīng)表的行來(lái)組織的,即在某一索引中每一行總有個(gè)索引項(xiàng),索引的大小只與表的總行數(shù)有關(guān),而與表的數(shù)據(jù)量無(wú)關(guān)。 Inmon的數(shù)據(jù)粒度策略,必須用雙重粒度且需認(rèn)真設(shè)計(jì),20,000,000,10,000,000,最好使用雙重粒度,10,000,000,1,000
30、,000,如使用單一粒度,需認(rèn)真設(shè)計(jì),1,000,000,100,000,單一粒度,設(shè)計(jì)簡(jiǎn)單,100,000,10,000,數(shù)據(jù)粒度策略,5年內(nèi)數(shù)據(jù)量(行),1年內(nèi)數(shù)據(jù)量(行),影響粒度層次劃分的幾個(gè)因素 要接受的分析類型 粒度層次越高,就越不能進(jìn)行細(xì)節(jié)分析 如最低粒度層次定義為月份時(shí),就不能進(jìn)行按日匯總信息分析 可接受的最低粒度 粒度劃分策略一定要保證數(shù)據(jù)的粒度確實(shí)能夠滿足用戶的決策分析需要。 能存儲(chǔ)數(shù)據(jù)的存儲(chǔ)容量 若存儲(chǔ)容量有限,則只能采用較高粒度的數(shù)據(jù)粒度劃分策略,分割及其標(biāo)準(zhǔn): 分割:將邏輯上統(tǒng)一的數(shù)據(jù)分散到各自的物理單元中去以便能分別處理,提高數(shù)據(jù)處理效率,數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分
31、片。 數(shù)據(jù)分割的標(biāo)準(zhǔn):可按日期、地域、業(yè)務(wù)領(lǐng)域或按多個(gè)分割標(biāo)準(zhǔn)的組合。 數(shù)據(jù)分割的目的:便于進(jìn)行數(shù)據(jù)的重構(gòu)、索引、重組、恢復(fù)、監(jiān)控、掃描,數(shù)據(jù)分割考慮的因素 數(shù)據(jù)量的大小 數(shù)據(jù)量較小,可以不進(jìn)行分割,或只用單一標(biāo)準(zhǔn)進(jìn)行分割 數(shù)據(jù)量很大,應(yīng)當(dāng)采用多重標(biāo)準(zhǔn)的組合來(lái)較細(xì)致地分割數(shù)據(jù) 數(shù)據(jù)分析處理的實(shí)際情況 數(shù)據(jù)分割是跟數(shù)據(jù)分析處理的對(duì)象緊密聯(lián)系的。 簡(jiǎn)單易行 選擇用于數(shù)據(jù)分割的標(biāo)準(zhǔn)應(yīng)當(dāng)是自然的、易于實(shí)施的 與粒度的劃分策略相統(tǒng)一 同一粒度層次上的數(shù)據(jù)需要進(jìn)行分割時(shí),應(yīng)當(dāng)按照劃分粒度層次時(shí)使用的標(biāo)準(zhǔn)進(jìn)行分割 數(shù)據(jù)的穩(wěn)定性 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)追加頻率不同,有的快,有的慢,將不同變化頻度的數(shù)據(jù)放在不同的表中
32、進(jìn)行更新處理,定義 導(dǎo)出字段是在原始數(shù)據(jù)的基礎(chǔ)上進(jìn)行總結(jié)或計(jì)算而生成的數(shù)據(jù) 這些數(shù)據(jù)可以在以后的應(yīng)用中直接利用,避免了重復(fù)計(jì)算,藥物ID 出現(xiàn)次數(shù) 總劑量,方劑ID 藥物ID 劑量 ,方劑ID 藥物ID 劑量 ,方劑ID 藥物ID 劑量 ,分布存儲(chǔ)方式 采用磁盤陣列在多個(gè)節(jié)點(diǎn)間分布的方式來(lái)存儲(chǔ)數(shù)據(jù) 物理上是分布的,但是邏輯上是統(tǒng)一的,內(nèi)部高速網(wǎng)絡(luò),存儲(chǔ),存儲(chǔ),接外部網(wǎng)絡(luò),SCSI(Small Computer System Interface) FC(Fibre Channel),集中式數(shù)據(jù)存儲(chǔ)方式 將現(xiàn)有SAN(Storage Area Network,存儲(chǔ)局域網(wǎng))或者NAS(Network
33、 Attached Storage,網(wǎng)絡(luò)接入存儲(chǔ))作為服務(wù)器的存儲(chǔ)部分 直接通過FC交換機(jī)來(lái)直接訪問所有的數(shù)據(jù)而不需要通過其他節(jié)點(diǎn) 可以將節(jié)點(diǎn)從數(shù)據(jù)存儲(chǔ)管理的負(fù)擔(dān)中解脫出來(lái),實(shí)現(xiàn)數(shù)據(jù)處理和數(shù)據(jù)存儲(chǔ)的分離。,內(nèi)部高速網(wǎng)絡(luò),模塊0,互聯(lián)I/O,SCSI/FC,網(wǎng)絡(luò)I/O,模塊1,互聯(lián)I/O,SCSI/FC,網(wǎng)絡(luò)I/O,模塊N,互聯(lián)I/O,SCSI/FC,網(wǎng)絡(luò)I/O,接外部網(wǎng)絡(luò),FC交換機(jī),RAID存儲(chǔ)子系統(tǒng),RAID磁盤陣列 廉價(jià)冗余磁盤陣列(Redundant Array of Inexpensive Disk) 是一種采用多磁盤驅(qū)動(dòng)器來(lái)存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)系統(tǒng) 分為6個(gè)級(jí)別:RAID0、1、2、
34、3、4、5及RAID0+1,2、3、4使用頻率較低,5、0、1、0+1使用較多。 在 RAID 的各個(gè)級(jí)別中,RAID 1 和 RAID 0+1 提供最佳的數(shù)據(jù)保護(hù)和最佳性能,但是就所需的磁盤而言會(huì)需要更多的成本。當(dāng)硬盤成本不是限制因素時(shí),就兼顧性能和容錯(cuò)而言,RAID 1 或 RAID 0+1 是最佳選擇。 RAID 5 的成本比 RAID 1 或 RAID 0+1 低,但是它提供的容錯(cuò)和寫入性能較差。RAID 5 的寫入性能大約只是 RAID 1 或 RAID 0+1 的一半,這是因?yàn)?RAID 5 讀取和寫入奇偶校驗(yàn)信息需要額外的 I/O。,RAID0 因?yàn)樵摷?jí)別使用名為條帶集的磁盤文件
35、系統(tǒng),所以又將它稱作磁盤條帶。數(shù)據(jù)被劃分成多個(gè)塊并按固定順序分布到陣列中的所有磁盤上。RAID 0 將多個(gè)操作分布到多個(gè)磁盤上,以便可以同時(shí)獨(dú)立地執(zhí)行這些操作,從而改善了讀取/寫入性能。RAID 0 類似于 RAID 5,但是 RAID 5 還提供容錯(cuò)功能。,RAID1 因?yàn)樵摷?jí)別使用名為鏡像集的磁盤文件系統(tǒng),所以又將它稱作磁盤鏡像。磁盤鏡像可提供一個(gè)與所選磁盤完全相同的冗余副本。寫入主磁盤的所有數(shù)據(jù)都會(huì)寫入鏡像磁盤。RAID 1 提供了容錯(cuò)功能,而且通常可以改進(jìn)讀取性能(但是可能會(huì)降低寫入性能),RAID2 RAID 2是為大型機(jī)和超級(jí)計(jì)算機(jī)開發(fā)的帶校驗(yàn)磁盤陣列。磁盤驅(qū)動(dòng)器組中的第1、第2、
36、第4、第2n個(gè)磁盤驅(qū)動(dòng)器是專門的校驗(yàn)盤(hamming code)。如下圖:第1、2、4個(gè)磁盤驅(qū)動(dòng)器(紅色)是糾錯(cuò)盤,其余的(紫色)用于存放數(shù)據(jù)。RAID 2對(duì)大數(shù)據(jù)量的讀寫具有極高的性能,但少量數(shù)據(jù)的讀寫時(shí)性能反而不好,所以RAID 2實(shí)際使用較少。,RAID3 該級(jí)別使用與 RAID 2 相同的條帶化方法,但是糾錯(cuò)方法只需一個(gè)磁盤用于奇偶校驗(yàn)數(shù)據(jù)。磁盤空間的使用情況因數(shù)據(jù)磁盤的數(shù)量而異。RAID 3 在讀取/寫入性能方面提供一些改進(jìn),按橫條。RAID 3 也極少使用。,RAID4 該級(jí)別使用的條帶數(shù)據(jù)塊或段比 RAID 2 或 RAID 3 大得多,按豎條。與 RAID 3 一樣,糾錯(cuò)方法
37、只需一個(gè)磁盤用于奇偶校驗(yàn)數(shù)據(jù)。它將用戶數(shù)據(jù)與糾錯(cuò)數(shù)據(jù)分開。RAID 4 不如其他 RAID 級(jí)別效率高,通常不使用。,RAID5 該級(jí)別又稱作具有奇偶校驗(yàn)的條帶化,它是新設(shè)計(jì)中最常用的策略。 與 RAID 4 相似,它將數(shù)據(jù)以大塊形式條帶化到陣列中的磁盤上。不同之處在于它在所有磁盤之間寫入奇偶校驗(yàn)的方式。數(shù)據(jù)冗余通過奇偶校驗(yàn)信息提供。數(shù)據(jù)和奇偶校驗(yàn)信息會(huì)在磁盤陣列上排列,所以這兩種信息總是位于不同的磁盤上。 與磁盤鏡像 (RAID 1) 相比,具有奇偶校驗(yàn)的條帶化可提供更好的性能。但是,當(dāng)條帶成員丟失時(shí)(例如,當(dāng)磁盤發(fā)生故障時(shí)),讀取性能會(huì)下降。RAID 5 是最常用的 RAID 配置之一。,
38、RAID0+1 該級(jí)別又稱作具有條帶化的鏡像。該級(jí)別使用條帶化的磁盤陣列,而該陣列又鏡像到另一組相同的條帶化磁盤。 例如,可使用四個(gè)磁盤創(chuàng)建一個(gè)條帶化的陣列。然后,條帶化的磁盤陣列使用另一組(四個(gè))條帶化的磁盤進(jìn)行鏡像。 RAID 10 提供磁盤條帶化帶來(lái)的性能益處以及鏡像帶來(lái)的磁盤冗余。在所有的 RAID 級(jí)別中,RAID 10 提供的讀取/寫入性能最高,代價(jià)是使用的磁盤數(shù)量是其他級(jí)別的兩倍。,1972年R.Bayer和E.M.McCreight提出了一種稱之為B-樹的多路平衡查找樹。它適合在磁盤等直接存取設(shè)備上組織動(dòng)態(tài)的查找表。 B樹索引的定義 一棵m(m3)階的B-樹是滿足如下性質(zhì)的m叉
39、樹: 每個(gè)結(jié)點(diǎn)至少包含下列數(shù)據(jù)域: (j,P0,Kl,P1,K2,Ki,Pi),其中: j為關(guān)鍵字總數(shù) Ki(1ij)是關(guān)鍵字,關(guān)鍵字序列遞增有序:K1 K2Ki。 Pi(0ij)是孩子指針。對(duì)于葉結(jié)點(diǎn),每個(gè)Pi為空指針。 所有葉子是在同一層上,葉子的層數(shù)為樹的高度h。 每個(gè)非根結(jié)點(diǎn)中所包含的關(guān)鍵字個(gè)數(shù)j滿足: m/2-1j m-1 即每個(gè)非根結(jié)點(diǎn)至少應(yīng)有 m/2 -1個(gè)關(guān)鍵字,至多有m-1個(gè)關(guān)鍵字。 因?yàn)槊總€(gè)內(nèi)部結(jié)點(diǎn)的度數(shù)正好是關(guān)鍵字總數(shù)加1,故每個(gè)非根的內(nèi)部結(jié)點(diǎn)至少有 m/2 子樹,至多有m棵子樹。 若樹非空,則根至少有1個(gè)關(guān)鍵字,故若根不是葉子,則它至少有2棵子樹。根至多有m-1個(gè)關(guān)鍵字
40、,故至多有m棵子樹。,B-樹的結(jié)點(diǎn)規(guī)模 在大多數(shù)系統(tǒng)中,B-樹上的算法執(zhí)行時(shí)間主要由讀、寫磁盤的次數(shù)來(lái)決定,每次讀寫盡可能多的信息可提高算法的執(zhí)行速度。 B-樹中的結(jié)點(diǎn)的規(guī)模一般是一個(gè)磁盤頁(yè),而結(jié)點(diǎn)中所包含的關(guān)鍵字及其孩子的數(shù)目取決于磁盤頁(yè)的大小。 注意: 對(duì)于磁盤上一棵較大的B-樹,通常每個(gè)結(jié)點(diǎn)擁有的孩子數(shù)目(即結(jié)點(diǎn)的度數(shù))m為50至2000不等 一棵度為m的B-樹稱為m階B-樹。 選取較大的結(jié)點(diǎn)度數(shù)可降低樹的高度,以及減少查找任意關(guān)鍵字所需的磁盤訪問次數(shù)。,【例】下圖給出了一棵高度為3的1001階B-樹。 說(shuō)明: 每個(gè)結(jié)點(diǎn)包含1000個(gè)關(guān)鍵字,故在第三層上有100多萬(wàn)個(gè)葉結(jié)點(diǎn),這些葉節(jié)點(diǎn)可
41、容納10億多個(gè)關(guān)鍵字。圖中各結(jié)點(diǎn)內(nèi)的數(shù)字表示關(guān)鍵字的數(shù)目。通常根結(jié)點(diǎn)可始終置于主存中,因此在這棵B-樹中查找任一關(guān)鍵字至多只需二次訪問外存。,B-樹的查找方法 在B-樹中查找給定關(guān)鍵字的方法類似于二叉排序樹上的查找。不同的是在每個(gè)結(jié)點(diǎn)上確定向下查找的路徑不一定是二路而是keynum+1路的。 對(duì)結(jié)點(diǎn)內(nèi)的存放有序關(guān)鍵字序列的向量keyl.keynum 用順序查找或折半查找方法查找。若在某結(jié)點(diǎn)內(nèi)找到待查的關(guān)鍵字K,則返回該結(jié)點(diǎn)的地址及K在key1.keynum中的位置;否則,確定K在某個(gè)keyi和keyi+1之間結(jié)點(diǎn)后,從磁盤中讀指針?biāo)傅慕Y(jié)點(diǎn)繼續(xù)查找。直到在某結(jié)點(diǎn)中查找成功;或直至找到葉結(jié)點(diǎn)且葉
42、結(jié)點(diǎn)中的查找仍不成功時(shí),查找過程失敗。,B樹的使用條件和特點(diǎn) 使用條件 當(dāng)要求被索引的字段的值是唯一或者是接近唯一的時(shí)候 查詢工作是從大表中選擇少數(shù)幾個(gè)數(shù)據(jù)記錄時(shí)。 特點(diǎn) B樹快速索引性能是通過較大的代價(jià)換取的。通常為一個(gè)大表建立B樹索引需要大量的時(shí)間和磁盤空間 B樹使用期間的維護(hù)工作量很大 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)定期追加,就需要做大量的索引工作 如果系統(tǒng)的數(shù)據(jù)10%-15%發(fā)生了變化,就需要對(duì)B樹索引進(jìn)行重構(gòu),位圖索引定義 OLAP分析中,需要對(duì)大量數(shù)據(jù)進(jìn)行綜合性查詢,而不是幾條記錄,這種情況下B樹索引就受到了很大限制。 位圖索引是一種資源耗費(fèi)很小、對(duì)于多維查詢性能很好的索引方法。 位圖索引是一組
43、0和1字符,表中每一條記錄都被分配一個(gè)在位圖中的相對(duì)位置且給定一個(gè)值(0或者1)。 位圖中每個(gè)比特對(duì)應(yīng)一條記錄,所以位圖索引占用的空間很小,1,1,0,1,0,F,M,F,客戶性別,位圖索引使用 在位圖上運(yùn)用邏輯AND和OR可以非常迅速地得到多維查詢結(jié)果 例如“通過貸款購(gòu)買汽車的男性客戶有哪些”,就可以在商品類型、客戶性別、支付方式等字段上建立位圖索引,并在查詢中綜合使用。,0,0,0,1,0,0,0,1,1,0,1,0,0,1,1,0,0,1,1,0,是否貸款,是否購(gòu)車,客戶性別,AND,AND,廣義索引 廣義索引是在數(shù)據(jù)裝載的同時(shí)建立,它是一種元數(shù)據(jù) 廣義索引涉及的是用戶最關(guān)心的問題,需要
44、在數(shù)據(jù)加載前進(jìn)行調(diào)查了解。比如使用頻率最高的10種藥物,使用頻率最低的藥物等。 比較適合經(jīng)常性的查詢,開銷比較小,連接索引 就是將事實(shí)表和維表中的索引項(xiàng)進(jìn)行連接運(yùn)算,然后將結(jié)果作為索引保留。 如果對(duì)事實(shí)表和維表中的所有外鍵進(jìn)行連接運(yùn)算,將得到一個(gè)很大的表,這種索引稱為全連接索引。 但是在一般情況下,不一定對(duì)所有外鍵都進(jìn)行連接運(yùn)算,可根據(jù)需要使用部分外鍵,生成不同的連接索引 在實(shí)際應(yīng)用中,通常先建立全連接索引,然后根據(jù)需要增加其他的連接索引。 例子見下頁(yè)圖,數(shù)據(jù)存儲(chǔ)策略 考慮因素 數(shù)據(jù)的重要程度 粒度 使用頻率 響應(yīng)時(shí)間 采取措施 重要程度高、使用頻率高或?qū)憫?yīng)時(shí)間要求高的數(shù)據(jù)存放在高速存儲(chǔ)設(shè)備
45、上 存取頻率低或?qū)憫?yīng)時(shí)間要求低的數(shù)據(jù)存放在低速存儲(chǔ)設(shè)備上 除此之外,還有以下策略,合并表 例行分析處理時(shí),涉及的表存儲(chǔ)時(shí)放到一起,可大大減少磁頭定位時(shí)間,提高I/O效率 這種將多個(gè)表中相互關(guān)聯(lián)的記錄相鄰存儲(chǔ)的方式稱為合并表,數(shù)據(jù)序列 把經(jīng)常按照某一序列訪問并處理的一組表存儲(chǔ)在一起可減少I/O次數(shù),按列存儲(chǔ) 同一列數(shù)據(jù)相鄰存儲(chǔ) 同一列數(shù)據(jù)具有相同的數(shù)據(jù)類型,按列存儲(chǔ)有許多優(yōu)點(diǎn),如讀取方便、索引方便、統(tǒng)計(jì)方便等 Sybase數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品是按照列來(lái)存儲(chǔ)的,5,性寒,3,8,性平,2,9,性溫,1,劑量,味性,藥物ID,性平,性溫,性寒,9,8,5,分割表存放 在邏輯設(shè)計(jì)中對(duì)大表進(jìn)行分割,分割成多個(gè)
46、小表,提高訪問效率; 在物理上采用分布式的存儲(chǔ),達(dá)到并行讀取的目的。,存儲(chǔ)分配優(yōu)化 解決數(shù)據(jù)分塊大小、緩沖區(qū)單元大小和個(gè)數(shù)等問題 和系統(tǒng)配置相關(guān),數(shù)據(jù)倉(cāng)庫(kù)廠商會(huì)給出推薦配置 設(shè)計(jì)人員在系統(tǒng)維護(hù)過程中根據(jù)實(shí)際情況來(lái)調(diào)整 設(shè)置正確的塊大小 一個(gè)文件包括很多塊,每個(gè)塊包括很多條記錄 塊是數(shù)據(jù)庫(kù)的數(shù)據(jù)和內(nèi)存中間I/O傳輸?shù)幕締挝弧?塊頭中存放記錄控制信息 DBMS都有默認(rèn)塊大小,如2kb或者4kb 增加塊的大小,則可以有更多的記錄放入一個(gè)塊中,一次可以讀入更多的記錄,減少讀操作的次數(shù) 但是大塊當(dāng)即使需要很少的記錄時(shí),也要讀入很多記錄,影響了內(nèi)存管理,設(shè)置合適的塊使用參數(shù) 塊空閑率 DBMS為每個(gè)塊預(yù)
47、留一部分空間,使塊中的記錄能夠擴(kuò)展 比如塊空閑參數(shù)設(shè)置為20,表示每個(gè)塊的20%為記錄更新修改預(yù)留空間。 當(dāng)預(yù)留空間已滿時(shí),DBMS需要找到一個(gè)新的擴(kuò)展區(qū)間,在工作中尋找新的區(qū)間成為動(dòng)態(tài)擴(kuò)展,動(dòng)態(tài)擴(kuò)展帶來(lái)了巨大的開銷。 分配較大的初始擴(kuò)展空間可以減少動(dòng)態(tài)擴(kuò)展 數(shù)據(jù)倉(cāng)庫(kù)中,由于更新不多,主要是追加,這個(gè)參數(shù)設(shè)置的越小越好,設(shè)置合適的塊使用參數(shù) 塊使用率 它指定了一個(gè)界限,當(dāng)塊中已使用空間低于這個(gè)界限時(shí)才允許向該塊中插入新的數(shù)據(jù)行 如該參數(shù)設(shè)置為40,表示當(dāng)從空間中刪除行時(shí),空間不能馬上被使用,只有當(dāng)已經(jīng)使用的空間降低到40%以下,空閑空間才可以使用。 數(shù)據(jù)倉(cāng)庫(kù)中,很少刪除記錄,除非是將數(shù)據(jù)倉(cāng)庫(kù)中
48、的數(shù)據(jù)存入磁帶中,一般情況下,是將這個(gè)參數(shù)設(shè)置的越大越好。,高層設(shè)計(jì) 中層設(shè)計(jì) 低層設(shè)計(jì) 數(shù)據(jù)倉(cāng)庫(kù)生成,高層設(shè)計(jì) 主要考慮商業(yè)過程和商業(yè)需求的集成,將與目前商業(yè)過程有關(guān)的信息和數(shù)據(jù)倉(cāng)庫(kù)視圖實(shí)現(xiàn)的目標(biāo)合并在一起,創(chuàng)建信息包圖。 工作 確定系統(tǒng)邊界:決策類型、需要的信息、原始信息 確定主題域及其內(nèi)容:主題域的公共鍵碼、主題域之間的聯(lián)系、屬性組 確定維度:如時(shí)間維、銷售位置維、產(chǎn)品維、組別維等 確定級(jí)別:相應(yīng)維的詳細(xì)層次 確定度量:也稱指標(biāo)和事實(shí),用于進(jìn)行分析的數(shù)值化信息,創(chuàng)建信息包圖: 確定涉及的主題域,例如:時(shí)間、顧客、地位置和產(chǎn)品。 設(shè)計(jì)可以跟蹤的確定一個(gè)事件怎樣被完成和運(yùn)行的關(guān)鍵指標(biāo)。 決定
49、在給定的用戶分析或查詢中實(shí)際包含了多少數(shù)據(jù)。 確定用戶如何按層次聚合數(shù)據(jù)和移動(dòng)數(shù)據(jù)。 決定數(shù)據(jù)層次。 估計(jì)數(shù)據(jù)倉(cāng)庫(kù)的大小。 確定一個(gè)數(shù)據(jù)倉(cāng)庫(kù)里數(shù)據(jù)的更新頻率。 定義如何訪問數(shù)據(jù)。 決定數(shù)據(jù)如何被傳遞給數(shù)據(jù)倉(cāng)庫(kù)的用戶。,中層設(shè)計(jì) 建立數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型,對(duì)前期收集的信息的細(xì)化,將信息包圖轉(zhuǎn)換成星形模型。 主要工作 定義指標(biāo)實(shí)體。將信息包圖中的內(nèi)容放到星形圖中,每個(gè)信息包圖代表一個(gè)完整的星和信息包。維度實(shí)體在指標(biāo)實(shí)體中表示。 定義維度實(shí)體。信息包圖中的每一個(gè)維度實(shí)體位于星形圖的星角上,它以維度表的形式存在。隨著維度實(shí)體在星形圖上的定位,進(jìn)一步定義它與指標(biāo)實(shí)體間的關(guān)系。 定義詳細(xì)類別實(shí)體。在一個(gè)簡(jiǎn)單
50、的星形圖模型中,指標(biāo)實(shí)體被用于訪問的維度實(shí)體包圍。但是在有的決策分析中僅僅知道指標(biāo)值是不夠的,需要定義詳細(xì)類別實(shí)體,將星型圖模型轉(zhuǎn)換為雪花圖模型。 設(shè)計(jì)成果 適當(dāng)?shù)牧6葎澐?合理的數(shù)據(jù)分割策略 定義適當(dāng)?shù)臄?shù)據(jù)源 如必要,添加導(dǎo)出字段,低層設(shè)計(jì)階段的任務(wù):建立數(shù)據(jù)倉(cāng)庫(kù)的物理模型,確定數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)結(jié)構(gòu)、數(shù)據(jù)的存儲(chǔ)位置和索引策略。 設(shè)計(jì)人員需要了解和考慮的問題: 所選用的數(shù)據(jù)庫(kù)系統(tǒng),特別是存儲(chǔ)結(jié)構(gòu)和存取方法; 數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻率、使用方式以及響應(yīng)時(shí)間; 存儲(chǔ)設(shè)備的特性等。 主要工作: 確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)。不同的存儲(chǔ)結(jié)構(gòu)有不同的實(shí)現(xiàn)方式,應(yīng)綜合考慮存取時(shí)間、存取空間利用率和維護(hù)代價(jià)等因素,根據(jù)
51、各種存儲(chǔ)結(jié)構(gòu)的優(yōu)缺點(diǎn)和適用范圍選擇合適的存儲(chǔ)結(jié)構(gòu)。 確定數(shù)據(jù)的存儲(chǔ)位置。對(duì)數(shù)據(jù)按照其重要程度、使用頻率和對(duì)響應(yīng)時(shí)間的要求等進(jìn)行分類,并將不同類別的數(shù)據(jù)存儲(chǔ)在不同的存儲(chǔ)設(shè)備中。設(shè)置存儲(chǔ)分配參數(shù),對(duì)塊的大小、緩沖區(qū)的大小和個(gè)數(shù)等進(jìn)行物理優(yōu)化處理。 確定索引策略。通過對(duì)數(shù)據(jù)存取路徑的分析,為各個(gè)數(shù)據(jù)存儲(chǔ)建立專用的索引,以獲得存取的高效率。,設(shè)計(jì)接口 從面向應(yīng)用和操作的環(huán)境生成完整的數(shù)據(jù) 基于時(shí)間的數(shù)據(jù)轉(zhuǎn)換 數(shù)據(jù)的聚合 對(duì)記錄系統(tǒng)進(jìn)行掃描,以便追加數(shù)據(jù) 數(shù)據(jù)裝入 確定數(shù)據(jù)裝入的順序 過濾無(wú)效或錯(cuò)誤數(shù)據(jù) 數(shù)據(jù)老化 數(shù)據(jù)粒度管理 數(shù)據(jù)刷新,設(shè)計(jì)接口 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是從數(shù)據(jù)庫(kù)系統(tǒng)中提取出來(lái)的,所以在需要在
52、數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)之間建立一個(gè)接口。 建立這種接口,并不是簡(jiǎn)單的編制一個(gè)提取程序。由于數(shù)據(jù)庫(kù)中的數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)有很大區(qū)別,所以在設(shè)計(jì)接口時(shí),除了提取外還要完成數(shù)據(jù)的凈化、集成等。接口應(yīng)包括轉(zhuǎn)換器、監(jiān)控器和集成器等,以完成對(duì)數(shù)據(jù)的提取、凈化和集成。,數(shù)據(jù)的提取 數(shù)據(jù)提取是數(shù)據(jù)倉(cāng)庫(kù)成功的關(guān)鍵。 在提取過程中,為了支持實(shí)際應(yīng)用中的趨勢(shì)分析,它還必須對(duì)數(shù)據(jù)基于時(shí)間進(jìn)行轉(zhuǎn)換。 在大多數(shù)情況下,把數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)變化提取出來(lái)是通過訪問數(shù)據(jù)庫(kù)日志進(jìn)行的。 在數(shù)據(jù)提取時(shí)應(yīng)考慮建立可靠的復(fù)制機(jī)制,使復(fù)制不受諸如系統(tǒng)失敗之類問題的影響,保證傳送符合數(shù)據(jù)完整性規(guī)則的一致數(shù)據(jù),并優(yōu)化傳送過程,減少在捕獲或
53、修改數(shù)據(jù)和傳送復(fù)制結(jié)果之間的等待時(shí)間。 復(fù)制機(jī)制包括數(shù)據(jù)發(fā)布器和數(shù)據(jù)閱讀器。數(shù)據(jù)發(fā)布器是原始的或控制的源,它控制了從企業(yè)內(nèi)部來(lái)的數(shù)據(jù)的捕獲和凈化;數(shù)據(jù)閱讀器是一種對(duì)數(shù)據(jù)訪問的系統(tǒng)。,需求分析 數(shù)據(jù)分析 技術(shù)路線 應(yīng)用分析 數(shù)據(jù)倉(cāng)庫(kù)部署 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)運(yùn)行和維護(hù),數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目需求分析的特點(diǎn) 需求比較模糊,需求分析過程貫穿整個(gè)數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過程中 數(shù)據(jù)倉(cāng)庫(kù)開發(fā)過程中每一個(gè)階段的每一項(xiàng)任務(wù)都是由需求決定的 設(shè)計(jì)階段的每一個(gè)決策,無(wú)論是數(shù)據(jù)設(shè)計(jì)、體系結(jié)構(gòu)設(shè)計(jì)、信息傳遞方法的安排,都受到需求的影響 需求分析的內(nèi)容 常見主題 常見分析問題 數(shù)據(jù)源的數(shù)據(jù)庫(kù)類型 工作平臺(tái) 數(shù)據(jù)量及其質(zhì)量 數(shù)據(jù)倉(cāng)庫(kù)的建立環(huán)境 網(wǎng)絡(luò)
54、狀況 各方面各層次人員對(duì)數(shù)據(jù)分析的需求等,數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目需求分析文檔組成 緒論。闡述項(xiàng)目的目的和范圍,包括項(xiàng)目論證,文檔概要 總體需求描述。闡述數(shù)據(jù)倉(cāng)庫(kù)中需要什么樣的數(shù)據(jù) 具體需求。包括源數(shù)據(jù)的細(xì)節(jié),數(shù)據(jù)轉(zhuǎn)換和存儲(chǔ)需求,描述用戶需要的各類信息傳遞方法 指標(biāo)和維度。包括重要的指標(biāo)和事實(shí),以及分析這些指標(biāo)所用的維度 其他需求。數(shù)據(jù)抽取頻率、數(shù)據(jù)載入方法等 用戶期望。說(shuō)明用戶期望如何使用數(shù)據(jù)倉(cāng)庫(kù) 用戶參與。列出用戶在開發(fā)周期中希望參與的任務(wù)和活動(dòng) 實(shí)施計(jì)劃。給出一個(gè)合理的數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目實(shí)施計(jì)劃,數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)分析(即數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)步驟的內(nèi)容) 概念模型設(shè)計(jì) 邏輯模型設(shè)計(jì) 物理模型設(shè)計(jì) 數(shù)據(jù)裝載接口設(shè)計(jì),技術(shù)
55、路線主要內(nèi)容 技術(shù)路線主要確定數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)構(gòu)造,包括服務(wù)器硬件、操作系統(tǒng)、網(wǎng)絡(luò)軟件、數(shù)據(jù)庫(kù)軟件、局域網(wǎng)和廣域網(wǎng)、供應(yīng)商提供的工具、人員、工作步驟和培訓(xùn)等。 操作型基礎(chǔ)構(gòu)造 包括人員、流程、培訓(xùn)和管理軟件,是維持?jǐn)?shù)據(jù)倉(cāng)庫(kù)所需要的,它們支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)的管理工作并保持它的工作效率 物理基礎(chǔ)構(gòu)造 計(jì)算機(jī)平臺(tái) 工具,計(jì)算機(jī)平臺(tái) 硬件和操作系統(tǒng) 硬件:選型時(shí)考慮可擴(kuò)展性、供應(yīng)商的支持和穩(wěn)定性 操作系統(tǒng):與硬件相容,選型時(shí)考慮可擴(kuò)展性、安全性、可靠性、內(nèi)存管理和保護(hù) 服務(wù)器硬件方案 數(shù)據(jù)倉(cāng)庫(kù)用戶數(shù)量和查詢數(shù)量都會(huì)大幅度增加 數(shù)據(jù)載入工作也急劇增多 可擴(kuò)展性和查詢性能優(yōu)化是服務(wù)器硬件選擇的兩個(gè)關(guān)鍵因素 主要的服務(wù)器硬件結(jié)構(gòu),SMP(對(duì)稱多處理機(jī)結(jié)構(gòu)),群集,MPP(大規(guī)模并行處理),NUMA(一致高速緩存的不均勻內(nèi)存體系結(jié)構(gòu)),SMP 容易擴(kuò)展,但是內(nèi)存有限 數(shù)據(jù)規(guī)模200G300G,可以考慮采用這種結(jié)構(gòu),處理器,處理器,處理器,共享磁盤,共享內(nèi)存,共享磁盤,通用總線,群集 適用于規(guī)模不斷增長(zhǎng)的情況,容易擴(kuò)展,總線帶寬會(huì)限制系統(tǒng)擴(kuò)展性 如果能夠很好地定義數(shù)據(jù)倉(cāng)庫(kù)的增長(zhǎng),可以考慮采用這種結(jié)構(gòu),共享磁盤,共享磁盤,通用高速總線,共享磁盤,MPP 可高度擴(kuò)展
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- JJF(新) 153-2024 發(fā)電設(shè)施碳排放關(guān)鍵參數(shù)測(cè)量技術(shù)規(guī)范
- 2026年中職第二學(xué)年(統(tǒng)計(jì)與會(huì)計(jì)核算)數(shù)據(jù)統(tǒng)計(jì)綜合測(cè)試題
- 2025年大學(xué)教育學(xué)(教育心理學(xué)應(yīng)用)試題及答案
- 2025年大學(xué)石油煉制技術(shù)(產(chǎn)品檢測(cè))試題及答案
- 2026年中職第一學(xué)年(化學(xué)工藝)化工原料配比試題及答案
- 2025年大學(xué)大一(社會(huì)學(xué)概論)社會(huì)互動(dòng)試題及解析
- 2025年大學(xué)大一(文學(xué))文學(xué)綜合實(shí)訓(xùn)綜合測(cè)試題及答案
- 2025年大學(xué)制藥類(制藥技術(shù)文檔)試題及答案
- 2025年高職第三學(xué)年(物聯(lián)網(wǎng)應(yīng)用)物聯(lián)網(wǎng)工程設(shè)計(jì)測(cè)試題及答案
- 2025年大學(xué)(工程造價(jià))工程招投標(biāo)與合同管理基礎(chǔ)階段測(cè)試題及評(píng)分標(biāo)準(zhǔn)
- 易制毒化學(xué)品管理?xiàng)l例培訓(xùn)試卷與答案
- 消防裝備管理規(guī)定
- 醫(yī)院保潔開荒合同(標(biāo)準(zhǔn)版)
- 2025國(guó)開本科《公共部門人力資源管理》期末歷年真題(含答案)
- 傷口造口小組年度工作總結(jié)
- 禁毒社工知識(shí)培訓(xùn)課件
- 《涉外法治概論》課件 杜濤 第7-10章 對(duì)外貿(mào)易與經(jīng)濟(jì)制裁法律制度-涉外應(yīng)急管理法律制度
- 放射DR胸片課件
- 管道檢修與維護(hù)課件
- 企業(yè)外派員工薪酬設(shè)計(jì)
- 缺鐵性貧血講解
評(píng)論
0/150
提交評(píng)論