數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第2章課件_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第2章課件_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第2章課件_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第2章課件_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘第2章課件_第5頁
已閱讀5頁,還剩105頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

一、多維數(shù)據(jù)模型二、數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)三、數(shù)據(jù)倉庫的實(shí)現(xiàn)四、基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘第二章數(shù)據(jù)倉庫的OLAP技術(shù)一、多維數(shù)據(jù)模型第二章數(shù)據(jù)倉庫的OLAP技術(shù)第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型,多維數(shù)據(jù)模型將數(shù)據(jù)看作數(shù)據(jù)立方體(datacube)形式。數(shù)據(jù)立方體允許以多維對(duì)數(shù)據(jù)建模和觀察,由維和事實(shí)定義第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體維是關(guān)于一個(gè)組織想要記錄的透視或?qū)嶓w每一個(gè)維都有一個(gè)表與之相關(guān)聯(lián),該表稱為維表,它進(jìn)一步描述維多維數(shù)據(jù)模型圍繞中心主題組織,主題用事實(shí)表表示事實(shí)是數(shù)值的度量,事實(shí)表包括事實(shí)的名稱或度量,以及每個(gè)相關(guān)維表的關(guān)鍵字第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體設(shè)某BSEK北星易家連鎖公司由下列關(guān)系表描述:Customer(cust_id,name,address,age,…)Item(item_id,name,type,price,…)Employee(empl_id,name,salary,…)purchases(trans_id,cust_id,empl_id,date,time,method_paid,amount,…)Branch(branch_id,name,address)第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體例如,BSEK可能創(chuàng)建一個(gè)數(shù)據(jù)倉庫sales,記錄商店的銷售情況,涉及time,item和location。典型3-D立方體如圖:timelocationitem第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體timelocatio第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式E-R數(shù)據(jù)模型適用于OLTP,而數(shù)據(jù)倉庫需要簡明的、面向主題的模式,便于聯(lián)機(jī)數(shù)據(jù)分析。數(shù)據(jù)倉庫的數(shù)據(jù)模型采用多維數(shù)據(jù)模型星型模式雪花模式事實(shí)星座模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式星型模式:是最常見的模型范式。這種模式的數(shù)據(jù)倉庫包含:一個(gè)大的事實(shí)表和一組小的維表事實(shí)表包含大批數(shù)據(jù)和不含冗余的中心表維表附屬表,每維一個(gè)表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式星型模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcitycountryitem_keyitem_namebranchtypetime_keydayWeekmonth…Sales事實(shí)表time維表branch維表location維表item維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式雪花模式:是星型模式的變種,其中某些維表是規(guī)范化的,因而數(shù)據(jù)被進(jìn)一步分解到附加的表中雪花模式的規(guī)范化維表,可以減少冗余,便于維護(hù),并且節(jié)省存儲(chǔ)空間;同巨大的事實(shí)表相比,空間節(jié)省有限執(zhí)行查詢需要更多連接操作,雪花模型可能降低瀏覽的性能第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式雪花模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonth…type_keytype_namecity_keycitycountrySales事實(shí)表timebranchlocation維表item維表type維表city維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式事實(shí)星座模式復(fù)雜的應(yīng)用可能需要多個(gè)事實(shí)表共享維表,這種模式可以視為星型模式集,因此稱為星系模式,或事實(shí)星座模式

第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式事實(shí)星座模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonth…item_keytime_keyfrom_locationshipper_keymoney_costunits_shippedshipper_keyshipper_namelocation_keySales事實(shí)表timebranchlocation維表item維表shipping事實(shí)表shipper維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算數(shù)據(jù)立方體度量是一個(gè)數(shù)值函數(shù),該函數(shù)可以對(duì)數(shù)據(jù)立方體的每一個(gè)點(diǎn)求值。通過對(duì)給定點(diǎn)的各維-值對(duì)聚集數(shù)據(jù),計(jì)算該點(diǎn)的度量值度量根據(jù)所用的聚集函數(shù)分成三類:分布的度量、代數(shù)的度量、整體的度量

第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算分布的:一個(gè)聚集函數(shù)是分布的,如果它能以如下分布方式進(jìn)行計(jì)算設(shè)數(shù)據(jù)被劃分為n個(gè)集合,函數(shù)在每一部分上的計(jì)算得到一個(gè)聚集值。如果將函數(shù)用于n個(gè)聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布方式計(jì)算。一個(gè)度量是分布的,如果它可以用分布聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算代數(shù)的:一個(gè)聚集函數(shù)是代數(shù)的,如果它能由一個(gè)具有M個(gè)參數(shù)的代數(shù)計(jì)算(M是一個(gè)有界整數(shù)),而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得一個(gè)度量是代數(shù)的,如果它可以用代數(shù)聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算整體的:一個(gè)聚集函數(shù)是整體的,如果描述它的子聚集所需的存儲(chǔ)沒有一個(gè)常數(shù)界,即不存在一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)進(jìn)行這一計(jì)算(M是常數(shù)),而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得一個(gè)度量是整體的,如果它可以用整體聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算多數(shù)數(shù)據(jù)立方體的應(yīng)用需要有效地計(jì)算分布的和代數(shù)的度量,存在許多有效的技術(shù);而有效計(jì)算整體的度量是很困難的,往往采取計(jì)算以滿意的結(jié)果估計(jì)大數(shù)據(jù)集的中值,不進(jìn)行精確計(jì)算。例如,median()和mode()第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷(roll-up)下鉆(drill-down)切片(slice)、切塊(dice)轉(zhuǎn)軸(pivot)鉆過(drill-across)鉆透(drill-through)第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作概念分層將屬性或維組織成漸進(jìn)的抽象層,它將低層概念映射到更一般的高層概念。概念分層對(duì)于多抽象層上的挖掘有用第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷:通過一個(gè)維的概念分層向上攀升或通過維歸約,在數(shù)據(jù)立方體上進(jìn)行聚集第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計(jì)算機(jī)電話安全TimeItem美國加拿大一季度二季度三季度四季度家庭娛樂計(jì)算機(jī)電話安全Location分層定義為全序:“street<city<province_or_state<county”第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作下鉆:通過沿維的概念分層向下或引入新的維來實(shí)現(xiàn),它是上卷的逆操作,由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作下鉆分層定義全序?yàn)椋骸癲ay<month<quarter<year”Location芝加哥紐約芝加哥溫哥華Time一季度二季度三季度四季度Item家庭娛樂計(jì)算機(jī)電話安全I(xiàn)tem家庭娛樂計(jì)算機(jī)電話安全Time1月2月3月4月5月6月7月8月9月10月11月12月Location芝加哥紐約芝加哥溫哥華第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切片:切片操作在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,導(dǎo)致一個(gè)子方第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切片LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計(jì)算機(jī)電話安全I(xiàn)tem芝加哥溫哥華家庭娛樂計(jì)算機(jī)電話安全Location紐約多倫多Time=“Q1”第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切塊:切塊操作通過對(duì)兩個(gè)或多個(gè)維執(zhí)行選擇,定義子方第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切塊(location=“Toronto”or“Vancouver”)and(Time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”)LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計(jì)算機(jī)電話安全TimeItem多倫多溫哥華一季度二季度家庭娛樂計(jì)算機(jī)Location第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作:轉(zhuǎn)軸:是一種目視操作,它轉(zhuǎn)動(dòng)數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作:第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作轉(zhuǎn)軸Item芝加哥溫哥華家庭娛樂計(jì)算機(jī)電話安全Location紐約多倫多Item家庭娛樂安全芝加哥紐約多倫多溫哥華Location計(jì)算機(jī)電話第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作鉆過:執(zhí)行涉及多個(gè)事實(shí)表的查詢鉆透:操作使用關(guān)系SQL機(jī)制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表OLAP的許多特征體現(xiàn)在統(tǒng)計(jì)數(shù)據(jù)庫(SDB)的早期工作中,而SDB關(guān)注社會(huì)經(jīng)濟(jì)應(yīng)用,OLAP旨在商務(wù)應(yīng)用以及有效處理海量數(shù)據(jù)

第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計(jì)步驟數(shù)據(jù)倉庫設(shè)計(jì)需要考慮的四種視圖:自頂向下視圖:可以幫助選擇數(shù)據(jù)倉庫所需的相關(guān)息,這些信息能夠滿足當(dāng)前和未來商務(wù)的需求數(shù)據(jù)源視圖:揭示被操作數(shù)據(jù)庫系統(tǒng)捕獲、存儲(chǔ)和管理的信息數(shù)據(jù)倉庫視圖:包括事實(shí)表和維表商務(wù)查詢視圖:從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計(jì)步驟第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計(jì)步驟數(shù)據(jù)倉庫的設(shè)計(jì)包括如下步驟:選取待建模的商務(wù)處理。如果商務(wù)過程針對(duì)整個(gè)組織,并涉及多個(gè)復(fù)雜對(duì)象,選用數(shù)據(jù)倉庫模型;如果是某一部門的、或某一類商務(wù)處理,應(yīng)選擇數(shù)據(jù)集市。選取商務(wù)處理的粒度選取用于每個(gè)事實(shí)表記錄的維選取安放在事實(shí)表中的度量第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計(jì)步驟第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)倉庫通常采用三層結(jié)構(gòu):底層:數(shù)據(jù)倉庫服務(wù)器中間層:OLAP服務(wù)器頂層:前端工具第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)清理轉(zhuǎn)換集成輸出業(yè)務(wù)數(shù)據(jù)庫外部信息源數(shù)據(jù)倉庫數(shù)據(jù)集市OLAP服務(wù)器底層:數(shù)據(jù)倉庫服務(wù)器頂層:前端工具中間層:OLAP服務(wù)器元數(shù)據(jù)存貯第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)清理轉(zhuǎn)換集成輸出業(yè)務(wù)數(shù)據(jù)庫外第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)從結(jié)構(gòu)的角度,有三種數(shù)據(jù)倉庫模型:

企業(yè)倉庫數(shù)據(jù)集市虛擬倉庫第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)企業(yè)倉庫企業(yè)倉庫(Enterprisewarehouse)收集跨越整個(gè)企業(yè)的各個(gè)主題的所有信息。它提供全企業(yè)的數(shù)據(jù)集成,數(shù)據(jù)通常來自多個(gè)操作型數(shù)據(jù)庫和外部信息提供者,并且是跨越多個(gè)功能范圍的。它通常包含詳細(xì)數(shù)據(jù)和匯總數(shù)據(jù)企業(yè)數(shù)據(jù)倉庫可以在傳統(tǒng)的大型機(jī)上實(shí)現(xiàn),例如UNIX超級(jí)服務(wù)器或并行結(jié)構(gòu)平臺(tái)。它需要廣泛的業(yè)務(wù)建模,可能需要多年的時(shí)間來設(shè)計(jì)和建造第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)集市數(shù)據(jù)集市(datamart)包含對(duì)特定用戶有用的,企業(yè)范圍數(shù)據(jù)的一個(gè)子集。它的范圍限于選定的主題,例如一個(gè)商場(chǎng)的數(shù)據(jù)集市可能限定它的主題為顧客、商品和銷售。數(shù)據(jù)集市中的數(shù)據(jù)通常為匯總數(shù)據(jù)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)集市實(shí)現(xiàn)數(shù)據(jù)集市的周期一般是數(shù)周,而不是數(shù)月或數(shù)年,然而,如果它的規(guī)劃不是企業(yè)范圍的,從長遠(yuǎn)講,可能會(huì)涉及很復(fù)雜的集成根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨(dú)立的依賴的二類。在獨(dú)立的數(shù)據(jù)集市中,數(shù)據(jù)來自一個(gè)或多個(gè)操作型數(shù)據(jù)庫或外部信息提供者,或者是一個(gè)特定的部門或地區(qū)本地產(chǎn)生的數(shù)據(jù)。在依賴的數(shù)據(jù)集市中,數(shù)據(jù)直接來自企業(yè)數(shù)據(jù)倉庫第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)虛擬倉庫虛擬倉庫(virtualwarehouse)是操作型數(shù)據(jù)庫上視圖的集合。為了有效地處理查詢,只做了一些可能的匯總視圖。虛擬倉庫易于創(chuàng)建,但需要操作型數(shù)據(jù)庫服務(wù)器具有剩余能力第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)3.

OLAP服務(wù)器的類型

關(guān)系OLAP(ROLAP)服務(wù)器多維OLAP(MOLAP)服務(wù)器混合OLAP(HOLAP)服務(wù)器特殊的SQL服務(wù)器第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)3.OLAP服務(wù)器的類型第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(RelationalOLAP)ROLAP將分析用的多維數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫中,并根據(jù)應(yīng)用需求有選擇的定義一批視圖作為表存儲(chǔ)在關(guān)系數(shù)據(jù)庫中。不必要將每一個(gè)SQL查詢都作為實(shí)視圖保存,只定義那些應(yīng)用頻率比較高、計(jì)算工作量比較大的查詢作為實(shí)視圖第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(Relati4.關(guān)系OLAP(RelationalOLAP)對(duì)每個(gè)針對(duì)OLAP服務(wù)器的查詢,優(yōu)先利用已經(jīng)計(jì)算好的實(shí)視圖來生成查詢結(jié)果以提高查詢效率。同時(shí)用作ROLAP存儲(chǔ)器的RDBMS也針對(duì)OLAP作相應(yīng)的優(yōu)化,比如并行存儲(chǔ)、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴(kuò)展(cube、rollup)等等第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(RelationalOLAP)第二節(jié)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(MultidimensionalOLAP)MOLAP將OLAP分析所用到的多維數(shù)據(jù)物理上存儲(chǔ)為多維數(shù)組的形式,形成“立方體”的結(jié)構(gòu)。維的屬性值被映射成多維數(shù)組的下標(biāo)值或下標(biāo)的范圍,而總結(jié)數(shù)據(jù)作為多維數(shù)組的值存儲(chǔ)在數(shù)組的單元中第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(Multid第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(MultidimensionalOLAP)由于MOLAP采用新的存儲(chǔ)結(jié)構(gòu),從物理層實(shí)現(xiàn)起,因此又稱為物理OLAP(PhysicalOLAP)而ROLAP主要通過一些軟件工具或中間軟件實(shí)現(xiàn),物理層仍采用關(guān)系數(shù)據(jù)庫的存儲(chǔ)結(jié)構(gòu),因此稱為虛擬OLAP(VirtualOLAP)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(Multid第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.ROLAP與MOLAP比對(duì)ROLAPMOLAP沿用現(xiàn)有的關(guān)系數(shù)據(jù)庫的技術(shù)專為OLAP所設(shè)計(jì)響應(yīng)速度比MOLAP慢;現(xiàn)有關(guān)系型數(shù)據(jù)庫已經(jīng)對(duì)OLAP做了很多優(yōu)化,包括并行存儲(chǔ)、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴(kuò)展(cube、rollup)等,性能有所提高性能好、響應(yīng)速度快數(shù)據(jù)裝載速度快數(shù)據(jù)裝載速度慢存儲(chǔ)空間耗費(fèi)小,維數(shù)沒有限制需進(jìn)行預(yù)計(jì)算,可能導(dǎo)致數(shù)據(jù)爆炸,無法支持維的公臺(tái)變化可以通過SQL實(shí)現(xiàn)詳細(xì)數(shù)據(jù)與概要數(shù)據(jù)的存儲(chǔ)缺乏數(shù)據(jù)模型和數(shù)據(jù)訪問的標(biāo)準(zhǔn)不支持有關(guān)預(yù)計(jì)算讀寫操作;SQL無法完成有些計(jì)算;無法完成多行計(jì)算;無法完成維之間計(jì)算支持高性能決策支持計(jì)算;扶著跨維計(jì)算;多用戶讀寫操作借用RDBMS存儲(chǔ)數(shù)據(jù),沒有文件大小限制受操作系統(tǒng)平臺(tái)文件大小限制,難達(dá)到TB級(jí)維護(hù)困難管理簡便第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.ROLAP與MOLAP比第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.ROLAP與MOLAP比對(duì)左邊為ROLAP方式,右邊為MOLAP方式,對(duì)應(yīng)的是同一個(gè)三維模型第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.ROLAP與MOLAP比對(duì)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.混合OLAP(HybirdOLAP)混合型OLAP(HOLAP)把MOLAP和ROLAP兩種結(jié)構(gòu)的優(yōu)點(diǎn)結(jié)合起來迄今為止,對(duì)HOLAP還沒有一個(gè)正式的定義。但很明顯,HOLAP結(jié)構(gòu)不應(yīng)該是MOLAP與ROLAP結(jié)構(gòu)的簡單組合,而是這兩種結(jié)構(gòu)技術(shù)優(yōu)點(diǎn)的有機(jī)結(jié)合,能滿足用戶各種復(fù)雜的分析請(qǐng)求第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)6.混合OLAP(Hybird第三節(jié)數(shù)據(jù)倉庫的實(shí)現(xiàn)1.數(shù)據(jù)立方體的有效計(jì)算多維數(shù)據(jù)分析的核心是有效地計(jì)算多個(gè)維集合上的聚集,類似于SQL中的分組基本立方操作及實(shí)現(xiàn)部分物化數(shù)據(jù)立方體計(jì)算中多路數(shù)組聚集

第三節(jié)數(shù)據(jù)倉庫的實(shí)現(xiàn)1.數(shù)據(jù)立方體的有效計(jì)算第三節(jié)數(shù)據(jù)倉庫的實(shí)現(xiàn)2.索引OLAP數(shù)據(jù)位圖索引連接索引復(fù)合連接索引

第三節(jié)數(shù)據(jù)倉庫的實(shí)現(xiàn)2.索引OLAP數(shù)據(jù)第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用數(shù)據(jù)倉庫的三種應(yīng)用:信息處理分析處理數(shù)據(jù)挖掘第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用信息處理:支持查詢和基本的統(tǒng)計(jì)分析,并使用交叉表、表、圖表或圖進(jìn)行報(bào)告。數(shù)據(jù)倉庫信息處理的當(dāng)前趨勢(shì)是構(gòu)造低成本的基于Web的存取工具,然后與Web瀏覽器集成在一起第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用分析處理:支持基本的OLAP操作,包括切片與切塊、下鉆、上卷和轉(zhuǎn)軸。一般在匯總的和細(xì)節(jié)的歷史數(shù)據(jù)上操作,它支持?jǐn)?shù)據(jù)倉庫的多維數(shù)據(jù)分析第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用數(shù)據(jù)挖掘:支持知識(shí)發(fā)現(xiàn),包括找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進(jìn)行分類和預(yù)測(cè),并用可視化工具提供挖掘結(jié)果數(shù)據(jù)挖掘不限于分析數(shù)據(jù)倉庫中的數(shù)據(jù),比OLAP更自動(dòng)化,更深入,應(yīng)用更廣第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘1.數(shù)據(jù)倉庫的使用第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘2.從OLAP到OLAMOLAM聯(lián)機(jī)分析挖掘?qū)⒙?lián)機(jī)分析處理與數(shù)據(jù)挖掘以及多維數(shù)據(jù)庫中的發(fā)現(xiàn)知識(shí)集成在一起。數(shù)據(jù)倉庫中的數(shù)據(jù)高質(zhì)量環(huán)繞數(shù)據(jù)倉庫的有價(jià)值的信息處理基礎(chǔ)設(shè)施基于OLAP的探測(cè)式數(shù)據(jù)分析數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇第四節(jié)基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘2.從OLAP到OLAM思考問題:1.什么是數(shù)據(jù)立方體和多維數(shù)據(jù)模型?2.最流行的數(shù)據(jù)倉庫模型有哪些?3.什么是數(shù)據(jù)立方體度量,其分類如何?4.多維數(shù)據(jù)模型上的OLAP操作主要有哪些?5.數(shù)據(jù)倉庫的設(shè)計(jì)過程主要有哪些步驟?6.簡述OLAP與數(shù)據(jù)挖掘的關(guān)系。思考問題:1.什么是數(shù)據(jù)立方體和多維數(shù)據(jù)模型?一、多維數(shù)據(jù)模型二、數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)三、數(shù)據(jù)倉庫的實(shí)現(xiàn)四、基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘第二章數(shù)據(jù)倉庫的OLAP技術(shù)一、多維數(shù)據(jù)模型第二章數(shù)據(jù)倉庫的OLAP技術(shù)第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體數(shù)據(jù)倉庫和OLAP工具基于多維數(shù)據(jù)模型,多維數(shù)據(jù)模型將數(shù)據(jù)看作數(shù)據(jù)立方體(datacube)形式。數(shù)據(jù)立方體允許以多維對(duì)數(shù)據(jù)建模和觀察,由維和事實(shí)定義第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體維是關(guān)于一個(gè)組織想要記錄的透視或?qū)嶓w每一個(gè)維都有一個(gè)表與之相關(guān)聯(lián),該表稱為維表,它進(jìn)一步描述維多維數(shù)據(jù)模型圍繞中心主題組織,主題用事實(shí)表表示事實(shí)是數(shù)值的度量,事實(shí)表包括事實(shí)的名稱或度量,以及每個(gè)相關(guān)維表的關(guān)鍵字第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體設(shè)某BSEK北星易家連鎖公司由下列關(guān)系表描述:Customer(cust_id,name,address,age,…)Item(item_id,name,type,price,…)Employee(empl_id,name,salary,…)purchases(trans_id,cust_id,empl_id,date,time,method_paid,amount,…)Branch(branch_id,name,address)第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體例如,BSEK可能創(chuàng)建一個(gè)數(shù)據(jù)倉庫sales,記錄商店的銷售情況,涉及time,item和location。典型3-D立方體如圖:timelocationitem第一節(jié)多維數(shù)據(jù)模型1.數(shù)據(jù)立方體timelocatio第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式E-R數(shù)據(jù)模型適用于OLTP,而數(shù)據(jù)倉庫需要簡明的、面向主題的模式,便于聯(lián)機(jī)數(shù)據(jù)分析。數(shù)據(jù)倉庫的數(shù)據(jù)模型采用多維數(shù)據(jù)模型星型模式雪花模式事實(shí)星座模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式星型模式:是最常見的模型范式。這種模式的數(shù)據(jù)倉庫包含:一個(gè)大的事實(shí)表和一組小的維表事實(shí)表包含大批數(shù)據(jù)和不含冗余的中心表維表附屬表,每維一個(gè)表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式星型模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcitycountryitem_keyitem_namebranchtypetime_keydayWeekmonth…Sales事實(shí)表time維表branch維表location維表item維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式雪花模式:是星型模式的變種,其中某些維表是規(guī)范化的,因而數(shù)據(jù)被進(jìn)一步分解到附加的表中雪花模式的規(guī)范化維表,可以減少冗余,便于維護(hù),并且節(jié)省存儲(chǔ)空間;同巨大的事實(shí)表相比,空間節(jié)省有限執(zhí)行查詢需要更多連接操作,雪花模型可能降低瀏覽的性能第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式雪花模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonth…type_keytype_namecity_keycitycountrySales事實(shí)表timebranchlocation維表item維表type維表city維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式事實(shí)星座模式復(fù)雜的應(yīng)用可能需要多個(gè)事實(shí)表共享維表,這種模式可以視為星型模式集,因此稱為星系模式,或事實(shí)星座模式

第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式事實(shí)星座模式time_keyitem_keybranch_keylocation_keymoney_soldunits_soldbranch_keybranch_namebranch_typelocation_keystreetcity_keyitem_keyitem_namebranchtype_keytime_keydayWeekmonth…item_keytime_keyfrom_locationshipper_keymoney_costunits_shippedshipper_keyshipper_namelocation_keySales事實(shí)表timebranchlocation維表item維表shipping事實(shí)表shipper維表第一節(jié)多維數(shù)據(jù)模型2.多維數(shù)據(jù)庫模式time_keyi第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算數(shù)據(jù)立方體度量是一個(gè)數(shù)值函數(shù),該函數(shù)可以對(duì)數(shù)據(jù)立方體的每一個(gè)點(diǎn)求值。通過對(duì)給定點(diǎn)的各維-值對(duì)聚集數(shù)據(jù),計(jì)算該點(diǎn)的度量值度量根據(jù)所用的聚集函數(shù)分成三類:分布的度量、代數(shù)的度量、整體的度量

第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算分布的:一個(gè)聚集函數(shù)是分布的,如果它能以如下分布方式進(jìn)行計(jì)算設(shè)數(shù)據(jù)被劃分為n個(gè)集合,函數(shù)在每一部分上的計(jì)算得到一個(gè)聚集值。如果將函數(shù)用于n個(gè)聚集值得到的結(jié)果,與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣,則該函數(shù)可以用分布方式計(jì)算。一個(gè)度量是分布的,如果它可以用分布聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算代數(shù)的:一個(gè)聚集函數(shù)是代數(shù)的,如果它能由一個(gè)具有M個(gè)參數(shù)的代數(shù)計(jì)算(M是一個(gè)有界整數(shù)),而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得一個(gè)度量是代數(shù)的,如果它可以用代數(shù)聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算整體的:一個(gè)聚集函數(shù)是整體的,如果描述它的子聚集所需的存儲(chǔ)沒有一個(gè)常數(shù)界,即不存在一個(gè)具有M個(gè)參數(shù)的代數(shù)函數(shù)進(jìn)行這一計(jì)算(M是常數(shù)),而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得一個(gè)度量是整體的,如果它可以用整體聚集函數(shù)得到第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算多數(shù)數(shù)據(jù)立方體的應(yīng)用需要有效地計(jì)算分布的和代數(shù)的度量,存在許多有效的技術(shù);而有效計(jì)算整體的度量是很困難的,往往采取計(jì)算以滿意的結(jié)果估計(jì)大數(shù)據(jù)集的中值,不進(jìn)行精確計(jì)算。例如,median()和mode()第一節(jié)多維數(shù)據(jù)模型3.度量的分類與計(jì)算第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷(roll-up)下鉆(drill-down)切片(slice)、切塊(dice)轉(zhuǎn)軸(pivot)鉆過(drill-across)鉆透(drill-through)第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作概念分層將屬性或維組織成漸進(jìn)的抽象層,它將低層概念映射到更一般的高層概念。概念分層對(duì)于多抽象層上的挖掘有用第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷:通過一個(gè)維的概念分層向上攀升或通過維歸約,在數(shù)據(jù)立方體上進(jìn)行聚集第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作上卷LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計(jì)算機(jī)電話安全TimeItem美國加拿大一季度二季度三季度四季度家庭娛樂計(jì)算機(jī)電話安全Location分層定義為全序:“street<city<province_or_state<county”第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作下鉆:通過沿維的概念分層向下或引入新的維來實(shí)現(xiàn),它是上卷的逆操作,由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作下鉆分層定義全序?yàn)椋骸癲ay<month<quarter<year”Location芝加哥紐約芝加哥溫哥華Time一季度二季度三季度四季度Item家庭娛樂計(jì)算機(jī)電話安全I(xiàn)tem家庭娛樂計(jì)算機(jī)電話安全Time1月2月3月4月5月6月7月8月9月10月11月12月Location芝加哥紐約芝加哥溫哥華第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切片:切片操作在給定的數(shù)據(jù)立方體的一個(gè)維上進(jìn)行選擇,導(dǎo)致一個(gè)子方第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切片LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計(jì)算機(jī)電話安全I(xiàn)tem芝加哥溫哥華家庭娛樂計(jì)算機(jī)電話安全Location紐約多倫多Time=“Q1”第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切塊:切塊操作通過對(duì)兩個(gè)或多個(gè)維執(zhí)行選擇,定義子方第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作切塊(location=“Toronto”or“Vancouver”)and(Time=“Q1”or“Q2”)and(item=“homeentertainment”or“computer”)LocationTimeItem芝加哥紐約芝加哥溫哥華一季度二季度三季度四季度家庭娛樂計(jì)算機(jī)電話安全TimeItem多倫多溫哥華一季度二季度家庭娛樂計(jì)算機(jī)Location第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作:轉(zhuǎn)軸:是一種目視操作,它轉(zhuǎn)動(dòng)數(shù)據(jù)的視角,提供數(shù)據(jù)的替代表示第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作:第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作轉(zhuǎn)軸Item芝加哥溫哥華家庭娛樂計(jì)算機(jī)電話安全Location紐約多倫多Item家庭娛樂安全芝加哥紐約多倫多溫哥華Location計(jì)算機(jī)電話第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作鉆過:執(zhí)行涉及多個(gè)事實(shí)表的查詢鉆透:操作使用關(guān)系SQL機(jī)制,鉆到數(shù)據(jù)立方體的底層,到后端關(guān)系表OLAP的許多特征體現(xiàn)在統(tǒng)計(jì)數(shù)據(jù)庫(SDB)的早期工作中,而SDB關(guān)注社會(huì)經(jīng)濟(jì)應(yīng)用,OLAP旨在商務(wù)應(yīng)用以及有效處理海量數(shù)據(jù)

第一節(jié)多維數(shù)據(jù)模型4.多維數(shù)據(jù)模型上的OLAP操作第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計(jì)步驟數(shù)據(jù)倉庫設(shè)計(jì)需要考慮的四種視圖:自頂向下視圖:可以幫助選擇數(shù)據(jù)倉庫所需的相關(guān)息,這些信息能夠滿足當(dāng)前和未來商務(wù)的需求數(shù)據(jù)源視圖:揭示被操作數(shù)據(jù)庫系統(tǒng)捕獲、存儲(chǔ)和管理的信息數(shù)據(jù)倉庫視圖:包括事實(shí)表和維表商務(wù)查詢視圖:從最終用戶的角度透視數(shù)據(jù)倉庫中的數(shù)據(jù)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計(jì)步驟第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計(jì)步驟數(shù)據(jù)倉庫的設(shè)計(jì)包括如下步驟:選取待建模的商務(wù)處理。如果商務(wù)過程針對(duì)整個(gè)組織,并涉及多個(gè)復(fù)雜對(duì)象,選用數(shù)據(jù)倉庫模型;如果是某一部門的、或某一類商務(wù)處理,應(yīng)選擇數(shù)據(jù)集市。選取商務(wù)處理的粒度選取用于每個(gè)事實(shí)表記錄的維選取安放在事實(shí)表中的度量第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)1.數(shù)據(jù)倉庫的設(shè)計(jì)步驟第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)倉庫通常采用三層結(jié)構(gòu):底層:數(shù)據(jù)倉庫服務(wù)器中間層:OLAP服務(wù)器頂層:前端工具第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)清理轉(zhuǎn)換集成輸出業(yè)務(wù)數(shù)據(jù)庫外部信息源數(shù)據(jù)倉庫數(shù)據(jù)集市OLAP服務(wù)器底層:數(shù)據(jù)倉庫服務(wù)器頂層:前端工具中間層:OLAP服務(wù)器元數(shù)據(jù)存貯第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)清理轉(zhuǎn)換集成輸出業(yè)務(wù)數(shù)據(jù)庫外第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)從結(jié)構(gòu)的角度,有三種數(shù)據(jù)倉庫模型:

企業(yè)倉庫數(shù)據(jù)集市虛擬倉庫第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)企業(yè)倉庫企業(yè)倉庫(Enterprisewarehouse)收集跨越整個(gè)企業(yè)的各個(gè)主題的所有信息。它提供全企業(yè)的數(shù)據(jù)集成,數(shù)據(jù)通常來自多個(gè)操作型數(shù)據(jù)庫和外部信息提供者,并且是跨越多個(gè)功能范圍的。它通常包含詳細(xì)數(shù)據(jù)和匯總數(shù)據(jù)企業(yè)數(shù)據(jù)倉庫可以在傳統(tǒng)的大型機(jī)上實(shí)現(xiàn),例如UNIX超級(jí)服務(wù)器或并行結(jié)構(gòu)平臺(tái)。它需要廣泛的業(yè)務(wù)建模,可能需要多年的時(shí)間來設(shè)計(jì)和建造第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)集市數(shù)據(jù)集市(datamart)包含對(duì)特定用戶有用的,企業(yè)范圍數(shù)據(jù)的一個(gè)子集。它的范圍限于選定的主題,例如一個(gè)商場(chǎng)的數(shù)據(jù)集市可能限定它的主題為顧客、商品和銷售。數(shù)據(jù)集市中的數(shù)據(jù)通常為匯總數(shù)據(jù)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)數(shù)據(jù)集市實(shí)現(xiàn)數(shù)據(jù)集市的周期一般是數(shù)周,而不是數(shù)月或數(shù)年,然而,如果它的規(guī)劃不是企業(yè)范圍的,從長遠(yuǎn)講,可能會(huì)涉及很復(fù)雜的集成根據(jù)數(shù)據(jù)的來源不同,數(shù)據(jù)集市分為獨(dú)立的依賴的二類。在獨(dú)立的數(shù)據(jù)集市中,數(shù)據(jù)來自一個(gè)或多個(gè)操作型數(shù)據(jù)庫或外部信息提供者,或者是一個(gè)特定的部門或地區(qū)本地產(chǎn)生的數(shù)據(jù)。在依賴的數(shù)據(jù)集市中,數(shù)據(jù)直接來自企業(yè)數(shù)據(jù)倉庫第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)虛擬倉庫虛擬倉庫(virtualwarehouse)是操作型數(shù)據(jù)庫上視圖的集合。為了有效地處理查詢,只做了一些可能的匯總視圖。虛擬倉庫易于創(chuàng)建,但需要操作型數(shù)據(jù)庫服務(wù)器具有剩余能力第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)2.數(shù)據(jù)倉庫的結(jié)構(gòu)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)3.

OLAP服務(wù)器的類型

關(guān)系OLAP(ROLAP)服務(wù)器多維OLAP(MOLAP)服務(wù)器混合OLAP(HOLAP)服務(wù)器特殊的SQL服務(wù)器第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)3.OLAP服務(wù)器的類型第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(RelationalOLAP)ROLAP將分析用的多維數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫中,并根據(jù)應(yīng)用需求有選擇的定義一批視圖作為表存儲(chǔ)在關(guān)系數(shù)據(jù)庫中。不必要將每一個(gè)SQL查詢都作為實(shí)視圖保存,只定義那些應(yīng)用頻率比較高、計(jì)算工作量比較大的查詢作為實(shí)視圖第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(Relati4.關(guān)系OLAP(RelationalOLAP)對(duì)每個(gè)針對(duì)OLAP服務(wù)器的查詢,優(yōu)先利用已經(jīng)計(jì)算好的實(shí)視圖來生成查詢結(jié)果以提高查詢效率。同時(shí)用作ROLAP存儲(chǔ)器的RDBMS也針對(duì)OLAP作相應(yīng)的優(yōu)化,比如并行存儲(chǔ)、并行查詢、并行數(shù)據(jù)管理、基于成本的查詢優(yōu)化、位圖索引、SQL的OLAP擴(kuò)展(cube、rollup)等等第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)4.關(guān)系OLAP(RelationalOLAP)第二節(jié)第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(MultidimensionalOLAP)MOLAP將OLAP分析所用到的多維數(shù)據(jù)物理上存儲(chǔ)為多維數(shù)組的形式,形成“立方體”的結(jié)構(gòu)。維的屬性值被映射成多維數(shù)組的下標(biāo)值或下標(biāo)的范圍,而總結(jié)數(shù)據(jù)作為多維數(shù)組的值存儲(chǔ)在數(shù)組的單元中第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(Multid第二節(jié)數(shù)據(jù)倉庫的系統(tǒng)結(jié)構(gòu)5.多維OLAP(MultidimensionalOLAP)由于MOLAP采用新的存儲(chǔ)結(jié)構(gòu),從物理層實(shí)現(xiàn)起,因此又稱為物理OLAP(PhysicalOLAP)而ROLA

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論