版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)倉(cāng)庫(kù)維度建模筆記2009-03-2420:01數(shù)據(jù)倉(cāng)庫(kù)工具箱維度建模的完全指南是數(shù)據(jù)倉(cāng)庫(kù)建模方面的經(jīng)典著作,1996年第一版出版被認(rèn)為是數(shù)據(jù)倉(cāng)庫(kù)方面具有里程碑意義的事件。作者kimballl是數(shù)據(jù)倉(cāng)庫(kù)方面的權(quán)威,他將多年的數(shù)據(jù)倉(cāng)庫(kù)建模實(shí)戰(zhàn)經(jīng)驗(yàn)、技巧融入本書(shū)。他提出的許多維度建模概念被廣泛應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和開(kāi)發(fā)中。2002年本書(shū)出版了第二版。這是一部非常好的數(shù)據(jù)倉(cāng)庫(kù)建模的書(shū),前后完整的讀了三遍,受益匪淺。以下筆記將本按四個(gè)部分組織:一、數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)和建模過(guò)程、技巧。二、維度表建模技術(shù)。三、事實(shí)表建模技術(shù)。四、行業(yè)建模經(jīng)驗(yàn)。一、數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)和建模過(guò)程、技巧關(guān)鍵點(diǎn):數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)、
2、維度建模的四個(gè)步驟、數(shù)據(jù)倉(cāng)庫(kù)總線結(jié)構(gòu)、一致性維度。1、對(duì)于數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō),業(yè)務(wù)需求是第一位的。2、數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo):(1)、隨心所欲的訪問(wèn)數(shù)據(jù)。直觀、明顯、簡(jiǎn)單、易用、切割、合并、下鉆、上卷。(2)、一致的展現(xiàn)數(shù)據(jù)(相對(duì)于原來(lái)從多個(gè)系統(tǒng)中出來(lái)的報(bào)表不一致)。(3)、適應(yīng)性、擴(kuò)展性、可維護(hù)性。(4)、為領(lǐng)導(dǎo)決策提供支持。3、數(shù)據(jù)倉(cāng)庫(kù)的組成。源數(shù)據(jù)-數(shù)據(jù)準(zhǔn)備區(qū)-數(shù)據(jù)倉(cāng)庫(kù)(維度建模)-數(shù)據(jù)聚集區(qū)(OLAP)-展現(xiàn)。其中原系統(tǒng)到數(shù)據(jù)準(zhǔn)備區(qū)屬于ETL過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)聚集區(qū)本書(shū)稱為數(shù)據(jù)展示。展現(xiàn)本書(shū)稱為數(shù)據(jù)存取工具。4、數(shù)據(jù)倉(cāng)庫(kù)應(yīng)特別注意的幾點(diǎn)特點(diǎn):(1)、數(shù)據(jù)應(yīng)該以維度的形式進(jìn)行展示、存儲(chǔ)和訪問(wèn)。(2)
3、、數(shù)據(jù)倉(cāng)庫(kù)中必須包含詳細(xì)的原子數(shù)據(jù)。(3)、必須采用共同的維度和事實(shí)表來(lái)建模。5、數(shù)據(jù)倉(cāng)庫(kù)采用使用維度建模的好處:易理解、查詢的高性能、修改的靈活性和可擴(kuò)充性。6、維度建模的擴(kuò)展性。表現(xiàn)在三個(gè)方面:(1)、在現(xiàn)有的事實(shí)表中增加維度。(2)、在事實(shí)表中增加事實(shí)。(3)、在維度表中增加屬性。(第一章)7、維度模型設(shè)計(jì)的四個(gè)步驟。(1)、選取業(yè)務(wù)(主題)。(2)、定于業(yè)務(wù)處理的粒度。(3)、選擇維度。(4)、選擇事實(shí)。8、應(yīng)優(yōu)先為模型選擇有原子性的信息,因?yàn)樵有缘臄?shù)據(jù)提供了最大限度的靈活性,可以接受任何可能形式的約束。(第二章)9、數(shù)據(jù)倉(cāng)庫(kù)總線結(jié)構(gòu)。實(shí)際上是一種增量建模方式,通過(guò)一致性維度來(lái)集成數(shù)
4、據(jù)中心。數(shù)據(jù)總線矩陣:業(yè)務(wù)處理、公共維度。一級(jí)數(shù)據(jù)中心:衍生于單個(gè)基本源系統(tǒng)的數(shù)據(jù)中心,建議從一級(jí)數(shù)據(jù)中心開(kāi)始建模,因?yàn)閷?dǎo)致失敗的主要風(fēng)險(xiǎn)是ETL。合并數(shù)據(jù)中心:合并多個(gè)位于不同源系統(tǒng)的一級(jí)數(shù)據(jù)中心。(第三章)10、維度建模復(fù)查??紤]的問(wèn)題:粒度,日期維度,退化維度,維度屬性采用名稱而不是編碼,代理關(guān)鍵字,維度的多少。11、維度建模常犯的錯(cuò)誤:(1)、舍棄一致性維度和一致性事實(shí)表。(2)、事實(shí)表的粒度不采用原子型。(3)、基于報(bào)表來(lái)設(shè)計(jì)維度表。(4)、不使用代理關(guān)鍵字。(5)、忽視維度的變化的需求。(6)、將體系與體系層次分解成多個(gè)維度。(7)、在維度表中為節(jié)省空間而限制使用詳細(xì)的描述屬性。(
5、8)、在事實(shí)表中放置用于約束與分組操作的文本屬性。(第十五章)12、數(shù)據(jù)倉(cāng)庫(kù)成功的五個(gè)前提:(1)、擁有精明、強(qiáng)干的業(yè)務(wù)用戶。用戶應(yīng)該對(duì)數(shù)據(jù)倉(cāng)庫(kù)具有獨(dú)特的見(jiàn)解,堅(jiān)信數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目具有實(shí)現(xiàn)的價(jià)值。(2)、機(jī)構(gòu)必須存在建立數(shù)據(jù)倉(cāng)庫(kù)堅(jiān)實(shí)而有說(shuō)服力的業(yè)務(wù)動(dòng)機(jī)。(3)、數(shù)據(jù)倉(cāng)庫(kù)的可用性。(4)、業(yè)務(wù)用戶與IT人員之間的溝通。(5)、業(yè)務(wù)分析人員的分析文化,是基于圖形、數(shù)據(jù)還是直覺(jué)、傳聞和一時(shí)沖動(dòng)。(第十六章)二、維度表建模技巧關(guān)鍵點(diǎn):退化維度、代理關(guān)鍵字、一致性維度、漸變維度、角色模仿、雜項(xiàng)維度、微型維度、深度可變的層次建模方法、審計(jì)維度、多值維度解決辦法、異構(gòu)產(chǎn)品解決辦法。1、維度表傾向于將行數(shù)做得相當(dāng)
6、少,而將列數(shù)做的特別大。數(shù)據(jù)倉(cāng)庫(kù)的能力直接與維度表的屬性的質(zhì)量和深度成正比。2、維度的屬性采用文字而不是編碼。3、維度表通常是不規(guī)范的,幾乎總是用空間換取簡(jiǎn)明性和可訪問(wèn)性。(第一章)4、日期維度,應(yīng)包含星期、周末指示符、月末指示符、節(jié)假日指示符、重大事件、財(cái)政時(shí)間等。5、如果需要處理一天中不同時(shí)間,則增加一個(gè)時(shí)間維度。6、一個(gè)維度包含多個(gè)體系(層次),每個(gè)層次包含若干級(jí)別。7、退化維度。一方面可以通過(guò)退化維度對(duì)數(shù)據(jù)進(jìn)行分組,另一方面可以使用退化維度關(guān)聯(lián)到源數(shù)據(jù)上,有利于ETL更新及排錯(cuò)。8、一般情況維度個(gè)數(shù)應(yīng)該控制在15個(gè)以內(nèi),唯獨(dú)過(guò)多影響查詢性能和磁盤(pán)空間。一些小維度可以進(jìn)行組合,這取決于具
7、體的業(yè)務(wù)。9、代理關(guān)鍵字。使用代理關(guān)鍵字的優(yōu)點(diǎn):能實(shí)現(xiàn)漸變維度;獲得性能上的優(yōu)勢(shì),節(jié)省事實(shí)表空間;可以記錄沒(méi)有操作源碼的數(shù)據(jù)(ETL過(guò)程生成);處理關(guān)鍵字段的修改、刪除等。(第二章)10、一致性維度。具有一致性的維度關(guān)鍵字,以致的屬性名稱,以致的屬性定義,一致的屬性值。一致性維度對(duì)于設(shè)計(jì)可以進(jìn)行集成的數(shù)據(jù)中心來(lái)說(shuō),具有絕對(duì)的決定性作用。(第三章)11、漸變維度。漸變維度的處理辦法。類型1:改寫(xiě)屬性值;類型2:添加維度行;類型3:添加維度列。第二種類型最常用。12、快變維度的處理辦法:將這些迅速變化的屬性分裂成一個(gè)或者多個(gè)單獨(dú)的維度。(第四章)13、維度的角色模仿。在同一個(gè)維度表上通過(guò)視圖的形式
8、建立多個(gè)維度。在實(shí)際運(yùn)用中,很多OLAP工具都支持在同一個(gè)維度表上建多個(gè)維度,而并不需要建立視圖。14、實(shí)體之間存在固定的,不隨時(shí)間變化的,強(qiáng)烈相關(guān)的關(guān)系時(shí),顯然應(yīng)該將它們當(dāng)作單一維度進(jìn)行建模。15、雜項(xiàng)維度。將標(biāo)志與指標(biāo)符從設(shè)計(jì)中剝離出來(lái),將其封裝成一個(gè)或者多個(gè)雜項(xiàng)維度。(第五章)16、將聚集事實(shí)放入維度表的優(yōu)缺點(diǎn)。優(yōu)點(diǎn):查詢時(shí)可以對(duì)聚集屬性進(jìn)行約束。缺點(diǎn):ETL過(guò)程變麻煩了。17、雪花模型的使用場(chǎng)合:粒度懸殊,節(jié)省空間(屬性眾多)。18、寬度變化的屬性集的處理辦法:拆分成兩個(gè)維度。Oracle數(shù)據(jù)庫(kù)不存在這個(gè)問(wèn)題。19、采用類型2的方式處理維度慢性變化時(shí),應(yīng)該注意避免計(jì)數(shù)過(guò)度。20、深化不
9、變的體系結(jié)構(gòu)(層次、級(jí)別)。一個(gè)層次建立單獨(dú)的字段。如果某一個(gè)級(jí)別沒(méi)有值,就應(yīng)該用較低級(jí)別的屬性覆蓋該值。21、深度可變的體系結(jié)構(gòu)。使用橋接標(biāo)來(lái)解決。父到子的每一條路徑都包含一行記錄,到其自身長(zhǎng)度為0的路徑包含一行。實(shí)際上是把循環(huán)遞歸的過(guò)程通過(guò)表數(shù)據(jù)的形式實(shí)現(xiàn)。大量olap工具以提供了對(duì)小于64000個(gè)成員的中小尺寸維度中這些體系進(jìn)行導(dǎo)航操作得更加強(qiáng)勁的內(nèi)置功能支持。(第六章)22、依照十五描述內(nèi)容在每行加入生效和截止日期標(biāo)記,可以將類型2漸變維度設(shè)計(jì)方案修改為允許自然的對(duì)維度在時(shí)間上進(jìn)行非常精細(xì)的切割。23、審計(jì)維度。源系統(tǒng)的情況;抽取軟件的版本;抽取記錄數(shù);開(kāi)始時(shí)間;完成時(shí)間等。24、維度
10、的屬性數(shù)量不確定時(shí),使用關(guān)鍵詞支架維度。相當(dāng)于將橫表設(shè)計(jì)成縱表。使用union和intersect命令解決SQL跨行約束問(wèn)題。(第八章)25、維度類型:因果維度、多日期或時(shí)間標(biāo)記維度、退化維度、角色模仿維度、狀態(tài)維度、審計(jì)維度、雜項(xiàng)維度。26、多值維度。概念:一個(gè)賬戶擁有多個(gè)客戶,一個(gè)客戶也可能擁有多個(gè)賬戶。解決辦法:橋接表。27、異構(gòu)產(chǎn)品方案。概念:每種產(chǎn)品類型都有大量的專用屬性與度量事實(shí)不能為其他產(chǎn)品所用。解決方案:核心維度,定制維度,使用相同的代理關(guān)鍵字。采用支架結(jié)構(gòu)。(第九章)28、日期維度。國(guó)別歷法的處理辦法,做成日期維度的支架。29、多個(gè)時(shí)區(qū)日期的處理辦法,增加維度。(第十章)30
11、、多值維度解決方案。所謂多值維度是指一個(gè)事實(shí)表對(duì)應(yīng)多個(gè)值的維度,比如,住院結(jié)算事實(shí)表?yè)碛卸鄠€(gè)疾病。通過(guò)組橋表來(lái)實(shí)現(xiàn)。組橋表可以增加起止時(shí)間來(lái)滿足住院漸變維度??梢栽黾蛹訖?quán)因子來(lái)實(shí)現(xiàn)財(cái)務(wù)報(bào)表關(guān)于疾病的分類統(tǒng)計(jì)。31、稀疏事實(shí)表的解決方案。事實(shí)維度表。實(shí)際上是縱表和橫表的設(shè)計(jì)思想。優(yōu)點(diǎn):靈活、結(jié)構(gòu)簡(jiǎn)單、節(jié)省空間。缺點(diǎn):生成查詢、報(bào)表復(fù)雜、行間計(jì)算困難。32、遲到維度行的處理辦法。所謂遲到維度是指某項(xiàng)屬性到當(dāng)前時(shí)間才知道其以前的值。通過(guò)漸變維度(類型2)的方法處理,在維度表中增加記錄并修改其他型的起止時(shí)間,在事實(shí)表中修改該維度的代理關(guān)鍵字。(第十三章)三、事實(shí)表建模技術(shù)1、事實(shí)表中的事實(shí)分為三種類型
12、:可加性事實(shí),半可加性事實(shí),非可加性事實(shí)。2、事實(shí)表的三種粒度:事務(wù),周期快照,累計(jì)快照。3、事實(shí)表傾向于具有更多的行和更少的列。4、事實(shí)表的主鍵應(yīng)采用復(fù)合主鍵,引入唯一的rowid關(guān)鍵字作為主鍵字并無(wú)什么優(yōu)點(diǎn)可言。(第一章)5、明顯屬于不同粒度的事實(shí)必須放在單獨(dú)的事實(shí)表中。6、將可計(jì)算得值作為事實(shí)的原因:消除用戶出錯(cuò)的可能性,一致的引用它。例如,利潤(rùn)=銷售額-成本額,將利潤(rùn)作為一個(gè)事實(shí)而不是通過(guò)展現(xiàn)工具進(jìn)行計(jì)算得到。7、非可加性的數(shù)據(jù)項(xiàng)盡量不要放到事實(shí)表中。例如,毛利潤(rùn)率是非可加性數(shù)據(jù),不應(yīng)該保存在事實(shí)表中,應(yīng)保存分子和分母,再通過(guò)前端展現(xiàn)工具進(jìn)行計(jì)算得到。8、非事實(shí)型事實(shí)表。解答什么促銷產(chǎn)
13、品沒(méi)有賣出去的問(wèn)題。建立一張非事實(shí)型事實(shí)表,促銷產(chǎn)品(周期快照)中每個(gè)商場(chǎng)的每隔促銷產(chǎn)品每天創(chuàng)建一行。再關(guān)聯(lián)銷售事實(shí)表來(lái)解決什么產(chǎn)品沒(méi)有賣出去這個(gè)問(wèn)題。9、事實(shí)表的粒度很關(guān)鍵,決定了維度模型的擴(kuò)展性。過(guò)早匯總或者聚集處理必然限制對(duì)維度的增補(bǔ)。10、半可加性事實(shí)。對(duì)特定的維度具有可加性,對(duì)其他維度不具有可加性。11、周期快照事實(shí)表是最常見(jiàn)的庫(kù)存設(shè)計(jì)方案。12、一致性事實(shí)。一致的事實(shí)定義,一致的測(cè)量單位。(第三章)13、使用單個(gè)事實(shí)表(通過(guò)增加事務(wù)類型維度)還是多個(gè)事實(shí)表的選擇:(1)、業(yè)務(wù)需求(目標(biāo)是降低復(fù)雜度,用最有效的形式將數(shù)據(jù)展示給用戶)。(2)、業(yè)務(wù)處理的關(guān)聯(lián)性。(3)、源系統(tǒng)。(4)、
14、維度是否完全一致。(第四章)14、事實(shí)表的規(guī)范化??v表和橫表的設(shè)計(jì)方式。優(yōu)缺點(diǎn)。事實(shí)設(shè)置顯得比較稀疏并且不在事實(shí)之間運(yùn)算的情形是有用的。15、不同粒度事實(shí)的處理辦法。例如,訂貨系統(tǒng)中的訂貨分列項(xiàng)事實(shí)表(基于產(chǎn)品)與裝運(yùn)費(fèi)(基于訂單)。兩種處理方式:(1)、分配到細(xì)節(jié)層次(裝運(yùn)費(fèi)d產(chǎn)品)。(2)、建立兩個(gè)事實(shí)表。優(yōu)先采用第一種方式。16、累計(jì)快照。采用對(duì)整個(gè)訂單處理流程的分析感性趣,他們想了解產(chǎn)品的移動(dòng)速度,累計(jì)快照很好的體現(xiàn)這種業(yè)務(wù)情景。適用:具有明確起止時(shí)間的短期處理應(yīng)用。17、多個(gè)計(jì)量單位的處理辦法。將轉(zhuǎn)移因子寫(xiě)入事實(shí)表。18、三種事實(shí)粒度的比較:(第五章)時(shí)間段粒度加載更新日期維度事實(shí)事
15、務(wù)時(shí)間點(diǎn)每個(gè)事務(wù)一行插入不事務(wù)日期事務(wù)活動(dòng)周期規(guī)律間隔每段一插入不時(shí)間段間隔快照行終止日期事務(wù)累計(jì)快照不確定跨度,一般短期每個(gè)生命期一行插入更新行為發(fā)生時(shí)更新關(guān)鍵環(huán)節(jié)多日期生命周期性能19、至今為止事實(shí):應(yīng)該計(jì)算出來(lái),而不是保存在事實(shí)表中。數(shù)字型事實(shí)必須與粒度保持一致。20、事實(shí)的變化通過(guò)增加一行沖減記錄,而不是通過(guò)修改原事實(shí)數(shù)據(jù)。21、事實(shí)的自由分段。通過(guò)分段定義表連接到事實(shí)表上,來(lái)靈活劃分和定義分段。分段事實(shí)字段需建索引。(第七章)22、時(shí)間點(diǎn)結(jié)余建模。在事實(shí)表中增加最后標(biāo)記字段和事務(wù)結(jié)束結(jié)余來(lái)實(shí)現(xiàn)。使用事務(wù)表來(lái)代替日快照事實(shí)表。(第九章)23、多個(gè)事實(shí)表粒度。不是很理解。(第十一章)24、非事實(shí)型事實(shí)表。沒(méi)有度量值,記錄發(fā)生的事件。分為兩類。第一類記錄事件與大量維度實(shí)體同時(shí)出
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物可吸收支架臨床應(yīng)用進(jìn)展
- XX單位2025年冬季安全生產(chǎn)隱患排查整治工作情況報(bào)告
- 生物制品長(zhǎng)期穩(wěn)定性試驗(yàn)方案制定規(guī)范
- 生物制劑臨床試驗(yàn)中期療效預(yù)測(cè)模型構(gòu)建
- 深度解析(2026)《GBT 20501.3-2017公共信息導(dǎo)向系統(tǒng) 導(dǎo)向要素的設(shè)計(jì)原則與要求 第3部分:平面示意圖》
- 物聯(lián)網(wǎng)技術(shù)人才招聘面試題集與解析
- 生活質(zhì)量改善為目標(biāo)的兒童癥狀控制方案設(shè)計(jì)
- 金融科技合規(guī)官面試題及反洗錢措施含答案
- 游戲行業(yè)運(yùn)營(yíng)策劃經(jīng)理面試題及答案
- 面試題解析渤海銀行政助理崗位
- 黨史專題講座智慧樹(shù)知到期末考試答案章節(jié)答案2024年哈爾濱工程大學(xué)
- DMAIC六西格瑪項(xiàng)目報(bào)告模板
- 預(yù)防褥瘡氣墊床臨床應(yīng)用
- 銀行開(kāi)學(xué)季營(yíng)銷活動(dòng)
- 如何激勵(lì)學(xué)生學(xué)習(xí)的積極性和主動(dòng)性
- 百詞斬雅思核心詞匯
- 蒸汽和凝結(jié)水管道設(shè)計(jì)
- 股骨粗隆間骨折課件
- 過(guò)盈配合壓裝力計(jì)算
- 西方哲學(xué)史期末考試試題及答案
- 第二章水質(zhì)分析
評(píng)論
0/150
提交評(píng)論