版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)倉庫實(shí)施指南梅花與劍1231數(shù)據(jù)倉庫相關(guān)概念數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)施方法目錄
一、數(shù)據(jù)倉庫相關(guān)概念什么是數(shù)據(jù)倉庫一種面向分析的環(huán)境;一種把相關(guān)的各種數(shù)據(jù)轉(zhuǎn)換成有商業(yè)價(jià)值的信息的技術(shù)。數(shù)據(jù)倉庫理論的創(chuàng)始人W.H.Inmon在其《BuildingtheDataWarehouse》一書中,給出了數(shù)據(jù)倉庫的四個(gè)基本特征:面向主題,數(shù)據(jù)是集成的,數(shù)據(jù)是不可更新的,數(shù)據(jù)是隨時(shí)間不斷變化的。
一、數(shù)據(jù)倉庫相關(guān)概念區(qū)分業(yè)務(wù)型與分析型數(shù)據(jù)庫一、數(shù)據(jù)倉庫相關(guān)概念業(yè)務(wù)型數(shù)據(jù)庫的特點(diǎn)用于減少冗余和提高精度適合于數(shù)據(jù)的寫入和更新而不是數(shù)據(jù)的讀取一、數(shù)據(jù)倉庫相關(guān)概念業(yè)務(wù)型數(shù)據(jù)庫的問題一、數(shù)據(jù)倉庫相關(guān)概念分析型數(shù)據(jù)庫的特點(diǎn)一、數(shù)據(jù)倉庫相關(guān)概念星型結(jié)構(gòu)的好處一、數(shù)據(jù)倉庫相關(guān)概念維度一、數(shù)據(jù)倉庫相關(guān)概念度量度量也叫事實(shí),是用于評(píng)價(jià)業(yè)務(wù)狀況的數(shù)值型數(shù)據(jù)例如:銷售額、成本、利潤、庫存量、交易數(shù)在企業(yè)活動(dòng)中通常是通過如銷售額、費(fèi)用、庫存量和定額一類的關(guān)鍵性能指標(biāo)——度量來監(jiān)測業(yè)務(wù)的成效。不同的度量反映出不同的業(yè)務(wù)性質(zhì)。度量之間相互獨(dú)立。度量是業(yè)務(wù)量化的表示。一、數(shù)據(jù)倉庫相關(guān)概念多維立方體露營裝備2005年在歐洲的銷量一、數(shù)據(jù)倉庫相關(guān)概念多維分析一、數(shù)據(jù)倉庫相關(guān)概念維度、層和類別1232數(shù)據(jù)倉庫相關(guān)概念數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)施方法目錄
一、數(shù)據(jù)倉庫相關(guān)概念I(lǐng)nmon的企業(yè)信息化工廠企業(yè)數(shù)據(jù)倉庫ETL組織數(shù)據(jù)用于部門級(jí)分析多維模型原子數(shù)據(jù)的集成倉庫第三范式操作型應(yīng)用程序用戶…數(shù)據(jù)集市DSS應(yīng)用程序挖掘&探索…一、數(shù)據(jù)倉庫相關(guān)概念Kimball的維度數(shù)據(jù)倉庫維度數(shù)據(jù)倉庫ETL數(shù)據(jù)集市:數(shù)據(jù)倉庫中的主題區(qū)域原子數(shù)據(jù)的集成倉庫維度模型操作型應(yīng)用程序用戶…一、數(shù)據(jù)倉庫相關(guān)概念獨(dú)立型數(shù)據(jù)集市ETL相互獨(dú)立的數(shù)據(jù)倉庫操作型應(yīng)用程序…DSS系統(tǒng)分析系統(tǒng)…ETLETL………專賣分析數(shù)據(jù)倉庫二、數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)中心用戶是誰?要解決什么問題?用戶:領(lǐng)導(dǎo)—決策支持業(yè)務(wù)人員—報(bào)表、業(yè)務(wù)操作信息中心—服務(wù)領(lǐng)導(dǎo)和業(yè)務(wù)人員解決問題:數(shù)據(jù)分散:難管理、難應(yīng)用數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一:可信度低辦法:集中:數(shù)入一庫集成:數(shù)出一門應(yīng)用:報(bào)表、數(shù)據(jù)挖掘、數(shù)據(jù)共享二、數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)中心五大體系信息資源標(biāo)準(zhǔn)體系數(shù)據(jù)交換服務(wù)體系數(shù)據(jù)加工存儲(chǔ)體系數(shù)據(jù)分析應(yīng)用體系信息安全保障體系二、數(shù)據(jù)倉庫體系結(jié)構(gòu)信息資源標(biāo)準(zhǔn)體系-"建、管、用”數(shù)據(jù)標(biāo)準(zhǔn):主數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)元標(biāo)準(zhǔn)、指標(biāo)體系、指數(shù)體系、數(shù)據(jù)模型標(biāo)準(zhǔn)等技術(shù)標(biāo)準(zhǔn):數(shù)據(jù)交換標(biāo)準(zhǔn)等管理標(biāo)準(zhǔn):數(shù)據(jù)中心管理辦法、數(shù)據(jù)中心管理流程運(yùn)維標(biāo)準(zhǔn):數(shù)據(jù)安全管理規(guī)范,數(shù)據(jù)發(fā)布、共享及服務(wù)規(guī)范等標(biāo)準(zhǔn)如何落地?二、數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)交換服務(wù)體系ETL數(shù)據(jù)復(fù)制WEB服務(wù)MQ中間表共享文件方式共享二、數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)加工存儲(chǔ)體系數(shù)據(jù)建模ODS:緩沖數(shù)據(jù)區(qū)(全量)規(guī)范數(shù)據(jù)區(qū)(增量)整合數(shù)據(jù)區(qū)(明細(xì)維度模型-按主題,近期數(shù)據(jù))DW:整合數(shù)據(jù)區(qū)(明細(xì)維度模型-按主題,全量數(shù)據(jù))匯總數(shù)據(jù)區(qū)(按需匯總,全量)DM:多維模型-面向業(yè)務(wù)部門二、數(shù)據(jù)倉庫體系結(jié)構(gòu)信息安全保障體系內(nèi)容:數(shù)據(jù)安全保障:傳輸、加工存儲(chǔ)、分析應(yīng)用數(shù)據(jù)質(zhì)量保障實(shí)施安全保障:身份鑒別、訪問控制、安全審計(jì)、容錯(cuò)、備份恢復(fù)等注意事項(xiàng):安全意識(shí)權(quán)限控制責(zé)任清晰運(yùn)維工作實(shí)時(shí)性應(yīng)急措施及應(yīng)急演練1233數(shù)據(jù)倉庫相關(guān)概念數(shù)據(jù)倉庫體系結(jié)構(gòu)數(shù)據(jù)倉庫實(shí)施方法目錄
三、數(shù)據(jù)倉庫實(shí)施方法數(shù)據(jù)中心實(shí)施路徑信息系統(tǒng)建模用戶視圖登記數(shù)據(jù)項(xiàng)整理數(shù)據(jù)元素規(guī)范化業(yè)務(wù)建模標(biāo)準(zhǔn)制定主數(shù)據(jù)建模企業(yè)數(shù)據(jù)建模源頭目標(biāo)分析模型明確項(xiàng)目范圍和目標(biāo)三、數(shù)據(jù)倉庫實(shí)施方法維度模型設(shè)計(jì)——四步維度建模法1選取業(yè)務(wù)過程2定義粒度3選定維度4確定事實(shí)三、數(shù)據(jù)倉庫實(shí)施方法第一步:選取業(yè)務(wù)過程原則:針對(duì)業(yè)務(wù)流程進(jìn)行維度建模確保某個(gè)業(yè)務(wù)流程中的核心數(shù)據(jù)只被抽取一次保證數(shù)據(jù)倉庫中業(yè)務(wù)數(shù)據(jù)一致性誤區(qū):不針對(duì)業(yè)務(wù)流程而針對(duì)業(yè)務(wù)部門進(jìn)行維度建模為某個(gè)部門或某張報(bào)表建立單獨(dú)的維度模型三、數(shù)據(jù)倉庫實(shí)施方法第二步:定義粒度粒度的解釋:粒度傳遞了同事實(shí)表度量值相聯(lián)系的細(xì)節(jié)所達(dá)到的程度方面的信息。簡單的說,反映了事實(shí)表的明細(xì)程度。粒度舉例:超市小票上的購物清單(某位顧客某天在某個(gè)超市的某個(gè)收銀臺(tái)購買了什么商品)醫(yī)生的處方藥品清單倉庫每種產(chǎn)品庫存值的月快照原則:最小粒度原則。優(yōu)先考慮具有原子粒度的業(yè)務(wù)信息,這些數(shù)據(jù)不能再做進(jìn)一步的細(xì)分?jǐn)?shù)據(jù)倉庫中存儲(chǔ)匯總的、概要性的數(shù)據(jù)主要是基于數(shù)據(jù)庫性能上的考慮匯總數(shù)據(jù)不能成為最底層細(xì)節(jié)數(shù)據(jù)的替代品三、數(shù)據(jù)倉庫實(shí)施方法第三步:選擇維度原則:在粒度確認(rèn)后,選取能從各個(gè)角度,充分描述問題的維度為每個(gè)維度添加豐富的維度屬性誤區(qū):沒有定義粒度就開始選定維度示例:常見維度包括日期、產(chǎn)品、顧客、事務(wù)類型和狀態(tài)三、數(shù)據(jù)倉庫實(shí)施方法第四步:確定事實(shí)原則:事實(shí)表由包含引用維度的外鍵和事實(shí)構(gòu)成。在需求調(diào)研時(shí)我們可以通過提出"您需要對(duì)哪些指標(biāo)進(jìn)行統(tǒng)計(jì)?”這樣的問題來確定事實(shí)。事實(shí)表應(yīng)該包含所有與業(yè)務(wù)過程有關(guān)的事實(shí)。反映不同業(yè)務(wù)過程的事實(shí)應(yīng)該放在不同的事實(shí)表中。具有不同粒度的事實(shí)必須放在不同的事實(shí)表中事實(shí)一般在各維度上都有良好的可加性三、數(shù)據(jù)倉庫實(shí)施方法維度建??偨Y(jié)維度建模總原則:需求驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)相結(jié)合維度模型1.業(yè)務(wù)處理2.粒度3.維度4.事實(shí)業(yè)務(wù)需求實(shí)際數(shù)據(jù)業(yè)務(wù)需求調(diào)研數(shù)據(jù)資源規(guī)劃三、數(shù)據(jù)倉庫實(shí)施方法案例背景:國家煙草專賣局下有33個(gè)省級(jí)公司,300多家市公司負(fù)責(zé)卷煙的銷售。每個(gè)市公司都有配套部門,包括計(jì)劃、物流、倉儲(chǔ)、分揀等人員,并有幾十個(gè)卷煙品牌在各地銷售,每個(gè)卷煙品牌下面又有多個(gè)卷煙規(guī)格。各個(gè)規(guī)格按按價(jià)格可以分為多個(gè)價(jià)類。國家局已經(jīng)建設(shè)的相關(guān)系統(tǒng)對(duì)每天卷煙的采購、庫存和銷售情況進(jìn)行監(jiān)控,采集了相關(guān)數(shù)據(jù)。管理人員希望對(duì)卷煙的銷售情況進(jìn)行靈活的分析,及時(shí)發(fā)現(xiàn)銷售情況的問題。三、數(shù)據(jù)倉庫實(shí)施方法維度建模實(shí)例第一步:選取業(yè)務(wù)處理過程:需要建立一個(gè)模型,反映省市公司卷煙的采購、庫存及銷售過程第二步:定義粒度每天、每個(gè)市公司、每個(gè)規(guī)格卷煙的采購、庫存及銷售情況三、數(shù)據(jù)倉庫實(shí)施方法維度建模實(shí)例第三步:選取維度日期維度:年、季度、月、日企業(yè)維度:省公司、市公司產(chǎn)品維度:品牌、規(guī)格價(jià)類維度:價(jià)類三、數(shù)據(jù)倉庫實(shí)施方法維度建模實(shí)例第四步:選擇事實(shí)可加型事實(shí)半可加型事實(shí):非可加型事實(shí)三、數(shù)據(jù)倉庫實(shí)施方法添加維度表屬性確定哪些字段的值需要被篩選掉或者需要存在確定是否需要同時(shí)存儲(chǔ)編號(hào)和描述,或者只是編號(hào),或者只是描述的信息增加的維度屬性會(huì)為用戶帶來更多的查詢條件豐富的維度屬性將使查詢變得更加靈活三、數(shù)據(jù)倉庫實(shí)施方法維度表設(shè)計(jì)技巧代理鍵:為每個(gè)維度表分配一個(gè)代理鍵,用于唯一地區(qū)分表中的每行記錄。數(shù)據(jù)倉庫中維度和事實(shí)表之間的每個(gè)連接都應(yīng)該用沒有明確含義的整型代理關(guān)鍵字來建立。應(yīng)該避免使用自然的操作型產(chǎn)品編碼。豐富的維度組合:在維度表中提供豐富和全面的維度屬性集合,可以顯著地提高分析性能。(代碼與描述符、標(biāo)志和標(biāo)志值)多列組合字段:存儲(chǔ)全部屬性(xxx-yyy-zzz,拆分為xxx、yyy、zzz)三、數(shù)據(jù)倉庫實(shí)施方法維度表設(shè)計(jì)技巧當(dāng)事實(shí)表和維度表有多重關(guān)系時(shí),沒有必要為維度建立多個(gè)副本。每個(gè)角色都能通過在事實(shí)表中連接維度的視圖或別名到適當(dāng)?shù)耐怄I來存取。避免空值。維度列中不應(yīng)該存在空值,而應(yīng)該選擇某個(gè)值作為當(dāng)數(shù)據(jù)無效時(shí)存儲(chǔ)的值。(數(shù)值列經(jīng)常用0代替,日期經(jīng)常默認(rèn)為將來的某個(gè)日期)三、數(shù)據(jù)倉庫實(shí)施方法區(qū)分?jǐn)?shù)值型維度如果一個(gè)屬性通常用于聚集或匯總,那么它就是事實(shí);如果通常被用于提供聚集或匯總的環(huán)境,那么它就是維度。如果一個(gè)元素值用于過濾查詢、排序、控制聚集、區(qū)分主從關(guān)系等,該元素通常是維度。數(shù)量單位一般是維度,數(shù)量匯總一般是事實(shí)。
大多數(shù)的維度的內(nèi)容都會(huì)有不同程度的改變。比如:用戶的職務(wù)變更客戶更改了他的名稱或地址生產(chǎn)企業(yè)的變化我們?nèi)绾稳ヌ幚磉@些維度中的變化呢?直接更新維度屬性值插入新維度行新增一列保留歷史三、數(shù)據(jù)倉庫實(shí)施方法緩慢變化維三、數(shù)據(jù)倉庫實(shí)施方法方式一:直接更新維度屬性值產(chǎn)品關(guān)鍵字(PK)規(guī)格編碼規(guī)格名稱品牌編碼品牌名稱產(chǎn)品類型編碼產(chǎn)品類型名稱生產(chǎn)企業(yè)1116901001紅雙喜(軟)1201紅雙喜0自產(chǎn)自銷上海煙草集團(tuán)產(chǎn)品關(guān)鍵字(PK)規(guī)格編碼規(guī)格名稱品牌編碼品牌名稱產(chǎn)品類型編碼產(chǎn)品類型名稱生產(chǎn)企業(yè)1116901001紅雙喜(軟)1201紅雙喜0自產(chǎn)自銷廣東中煙不能維護(hù)維度的歷史信息三、數(shù)據(jù)倉庫實(shí)施方法方式二:插入新維度行產(chǎn)品關(guān)鍵字(PK)規(guī)格編碼規(guī)格名稱品牌編碼品牌名稱產(chǎn)品類型編碼產(chǎn)品類型名稱生產(chǎn)企業(yè)1116901001紅雙喜(軟)1201紅雙喜0自產(chǎn)自銷上海煙草集團(tuán)2226901001紅雙喜(軟)1201紅雙喜0自產(chǎn)自銷廣東中煙可以維護(hù)維度的歷史信息。維度表中出現(xiàn)包含重復(fù)的信息,可以設(shè)置當(dāng)前版本標(biāo)識(shí)位,通過提供distinct查詢視圖。
日期關(guān)鍵字(FK)產(chǎn)品關(guān)鍵字(FK)企業(yè)關(guān)鍵字(FK)價(jià)類關(guān)鍵字(FK)調(diào)撥價(jià)格批發(fā)價(jià)格購進(jìn)量庫存量銷售量毛利率20111111223221119.324.22001001500.3220112222223221119.324.22501201510.36按照新的生產(chǎn)企業(yè)增加一行歷史記錄仍然引用舊的維度信息新的記錄引用新的維度信息三、數(shù)據(jù)倉庫實(shí)施方法方式三:新增一列保留歷史可以有限度地維護(hù)維度的歷史信息。維度表中不會(huì)出現(xiàn)包含重復(fù)的信息產(chǎn)品關(guān)鍵字(PK)規(guī)格編碼規(guī)格名稱品牌編碼品牌名稱產(chǎn)品類型編碼產(chǎn)品類型名稱生產(chǎn)企業(yè)1116901001紅雙喜(軟)1201紅雙喜0自產(chǎn)自銷上海煙草集團(tuán)產(chǎn)品關(guān)鍵字(PK)規(guī)格編碼規(guī)格名稱品牌編碼品牌名稱產(chǎn)品類型編碼產(chǎn)品類型名稱生產(chǎn)企業(yè)歷史生產(chǎn)企業(yè)1116901001紅雙喜(軟)1201紅雙喜0自產(chǎn)自銷廣東中煙上海煙草集團(tuán)新增一列保留上一生產(chǎn)企業(yè)三、數(shù)據(jù)倉庫實(shí)施方法事實(shí)表設(shè)計(jì)技巧——事務(wù)事實(shí)表
事務(wù)事實(shí)表,也稱為事務(wù)粒度的事實(shí)表。用于跟蹤發(fā)生在非連續(xù)時(shí)間點(diǎn)(即當(dāng)事務(wù)/事件發(fā)生時(shí))上的每次事務(wù)。比如訂單的預(yù)訂、發(fā)貨等。粒度。事實(shí)表的每一行描述一個(gè)特定的事件,但不一定是單個(gè)事件。稀疏性。僅當(dāng)事務(wù)發(fā)生時(shí)才生成一條記錄。(比如2號(hào)沒有銷售行為發(fā)生,事實(shí)表中就沒有2號(hào)的銷售記錄。)可加性。事務(wù)事實(shí)表通常記錄可加的事實(shí)。大部分可加事實(shí)都應(yīng)該被拆分為完全可加的事實(shí)被存儲(chǔ)。(比如同比、占比、利潤率等)日期關(guān)鍵字(FK)產(chǎn)品關(guān)鍵字(FK)企業(yè)關(guān)鍵字(FK)銷量2012-2-122222321002012-2-122222331202012-2-42222232120……………………三、數(shù)據(jù)倉庫實(shí)施方法事實(shí)表設(shè)計(jì)技巧——累計(jì)快照事實(shí)表
周期快照事實(shí)表用來記錄有規(guī)律的,可預(yù)見時(shí)間間隔的業(yè)務(wù)累計(jì)數(shù)據(jù)。通常的時(shí)間間隔可以是每天、每周或者每月。典型的例子是庫存日快照事實(shí)表、銀行賬戶每日余額事實(shí)表等。日期關(guān)鍵字(FK)產(chǎn)品關(guān)鍵字(FK)企業(yè)關(guān)鍵字(FK)庫存量2012-2-122222321002012-2-222222321102012-2-322222321202012-2-42222232120……………………日期關(guān)鍵字(FK)產(chǎn)品關(guān)鍵字(FK)企業(yè)關(guān)鍵字(FK)庫存量2012-2-122222321002012-2-322222321202012-2-42222232120……………………1、快照事實(shí)表包含至少一個(gè)半可加性質(zhì)的事實(shí)。2.快照事實(shí)表是稠密的。在周期內(nèi)無論是否發(fā)生事務(wù),都會(huì)記錄一行。
如果在周期內(nèi)不記錄行,查詢會(huì)非常困難:檢查相關(guān)日期(2012-2-2)。如果沒有找到,檢查前一天。重復(fù)上述步驟,直到找到為止。
三、數(shù)據(jù)倉庫實(shí)施方法事實(shí)表設(shè)計(jì)技巧——累計(jì)快照事實(shí)表
累計(jì)快照事實(shí)表一般用來涵蓋一個(gè)事務(wù)的生命周期內(nèi)的不確定的時(shí)間跨度。典型的例子是用多個(gè)日期字段的訂單發(fā)貨事實(shí)表。粒度。累計(jì)快照設(shè)計(jì)的粒度是依照在業(yè)務(wù)流程中可識(shí)別的實(shí)體來構(gòu)造的。實(shí)體的每個(gè)實(shí)例在事實(shí)表中恰好有一行記錄。記錄里程碑的關(guān)鍵日期。便于統(tǒng)計(jì)不同里程碑的花費(fèi)時(shí)間。事務(wù)和累積快照模型能夠相互補(bǔ)充。如果需要同時(shí)構(gòu)建事務(wù)模型和累積模型,應(yīng)該使用事務(wù)星型模型作為累計(jì)快照的數(shù)據(jù)源。
合同簽訂日期(FK)合同鑒章日期(FK)合同發(fā)貨日期(FK)合同到貨日期(FK)產(chǎn)品(FK)供貨方(FK)采購方(FK)價(jià)格合同量發(fā)貨量到貨量2012/2/12012/2/42012/2/52012/2/711190080012.32020202012/2/52012/2/72012/2/9
11190080012.32020
2012/2/122012/2/13
11190080012.320
卷煙銷售合同事實(shí)表三、數(shù)據(jù)倉庫實(shí)施方法ETL設(shè)計(jì)ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程,目的是多個(gè)數(shù)據(jù)源中分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起。ETL的設(shè)計(jì)分三部分:數(shù)據(jù)抽取、數(shù)據(jù)的清洗轉(zhuǎn)換、數(shù)據(jù)的加載。在設(shè)計(jì)ETL的時(shí)候也是從這三部分出發(fā)。ETL三個(gè)部分中,花費(fèi)時(shí)間最長的是T(清洗、轉(zhuǎn)換)的部分,一般情況下這部分工作量是整個(gè)ETL的2/3。數(shù)據(jù)的加載一般在數(shù)據(jù)清洗完了之后直接寫入DW中去。
三、數(shù)據(jù)倉庫實(shí)施方法ETL設(shè)計(jì)——數(shù)據(jù)抽取數(shù)據(jù)抽取就是從外部異構(gòu)數(shù)據(jù)源抽取數(shù)據(jù),但是并不是所有的抽取源表數(shù)據(jù)項(xiàng)都有實(shí)際的意義。第一步:確定抽取范圍第二步:制定抽取策略第三步:數(shù)據(jù)抽取方式三、數(shù)據(jù)倉庫實(shí)施方法ETL設(shè)計(jì)——數(shù)據(jù)抽取策略時(shí)間戳方式需要在源系統(tǒng)中業(yè)務(wù)表中統(tǒng)一添加時(shí)間字段作為時(shí)間戳(如表中已有相應(yīng)的時(shí)間字段,可以不必添加),每當(dāng)源系統(tǒng)中更新修改業(yè)務(wù)數(shù)據(jù)時(shí),同時(shí)修改時(shí)間戳字段值。當(dāng)作ETL加載時(shí),通過系統(tǒng)時(shí)間與時(shí)間戳字段的比較來決定進(jìn)行何種數(shù)據(jù)抽取。優(yōu)點(diǎn):ETL系統(tǒng)設(shè)計(jì)清晰,源數(shù)據(jù)抽取相對(duì)清楚簡單,速度快??梢詫?shí)現(xiàn)數(shù)據(jù)的增量抽取。缺點(diǎn):時(shí)間戳維護(hù)需要由源系統(tǒng)完成,需要修改源系統(tǒng)中業(yè)務(wù)表結(jié)構(gòu);所有添加時(shí)間戳的表,在業(yè)務(wù)系統(tǒng)中,數(shù)據(jù)發(fā)生變化時(shí),同時(shí)更新時(shí)間戳字段,需要對(duì)源系統(tǒng)業(yè)務(wù)操作程序作修改,工作量大,改動(dòng)面大,風(fēng)險(xiǎn)大。三、數(shù)據(jù)倉庫實(shí)施方法ETL設(shè)計(jì)——數(shù)據(jù)抽取策略全刪全插方式每次ETL操作均刪除目標(biāo)表數(shù)據(jù),由ETL全新加載數(shù)據(jù)。優(yōu)點(diǎn):ETL加載規(guī)則簡單,速度快缺點(diǎn):對(duì)于維表加代理鍵不適應(yīng),當(dāng)源系統(tǒng)產(chǎn)生刪除數(shù)據(jù)操作時(shí),OLAP層將不會(huì)記錄到所刪除的歷史數(shù)據(jù)。不可以實(shí)現(xiàn)數(shù)據(jù)的遞增抽取,不適合大數(shù)據(jù)量的抽取。
三、數(shù)據(jù)倉庫實(shí)施方法ETL設(shè)計(jì)——數(shù)據(jù)抽取策略全表對(duì)比方式在ETL過程中,抽取所有源數(shù)據(jù),并進(jìn)行相應(yīng)規(guī)則轉(zhuǎn)換,完成后先不插入目標(biāo),而對(duì)每條數(shù)據(jù)進(jìn)行目標(biāo)表比對(duì)。根據(jù)主鍵值進(jìn)行插入與更新的判定,目標(biāo)表已存在該主鍵值的,表示該記錄已有,并進(jìn)行其余字段比對(duì),如有不同,進(jìn)行Update操作,如目標(biāo)表沒有存在該主鍵值,表示該記錄還沒有,即進(jìn)行Insert操作。優(yōu)點(diǎn):對(duì)已有系統(tǒng)表結(jié)構(gòu)不產(chǎn)生影響,不需要修改業(yè)務(wù)操作程序,所有抽取規(guī)則由ETL完成,管理維護(hù)統(tǒng)一,可以實(shí)現(xiàn)數(shù)據(jù)的遞增加載。沒有風(fēng)險(xiǎn)。
缺點(diǎn):ETL比對(duì)較復(fù)雜,設(shè)計(jì)較為復(fù)雜,速度較慢三、數(shù)據(jù)倉庫實(shí)施方法ETL設(shè)計(jì)——數(shù)據(jù)抽取策略業(yè)務(wù)日志表方式在源系統(tǒng)中添加系統(tǒng)日志表,當(dāng)業(yè)務(wù)數(shù)據(jù)發(fā)生變化時(shí),更新維護(hù)日志表內(nèi)容,當(dāng)作ETL加載時(shí),通過讀日志表數(shù)據(jù)決定加載那些數(shù)據(jù)及如何加載。優(yōu)點(diǎn):不需要修改源系統(tǒng)表結(jié)構(gòu),源數(shù)據(jù)抽取清楚,速度較快??梢詫?shí)現(xiàn)數(shù)據(jù)的遞增加載。缺點(diǎn):日志表維護(hù)需要由源系統(tǒng)完成,需要對(duì)源系統(tǒng)業(yè)務(wù)操作程序作修改,記錄日志信息。日志表維護(hù)較為麻煩,對(duì)原有系統(tǒng)有較大影響。工作量較大,改動(dòng)較大。有一定風(fēng)險(xiǎn)。三、數(shù)據(jù)倉庫實(shí)施方法ETL設(shè)計(jì)——數(shù)據(jù)抽取策略
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年橋梁施工中的外部環(huán)境應(yīng)對(duì)策略
- 2026年住宅區(qū)照明設(shè)計(jì)的關(guān)鍵要素
- 2026年電氣控制系統(tǒng)設(shè)計(jì)的創(chuàng)新思維
- 2026年土木工程施工安全管理
- 貼字卡課件教學(xué)課件
- 2026年九年級(jí)上學(xué)期英語期末考試沖刺卷含答案
- 貨運(yùn)安全教育培訓(xùn)案例課件
- 貨車排放檢驗(yàn)培訓(xùn)課件
- 護(hù)理專業(yè)人才培養(yǎng)模式優(yōu)化與改革
- 醫(yī)院護(hù)理管理實(shí)踐分享
- 科技成果轉(zhuǎn)化政策及案例分享
- 《兒童顱腦創(chuàng)傷診治中國專家共識(shí)(2021版)》解讀 3
- 口腔椅旁急救體系構(gòu)建
- 2025年部編版新教材語文二年級(jí)上冊(cè)全冊(cè)單元復(fù)習(xí)課教案(共8個(gè)單元)
- 《特種水產(chǎn)養(yǎng)殖學(xué)》-3兩棲爬行類養(yǎng)殖
- 臨安區(qū)露營地管理辦法
- 監(jiān)獄企業(yè)車輛管理辦法
- DB5101∕T 213-2025 公園城市濱水綠地鳥類棲息地植物景觀營建指南
- 軍事體能培訓(xùn)課件
- 全麻剖宮產(chǎn)麻醉專家共識(shí)
- 產(chǎn)線協(xié)同管理制度
評(píng)論
0/150
提交評(píng)論