版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)建模介紹數(shù)據(jù)倉(cāng)庫(kù)構(gòu)造方法自上而下Bill Inmon從整個(gè)企業(yè)的業(yè)務(wù)環(huán)境入手,分析其中的概念,應(yīng)該有什么樣的數(shù)據(jù),達(dá)成概念完整性,并不從它需要支持那些應(yīng)用入手。一個(gè)企業(yè)建立唯一的數(shù)據(jù)中心,就像一個(gè)數(shù)據(jù)的倉(cāng)庫(kù),其中數(shù)據(jù)是經(jīng)過(guò)整合、經(jīng)過(guò)清洗、去掉臟數(shù)據(jù)的、標(biāo)準(zhǔn)的,能夠提供統(tǒng)一的視圖。自下而上Ralph Kimbal按照實(shí)際的應(yīng)用需求,加載需要的數(shù)據(jù),不需要的數(shù)據(jù)不必要加載到數(shù)據(jù)倉(cāng)庫(kù)當(dāng)中。這種方式建設(shè)周期較短,客戶能夠很快看到結(jié)果,適合做項(xiàng)目類數(shù)據(jù)倉(cāng)庫(kù)?;旌戏ńY(jié)合自上而下、自下而上兩種構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)的方法,結(jié)合企業(yè)自身特點(diǎn),分析業(yè)務(wù)環(huán)境構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)底層數(shù)據(jù)基礎(chǔ),再按照實(shí)際的應(yīng)用需求構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)上層
2、數(shù)據(jù)。支付寶業(yè)務(wù)系統(tǒng)簡(jiǎn)介業(yè)務(wù)特點(diǎn)類金融交易:充值、提現(xiàn)、賬務(wù)管理類電子商務(wù):購(gòu)物交易過(guò)程變更、實(shí)際交易(對(duì)B機(jī)票、對(duì)C水電等)非純電子商務(wù);純金融線上子系統(tǒng)多而雜截止到2011年6月共有各類線上子系統(tǒng)259個(gè)類型多樣:對(duì)C、對(duì)B、對(duì)內(nèi)、對(duì)金融機(jī)構(gòu)系統(tǒng)間依賴程度參差不齊垂直依賴(業(yè)務(wù)與核心)跨層依賴(跨過(guò)交易到賬務(wù))支付寶業(yè)務(wù)系統(tǒng)四大平臺(tái)資金平臺(tái)客戶平臺(tái)支付平臺(tái)交易平臺(tái)五大域商戶域用戶域支撐域風(fēng)控域無(wú)線域兩條線會(huì)員線金融線支付寶數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)原則底層業(yè)務(wù)的數(shù)據(jù)驅(qū)動(dòng)為導(dǎo)向同時(shí)結(jié)合業(yè)務(wù)需求驅(qū)動(dòng)便于數(shù)據(jù)分析屏蔽底層復(fù)雜業(yè)務(wù)簡(jiǎn)單、完整、集成的將數(shù)據(jù)暴露給分析層底層業(yè)務(wù)變動(dòng)與上層需求變動(dòng)對(duì)模型沖擊最小化業(yè)務(wù)
3、系統(tǒng)變化影響削弱在基礎(chǔ)數(shù)據(jù)層(資金訂單改造)結(jié)合自上而下的建設(shè)方法削弱需求變動(dòng)對(duì)模型的影響數(shù)據(jù)水平層次清晰化高內(nèi)聚松耦合主題之內(nèi)或各個(gè)完整意義的系統(tǒng)內(nèi)數(shù)據(jù)的高內(nèi)聚主題之間或各個(gè)完整意義的系統(tǒng)間數(shù)據(jù)的松耦合構(gòu)建倉(cāng)庫(kù)基礎(chǔ)數(shù)據(jù)層 使得底層業(yè)務(wù)數(shù)據(jù)整合工作與上層應(yīng)用開發(fā)工作相隔離,為倉(cāng)庫(kù)大規(guī)模開發(fā)奠定基礎(chǔ)倉(cāng)庫(kù)層次更加清晰,對(duì)外暴露數(shù)據(jù)更加統(tǒng)一傳統(tǒng)倉(cāng)庫(kù)架構(gòu)方法需求驅(qū)動(dòng)為主支付寶交易主題現(xiàn)狀數(shù)據(jù)倉(cāng)庫(kù)模型建設(shè)目標(biāo)示意圖倉(cāng)庫(kù)基礎(chǔ)數(shù)據(jù)層建設(shè)的意義避免底層業(yè)務(wù)變動(dòng)對(duì)上層需求影響過(guò)大屏蔽底層復(fù)雜的業(yè)務(wù)邏輯,盡可能簡(jiǎn)單、完整的在接口層呈現(xiàn)業(yè)務(wù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)更加豐富建設(shè)高內(nèi)聚松耦合的數(shù)據(jù)組織,使得數(shù)據(jù)從業(yè)務(wù)角度可分割,有
4、助于數(shù)據(jù)和團(tuán)隊(duì)的擴(kuò)展。第三方支付企業(yè)支付寶數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)點(diǎn)擊流數(shù)據(jù)(Click stream)數(shù)據(jù)庫(kù)數(shù)據(jù)(OLTP)文檔數(shù)據(jù)(Documents)其它數(shù)據(jù)(Other)源數(shù)據(jù)明細(xì)數(shù)據(jù)(DWD)數(shù)據(jù)倉(cāng)庫(kù)ETL報(bào)表展示自定義查詢數(shù)據(jù)分析數(shù)據(jù)應(yīng)用數(shù)據(jù)挖掘元數(shù)據(jù)管理數(shù)據(jù)質(zhì)量監(jiān)控KPI賬單應(yīng)用日志產(chǎn)品應(yīng)用高粒度匯總數(shù)據(jù)(DWS)其它數(shù)據(jù)集市、寬表(DM)數(shù)據(jù)應(yīng)用(ST)低粒度匯總加工數(shù)據(jù)(DWB) 建立企業(yè)級(jí)概念數(shù)據(jù)模型(CDM) 的基本架構(gòu)相關(guān)方安排位置相關(guān)方關(guān)系相關(guān)方及安排間的關(guān)系相關(guān)方描述相關(guān)方類型業(yè)務(wù)概念框架提供了一套通用的結(jié)構(gòu),它描述了所有業(yè)務(wù)環(huán)境IBM業(yè)務(wù)概念間最初的關(guān)系提供了相關(guān)方合約位
5、置分類產(chǎn)品/服務(wù)資源事件業(yè)務(wù)方向條件安排類型所有業(yè)務(wù)信息都是可以用九大概念的詞匯來(lái)表示每一種信息概念都可用三個(gè)分層來(lái)詳細(xì)說(shuō)明:分類分層(是什么)描述分層(有什么)關(guān)系分層(做什么)九大數(shù)據(jù)概念變遷IBM FSDM九大數(shù)據(jù)概念支付寶九大數(shù)據(jù)概念當(dāng)事人地理位置協(xié)議資源項(xiàng)事件產(chǎn)品分類條件業(yè)務(wù)方向介質(zhì)介質(zhì)帳戶渠道主要變化:1. 將產(chǎn)品中的介質(zhì)以及分類中的帳戶和渠道獨(dú)立出來(lái)作為單獨(dú)的數(shù)據(jù)概念2.條件和分類不作為單獨(dú)的數(shù)據(jù)概念,分散在各個(gè)數(shù)據(jù)概念中。3.業(yè)務(wù)方向中的部分在事件數(shù)據(jù)概念中體現(xiàn)當(dāng)事人地理位置協(xié)議資源項(xiàng)事件產(chǎn)品介質(zhì)渠道帳戶條件條件分類條件分類條件條件分類業(yè)務(wù)方向第三方支付企業(yè)支付寶數(shù)據(jù)模型設(shè)計(jì)基
6、于OMG推出的數(shù)據(jù)倉(cāng)庫(kù)元數(shù)據(jù)管理的CWM模型(Common Warehouse Metamodel)物理模型設(shè)計(jì) PDM設(shè)計(jì)方法參考IBM的FSDM金融行業(yè)的數(shù)據(jù)倉(cāng)庫(kù)通用模板參考NCR Teradata 金融服務(wù)邏輯數(shù)據(jù)模型(FS-LDM ),參考新巴塞爾資本協(xié)議(Basel II Capital Accord)需提供三到五年的數(shù)據(jù)的規(guī)范綜合上述規(guī)范和要求,同時(shí)結(jié)合支付寶實(shí)際的業(yè)務(wù),推出數(shù)據(jù)倉(cāng)庫(kù)5層架構(gòu)體系DW五層模型是按照EDW各個(gè)應(yīng)用層次的需求進(jìn)行分層細(xì)化而來(lái)的,每個(gè)層次滿足不同的應(yīng)用。分為以下5層:1. ODS 數(shù)據(jù)準(zhǔn)備層 2. DWD 數(shù)據(jù)明細(xì)層3. DW(B/S) 數(shù)據(jù)匯總層4. D
7、M 數(shù)據(jù)集市層5. ST 數(shù)據(jù)應(yīng)用層 DW五層模型架構(gòu)介紹DW五層模型架構(gòu)介紹ODS層ST層DM層DW層DWD層 數(shù)據(jù)來(lái)源及建模方式服務(wù)領(lǐng)域數(shù)據(jù)準(zhǔn)備區(qū),數(shù)據(jù)來(lái)源是各業(yè)務(wù)系統(tǒng)的源數(shù)據(jù),物理模型和業(yè)務(wù)系統(tǒng)模型一致。數(shù)據(jù)來(lái)自O(shè)DS層,是DW明細(xì)事實(shí)層,數(shù)據(jù)模型是ODS一致數(shù)據(jù)來(lái)自DWD層,是DW事實(shí)層,采用維度建模,星型架構(gòu),這一層可細(xì)分為dwb 和dws數(shù)據(jù)來(lái)自DW層,采用維度建模,星型架構(gòu)數(shù)據(jù)來(lái)自DW層,采用維度建模,星型架構(gòu)為其它邏輯層提供數(shù)據(jù),為統(tǒng)一數(shù)據(jù)視圖子系統(tǒng)提供數(shù)據(jù)實(shí)時(shí)查詢?yōu)镋DW提供各主題業(yè)務(wù)明細(xì)數(shù)據(jù)為EDW提供各種統(tǒng)計(jì)匯總數(shù)據(jù)數(shù)據(jù)挖掘,自定義查詢,應(yīng)用集市前端報(bào)表展現(xiàn),主題分析,K
8、PI報(bào)表 數(shù)據(jù)ETL過(guò)程描述通過(guò)支付寶分發(fā)中心平臺(tái),把業(yè)務(wù)數(shù)據(jù)抽取落地成文本文件,再裝載到數(shù)據(jù)倉(cāng)庫(kù)ODS層,不做清洗轉(zhuǎn)換根據(jù)ODS增量數(shù)據(jù)進(jìn)行merge生成全量數(shù)據(jù),不做清洗轉(zhuǎn)換,保留原始全量數(shù)據(jù)從DWD層進(jìn)行輕度清洗,轉(zhuǎn)換,匯總聚合生成DW層數(shù)據(jù),如字符合并,EMAIL,證件號(hào),日期,手機(jī)號(hào)轉(zhuǎn)換,合并;用代理鍵取代維度;按各個(gè)維度進(jìn)行聚合匯總從DW層的數(shù)據(jù)進(jìn)行粗粒度聚合匯總;按業(yè)務(wù)需求對(duì)事實(shí)進(jìn)行拉寬形成寬表從DW層的數(shù)據(jù)進(jìn)行粗粒度聚合匯總;如按年、月、季、天對(duì)一些維度進(jìn)行聚合生成業(yè)務(wù)需要的事實(shí)數(shù)據(jù)DW模型架構(gòu)第一層介紹-ODS層功能ODS層是數(shù)據(jù)倉(cāng)庫(kù)準(zhǔn)備區(qū)為DWD層提供基礎(chǔ)原始數(shù)據(jù)減少對(duì)業(yè)務(wù)
9、系統(tǒng)影響建模方式及原則數(shù)據(jù)保留時(shí)間根據(jù)實(shí)現(xiàn)業(yè)務(wù)需求而定可以分表進(jìn)行周期存儲(chǔ),存儲(chǔ)周期不長(zhǎng)數(shù)據(jù)不做清洗轉(zhuǎn)換和業(yè)務(wù)系統(tǒng)一樣按主題邏輯劃分?jǐn)?shù)據(jù)模型和粒度和業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型保留一致(3NF)從業(yè)務(wù)系統(tǒng)以增量方式抽取加載到ODSDW模型架構(gòu)第二層介紹-DWD層功能為DW層提供來(lái)源明細(xì)數(shù)據(jù)提供業(yè)務(wù)系統(tǒng)細(xì)節(jié)數(shù)據(jù)的長(zhǎng)期沉淀為未來(lái)分析類需求的擴(kuò)展提供歷史數(shù)據(jù)支撐建模方式及原則數(shù)據(jù)模型與ODS層一致(3NF)不做清洗轉(zhuǎn)換處理為支持?jǐn)?shù)據(jù)重跑可額外增加數(shù)據(jù)業(yè)務(wù)日期字段可按天、月、年進(jìn)行分表用增量ODS層數(shù)據(jù)和前一天DWD相關(guān)表進(jìn)行 merge處理DW模型架構(gòu)第三層介紹-DW層功能為DM,ST層提供細(xì)粒度數(shù)據(jù),細(xì)化成D
10、WB和DWSDWB是根據(jù)DWD明細(xì)數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換,如維度轉(zhuǎn)代理鍵、身份證清洗、會(huì)員注冊(cè)來(lái)源清洗、字段合并、空值處理、臟數(shù)據(jù)處理、IP清洗轉(zhuǎn)換、賬戶余額清洗 、資金來(lái)源清洗等DWS是根據(jù)DWB層數(shù)據(jù)按各個(gè)維度ID進(jìn)行粗粒度匯總聚合,如按交易來(lái)源,交易類型進(jìn)行匯總建模方式及原則聚合、匯總增加派生事實(shí)關(guān)聯(lián)其它主題的事實(shí)表,DW層可能會(huì)跨主題域DWB保持低粒度匯總加工數(shù)據(jù),DWS保持高粒度匯總數(shù)據(jù)數(shù)據(jù)模型可能采用反范式設(shè)計(jì),合并信息等DW模型架構(gòu)第三層介紹-DW層DW模型架構(gòu)第四層介紹-DM層功能這一層可以是一些寬表,是根據(jù)DW層數(shù)據(jù)按照各種維度或多種維度組合把需要查詢的一些事實(shí)字段進(jìn)行匯總統(tǒng)計(jì)并作
11、為單獨(dú)的列進(jìn)行存儲(chǔ)滿足一些特定查詢、數(shù)據(jù)挖掘應(yīng)用應(yīng)用集市數(shù)據(jù)存儲(chǔ)建模方式及原則盡量減少數(shù)據(jù)訪問(wèn)時(shí)計(jì)算,優(yōu)化檢索維度建模,星形模型事實(shí)拉寬,度量預(yù)先計(jì)算分表存儲(chǔ)DW模型架構(gòu)第四層介紹-DM層DW模型架構(gòu)第五層介紹-ST層功能ST層面向用戶應(yīng)用和分析需求,包括前端報(bào)表、分析圖表、KPI、儀表盤、OLAP、專題等分析,面向最終結(jié)果用戶適合作OLAP、報(bào)表模型,如ROLAP,MOLAP根據(jù)DW層經(jīng)過(guò)聚合匯總統(tǒng)計(jì)后的粗粒度事實(shí)表建模方式及原則保持?jǐn)?shù)據(jù)量小維度建模,星形模型各種維度代理鍵+度量增加數(shù)據(jù)業(yè)務(wù)日期字段,支持?jǐn)?shù)據(jù)重跑不分表存儲(chǔ)DW模型架構(gòu)第五層介紹-ST層細(xì)化DW建模 對(duì)DW中各個(gè)主題業(yè)務(wù)建模進(jìn)
12、行了細(xì)分,每個(gè)層次具有不同的功能。 保留了最細(xì)粒度數(shù)據(jù) 滿足了不同維度,不同事實(shí)的信息滿足數(shù)據(jù)重新生成 不同層次的數(shù)據(jù)支持?jǐn)?shù)據(jù)重新生成 無(wú)需備份恢復(fù) 解決了由不同故障帶來(lái)的數(shù)據(jù)質(zhì)量問(wèn)題 消除了重新初始化數(shù)據(jù)的煩惱減少應(yīng)用對(duì)DW的壓力 以業(yè)務(wù)應(yīng)用驅(qū)動(dòng)為向?qū)Ы?,通過(guò)ST、DM層提供數(shù)據(jù) 避免直接操作基礎(chǔ)事實(shí)表 降低數(shù)據(jù)獲取時(shí)間快速適應(yīng)需求變更 適應(yīng)維度變化 明細(xì)基礎(chǔ)數(shù)據(jù)層穩(wěn)定,適應(yīng)前端應(yīng)用層業(yè)務(wù)需求變更 所有前端應(yīng)用層模型之間不存在依賴,需求變更對(duì)DW整個(gè)模型影響范圍小 能適應(yīng)短周期內(nèi)上線下線需求DW五層模型架構(gòu)特點(diǎn)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)規(guī)范表命名規(guī)范程序命名規(guī)范開發(fā)模板通用SQL文檔數(shù)據(jù)倉(cāng)庫(kù)建設(shè)規(guī)范表命
13、名規(guī)范表名命名格式說(shuō)明層次_主題 _表內(nèi)容_分表規(guī)則T表命名格式說(shuō)明T_層次_主題 _表內(nèi)容臨時(shí)表名命名格式說(shuō)明tmp_所屬程序名_自定義序號(hào)1.10temp_操作者縮寫_YYYYMMDD_表內(nèi)容視圖命名格式說(shuō)明V_表名DWB層視圖仍以DWB_開頭,為了兼容日后業(yè)務(wù)變動(dòng)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)規(guī)范表命名解釋層次ODS, DWD, DWB,DWS, DM,ST如ODS_TRD_TRADE_BASE_YYYYMMDD, DWD_TRD_TRADE_BASE_YYYYMMDD;表內(nèi)容表名視圖名總長(zhǎng)度不超過(guò)64個(gè)字符ODS層和DWD層:層次_主題_業(yè)務(wù)系統(tǒng)表名字_分表規(guī)則DWB(含)以上層次表名字:層次_主題_有意義的縮寫_分表規(guī)則盡量詳盡說(shuō)明表的具體內(nèi)容分表規(guī)則日表YYYYMMDD月表YYYYM
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 內(nèi)卷介紹教學(xué)課件
- 內(nèi)兒科培訓(xùn)內(nèi)容課件
- 內(nèi)個(gè)人介紹教學(xué)課件
- 漢服活動(dòng)團(tuán)建策劃方案(3篇)
- 游戲廣場(chǎng)活動(dòng)策劃方案(3篇)
- 維保部獎(jiǎng)懲管理制度(3篇)
- 超市聯(lián)營(yíng)戶進(jìn)貨管理制度(3篇)
- 銀行餐廳食材管理制度(3篇)
- 高校資產(chǎn)日常管理制度建設(shè)(3篇)
- 《GAT 1386-2017刑事案件偵查關(guān)聯(lián)關(guān)系數(shù)據(jù)項(xiàng)》專題研究報(bào)告
- 2026南水北調(diào)東線山東干線有限責(zé)任公司人才招聘8人筆試模擬試題及答案解析
- 伊利實(shí)業(yè)集團(tuán)招聘筆試題庫(kù)2026
- 2026年基金從業(yè)資格證考試題庫(kù)500道含答案(完整版)
- 動(dòng)量守恒定律(教學(xué)設(shè)計(jì))-2025-2026學(xué)年高二物理上冊(cè)人教版選擇性必修第一冊(cè)
- 網(wǎng)絡(luò)素養(yǎng)與自律主題班會(huì)
- 波形護(hù)欄工程施工組織設(shè)計(jì)方案
- 非靜脈曲張性上消化道出血管理指南解讀課件
- GB/T 10922-202555°非密封管螺紋量規(guī)
- 內(nèi)窺鏡護(hù)理不良事件分析與防范措施
- 2025年《電信業(yè)務(wù)投訴處理》知識(shí)考試題庫(kù)及答案解析
- 術(shù)后惡心嘔吐(PONV)診療指南解讀
評(píng)論
0/150
提交評(píng)論