版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)治理_數(shù)據(jù)自動(dòng)化清洗功能設(shè)計(jì)方案背景當(dāng)前的基礎(chǔ)清洗是由開(kāi)發(fā)人員在平臺(tái)通過(guò)配置輸入輸出表、依賴(lài)、數(shù)據(jù)源,再通過(guò)SQL腳本創(chuàng)建剔重程序?qū)DS表轉(zhuǎn)換為DWD表,程序上線(xiàn)依據(jù)前置歸集任務(wù)的調(diào)度周期及系統(tǒng)忙閑程度生成調(diào)度任務(wù)。是ODS-DWD-DWS程序鏈中的一環(huán),平臺(tái)也會(huì)依據(jù)這些配置信息生成數(shù)據(jù)血緣關(guān)系圖。因輸出表有命名規(guī)范,剔重SQL沒(méi)有附加業(yè)務(wù)屬性,千篇一律,其他配置信息可以通過(guò)前置的歸集任務(wù)獲取,因此業(yè)主方認(rèn)為基礎(chǔ)清洗工作可以自動(dòng)化完成,也就是說(shuō)ODS到DWD過(guò)程不需要人工干預(yù)。要求歸集后的數(shù)據(jù)都應(yīng)全量做基礎(chǔ)清洗基礎(chǔ)清洗流程—現(xiàn)狀歸集系統(tǒng)數(shù)據(jù)資產(chǎn)數(shù)據(jù)治理MQ歸集完成通知消費(fèi)歸集消息通過(guò)接口觸發(fā)執(zhí)行輸入表為當(dāng)前歸集ODS表的清洗程序元數(shù)據(jù)采集樣例數(shù)據(jù)采集目錄狀態(tài)更新…數(shù)據(jù)湖執(zhí)行ODS->DWD的清洗開(kāi)發(fā)ODS->DWD的清洗程序治理開(kāi)發(fā)人員治理開(kāi)發(fā)人員在數(shù)據(jù)治理平臺(tái)把ODS->DWD的清洗程序開(kāi)發(fā)完成并發(fā)布后,平臺(tái)才能根據(jù)歸集消息自動(dòng)觸發(fā)清洗程序目錄資源掛載自動(dòng)化基礎(chǔ)清洗流程歸集系統(tǒng)數(shù)據(jù)資產(chǎn)數(shù)據(jù)治理MQ歸集完成通知消費(fèi)歸集消息通過(guò)接口觸發(fā)執(zhí)行輸入表為當(dāng)前歸集ODS表的清洗程序元數(shù)據(jù)采集樣例數(shù)據(jù)采集目錄狀態(tài)更新…執(zhí)行ODS->DWD的清洗開(kāi)發(fā)ODS->DWD的清洗程序治理開(kāi)發(fā)人員1、通過(guò)接口自動(dòng)創(chuàng)建輸入表為ODS表的調(diào)度程序并發(fā)布,如已創(chuàng)建則跳過(guò)2、自動(dòng)創(chuàng)建DWD元數(shù)據(jù)并掛載目錄資源通過(guò)接口自動(dòng)創(chuàng)建輸入表為ODS表的調(diào)度程序并發(fā)布,不再需要治理開(kāi)發(fā)人員人工干預(yù)目錄資源掛載自動(dòng)化基礎(chǔ)清洗—全量清洗程序模板判斷ODS表是否存在ODS表不存在,程序結(jié)束讀取ODS表獲取ODS表數(shù)據(jù)量判斷ODS表數(shù)據(jù)量是否為0ODS表數(shù)據(jù)量為0,程序結(jié)束獲取分桶數(shù)讀取DWD表判斷DWD表是否存在備份DWD表存在創(chuàng)建新的DWD表不存在清洗數(shù)據(jù)保存清洗統(tǒng)計(jì)日志刪除歷史DWD備份表結(jié)束自動(dòng)清洗前提條件:DWD表的創(chuàng)建依據(jù)ODS的建表語(yǔ)句,增加分桶規(guī)則;ODS表如果建表不規(guī)范,則DWD表可能存在不規(guī)范的情況數(shù)據(jù)踢重,依賴(lài)于奧騰同步的目錄信息中的主鍵標(biāo)識(shí);如沒(méi)有主鍵標(biāo)識(shí),則無(wú)法自動(dòng)生成自動(dòng)清洗規(guī)則:DWD表名按照規(guī)范生成DWD表為ORC的分桶表,分桶數(shù)跟據(jù)數(shù)據(jù)量查詢(xún)分桶配置表確定DWD表先備份再清洗數(shù)據(jù)清洗去重規(guī)則為:根據(jù)主鍵分組,按照奧騰創(chuàng)建時(shí)間取最新一條數(shù)據(jù)存在不存在為0不為0自動(dòng)化基礎(chǔ)清洗·增量清洗程序模板判斷最新批次ODS表是否存在ODS表不存在,程序結(jié)束讀取當(dāng)前批次ODS表獲取最新批次ODS表數(shù)據(jù)量判斷最新批次ODS表數(shù)據(jù)量是否為0ODS表數(shù)據(jù)量為0,程序結(jié)束獲取分桶數(shù)清洗數(shù)據(jù)(前一批次的DWD表+最新批次ODS表數(shù)據(jù)合并)保存清洗統(tǒng)計(jì)日志刪除歷史批次DWD備份表結(jié)束自動(dòng)清洗前提條件:增量歸集時(shí),每次歸集都生成一個(gè)新表或有統(tǒng)一的標(biāo)識(shí)字段標(biāo)識(shí)增量數(shù)據(jù),如歸集批次、歸集日期DWD表的創(chuàng)建依據(jù)ODS的建表語(yǔ)句,增加分桶規(guī)則;ODS表如果建表不規(guī)范,則DWD表可能存在不規(guī)范的情況數(shù)據(jù)踢重,依賴(lài)于奧騰同步的目錄信息中的主鍵標(biāo)識(shí);如沒(méi)有主鍵標(biāo)識(shí),則無(wú)法自動(dòng)生成自動(dòng)清洗規(guī)則:DWD表名按照規(guī)范生成,表后綴增加DWD表為ORC的分桶表,分桶數(shù)跟據(jù)數(shù)據(jù)量查詢(xún)分桶配置表確定最新DWD表的數(shù)據(jù)為前一批次DWD表+最新批次ODS的數(shù)據(jù)合并數(shù)據(jù)清洗去重規(guī)則為:根據(jù)主鍵分組,按照奧騰創(chuàng)建時(shí)間取最新一條數(shù)據(jù)存在不存在為0不為0創(chuàng)建新批次的DWD表數(shù)據(jù)復(fù)制到DWD表自動(dòng)化基礎(chǔ)清洗—監(jiān)控&上線(xiàn)異常監(jiān)控:自動(dòng)化清洗程序生成失敗的統(tǒng)計(jì)監(jiān)控已生成自動(dòng)化清洗程序的調(diào)度執(zhí)行結(jié)果監(jiān)控自動(dòng)化清洗程序調(diào)度成功后ODS數(shù)據(jù)量與DWD數(shù)據(jù)量的對(duì)比監(jiān)控上線(xiàn)方式(二選一):人工上線(xiàn)自動(dòng)化清洗程序(推薦):平臺(tái)自動(dòng)生成ODS->DWD的清洗程序,數(shù)據(jù)治理開(kāi)發(fā)人員,對(duì)需要上線(xiàn)的治理程序,進(jìn)行發(fā)布上線(xiàn)自動(dòng)上線(xiàn)自動(dòng)化清洗程序:按照委辦逐步上線(xiàn):所有委辦的目錄量1萬(wàn)+,目前星環(huán)的資源配置可能不具備一次性全量清洗條件,采取首次上線(xiàn)時(shí),選擇一個(gè)委辦試點(diǎn),逐步放開(kāi)其他委辦自動(dòng)化基礎(chǔ)清洗·其他說(shuō)明對(duì)于已經(jīng)開(kāi)發(fā)ODS->DWD清洗程序的表,不再重復(fù)生成清洗程序所有生成的自動(dòng)化清洗程序,都在治理平臺(tái)運(yùn)維團(tuán)隊(duì)下對(duì)于某些特殊場(chǎng)景,自動(dòng)化生成的調(diào)度程序無(wú)法滿(mǎn)足需求的,需要治理人員單獨(dú)開(kāi)發(fā)治理程序,并刪除原自動(dòng)生成的治理程序當(dāng)自動(dòng)化清洗模板規(guī)則發(fā)生變更時(shí),對(duì)所有自動(dòng)生成的治理程序進(jìn)行批量統(tǒng)一更新(如不需要此功能則上面特殊場(chǎng)景的清洗程序,治理人員直接修改自動(dòng)生成的治理程序即可)需要在星環(huán)單獨(dú)配置一個(gè)資源隊(duì)列,所有自動(dòng)化清洗調(diào)度任務(wù)都提交至此資源隊(duì)列中自動(dòng)化基礎(chǔ)清洗·工作整理數(shù)據(jù)資產(chǎn)平臺(tái):樣例程序開(kāi)發(fā):全量、增量自動(dòng)清洗程序的樣例程序開(kāi)發(fā)、驗(yàn)證自動(dòng)化清洗程序生成:通過(guò)歸集消息、目錄歸集方式(全量/增量)、樣例程序模板調(diào)用數(shù)據(jù)開(kāi)發(fā)平臺(tái)的生成清洗程序、調(diào)度配置,程序發(fā)布接口;并保存相關(guān)接口日志、調(diào)用狀態(tài)開(kāi)發(fā)定時(shí)任務(wù):查詢(xún)調(diào)度任務(wù)日志,對(duì)自動(dòng)清洗調(diào)度成功的,生成或修改DWD元數(shù)據(jù),并掛載目錄資源統(tǒng)計(jì)監(jiān)控:增加自動(dòng)化清洗程序生成失敗的統(tǒng)計(jì)監(jiān)控統(tǒng)計(jì)監(jiān)控:自動(dòng)化清洗程序調(diào)度成功后ODS數(shù)據(jù)量與DWD數(shù)據(jù)量的對(duì)比監(jiān)控(對(duì)原有監(jiān)控增加字段、查詢(xún)條件)數(shù)據(jù)開(kāi)發(fā)平臺(tái):新增生成清洗程序(新增、修改)接口,接口中增加調(diào)用標(biāo)識(shí)字段新增調(diào)度配置(新增、修改)接口,接口中增加調(diào)用標(biāo)識(shí)字段新增發(fā)布程序(發(fā)布、取消發(fā)布)接口,接口中增加調(diào)用標(biāo)識(shí)字段調(diào)度程序支持配置星環(huán)資源隊(duì)列(之前已提交給產(chǎn)品的需求中包含此項(xiàng))自動(dòng)化基礎(chǔ)清洗·外部要求保證歸集ODS表的建表規(guī)范,字段類(lèi)型保持與星環(huán)一致保證委辦目錄字
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年工業(yè)機(jī)器人系統(tǒng)操作員職業(yè)技能認(rèn)證模擬試卷及答案
- 2025年下半年衛(wèi)生監(jiān)督信息員培訓(xùn)測(cè)試題及答案
- 2025年幼兒園副園長(zhǎng)年度工作總結(jié)
- 2025年三級(jí)攝影(攝像)師考試題庫(kù)及完整答案
- 河道治理及生態(tài)修復(fù)工程施工方案與技術(shù)措施
- 醫(yī)療服務(wù)2026年特色發(fā)展
- 2026年銷(xiāo)售技巧提升培訓(xùn)課程
- 2026 年民政局離婚協(xié)議書(shū)正規(guī)模板含全部核心條款
- 2026 年離婚協(xié)議書(shū)合規(guī)制式模板
- 2026 年法定化離婚協(xié)議書(shū)規(guī)范模板
- 2026年殘疾人聯(lián)合會(huì)就業(yè)服務(wù)崗招聘筆試適配題含答案
- 2026年山西警官職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)筆試備考題庫(kù)帶答案解析
- 2026年農(nóng)夫山泉-AI-面試題目及答案
- 2026凱翼汽車(chē)全球校園招聘(公共基礎(chǔ)知識(shí))綜合能力測(cè)試題附答案
- 山東省威海市環(huán)翠區(qū)2024-2025學(xué)年一年級(jí)上學(xué)期1月期末數(shù)學(xué)試題
- 2025年手術(shù)室護(hù)理實(shí)踐指南知識(shí)考核試題及答案
- 外貿(mào)公司采購(gòu)專(zhuān)員績(jī)效考核表
- 彩禮分期合同范本
- 胸腺瘤伴重癥肌無(wú)力課件
- 十五五安全生產(chǎn)規(guī)劃思路
- 一年級(jí)地方課程教案
評(píng)論
0/150
提交評(píng)論