版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)治理:數(shù)據(jù)質量評價體系
數(shù)據(jù)質量人人有責,這不僅僅只是一句口號,更是數(shù)據(jù)工作者的生命
線。數(shù)據(jù)質量的好壞直接決定著數(shù)據(jù)價值高低。
數(shù)據(jù)質量管理是指在數(shù)據(jù)創(chuàng)建、加工、使用和遷移等過程中,通過開展
數(shù)據(jù)質量定義、過程控制、監(jiān)測、問題分析和整改、評估與考核等一系
列管理活動,提高數(shù)據(jù)質量以滿足業(yè)務要求。
可按照"誰創(chuàng)建、誰負責;誰加工、誰負責;誰提供、誰負責"的原則界
定數(shù)據(jù)質量管理責任,由數(shù)據(jù)流轉環(huán)節(jié)的各責任方對管轄范圍內的數(shù)據(jù)
質量負責。對數(shù)據(jù)質量規(guī)則優(yōu)先采取系統(tǒng)程序的自動化控制措施,并盡
可能前移管控點,從源頭上控制數(shù)據(jù)質量。
01數(shù)據(jù)治理問題場景
在日常工作中,業(yè)務領導經(jīng)常會通過報表看板等數(shù)據(jù)產(chǎn)品來了解各項業(yè)
務的發(fā)展趨勢以及KPI的達成情況。倘若某天,他打開某張核心報表,
發(fā)現(xiàn)當日的數(shù)據(jù)一直是空白的,詢問報表開發(fā)人員,開發(fā)經(jīng)排查分析,
發(fā)現(xiàn)是依賴的上游有延遲,上游數(shù)據(jù)預計要下午才能到達,導致業(yè)務領
導在正常時點無法查看業(yè)務數(shù)據(jù)情況。
又或某天,業(yè)務人員點開報表發(fā)現(xiàn)當日AUM規(guī)模暴增,數(shù)據(jù)增長當然
開心,但仔細推敲,發(fā)現(xiàn)這波動有點不合常理,于是通知數(shù)據(jù)負責人驗
證下數(shù)據(jù)是否存在異常。經(jīng)過幾個小時的排查分析,數(shù)據(jù)負責人報告說
數(shù)據(jù)確實算的有些問題,業(yè)務業(yè)務以后對該報表數(shù)據(jù)的準確性將會打上
問號。
若類似的數(shù)據(jù)問題經(jīng)常出現(xiàn),估計迎接你的不是美好明天,而是你的職
業(yè)生涯的最后一天。
02數(shù)據(jù)質量的重要性
數(shù)據(jù)質量為什么至關重要?因為擁有高質量的數(shù)據(jù)可以讓您更好地了解
任何情況,從而更精準地執(zhí)行任何事情。反之亦然。
伴隨著技術的進步,組織或者企業(yè)能夠收集大量的數(shù)據(jù),用好這些數(shù)據(jù)
已成為焦點。然而,由于以下原因,很多組織或者企業(yè)并沒有實施數(shù)據(jù)
質量計劃:
?沒有業(yè)務部門負責數(shù)據(jù)質量問題
?數(shù)據(jù)質量需要跨職能合作
?它要求組織認識到數(shù)據(jù)質量是一個重要問題
?它需要數(shù)據(jù)質量準則
?它需要投入財力和人力資源
?它被認為是非常人力密集的
?投資回報往往難以量化
看起來,挑戰(zhàn)大于好處。
但是,數(shù)據(jù)質量務必重視,原因有三。
原因一:成本
數(shù)據(jù)質量差,是IT項目失敗的主要原因,也是客戶流逝背后的驅動因素
之一。
原因二:合規(guī)
質量差的數(shù)據(jù)會帶來重大的法律或者聲譽風險。一些例子如下:
?數(shù)據(jù)缺失導致信用風險不準確
?信用記錄不完整致使風險評估錯誤
?監(jiān)管違規(guī)
原因三:決策
質量好的數(shù)據(jù)意味著有準確及時的信息來管理從研發(fā)到銷售的產(chǎn)品和服
務。質量差的數(shù)據(jù)導致錯誤的洞察力,從而做出錯誤的決策。決策的錯
誤,公司會付出沉重的代價。
在企業(yè),數(shù)據(jù)服務的方式有報表看板、標簽指標和數(shù)據(jù)接口等,而這些
數(shù)據(jù)服務要想為業(yè)務帶來價值的,其首要前提就是要保證數(shù)據(jù)的準確
性,輸出高質量的數(shù)據(jù)。
低質量的數(shù)據(jù)會誤導業(yè)務做出錯誤的決定,致使行動方向發(fā)生偏離。特
別是在數(shù)據(jù)驅動的組織中,是否有準確的、可用的高質量的數(shù)據(jù),將直
接影響領導層能否做出正確的決策和戰(zhàn)略目標的實現(xiàn)。
因此需要特別重視數(shù)據(jù)的質量問題,針對數(shù)據(jù)質量進行專項治理。
03數(shù)據(jù)質量常見問題
在前面的場景案例中,我們可以發(fā)現(xiàn)有如下幾個數(shù)據(jù)質量問題:
1.數(shù)據(jù)延遲,導致業(yè)務無法在正常時效內獲得數(shù)據(jù)結果。
2.數(shù)據(jù)錯誤,導致數(shù)據(jù)結果完全不可信,以致無法使用。
3.數(shù)據(jù)恢復慢,問題發(fā)生后,排查分析耗時長,數(shù)據(jù)恢復時間慢。
發(fā)現(xiàn)滯后,數(shù)據(jù)開發(fā)晚于業(yè)務人員發(fā)現(xiàn)數(shù)據(jù)異常,導致影響已傳導到數(shù)
據(jù)應用端。
04數(shù)據(jù)質量問題原因
那應該如何解決這些質量問題,保證數(shù)據(jù)的高質量交付呢?
首先,我們需要了解這些質量問題產(chǎn)生的根本原因,了解問題才能更好
地去解決問題。通過對歷次數(shù)據(jù)質量問題進行復盤、總結,發(fā)現(xiàn)質量問
題主要由下面幾類原因引發(fā):
?數(shù)據(jù)平臺問題:平臺不穩(wěn)定、隊列資源不足等,導致作業(yè)運行延
遲、報錯。
?數(shù)據(jù)開發(fā)問題:數(shù)據(jù)開發(fā)人員的任務腳本性能太差,計算嚴重耗
時,導致數(shù)據(jù)延遲;或是代碼邏輯設計有問題,導致數(shù)據(jù)計算有
誤。
?上游系統(tǒng)異常:上游源系統(tǒng)異常,數(shù)據(jù)文件晚到,導致下游依賴作
業(yè)延遲。
05數(shù)據(jù)質量治理
出現(xiàn)問題不可怕,可怕的是出現(xiàn)問題后,我們毫無感知,不能做到"早發(fā)
現(xiàn)、早處理、早恢復",以致問題直接傳導到業(yè)務方,影響業(yè)務的開展工
作。
在大數(shù)據(jù)產(chǎn)品矩陣中,我們使用數(shù)據(jù)質量監(jiān)控平臺來支持數(shù)據(jù)質量的監(jiān)
控、治理。
數(shù)據(jù)質量監(jiān)控平臺,主要是對Hive數(shù)倉中的庫表數(shù)據(jù)的質量進行監(jiān)
控,包括表級別和字段級別的數(shù)據(jù)進行監(jiān)控,以減少或避免由數(shù)據(jù)質量
引起的事故和損失。
借助數(shù)據(jù)質量監(jiān)控平臺,我們通過實施下面幾個關鍵步驟來進行數(shù)據(jù)質
量的治理:
(1)配置監(jiān)控規(guī)則
對高價值分的作業(yè),我們要求強制配置基礎監(jiān)控規(guī)則,如:主鍵唯一性
校驗、數(shù)據(jù)非空校驗;
另還可以根據(jù)業(yè)務場景需要,配置對應的業(yè)務規(guī)則監(jiān)控,如:字段總值
環(huán)比校驗、字段極值校驗等,監(jiān)控平臺內置了約17種字段級校驗規(guī)
則、5種表級校驗規(guī)則,供直接配置使用;
監(jiān)控規(guī)則規(guī)則描述
表非空校驗表沒有記錄時發(fā)送告警
表環(huán)比校驗如果環(huán)比值超出預設規(guī)則上下限值.則會發(fā)送告警
表原表對比如果環(huán)比值超出預設規(guī)則上下限值.則會發(fā)送告警
表主鍵唯一如果表根據(jù)主鍵值去重計數(shù)不等于表記錄數(shù),則發(fā)送告警
字段字符非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警
字段字符長度校驗如果字段數(shù)值長度超過預定義上下限范圍.則會發(fā)送告警
字段字符只允許數(shù)字校驗如果出現(xiàn)非數(shù)字的字符或符號,則會發(fā)送告警
字段字符非法校驗如果出現(xiàn)預定義禁止值.則會發(fā)送告警
字段字符空值增長率如果空值常長率超出預定義上下值.則會發(fā)送告警
字段字符格式校驗如果字段值的格式非指定格式,則會發(fā)送告警
字段枚舉允許值校驗如果字段值出現(xiàn)非預定義允許值,則會發(fā)送告警
字段枚舉空值增長率如果空值增長率超出預定義上下值,則會發(fā)送告警
字段枚舉非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警
字段數(shù)字非空校驗如果字段出現(xiàn)空值,則會發(fā)送告警
字段數(shù)字空值增長率如果空值增長率超出預定義上下值.則會發(fā)送告警
字段數(shù)字極值校驗如果字段數(shù)值超過預定義上下限范圍,則會發(fā)送告警
字段數(shù)字非法值校驗如果出現(xiàn)預定義禁止值,則會發(fā)送告警
字段數(shù)字環(huán)比校驗如果環(huán)比值超出預設規(guī)則上下限值.則會發(fā)送告警
字段數(shù)字均值校驗如果環(huán)比值超出預設規(guī)則上下限值.則會發(fā)送告警
字段枚舉環(huán)比如果環(huán)比值超出預設規(guī)則上下限值.則會發(fā)送告警…_.
字段空值占比校驗如果空值的記錄條數(shù)和總記錄數(shù)對比,則會發(fā)送吉警歸于三
除內置了豐富的校驗規(guī)則,質量監(jiān)控平臺還支持SQL自定義監(jiān)控規(guī)則,
極大地滿足各種數(shù)據(jù)監(jiān)控場景。
(2)監(jiān)控告警
當校驗規(guī)則識別異常時,需要通知負責人進行跟進處理,質量監(jiān)控平臺
支持以電話、郵件和短信等方式通知作業(yè)屬主。作業(yè)屬主收到告警后,
需及時地處理和關閉告警,否則告警將一直掛在那,在后面的告警響應
度中會被稽核到,上報其領導。
(3)全鏈路數(shù)據(jù)監(jiān)控
根據(jù)作業(yè)的價值分級,針對高價值作業(yè),開發(fā)人員可根據(jù)數(shù)據(jù)血緣,對
上游作業(yè)依次配上監(jiān)控,實現(xiàn)全鏈路的數(shù)據(jù)質量監(jiān)控。
06數(shù)據(jù)質量評價體系
在執(zhí)行了一系列的舉措來提高數(shù)據(jù)質量后,如何來驗證數(shù)據(jù)質量的治理
效果呢?
根據(jù)企業(yè)本身的數(shù)據(jù)特點,設計并構建了一個數(shù)據(jù)質量七維評價模型,
如下圖所示:
數(shù)據(jù)度量整體評分:74.15
副版完整性
7.BJ
告警響應度
..「-
,:/溷字星
數(shù)據(jù)質量評價模型,分別從數(shù)據(jù)完整性、監(jiān)控覆蓋率、告警響應度、作
業(yè)準確性、作業(yè)穩(wěn)定性、作業(yè)時效性、作業(yè)性能分等七個維度來考量平
臺的數(shù)據(jù)質量,基于該模型,還設計了"數(shù)據(jù)質量分"這個指標,來直觀
地反映平臺數(shù)據(jù)質量的建設水平及健康狀況。
數(shù)據(jù)質量七維模型的評價視角及其計算口徑:
數(shù)據(jù)質量?績效評分指標
考量數(shù)據(jù)項信息是否全面、完整、無抉失
1數(shù)據(jù)完整性指標公式:表完整性和字段完整性的平均值
2監(jiān)控覆蓋率,確保數(shù)據(jù)遵循統(tǒng)一的數(shù)據(jù)標準或規(guī)范要求
指標公式:巳監(jiān)控作業(yè)個數(shù)/作業(yè)總個數(shù)
通過日常管理、應急響應,降低或消除問題影響,避免數(shù)據(jù)損毀、丟失
3告警響應度指標公式:巳處理告警個數(shù)/告警總個數(shù)
<
作業(yè)準確性考量數(shù)據(jù)是否符合預設的質量要求,如唯一性約束、記錄量校驗等
4指標公式:1-告警作業(yè)個數(shù)/監(jiān)控作業(yè)總個數(shù)
5作業(yè)穩(wěn)定性考量作業(yè)的運行穩(wěn)定性,是否經(jīng)常報錯,導致數(shù)據(jù)事故
指標公式:1-錯誤作業(yè)個數(shù)/作業(yè)總個數(shù)
6作業(yè)及時性考量數(shù)據(jù)項信息可被獲取和使用的時間是否滿足預期要求
?指標公式:1-延遲作業(yè)個數(shù)/作業(yè)總個數(shù)
考量作業(yè)的執(zhí)行效率和逑康度,診斷作業(yè)是否假斜等性能問題
7作業(yè)性能分指標公式:1-(嚴重I危急)作業(yè)個數(shù)/作業(yè)總個數(shù);冊據(jù)學堂
數(shù)據(jù)完整性
☆考量數(shù)據(jù)項信息是否全面、完整、無缺失
★指標公式:表完整性和字段完整性的平均值
2
監(jiān)控覆蓋率
☆確保數(shù)據(jù)遵循統(tǒng)一的數(shù)據(jù)標準或規(guī)范要求
★指標公式:監(jiān)控的高價值作業(yè)個數(shù)/高價值作業(yè)總個數(shù)
其中,高價值作業(yè)是指作業(yè)價值分在80分以上的作業(yè)
3
告警響應度
☆通過日常管理、應急響應,降低或消除問題影響,避免數(shù)據(jù)損毀、
丟失
★指標公式:已處理告警個數(shù)(本周)/告警總個數(shù)(本周)
4
作業(yè)準確性
☆考量數(shù)據(jù)是否符合預設的質量要求,如唯一性約束、記錄量校驗等
★指標公式:1-告警作業(yè)個數(shù)(本周)/監(jiān)控作業(yè)總個數(shù)
作業(yè)穩(wěn)定性
☆考量作業(yè)的運行穩(wěn)定性,是否經(jīng)常報錯,導致數(shù)據(jù)事故
★指標公式:1-錯誤作業(yè)個數(shù)(本周)/作業(yè)總個數(shù)
作業(yè)時效性
☆考量數(shù)據(jù)項信息可被獲取和使用的時間是否滿足預期要求
★指標公式:1-延遲的高價值作業(yè)個數(shù)(本周)/高價值作業(yè)總個數(shù)
其中,基準時間為作業(yè)近30天平均完成時間加30分鐘,作業(yè)晚于
基準即延遲
7
作業(yè)性能分
☆考量作業(yè)的執(zhí)行效率和健康度,診斷作業(yè)是否傾斜等性能問題
★指標公式:1-危急作業(yè)個數(shù)(本周)/作業(yè)總個數(shù)
從各質量維度的評價視角和指標公式可以發(fā)現(xiàn),雖然數(shù)據(jù)質量監(jiān)控的是
表及字段的質量情況,但我們的質量分是設定在庫這個層級。這么設計
主要是為了更好地責任劃分、統(tǒng)籌治理。
比如在銀行業(yè),每個庫都有其對應的所屬分層(如明細層、匯總層、應
用層等),且每個庫都有對應的庫負責人,所以到庫這個層級,我們能
更好的分而治之,由庫負責人對庫的質量水平負責。
基于數(shù)據(jù)質量模型,我們還配套對應的數(shù)據(jù)質量監(jiān)控報告。在報告中我
們不僅能看到數(shù)據(jù)平臺的整體質量評分,了解質量發(fā)展趨勢,更能通過
多維分析、單維深鉆來了解平臺的質量問題根源。
多維分析:詳細展示七個質量維度的評分及趨勢變化,每個維度下還配
有TOP榜,用來展示低質量的庫排名,督促庫負責人進行優(yōu)化、治
理;
作業(yè)準確性(TOP10窿及整體)作業(yè)準確性(表明他)
*nsMilft8ftftNUf作m■tHBAA已處哀”個《l
RLDRLD71A3?XMS_COR£.28390no
第"IM
ZCtMIftOMOO1MS.CORE:如“5DO28390390
JIHAJ^WB
XUMta?5986671MS.COW378378
6KCHtWMtfBUNX89.71-\MS.COR£臥?837>378
ZH
AP嚼1RZHIS
9000-KMS.CORE‘r348548
SAf!li^Kg_MDe」1HA9P非
SUMK0690X)01U4S.COR£APWt>.洲iZH15348348
TBBUCza^fp9Z02I\MS_COREb決qZH/3klZHb271271
28
1PJIH^^BZHA1RlZHlS
192161kMS.CORE?Kf?B->w271271
GUV!
92471\MS.CORETHHZHH)28h238238
ALG92.921XMS.CORtJIHAIA28GUvj史圖據(jù)冬空
無無95.361IMSCORfEITHAMKVK7HAMAI7HI?i
1-2$A1.486ft?
單維深鉆:每一個質量維度都能從整體下鉆到具體庫及表,深入了解該
維度質量評分低的具體原因,以便針對性地解決問題、提高質量;
告譬規(guī)弼(各庫表嬲)
asm*8
ttaaStcfTiiMIDBMfluaaMfNLQKBRRfWBUTALQ2
ttiWftSttMIDF$_8W|^M|^^mEILtNFCFS_BS9MMK_SU2
作業(yè)MIDv.FSjtMMBTivrV
作ikt&SttMID
ttSMl:MIDFS.WMHaflUrtfO
盛婷量?本MIDV.FSjtaHBHMtl1*FS-WMSHRARY,
盤IS量■率MIDFSjM>M9hFO
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小雞拼貼畫課件教學
- 2025廣東佛山市順德區(qū)均安鎮(zhèn)專職消防隊招聘消防員5人模擬筆試試題及答案解析
- 2025重慶酉陽自治縣城區(qū)事業(yè)單位公開遴選34人考試參考試題及答案解析
- 2025廣東深圳市寶安區(qū)翻身實驗學校(西校區(qū))誠聘初中地理、初中道法和高中歷史教師3人參考考試試題及答案解析
- 增長黑客營銷實踐
- 2025浙江寧波農(nóng)商發(fā)展集團有限公司招聘3人備考筆試試題及答案解析
- 孕產(chǎn)婦營養(yǎng)課件
- 2026福建三明市教育局開展“揚帆綠都·圓夢三明”教育類高層次人才專項公開招聘44人參考考試試題及答案解析
- 小青蛙躲雨課件
- 16.2.2 線段垂直平分線性質定理的逆定理 課件
- 如何長高課件
- 23J916-1:住宅排氣道(一)
- (新平臺)國家開放大學《農(nóng)村社會學》形考任務1-4參考答案
- 獻身國防事業(yè)志愿書范文
- 青島版科學四年級上冊知識點
- 2023年06月北京第一實驗學校招考聘用筆試題庫含答案解析
- 中復神鷹碳纖維西寧有限公司年產(chǎn)14000噸高性能碳纖維及配套原絲建設項目環(huán)評報告
- 毛澤東思想和中國特色社會主義理論體系概論(山東師范大學)知到章節(jié)答案智慧樹2023年
- 紅外圖譜記憶口訣
- JJG 879-2015紫外輻射照度計
- 揚州京華城中城戶外廣告推廣定位及推薦
評論
0/150
提交評論