全鏈路數(shù)據(jù)治理-主動數(shù)據(jù)治理篇_第1頁
全鏈路數(shù)據(jù)治理-主動數(shù)據(jù)治理篇_第2頁
全鏈路數(shù)據(jù)治理-主動數(shù)據(jù)治理篇_第3頁
全鏈路數(shù)據(jù)治理-主動數(shù)據(jù)治理篇_第4頁
全鏈路數(shù)據(jù)治理-主動數(shù)據(jù)治理篇_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

目錄2萬字揭秘阿里巴巴數(shù)據(jù)治理平臺DataWorks建設(shè)實(shí)踐 5一、 數(shù)據(jù)繁榮的紅利與挑戰(zhàn) 5二、 阿里巴巴數(shù)據(jù)治理平臺建設(shè)實(shí)踐 11數(shù)據(jù)生產(chǎn)規(guī)范性治理 11數(shù)據(jù)生產(chǎn)穩(wěn)定性治理 17數(shù)據(jù)生產(chǎn)質(zhì)量治理 22數(shù)據(jù)應(yīng)用提效治理 29數(shù)據(jù)安全管控治理 34數(shù)據(jù)成本治理 40數(shù)據(jù)治理組織架構(gòu)及文化建設(shè) 53三、 總結(jié) 5722PAGE102萬字揭秘阿里巴巴數(shù)據(jù)治理平臺DataWorks建設(shè)實(shí)踐作者:阿里云DataWorks團(tuán)隊DataWorks一些建設(shè)經(jīng)驗與大家進(jìn)行一些分享。一、數(shù)據(jù)繁榮的紅利與挑戰(zhàn)大數(shù)據(jù)平臺的建設(shè),到底可以為企業(yè)帶來什么樣的價值?對于技術(shù)同學(xué)來說,往往會用一些技術(shù)指標(biāo)來衡量,例如數(shù)據(jù)量,機(jī)器數(shù)量,任務(wù)數(shù)量等等。根據(jù)我們往年已經(jīng)對外公開的數(shù)據(jù),我們可以看到大數(shù)據(jù)計算引擎MaxCompute2021年雙11MaxCompute2.79EB11不僅僅意味著當(dāng)年的波峰,同時也是來年的起點(diǎn),成為了2022年日常每天的數(shù)據(jù)處理量,去年的峰值成為了來年的日常。在大數(shù)據(jù)開發(fā)治理平臺DataWorks上,單日任務(wù)調(diào)度實(shí)例數(shù)也超過了100050有序產(chǎn)出,闊的數(shù)據(jù)畫卷。規(guī)模當(dāng)然可以一定程度上反饋我們?yōu)闃I(yè)務(wù)帶來的支持,特別像雙11很重要的環(huán)節(jié)是“人”,是大數(shù)據(jù)平臺的用戶。對于DataWorksDataWorks5DataWorks上進(jìn)行各類數(shù)據(jù)操作的活躍用戶數(shù)超過5萬人HR不斷釋放。從最早的淘寶、天貓等電商業(yè)務(wù),到后續(xù)的優(yōu)酷、高德、菜鳥等板塊,DataWorks與MaxCompute據(jù)應(yīng)用(業(yè)務(wù))的增長,人人參與數(shù)據(jù)建設(shè),為企業(yè)帶來整體的“數(shù)據(jù)繁榮”。數(shù)據(jù)繁榮為我們帶來了紅利,同時也帶動了各類數(shù)據(jù)治理需求的井噴。從2009算起,我們做DataWorks15如:數(shù)據(jù)穩(wěn)定性不足告警,故障無法快速恢復(fù);突發(fā)大流量導(dǎo)致數(shù)據(jù)服務(wù)宕機(jī)或不可用。數(shù)據(jù)應(yīng)用效率低表數(shù)量越來越多,找不到需要的數(shù)據(jù);缺少數(shù)據(jù)規(guī)范與標(biāo)準(zhǔn),每次使用都要溝通;數(shù)據(jù)需求經(jīng)常變更,數(shù)倉人員壓力巨大。數(shù)據(jù)管理風(fēng)險大不斷更新,敏感數(shù)據(jù)發(fā)現(xiàn)難,數(shù)據(jù)分類分級難度高。數(shù)據(jù)成本壓力大/任務(wù)不敢下。DataWorks治理各類方法論與規(guī)范的沉淀。起步階段-數(shù)據(jù)量與穩(wěn)定性的矛盾起步階段我們最重要的是得保障“有”數(shù)據(jù),數(shù)據(jù)不斷產(chǎn)生,數(shù)據(jù)量不斷增長,我們需要保證數(shù)據(jù)產(chǎn)出的時效性,穩(wěn)定性、數(shù)據(jù)質(zhì)量的準(zhǔn)確性,這些也是數(shù)倉同學(xué)最資損。應(yīng)用階段-數(shù)據(jù)普惠與使用效率的矛盾當(dāng)我們“有”數(shù)據(jù)的時候,接下來面臨的就是“用”數(shù)據(jù)505至有走向失控的節(jié)奏。規(guī)模階段-靈活便攜與風(fēng)險管控的矛盾險就會增大,我們要開始“管”數(shù)據(jù)用數(shù)據(jù),出現(xiàn)一些數(shù)據(jù)泄露事件。成熟階段-業(yè)務(wù)變化與成本治理的矛盾成熟階段意味著我們能實(shí)現(xiàn)數(shù)據(jù)業(yè)務(wù)化,但是面對當(dāng)前的環(huán)境,經(jīng)常會提出“本”的需求。如果業(yè)務(wù)增長、成本線性增長,我們需要成本治理。如果業(yè)務(wù)受限,成本冗余大,我們也需要成本治理。階段來說,成本治理不應(yīng)該是一個“運(yùn)動式”“項目式”到的各類公司數(shù)據(jù)治理的理念深入人心,形成常態(tài)化的工作。第二階段各種人員無序使用資源。們也會逐步沉淀到DataWorks平臺。包含據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)服務(wù)服務(wù)等各個方面的訴求,我們在后面的各類實(shí)踐場景中還會為大家詳細(xì)講解。小結(jié)面對大數(shù)據(jù)平臺眾多數(shù)據(jù)治理問題的挑戰(zhàn),我們用1套組織架構(gòu),1“規(guī)模、成熟”階段,對應(yīng)“穩(wěn)定、提效、管控、降本”到主要矛盾上,讓數(shù)據(jù)治理平臺需要緊密結(jié)合各類經(jīng)驗、場景與方法論。二、阿里巴巴數(shù)據(jù)治理平臺建設(shè)實(shí)踐剛才我們提到了各個階段的主要矛盾與問題,接下來我們將會為大家介紹DataWorksDataWorks平臺與集團(tuán)內(nèi)各個業(yè)務(wù)部門共創(chuàng)和緊密合作實(shí)現(xiàn)的。數(shù)據(jù)生產(chǎn)規(guī)范性治理單的例子:數(shù)倉架構(gòu)混亂跨bu、跨團(tuán)隊依賴較多,數(shù)倉架構(gòu)逐漸混亂,逐步有失控趨勢,面臨重建危機(jī)。數(shù)據(jù)開發(fā)效率低業(yè)務(wù)含義不清、數(shù)據(jù)模型設(shè)計與物理表開發(fā)斷鏈,有了模型開發(fā)效率也沒提高。數(shù)據(jù)指標(biāo)構(gòu)建難理。找數(shù)用數(shù)難業(yè)務(wù)數(shù)據(jù)含義口口相傳,人工問口徑耗費(fèi)大量時間,交接人員也不清楚數(shù)據(jù)情況。數(shù)據(jù)穩(wěn)定性差數(shù)據(jù)混亂,導(dǎo)致數(shù)據(jù)產(chǎn)出時效受影響,數(shù)據(jù)質(zhì)量穩(wěn)定性不高。數(shù)據(jù)成本不斷增長數(shù)據(jù)隨意開發(fā)、大量任務(wù)重復(fù)計算、找不到也治不了,導(dǎo)致成本不斷增加。的發(fā)展,往往會忽視規(guī)范的建設(shè),經(jīng)常采用“先污染,后治理”各類業(yè)務(wù)需求,而良好的數(shù)據(jù)規(guī)范建設(shè)往往可以起到“事半功倍”的效果。DataWorks2020年開始與DataWorksexcel交互等功能,最終讓整個數(shù)倉團(tuán)隊的開發(fā)效率提升30%,并且下線15%不規(guī)范的冗余的數(shù)據(jù)表同時在整個數(shù)倉公共層團(tuán)隊與業(yè)務(wù)數(shù)據(jù)開發(fā)團(tuán)隊進(jìn)行推廣,全員使用,成為事業(yè)部落地數(shù)倉規(guī)范的統(tǒng)一平臺。&部分,首先設(shè)計了“數(shù)據(jù)架構(gòu)委員會”品工具DataWorks智能數(shù)據(jù)建模來模型管理&送,實(shí)現(xiàn)模型管理的閉環(huán),促進(jìn)模型不斷優(yōu)化和完善。評審、業(yè)務(wù)管理四個模塊來建設(shè)智能數(shù)據(jù)建模平臺:規(guī)范定義數(shù)據(jù)開發(fā)對Excel計,然后再線下進(jìn)行模型評審。Excel便,難以持續(xù)維護(hù),容易造成企業(yè)寶貴的數(shù)據(jù)業(yè)務(wù)知識流失。所以數(shù)倉團(tuán)隊希望規(guī)范的定義搬到線上,下圖中列出了線上規(guī)范定義的主要內(nèi)容。發(fā)布評審之前數(shù)倉團(tuán)隊的評審也是在線下進(jìn)行,在架構(gòu)師和工程師比較忙的時候,就不夠嚴(yán)謹(jǐn),甚至沒有走評審的過程就直接發(fā)布了MaxComputeHiveMySQLOracleETL本是不是有一些影響,比如有的時候新增了一個字段,下游同學(xué)使用的時候是Select*的方式,而表沒有新增的這個字段,就會導(dǎo)致下游任務(wù)報錯。便捷開發(fā)這是核心重要的一點(diǎn)。數(shù)倉團(tuán)隊希望將建模方式從線下搬到線上之后,倉同學(xué)的開發(fā)效率,所以設(shè)計了各種提高效率的便捷開發(fā)功能。業(yè)務(wù)管理一些歷史上的模型可以做歸并或下線。&原子&派生指標(biāo)定義、模型發(fā)布七個步驟。DataWorks并完成存量模型100%的線上化管理以數(shù)據(jù)中臺方法論為指導(dǎo),DataWorks智能數(shù)據(jù)建模形成了數(shù)倉規(guī)劃、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)建模、數(shù)據(jù)指標(biāo)四大產(chǎn)品模塊,成為各部門統(tǒng)一使用的數(shù)據(jù)建模平臺,累計形1萬張,有效提升阿里巴巴集團(tuán)整體數(shù)據(jù)的規(guī)范性。小結(jié)而不是原先線下Excel數(shù)據(jù)生產(chǎn)穩(wěn)定性治理來說,值班是工作的一部分,值班同學(xué)的一晚大概是這樣的:“XXXX處理!”、、2:00,電話告警不斷轟炸,手機(jī)不斷震動,前往客廳辦公。2:00,對于上下游任務(wù)邏輯不太清楚,拉起一批同學(xué)起夜。3:00Call醒,打來電話詢問情況,溝通后續(xù)處理方案。5:00,所有任務(wù)處理完成,等待集群資源計算數(shù)據(jù)。上午9:00作。可以說,天下數(shù)倉同學(xué)苦值班久矣的時候,往往會圍繞兩個核心指標(biāo)進(jìn)行優(yōu)化,分別是起夜率與基線破線率。起夜率夜,起夜率相對越低越好。基線破線率基線是DataWorks獨(dú)創(chuàng)的理念,在基線上我們可以為任務(wù)設(shè)置最晚產(chǎn)出時間。例如當(dāng)天營收數(shù)據(jù),最晚產(chǎn)生時間設(shè)置為凌晨2:00,如果這個任務(wù)最終產(chǎn)出超過2:00,那么這條基線就破線了,基線破線率同樣也是越低越好。在治理實(shí)踐中,通常是以下流程:基線配置概念,類似搶救時間。例如剛才我們提到的任務(wù)產(chǎn)出時間設(shè)置為凌晨2:001進(jìn)行告警,方便我們提前知曉核心任務(wù)的產(chǎn)出風(fēng)險?;€治理語法報錯、系統(tǒng)環(huán)境報錯、權(quán)限報錯、同步任務(wù)報錯等,進(jìn)行生產(chǎn)穩(wěn)定性的根治治理穩(wěn)定性評估知識資產(chǎn),并且進(jìn)行責(zé)任公示,設(shè)計獎懲制度、達(dá)到穩(wěn)定性治理正向循環(huán)。智能基線可以說是DataWorks中守護(hù)數(shù)據(jù)安全生產(chǎn)的核心功能,里面結(jié)合了DataWorks多項運(yùn)維診斷和MaxCompute引擎能力。智能分級調(diào)度與資源分配11/3/5/7為核心數(shù)據(jù)產(chǎn)出進(jìn)行重要性分級,高優(yōu)先級任務(wù)及其上游,與MaxCompute的計算資源,以保障高優(yōu)先級任務(wù)的運(yùn)行資源。DataWorks其中涉及眾多調(diào)度與資源分配的核心技術(shù)申請了國家專利。智能預(yù)測與告警1前置的依賴任務(wù)就不需要再逐個配置運(yùn)維告警了,將會極大提升運(yùn)維效率。任務(wù)開30秒刷新智能預(yù)測數(shù)據(jù)產(chǎn)出時間。例如設(shè)置核心任20:30產(chǎn)出的最終核心任務(wù)延時,那么數(shù)倉同學(xué)將會在20:30就收到告警,提前干預(yù)處理延遲任務(wù),而2:00任務(wù)已經(jīng)延時了,才開始處理。全鏈路智能診斷與排障提前收到告警后,運(yùn)維同學(xué)也會在DataWorks圖上查看上下游及每個周期實(shí)例的運(yùn)行情況,通過運(yùn)行診斷MaxCompute查等等,可以快速定位并排障。智能基線的配置及故障處理參考下方,針對任務(wù)責(zé)任人和值班人不同的情況,DataWorks還設(shè)置了值班表的功能,可以將不同責(zé)任人的告警消息統(tǒng)一推送給當(dāng)前值班表對應(yīng)人員。以內(nèi)部某個數(shù)倉團(tuán)隊為例,在穩(wěn)定性治理之前,團(tuán)隊每周需要2.5人日進(jìn)行值班,135135天日間的工作效7級基線4097%同時極大地提升了員工的工作幸福感,這也是穩(wěn)定性治理的重要意義。小結(jié)數(shù)據(jù)生產(chǎn)質(zhì)量治理關(guān)“成功獲取數(shù)據(jù)”“成功獲取正確的數(shù)據(jù)這樣才能實(shí)現(xiàn)業(yè)務(wù)側(cè)的成功。量問題后,能引發(fā)不同維度上的業(yè)務(wù)問題。期的情況時,就會出現(xiàn)針對這件包裹的各種業(yè)務(wù)問題的追查。例如,當(dāng)重量值為空值時,或者等于0值超過了正常定義的閾值時,例如1況。消費(fèi)者、平臺與商家、平臺與供應(yīng)商之間的交互,都會被數(shù)據(jù)質(zhì)量問題所影響。數(shù)據(jù)可靠性保障和有效的業(yè)務(wù)產(chǎn)出。所以樣,貫穿于數(shù)據(jù)生命周期的各個階段問題」所要建設(shè)的重要體系。面:面向商業(yè)級服務(wù)的數(shù)據(jù)質(zhì)量高保障要求保障。比如,由于更多客戶業(yè)務(wù)根據(jù)數(shù)據(jù)進(jìn)行決策,數(shù)據(jù)高準(zhǔn)確性要求也因此出現(xiàn),對數(shù)據(jù)準(zhǔn)確性的不再只是滿足一定的數(shù)據(jù)分布即可,需要結(jié)合更多的業(yè)務(wù)知識對數(shù)據(jù)準(zhǔn)TOB單一架構(gòu)的數(shù)據(jù)庫可能不能完全滿足業(yè)務(wù)的產(chǎn)出速度需要,需要異構(gòu)數(shù)據(jù)庫合作進(jìn)行數(shù)據(jù)鏈路建設(shè),因此如何保證異構(gòu)數(shù)據(jù)的一致性也是需要解決的問題。對數(shù)據(jù)質(zhì)量協(xié)作保證過程的高效率要求數(shù)據(jù)度量落在系統(tǒng)中;能反推研發(fā)各階段,共同高效地提升數(shù)據(jù)質(zhì)量。重點(diǎn)增強(qiáng)。DataWorks了提供統(tǒng)一的數(shù)據(jù)質(zhì)量平臺工具能在一個平臺上流水線式地完成所有協(xié)作過程。圍繞開發(fā)、部署、運(yùn)維和監(jiān)控環(huán)節(jié)的工具能力提升,極大簡化了數(shù)據(jù)團(tuán)隊各角色的日常工作流程。在持續(xù)監(jiān)控的數(shù)據(jù)質(zhì)量監(jiān)控的基礎(chǔ)上,加強(qiáng)事中防控質(zhì)量問題,事前預(yù)防校正問題維度,讓數(shù)據(jù)質(zhì)量在每個環(huán)節(jié)起作用,各個角色側(cè)都能高效落地。自測的能力讓研發(fā)可以提前消滅問題。據(jù)鏈路的部署更新。問題數(shù)據(jù)對下游的影響,并通過告警機(jī)制及時提醒用戶進(jìn)行任務(wù)處理。提升規(guī)則覆蓋率,減少人工配置負(fù)擔(dān),降低閾值設(shè)置難度和規(guī)則誤報率。而在海量的一致性及質(zhì)量管理的延續(xù)性。的自動檢測,最終走向質(zhì)量高效化的智能管理。這里面有大量的基礎(chǔ)性工作:通過管理機(jī)制和平臺體系,讓每一張數(shù)據(jù)表都有負(fù)責(zé)人。平臺能自動追溯表與表之間的血緣關(guān)系。題。ETL作業(yè)統(tǒng)一調(diào)度,質(zhì)量監(jiān)控與調(diào)度系統(tǒng)集成,做到事中即時智能管控。數(shù)據(jù)表及相似業(yè)務(wù),提供快速模板化規(guī)則配置、規(guī)則推薦,并根據(jù)歷史的業(yè)務(wù)運(yùn)結(jié)果進(jìn)行動態(tài)閾值的智能判定,減少新數(shù)據(jù)和新用戶的配置成本,減少對需要關(guān)指標(biāo)及數(shù)據(jù)的質(zhì)量治理的遺漏,全面提升數(shù)據(jù)可信度與價值密度。三方面完成了相應(yīng)建設(shè)和沉淀,根據(jù)實(shí)際的業(yè)務(wù)流程和數(shù)據(jù)流程完成。質(zhì)量治理策略:建立線上數(shù)據(jù)質(zhì)量問題管理處置機(jī)制。質(zhì)量問題監(jiān)控:建立全流程數(shù)據(jù)質(zhì)量問題的監(jiān)控和預(yù)防體系。質(zhì)量協(xié)同處理:建立上下游協(xié)同的工作流程。質(zhì)量度量評估:建立可復(fù)用的數(shù)據(jù)標(biāo)準(zhǔn)和統(tǒng)一的質(zhì)量評估體系。通過數(shù)據(jù)質(zhì)量治理的建設(shè),以及圍繞業(yè)務(wù)對象的協(xié)作規(guī)則沉淀。量異常問題進(jìn)行修復(fù)。量數(shù)據(jù)修復(fù)動作進(jìn)行數(shù)據(jù)修復(fù)。整體包裹參數(shù)的數(shù)據(jù)準(zhǔn)確率提升至99%以上,通過數(shù)據(jù)質(zhì)量治理也推動了業(yè)務(wù)流程在質(zhì)量保障環(huán)節(jié)的優(yōu)化,最終為我們的業(yè)務(wù)高價值服務(wù)進(jìn)行了更好地保障。小結(jié)定等能力,讓數(shù)據(jù)質(zhì)量在每個環(huán)節(jié)起作用,各個角色側(cè)都能高效落地。數(shù)據(jù)應(yīng)用提效治理剛才的數(shù)據(jù)生產(chǎn)穩(wěn)定性與質(zhì)量穩(wěn)定性,更多解決第一階段“有”到眾多難點(diǎn)。例如:找數(shù)難 想找的數(shù)據(jù),不知道去哪找,特別是用業(yè)務(wù)術(shù)語去找的時候 相似表太多,不知道用哪個 搜索的結(jié)果太多,需要逐一點(diǎn)擊查看 搜索的結(jié)果不準(zhǔn),很多和自己的業(yè)務(wù)不相關(guān)用數(shù)難 表命名奇怪,字段沒有注釋,缺少文檔 表注釋太簡略,沒有有效信息 人工問口徑耗費(fèi)大量時間 owner是被交接的,也不清楚業(yè)務(wù)邏輯 如何快速開放數(shù)據(jù)或者構(gòu)建個性化數(shù)據(jù)應(yīng)用/據(jù)釋義的多次頻繁溝通,并消除數(shù)據(jù)指標(biāo)的二義性?;谠獢?shù)管理的能力,DataWorks提供數(shù)據(jù)地圖/字段/模型/完善的表。數(shù)據(jù)建模與數(shù)據(jù)地圖解決了大部分的找數(shù)問題,在用數(shù)階段,DataWorks提供了統(tǒng)一的SQL查詢分析工具,找到表后通過SQL的方式就可以直接進(jìn)行快速查詢,里面在今年更新了眾多的體驗優(yōu)化能力。頁面布局可以切換上下布局和左右布局,左右布局可以更好利用一些外接顯示器場景,顯示信息更多SQL編輯器提供自動的代碼補(bǔ)全,代碼格式化、代碼高亮等能力查詢結(jié)果展示可以分為明細(xì)數(shù)據(jù)模式和圖表模式,支持拖拉拽進(jìn)行快速地圖表編輯針對數(shù)據(jù)的上傳和下載開通了快捷入口,也支持針對數(shù)據(jù)下載條數(shù)進(jìn)行管控DataWorks0API的能力能力,包含OpenAPI、開放事件以及擴(kuò)展程序(插件,允許用戶自有系統(tǒng)與DataWorksDataWorks以自定義數(shù)據(jù)治理需求與應(yīng)用能力。DataWorks164%API1500平臺月活躍小二超過萬人,取得了一定的效果。小結(jié)戶更高效地使用數(shù)據(jù)。數(shù)據(jù)安全管控治理分的管控行為就是“反便捷”是其他企業(yè)組織的大數(shù)據(jù)體系,在安全管控方面有以下幾個痛點(diǎn):存儲量大、用戶種類多:由于數(shù)據(jù)倉庫/數(shù)據(jù)中臺是集成的、反映歷史變化的,因此注定了企業(yè)的數(shù)據(jù)倉庫集中存儲了各部門、各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),阿里巴巴TBGB如果我們希望將這些數(shù)據(jù)進(jìn)行精細(xì)化的管理加密,高、耗時較長及遺漏的問題。用戶基數(shù)大、用戶種類多:數(shù)據(jù)中臺是用于服務(wù)企業(yè)決策、日常分析的基礎(chǔ)設(shè)施,在數(shù)據(jù)采集階段,通常由開發(fā)人員配置任務(wù)將數(shù)據(jù)導(dǎo)入至數(shù)倉,加工階段由數(shù)據(jù)工程師進(jìn)行代碼開發(fā)與側(cè),使用階段則由各類運(yùn)營、分析師通過各類Client等崗位發(fā)適合自己的客戶端界面以達(dá)到業(yè)務(wù)所需效果。難以管控的。數(shù)據(jù)流轉(zhuǎn)鏈路復(fù)雜:數(shù)據(jù)在采集&傳輸、生產(chǎn)&開發(fā)、分發(fā)&使用階段都涉及不&&DB讀取與寫入;在分發(fā)&(出數(shù)倉行為,這些行為可能通過數(shù)據(jù)服務(wù)API成為了企業(yè)安全管理員一項艱巨的挑戰(zhàn)。心、中國信息安全測評中心等20家業(yè)內(nèi)權(quán)威機(jī)構(gòu)聯(lián)合編寫國家標(biāo)準(zhǔn)DSMM(安全能力成熟度模型DSMM一下在DataWorks平臺層面一些安全管控經(jīng)驗。梳理敏感數(shù)據(jù)資產(chǎn)清單并分級分類數(shù)據(jù)安全治理的第一要務(wù)是梳理資產(chǎn)并對其進(jìn)行分級分類PB在“數(shù)據(jù)保護(hù)傘“AI別規(guī)則,通過這種智能化的方式,可以快速發(fā)現(xiàn)敏感數(shù)據(jù)并進(jìn)行打標(biāo)。另外,除的違規(guī)操作。建設(shè)安全能力并選定安全控制我們會介紹幾種典型的數(shù)據(jù)安全治理場景。角色劃分與權(quán)限控制為了方便使用,DataWorks提供了多種方式,例如平臺內(nèi)置了分析師、數(shù)據(jù)開發(fā)、OpenAPI的形式進(jìn)行自動化地授權(quán),實(shí)現(xiàn)人員自動添加/自動授權(quán)/按需申請權(quán)限,讓團(tuán)隊內(nèi)分權(quán)管理、各司其職,規(guī)范化開展數(shù)據(jù)生產(chǎn)開發(fā)流程。同時,針對一些敏感數(shù)據(jù),還可以L1OwnerL2數(shù)據(jù)審批到部門安全負(fù)責(zé)人,L3CIO等管理層。數(shù)據(jù)脫敏數(shù)據(jù)脫敏HASH感數(shù)據(jù)的去標(biāo)識化(脫敏,達(dá)到保護(hù)的目的。AI風(fēng)險識別模型AI數(shù)據(jù)風(fēng)險行為治理UEBA引擎配置各類風(fēng)險規(guī)則,采集分析用戶行為并智能判斷各類諸如惡意數(shù)在此階段,我們會配置諸如數(shù)據(jù)大規(guī)模查詢展示/復(fù)制/下載、數(shù)據(jù)DROP/DELETE/UPDATEAPI發(fā)布、數(shù)據(jù)跨域同步等阻斷或?qū)徟?guī)則,以此來防范人員因蓄意或安全意識缺乏、誤判而導(dǎo)致的不合理行為、風(fēng)險、損失。數(shù)據(jù)安全治理成效2.0的所有安全測評。每日自動化發(fā)現(xiàn)敏感記錄值、核心表訪問流轉(zhuǎn)風(fēng)險。100%釋放用于數(shù)據(jù)梳理、分級分類、風(fēng)險發(fā)現(xiàn)的巨大人力。小結(jié)盡量減少用戶的使用成本,提高管控效率。數(shù)據(jù)成本治理階段需要做的事情,企業(yè)在有降本需求的時候,不妨可以我們是否做的足夠充分人肉,又或許是因為第二階段各種人員無序使用資源。從我們的觀點(diǎn)來看,成本治理的方案核心主要包含了以下三個部分。治技合一這里的“技”DataWorks1的技術(shù)資產(chǎn),從而提升技術(shù)人員的治理能力與效率,達(dá)到治技合一。全鏈路數(shù)據(jù)治理對性的成本治理優(yōu)化。每個鏈路上微小的優(yōu)化,才能實(shí)現(xiàn)整體成本的不斷降低。組織設(shè)計與常態(tài)運(yùn)營可量化,持續(xù)化進(jìn)行。成本治理策略分析成本治理大的目的都是推動以“更低成本”換取“更高”35面,基礎(chǔ)設(shè)施主要指傳統(tǒng)的機(jī)房形式,涉及硬件的采購、選型、優(yōu)化等等,這里大部分工作一般由阿里云負(fù)責(zé),不需要我們投入太多精力。引擎能力能力,提高分布式調(diào)度的能力等等。平臺能力解決、量化各類數(shù)據(jù)治理的問題。某個事業(yè)部達(dá)成了多少的降本目標(biāo),某個業(yè)務(wù)板塊的ROI引擎降本-MaxCompute&HologresDataWorks在阿里巴巴集團(tuán)結(jié)合阿里云ODPS滿足多元化數(shù)據(jù)計算需求。ODPS(OpenDataPlatformandService)2009規(guī)?;坑嬎恪?shí)時交互式計算、流式計算等可擴(kuò)展的智能計算引擎,是國最早自研,應(yīng)用范圍最大,能同時支持超過10能計算平臺。其中MaxComputeTPCx-BigBench-100TB年穩(wěn)定全球冠軍,2022年,MaxCompute202140%30%。Hologres2022TPC-H30000GB23%。ODPS13年深耕自研技術(shù)的成果,ODPS-MaxComputeApacheORC和33%ApacheORC30%40%能提升。EBSQLSQL(TPC-DS100%兼容)Hive/SparkSQLSpark3XMaxCompute連續(xù)六次突破性能/釋之一。ODPS-MaxCompute2022年全新發(fā)布了CU能力CU避免過去為了高峰期的執(zhí)行效率,預(yù)留較多100CU這100CU浪費(fèi)。CUCU300CU,低峰期50CU,實(shí)現(xiàn)資源的彈性分配?;谠劝戳扛顿M(fèi)以及包年包月形式,ODPS-MaxComputeCUTCO的最低。在傳統(tǒng)的數(shù)據(jù)架構(gòu)中,分為離線、實(shí)時、在線三種鏈路。Hive,Spark,MaxCompute等離線加工引擎處理大規(guī)模數(shù)據(jù)。Flink、SparkStreaming等流式加工技術(shù)來實(shí)現(xiàn)計算前置,并將計算結(jié)果保存在HBase、Redis等系統(tǒng)提供快速訪問。通過ClickhouseDruid這種紛繁蕪雜的復(fù)雜架構(gòu)帶來的是極高的維護(hù)成本與技術(shù)成本。日常數(shù)據(jù)偏差和核對工作量很大。ODPS-Hologres提供高性能的實(shí)時交互式計算引擎,基于一站式實(shí)時數(shù)倉的HSAP(HybridServing&Analytical理念,同時滿足OLAP分析、點(diǎn)查、交互式查詢等多種實(shí)時需求。MaxCompute無縫打通,數(shù)據(jù)無需導(dǎo)出至Hologres,實(shí)現(xiàn)離線實(shí)時一體化架構(gòu)。在服務(wù)層,支持多種負(fù)載,保證了高性能的在線點(diǎn)查應(yīng)用,也支持靈活的多維分析,提供統(tǒng)一數(shù)據(jù)服務(wù)層,減少數(shù)據(jù)割裂。TPSTPC-H實(shí)現(xiàn)成本與性能的平衡。2022發(fā)布一主多從的共享存儲實(shí)時高可用,多Region只讀實(shí)例。小結(jié)引擎降本核心是向技術(shù)要紅利,不斷突破技術(shù)的極限。阿里云ODPS(OpenDataPlatformandService)自200910萬臺服務(wù)器并行計算的大數(shù)據(jù)智能計算平臺。平臺降本-DataWorks數(shù)據(jù)治理中心續(xù)增長的數(shù)據(jù)需求帶來的數(shù)據(jù)治理工作了。源使用不合理和浪費(fèi)現(xiàn)象。了更高的業(yè)務(wù)ROI,這也需要有一個衡量標(biāo)準(zhǔn)來定義治理的效果。DataWorks數(shù)據(jù)治理中心“階段性項目”,而是一個“可持續(xù)的運(yùn)營項目”。BU6080建議等流程來進(jìn)行。這里面如果涉及產(chǎn)品化的需求就會提給DataWorks也是健康分非常重要的價值。DataWorks態(tài)的綜合分值。健康分體系,以元數(shù)據(jù)建設(shè)為依托,建設(shè)集“存儲、計算、研發(fā)、質(zhì)量和安全”五大健康度領(lǐng)域,構(gòu)建“全健康分”五大健康分指標(biāo)。健康分的分值范圍為0至100,分值越大代表數(shù)據(jù)資產(chǎn)的健康度越好,較高的健康度可以幫助用戶更放心、更高效、更穩(wěn)定的使用數(shù)據(jù),保障數(shù)據(jù)生產(chǎn)和業(yè)務(wù)運(yùn)轉(zhuǎn)。DataWorks進(jìn)行綜合評分,同時還進(jìn)行:理維度進(jìn)行攻堅,將基于目標(biāo)治理業(yè)務(wù)中,關(guān)于「存儲」維度相關(guān)的高ROI存儲治理項,進(jìn)行規(guī)則定義和治理檢查。化治理規(guī)則,比如:未管理數(shù)據(jù)表:未設(shè)置生命周期的分區(qū)表進(jìn)行識別,當(dāng)同時滿足以下條件,數(shù)據(jù)表是分區(qū)表,沒有設(shè)置生命周期,且近30并判定該表為未管理的數(shù)據(jù)表。治理小組也根據(jù)提供對應(yīng)的處理操作建議,優(yōu)先建議用戶進(jìn)行生命周期的快速設(shè)置。針對一些需要長期保留的數(shù)據(jù),也可通過設(shè)置白名單或設(shè)置長生命周期的方式來處理。根據(jù)DataWorks健康分提升。淀、深化,如在實(shí)際實(shí)踐中,在完成首期存儲治理后,治理小組:90基于DataWorks前檢查項。做到從根本上進(jìn)行提前規(guī)約。理的健康分提升,帶動全局的持續(xù)治理優(yōu)化,并面向管理員和普通成員提供不同次的統(tǒng)計,簡化治理推進(jìn)的難度。當(dāng)前我們在阿里云上已經(jīng)為企業(yè)累計發(fā)現(xiàn)數(shù)據(jù)理問題抄過100萬+60%36%小結(jié)逐步進(jìn)行數(shù)據(jù)治理建設(shè),將“書面化”的數(shù)據(jù)治理規(guī)范落地成“可持續(xù)”的全鏈路數(shù)據(jù)治理。數(shù)據(jù)治理組織架構(gòu)及文化建設(shè)完善的組織不斷去計劃、實(shí)施、優(yōu)化數(shù)據(jù)治理的工作。數(shù)據(jù)治理組織架構(gòu)設(shè)計方法統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論