版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
I
DataFunSummit小米數(shù)據(jù)管理與應(yīng)用實(shí)踐勇幸消息中間件與數(shù)據(jù)管理負(fù)責(zé)人NIIDataFunSummit2021I
引言數(shù)據(jù)管理的核心是元數(shù)據(jù)平臺(tái)的建設(shè),以元數(shù)據(jù)支撐數(shù)據(jù)管理上層應(yīng)用元數(shù)據(jù)平臺(tái)技術(shù)元數(shù)據(jù)|業(yè)務(wù)元數(shù)據(jù)|數(shù)據(jù)血緣|數(shù)據(jù)計(jì)量|模型規(guī)范質(zhì)量規(guī)范成本地圖安全01
元數(shù)據(jù)平臺(tái)建設(shè)02
數(shù)據(jù)地圖06
未來(lái)規(guī)劃04
數(shù)據(jù)成本治理03
數(shù)據(jù)規(guī)范05
數(shù)據(jù)質(zhì)量建設(shè)IDataFunSummit目
錄元數(shù)據(jù)平臺(tái)的建設(shè)現(xiàn)狀與架構(gòu)演進(jìn)主要從元數(shù)據(jù)基礎(chǔ)信息、資產(chǎn)信息、衍生信息、作業(yè)信息及血緣信息等方面介紹平臺(tái)的建設(shè)情況01元數(shù)據(jù)平臺(tái)建設(shè)
IDataFunSummit元數(shù)據(jù)
內(nèi)容
內(nèi)容來(lái)源
支撐資產(chǎn)管理技術(shù)元數(shù)據(jù)表Hive/Doris/Kudu/MQ/ES/ceberg資產(chǎn)地圖作業(yè)ETL/SQL/Query生產(chǎn)元數(shù)據(jù)生產(chǎn)調(diào)度系統(tǒng)/Yarn數(shù)據(jù)質(zhì)量成本治理業(yè)務(wù)元數(shù)據(jù)數(shù)倉(cāng)分層建模規(guī)范資產(chǎn)價(jià)值安全治理規(guī)范治理數(shù)據(jù)分類業(yè)務(wù)指標(biāo)關(guān)聯(lián)指標(biāo)系統(tǒng)應(yīng)用信息BI看板、報(bào)表等隱私分級(jí)業(yè)務(wù)衍生元數(shù)據(jù)存儲(chǔ)計(jì)量HDFS-Image/Doris/Kudu/MQ/ES成本治理資產(chǎn)價(jià)值訪問(wèn)計(jì)量HDFS-Log/SQL-Log血緣元數(shù)據(jù)表血緣Spark/Flink/Presto/DataHub/Doris資產(chǎn)地圖影響分析字段血緣SQL-Log元數(shù)據(jù):描述數(shù)據(jù)的數(shù)據(jù)●
實(shí)
體
:●表元數(shù)據(jù)●作業(yè)元數(shù)據(jù)●
屬
性
:●業(yè)務(wù)元數(shù)據(jù)●
衍生元數(shù)據(jù)●
關(guān)
系
:●血緣元數(shù)據(jù)I元數(shù)據(jù)平臺(tái)|元數(shù)據(jù)Lineage
SourceDataHub
SQLLog
Presto
Spark
DistcpHive
Flink
DorisMessagingMetadataSourceMysql
HBase
lceberg
Doris
ESTalos
Hive
KuduMetacat-Application成本治理
數(shù)據(jù)地圖規(guī)范治理
質(zhì)量監(jiān)控安全治理APISource&
服務(wù)應(yīng)用IntegrationElasticSearch
MySQL
Hive
JanusGraph
StorageI
元數(shù)據(jù)平臺(tái)|技術(shù)架構(gòu)LogSource調(diào)度日志計(jì)量日志運(yùn)行日志NI
IDataFunSummitMetadata
Source
Lineage
SourceDataHub
sQLLogPresto
Spark
DistcpHive
Flink
DorisMetacat
MessagingElasticSearch
MySQL
Hive
JanusGraph域拓展·
Hive
==>·MySQL/Talos/Hive/Doris/Kudu/ES/Iceberg統(tǒng)一元數(shù)據(jù)·Hive
Metastore==>·
引入
Metacat統(tǒng)一元數(shù)據(jù)視角與管理I
元數(shù)據(jù)平臺(tái)|演化過(guò)程:全域元數(shù)據(jù)元數(shù)據(jù)架構(gòu)演化:全域成本治理規(guī)范治理安全治理調(diào)度日志計(jì)量日志運(yùn)行日志MysqllcebergTalosHBaseDorisHiveLogSourceApplication數(shù)據(jù)地圖質(zhì)量監(jiān)控ESKuduAPIMetadataSourceMysql
HBaselceberg
Doris
ESTalos
Hive
KuduMetacatElasticSearch
MySQL
Hive
JanusGraphI
元數(shù)據(jù)平臺(tái)|演化過(guò)程:實(shí)時(shí)血緣血緣架構(gòu)演化:實(shí)時(shí)原方案●
解析
HDFS
日
志·T+1●
不準(zhǔn)確新方案·
引擎埋點(diǎn)·
準(zhǔn)實(shí)時(shí)●
精準(zhǔn)解析●
結(jié)合:SQL
Proxy
LogApplication成本治理
數(shù)據(jù)地圖規(guī)范治理
質(zhì)量監(jiān)控安全治理Log
Source調(diào)度日志計(jì)量日志運(yùn)行日志Lineage
SourceDataHub
SQLLog
……DistcpDorisPrestoHiveSparkFlinkMessagingAPIHive
SQLSparkSQL(非常駐/常駐)
FlinkSQLBeelineFlink
JarJarSparkJarDistcp1元數(shù)據(jù)平臺(tái)
|演化過(guò)程:精準(zhǔn)計(jì)量訪問(wèn)計(jì)量架構(gòu)演化:解決0與1價(jià)值●數(shù)據(jù)冷熱程度·入口不收斂,被訪問(wèn)計(jì)成沒(méi)訪問(wèn)?方案●解析
HDFS
日
志●結(jié)合SQL
審計(jì)做修正HIVE
表
操
作ESQL02元數(shù)據(jù)應(yīng)用●數(shù)據(jù)地圖●數(shù)據(jù)規(guī)范●成本治理●質(zhì)量建設(shè)
IDataFunSummit已找到與“新零售”相關(guān)的結(jié)果共3025條a
d
s
_
p
h
o
n
e…_
m
(
集
團(tuán)
綠
愿加
密
表
)HME
■■
■
o
p
數(shù)
s
d
s
數(shù)
7
部
門
:
業(yè)
務(wù)
中
■
E
部
,
數(shù)
倉(cāng)表
中
文
名
:
集
困
區(qū)
域
菜
■
加
密
表
表
描
述
;列
信息:
mo
n
t
h(月
份)、
a
r
e
a
_
n
a
喵、
s
e
cn
aL
域
)、c
h
a
n
nelsto
re
_e■
■
a
c
t
i
v
e
_
c
n
t
_
7
0
總
數(shù)A
D
S
新
零
售
倉(cāng)
儲(chǔ)
m
數(shù)
倉(cāng)
分
層
、
數(shù)
據(jù)
域
分
類
、
標(biāo)
簽的
建
時(shí)
降:
2
0
2
1
8ads_phen(既
況
■
二
表
)H
E
新
集
群
:
loo
p
數(shù)
據(jù)
L
。數(shù)據(jù)量
:■B部
門
:業(yè)務(wù)
中
■大銷服,數(shù)倉(cāng)表中文名
:咖密表表描述:列
信
息
:
m
o
n
t
h(
月
份
)
、
a
r
e
a
n區(qū)
墻
、
p
a
r
e
n
t
a
.
m
a
m
e
.
區(qū)
城
)
、
a
r
e
a
J
e
v
e
h
.
p
h
y
s
t
o
c
k內(nèi)
、
h
a
l
f
w
a
y
s
t
o
lADS
新零售
倉(cāng)儲(chǔ)
■版1元數(shù)據(jù)應(yīng)用
|數(shù)據(jù)地圖-搜索全部集
群
全
部
數(shù)
據(jù)
庫(kù)
V
新
零
售損
索元數(shù)據(jù)搜索與發(fā)現(xiàn)●
支持表、字段、描述信息、數(shù)倉(cāng)分層、數(shù)據(jù)分類、標(biāo)簽、
部門等信息搜索●
全域元數(shù)據(jù)的搜索(完善中)(Talos/Hive/Doris/Kudu/Iceberg/ES/MySQL)●
支持指標(biāo)、維度、看板等信
息的搜索(未來(lái))I
元數(shù)據(jù)應(yīng)用
|數(shù)據(jù)地圖-血緣●Kudu
●Hive
●HDFS●Doris
●Talos●Elasticsearch●MySQL●Redis●lceberg●Druid●Pegasus●OpenTSDB●unknow_sink"點(diǎn)擊血緣圖連線可查看作業(yè)信息或appidOods_oWnerge_shop_ordr
>odml
op.order數(shù)據(jù)血緣●支持?jǐn)?shù)據(jù)處理全鏈路的血緣展示●
血緣搜索(完善中)●
變更通知(完善中)●d
pin_orderjnto_plus●dw
_pupin_order_Infoer_ooupon_detal,old上游
3
v
層,下游
3
v
層歷史全部
最近31天●dwd
_.Jolvory_yrate●d→
●d建模規(guī)范度●
命名:命名是否符合規(guī)范●分層:超過(guò)70%的表沒(méi)有按數(shù)倉(cāng)規(guī)范分層●
打標(biāo):數(shù)據(jù)域分類、標(biāo)簽等,沒(méi)有打標(biāo)建模完善度●
跨層引用:DWS/ADS
直接訪問(wèn)
ODS●查詢覆蓋:Ad-hoc
查詢命中DWD/DWS/ADS規(guī)范度完善度I
元數(shù)據(jù)應(yīng)用
|規(guī)范治理I
元數(shù)據(jù)應(yīng)用
|成本治理(存儲(chǔ))多少錢如何優(yōu)化多少數(shù)據(jù)哪里主開(kāi)銷●
數(shù)出一孔●
天級(jí)賬單●
按人歸屬●
即時(shí)預(yù)估●觀現(xiàn)狀●
查問(wèn)題●
做優(yōu)化●
拿反饋成本分析優(yōu)化閉環(huán)
賬單邏輯排序
一級(jí)部門月總成本:占比①月已優(yōu)化成本:占比①1
萬(wàn)元
N%
■元
%2■.元■%3
元
匠
9.2%4
1
.
,
無(wú)
.
%
元
1
4%5■
玩
%6
叫
元
元
%7
■■
元
%
%8
聲元
3%
?元9
1.
元
L
。公司大盤腹本
存綠量REmn
B
AAa*A
已
他
免
*下月建議世或*1201-07L-0m+0%-指標(biāo)趨Oa2021-022021-07成本分析:大盤&下鉆到人●
公司看部門·
部門看子部門·
小組看個(gè)人●
個(gè)人看名下的表I元數(shù)據(jù)應(yīng)用
|成本治理(存儲(chǔ))優(yōu)化方式:
智
能
自
定
義優(yōu)化方案:
閑置分區(qū)冷備1
.
分區(qū)60天無(wú)人訪問(wèn),)2.該方案為周期性操作,每日監(jiān)控該表行合條
件的分區(qū)進(jìn)行冷備3.分區(qū)冷備后不建議再寫入或更新,但可直接
讀取狀態(tài):待冷備
已冷備□表名集群
Y
庫(kù)
名月成
本下月建議優(yōu)化成本:存
儲(chǔ)
操
作gatzjya
■'p
gam■".元)
元
操作記成本優(yōu)化●
冷備(低頻訪問(wèn))●
刪除(冷數(shù)據(jù))●生命周期管理1元數(shù)據(jù)應(yīng)用
|成本治理(存儲(chǔ))互
聯(lián)
網(wǎng)
整
,
電
粗
□
只
看
我
的
口
操握
索
表
名
、
負(fù)
責(zé)
人
Q
已
選
0
條
一
鍵
冷推薦表刪除全表60天無(wú)人訪問(wèn)(卻全表閑置)IDataFunSummitMII
元數(shù)據(jù)應(yīng)用
|
成本治理(存儲(chǔ))單二
數(shù)據(jù)量:"存儲(chǔ)成本優(yōu)化效果(模擬數(shù)字)●
數(shù)據(jù)量增長(zhǎng)趨勢(shì)線●
成本歷史線●成本趨勢(shì)線(業(yè)務(wù)正常增長(zhǎng))●
成本停滯線(業(yè)務(wù)不增長(zhǎng))●
成本實(shí)際走勢(shì)曲線.
.
肌門.2021.07
2021.09
2021.11甲
甲2020.11氧
.2021.0312021.052021.01|3nametypescopecatalogdatabas0ametablenametargatcal_exp1
xx表主量一一
性prhteHhve(RULE_1)-TRUE2xx表主鍵非空準(zhǔn)確性prwateHhe[RULE_21-TRUE3
xx表數(shù)覽量符合預(yù)期完整性priwateHihve([RULE_3]-[RULE_4D/[RULE_4]<024xx表空值軍符合預(yù)期完望性privateHive([RULE_51-[RULE.6/[RULE_6]<025xx表取值題圍符合預(yù)
期-數(shù)慎型正確性privateHe[RULE_7=TRUE6xx表取值范圍符合預(yù)
期正確性prvaneHive[RULE_8]-TRUE7x表取值關(guān)聯(lián)符合經(jīng)
期正確性prwateHve【RULE,9]-TRUE8xx表和yy表職值關(guān)聯(lián)
符合經(jīng)期一致性privateHirve[RULE_10]=TRUE9xx表2z字段分布符合
預(yù)期正確性prweHheRULE_11)-TRUE10
xx表yy字險(xiǎn)格式統(tǒng)
一日期統(tǒng)一性priwateHve(RULE_12)-TRUE11
xx表yy字段格武統(tǒng)
一監(jiān)值統(tǒng)一性prieHive[PULE_13]-TRUE數(shù)據(jù)內(nèi)容質(zhì)量檢查·
及時(shí)性(數(shù)據(jù)生產(chǎn)保障,建設(shè)中)·
唯一性●準(zhǔn)確性●
完整性·
一致性1
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 熱線服務(wù)合同范本
- 蒙牛捐贈(zèng)協(xié)議書
- 融資協(xié)合同范本
- 視頻項(xiàng)目協(xié)議書
- 認(rèn)購(gòu)協(xié)議換合同
- 設(shè)施維護(hù)協(xié)議書
- 試工實(shí)習(xí)協(xié)議書
- 請(qǐng)人幫忙協(xié)議書
- 工人砸墻合同范本
- 恒大仲裁協(xié)議書
- 英語(yǔ)試卷+答案黑龍江省哈三中2025-2026學(xué)年上學(xué)期高二學(xué)年12月月考(12.11-12.12)
- 中華聯(lián)合財(cái)產(chǎn)保險(xiǎn)股份有限公司2026年校園招聘?jìng)淇碱}庫(kù)及一套完整答案詳解
- 詩(shī)經(jīng)中的愛(ài)情課件
- 2025年煙花爆竹經(jīng)營(yíng)單位安全管理人員考試試題及答案
- 2025年云南省人民檢察院聘用制書記員招聘(22人)考試筆試參考題庫(kù)及答案解析
- TCAMET02002-2019城市軌道交通預(yù)埋槽道及套筒技術(shù)規(guī)范
- 24- 解析:吉林省長(zhǎng)春市2024屆高三一模歷史試題(解析版)
- 臨床護(hù)士工作現(xiàn)狀分析
- 電力線路架設(shè)安全操作方案
- 橋臺(tái)鋼筋專項(xiàng)施工方案
- (正式版)DB65∕T 4229-2019 《肉牛、肉羊全混合日糧(∕TMR)攪拌機(jī)》
評(píng)論
0/150
提交評(píng)論