小米數(shù)據(jù)管理與應(yīng)用實(shí)踐_第1頁(yè)
小米數(shù)據(jù)管理與應(yīng)用實(shí)踐_第2頁(yè)
小米數(shù)據(jù)管理與應(yīng)用實(shí)踐_第3頁(yè)
小米數(shù)據(jù)管理與應(yīng)用實(shí)踐_第4頁(yè)
小米數(shù)據(jù)管理與應(yīng)用實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

I

DataFunSummit小米數(shù)據(jù)管理與應(yīng)用實(shí)踐勇幸消息中間件與數(shù)據(jù)管理負(fù)責(zé)人NIIDataFunSummit2021I

引言數(shù)據(jù)管理的核心是元數(shù)據(jù)平臺(tái)的建設(shè),以元數(shù)據(jù)支撐數(shù)據(jù)管理上層應(yīng)用元數(shù)據(jù)平臺(tái)技術(shù)元數(shù)據(jù)|業(yè)務(wù)元數(shù)據(jù)|數(shù)據(jù)血緣|數(shù)據(jù)計(jì)量|模型規(guī)范質(zhì)量規(guī)范成本地圖安全01

元數(shù)據(jù)平臺(tái)建設(shè)02

數(shù)據(jù)地圖06

未來(lái)規(guī)劃04

數(shù)據(jù)成本治理03

數(shù)據(jù)規(guī)范05

數(shù)據(jù)質(zhì)量建設(shè)IDataFunSummit目

錄元數(shù)據(jù)平臺(tái)的建設(shè)現(xiàn)狀與架構(gòu)演進(jìn)主要從元數(shù)據(jù)基礎(chǔ)信息、資產(chǎn)信息、衍生信息、作業(yè)信息及血緣信息等方面介紹平臺(tái)的建設(shè)情況01元數(shù)據(jù)平臺(tái)建設(shè)

IDataFunSummit元數(shù)據(jù)

內(nèi)容

內(nèi)容來(lái)源

支撐資產(chǎn)管理技術(shù)元數(shù)據(jù)表Hive/Doris/Kudu/MQ/ES/ceberg資產(chǎn)地圖作業(yè)ETL/SQL/Query生產(chǎn)元數(shù)據(jù)生產(chǎn)調(diào)度系統(tǒng)/Yarn數(shù)據(jù)質(zhì)量成本治理業(yè)務(wù)元數(shù)據(jù)數(shù)倉(cāng)分層建模規(guī)范資產(chǎn)價(jià)值安全治理規(guī)范治理數(shù)據(jù)分類業(yè)務(wù)指標(biāo)關(guān)聯(lián)指標(biāo)系統(tǒng)應(yīng)用信息BI看板、報(bào)表等隱私分級(jí)業(yè)務(wù)衍生元數(shù)據(jù)存儲(chǔ)計(jì)量HDFS-Image/Doris/Kudu/MQ/ES成本治理資產(chǎn)價(jià)值訪問(wèn)計(jì)量HDFS-Log/SQL-Log血緣元數(shù)據(jù)表血緣Spark/Flink/Presto/DataHub/Doris資產(chǎn)地圖影響分析字段血緣SQL-Log元數(shù)據(jù):描述數(shù)據(jù)的數(shù)據(jù)●

實(shí)

:●表元數(shù)據(jù)●作業(yè)元數(shù)據(jù)●

:●業(yè)務(wù)元數(shù)據(jù)●

衍生元數(shù)據(jù)●

關(guān)

:●血緣元數(shù)據(jù)I元數(shù)據(jù)平臺(tái)|元數(shù)據(jù)Lineage

SourceDataHub

SQLLog

Presto

Spark

DistcpHive

Flink

DorisMessagingMetadataSourceMysql

HBase

lceberg

Doris

ESTalos

Hive

KuduMetacat-Application成本治理

數(shù)據(jù)地圖規(guī)范治理

質(zhì)量監(jiān)控安全治理APISource&

服務(wù)應(yīng)用IntegrationElasticSearch

MySQL

Hive

JanusGraph

StorageI

元數(shù)據(jù)平臺(tái)|技術(shù)架構(gòu)LogSource調(diào)度日志計(jì)量日志運(yùn)行日志NI

IDataFunSummitMetadata

Source

Lineage

SourceDataHub

sQLLogPresto

Spark

DistcpHive

Flink

DorisMetacat

MessagingElasticSearch

MySQL

Hive

JanusGraph域拓展·

Hive

==>·MySQL/Talos/Hive/Doris/Kudu/ES/Iceberg統(tǒng)一元數(shù)據(jù)·Hive

Metastore==>·

引入

Metacat統(tǒng)一元數(shù)據(jù)視角與管理I

元數(shù)據(jù)平臺(tái)|演化過(guò)程:全域元數(shù)據(jù)元數(shù)據(jù)架構(gòu)演化:全域成本治理規(guī)范治理安全治理調(diào)度日志計(jì)量日志運(yùn)行日志MysqllcebergTalosHBaseDorisHiveLogSourceApplication數(shù)據(jù)地圖質(zhì)量監(jiān)控ESKuduAPIMetadataSourceMysql

HBaselceberg

Doris

ESTalos

Hive

KuduMetacatElasticSearch

MySQL

Hive

JanusGraphI

元數(shù)據(jù)平臺(tái)|演化過(guò)程:實(shí)時(shí)血緣血緣架構(gòu)演化:實(shí)時(shí)原方案●

解析

HDFS

志·T+1●

不準(zhǔn)確新方案·

引擎埋點(diǎn)·

準(zhǔn)實(shí)時(shí)●

精準(zhǔn)解析●

結(jié)合:SQL

Proxy

LogApplication成本治理

數(shù)據(jù)地圖規(guī)范治理

質(zhì)量監(jiān)控安全治理Log

Source調(diào)度日志計(jì)量日志運(yùn)行日志Lineage

SourceDataHub

SQLLog

……DistcpDorisPrestoHiveSparkFlinkMessagingAPIHive

SQLSparkSQL(非常駐/常駐)

FlinkSQLBeelineFlink

JarJarSparkJarDistcp1元數(shù)據(jù)平臺(tái)

|演化過(guò)程:精準(zhǔn)計(jì)量訪問(wèn)計(jì)量架構(gòu)演化:解決0與1價(jià)值●數(shù)據(jù)冷熱程度·入口不收斂,被訪問(wèn)計(jì)成沒(méi)訪問(wèn)?方案●解析

HDFS

志●結(jié)合SQL

審計(jì)做修正HIVE

作ESQL02元數(shù)據(jù)應(yīng)用●數(shù)據(jù)地圖●數(shù)據(jù)規(guī)范●成本治理●質(zhì)量建設(shè)

IDataFunSummit已找到與“新零售”相關(guān)的結(jié)果共3025條a

d

s

_

p

h

o

n

e…_

m

(

團(tuán)

愿加

)HME

■■

o

p

數(shù)

s

d

s

數(shù)

7

業(yè)

務(wù)

E

數(shù)

倉(cāng)表

區(qū)

;列

信息:

mo

n

t

h(月

份)、

a

r

e

a

_

n

a

喵、

s

e

cn

aL

)、c

h

a

n

nelsto

re

_e■

a

c

t

i

v

e

_

c

n

t

_

7

0

數(shù)A

D

S

倉(cāng)

儲(chǔ)

m

數(shù)

倉(cāng)

、

數(shù)

據(jù)

標(biāo)

簽的

時(shí)

降:

2

0

2

1

8ads_phen(既

)H

E

loo

p

數(shù)

據(jù)

L

。數(shù)據(jù)量

:■B部

:業(yè)務(wù)

■大銷服,數(shù)倉(cāng)表中文名

:咖密表表描述:列

m

o

n

t

h(

)

、

a

r

e

a

n區(qū)

p

a

r

e

n

t

a

.

m

a

m

e

.

區(qū)

)

、

a

r

e

a

J

e

v

e

h

.

p

h

y

s

t

o

c

k內(nèi)

、

h

a

l

f

w

a

y

s

t

o

lADS

新零售

倉(cāng)儲(chǔ)

■版1元數(shù)據(jù)應(yīng)用

|數(shù)據(jù)地圖-搜索全部集

數(shù)

據(jù)

庫(kù)

V

售損

索元數(shù)據(jù)搜索與發(fā)現(xiàn)●

支持表、字段、描述信息、數(shù)倉(cāng)分層、數(shù)據(jù)分類、標(biāo)簽、

部門等信息搜索●

全域元數(shù)據(jù)的搜索(完善中)(Talos/Hive/Doris/Kudu/Iceberg/ES/MySQL)●

支持指標(biāo)、維度、看板等信

息的搜索(未來(lái))I

元數(shù)據(jù)應(yīng)用

|數(shù)據(jù)地圖-血緣●Kudu

●Hive

●HDFS●Doris

●Talos●Elasticsearch●MySQL●Redis●lceberg●Druid●Pegasus●OpenTSDB●unknow_sink"點(diǎn)擊血緣圖連線可查看作業(yè)信息或appidOods_oWnerge_shop_ordr

>odml

op.order數(shù)據(jù)血緣●支持?jǐn)?shù)據(jù)處理全鏈路的血緣展示●

血緣搜索(完善中)●

變更通知(完善中)●d

pin_orderjnto_plus●dw

_pupin_order_Infoer_ooupon_detal,old上游

3

v

層,下游

3

v

層歷史全部

最近31天●dwd

_.Jolvory_yrate●d→

●d建模規(guī)范度●

命名:命名是否符合規(guī)范●分層:超過(guò)70%的表沒(méi)有按數(shù)倉(cāng)規(guī)范分層●

打標(biāo):數(shù)據(jù)域分類、標(biāo)簽等,沒(méi)有打標(biāo)建模完善度●

跨層引用:DWS/ADS

直接訪問(wèn)

ODS●查詢覆蓋:Ad-hoc

查詢命中DWD/DWS/ADS規(guī)范度完善度I

元數(shù)據(jù)應(yīng)用

|規(guī)范治理I

元數(shù)據(jù)應(yīng)用

|成本治理(存儲(chǔ))多少錢如何優(yōu)化多少數(shù)據(jù)哪里主開(kāi)銷●

數(shù)出一孔●

天級(jí)賬單●

按人歸屬●

即時(shí)預(yù)估●觀現(xiàn)狀●

查問(wèn)題●

做優(yōu)化●

拿反饋成本分析優(yōu)化閉環(huán)

賬單邏輯排序

一級(jí)部門月總成本:占比①月已優(yōu)化成本:占比①1

萬(wàn)元

N%

■元

%2■.元■%3

9.2%4

1

.

,

無(wú)

.

%

1

4%5■

%6

%7

■■

%

%8

聲元

3%

?元9

1.

L

。公司大盤腹本

存綠量REmn

B

AAa*A

*下月建議世或*1201-07L-0m+0%-指標(biāo)趨Oa2021-022021-07成本分析:大盤&下鉆到人●

公司看部門·

部門看子部門·

小組看個(gè)人●

個(gè)人看名下的表I元數(shù)據(jù)應(yīng)用

|成本治理(存儲(chǔ))優(yōu)化方式:

義優(yōu)化方案:

閑置分區(qū)冷備1

.

分區(qū)60天無(wú)人訪問(wèn),)2.該方案為周期性操作,每日監(jiān)控該表行合條

件的分區(qū)進(jìn)行冷備3.分區(qū)冷備后不建議再寫入或更新,但可直接

讀取狀態(tài):待冷備

已冷備□表名集群

Y

庫(kù)

名月成

本下月建議優(yōu)化成本:存

儲(chǔ)

作gatzjya

■'p

gam■".元)

操作記成本優(yōu)化●

冷備(低頻訪問(wèn))●

刪除(冷數(shù)據(jù))●生命周期管理1元數(shù)據(jù)應(yīng)用

|成本治理(存儲(chǔ))互

聯(lián)

網(wǎng)

,

操握

、

負(fù)

責(zé)

Q

0

冷推薦表刪除全表60天無(wú)人訪問(wèn)(卻全表閑置)IDataFunSummitMII

元數(shù)據(jù)應(yīng)用

|

成本治理(存儲(chǔ))單二

數(shù)據(jù)量:"存儲(chǔ)成本優(yōu)化效果(模擬數(shù)字)●

數(shù)據(jù)量增長(zhǎng)趨勢(shì)線●

成本歷史線●成本趨勢(shì)線(業(yè)務(wù)正常增長(zhǎng))●

成本停滯線(業(yè)務(wù)不增長(zhǎng))●

成本實(shí)際走勢(shì)曲線.

.

肌門.2021.07

2021.09

2021.11甲

甲2020.11氧

.2021.0312021.052021.01|3nametypescopecatalogdatabas0ametablenametargatcal_exp1

xx表主量一一

性prhteHhve(RULE_1)-TRUE2xx表主鍵非空準(zhǔn)確性prwateHhe[RULE_21-TRUE3

xx表數(shù)覽量符合預(yù)期完整性priwateHihve([RULE_3]-[RULE_4D/[RULE_4]<024xx表空值軍符合預(yù)期完望性privateHive([RULE_51-[RULE.6/[RULE_6]<025xx表取值題圍符合預(yù)

期-數(shù)慎型正確性privateHe[RULE_7=TRUE6xx表取值范圍符合預(yù)

期正確性prvaneHive[RULE_8]-TRUE7x表取值關(guān)聯(lián)符合經(jīng)

期正確性prwateHve【RULE,9]-TRUE8xx表和yy表職值關(guān)聯(lián)

符合經(jīng)期一致性privateHirve[RULE_10]=TRUE9xx表2z字段分布符合

預(yù)期正確性prweHheRULE_11)-TRUE10

xx表yy字險(xiǎn)格式統(tǒng)

一日期統(tǒng)一性priwateHve(RULE_12)-TRUE11

xx表yy字段格武統(tǒng)

一監(jiān)值統(tǒng)一性prieHive[PULE_13]-TRUE數(shù)據(jù)內(nèi)容質(zhì)量檢查·

及時(shí)性(數(shù)據(jù)生產(chǎn)保障,建設(shè)中)·

唯一性●準(zhǔn)確性●

完整性·

一致性1

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論