2024貨拉拉基于Paimon的湖倉思考和實(shí)踐_第1頁
2024貨拉拉基于Paimon的湖倉思考和實(shí)踐_第2頁
2024貨拉拉基于Paimon的湖倉思考和實(shí)踐_第3頁
2024貨拉拉基于Paimon的湖倉思考和實(shí)踐_第4頁
2024貨拉拉基于Paimon的湖倉思考和實(shí)踐_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

貨拉拉基于Paimon的湖倉思考和實(shí)踐

2024湖倉架構(gòu)模式的思考數(shù)據(jù)湖系統(tǒng)能力建設(shè)數(shù)據(jù)湖關(guān)鍵能力建設(shè)數(shù)據(jù)湖在數(shù)據(jù)領(lǐng)域的應(yīng)用未來展望貨拉拉湖倉架構(gòu)模式的思考反思01實(shí)時(shí)多場景痛點(diǎn)實(shí)時(shí)任務(wù)平臺(tái)業(yè)務(wù)高峰,全鏈路壓測,流量回放問題任務(wù)開發(fā),測試/灰度,鏈路管理/數(shù)據(jù)管理任務(wù)元數(shù)據(jù),多版本管理Flink任務(wù)超大狀態(tài)維護(hù)狀態(tài)不可見狀態(tài)兼容性超長延遲/亂序容忍度數(shù)據(jù)質(zhì)量/服務(wù)穩(wěn)定性實(shí)時(shí)鏈路,數(shù)據(jù)質(zhì)量監(jiān)控服務(wù)數(shù)據(jù)trace統(tǒng)計(jì)分析關(guān)鍵event

log追蹤01實(shí)時(shí)場景多場景需求通用能力table

pkcdc入湖merge引擎小文件管理能力無線上風(fēng)險(xiǎn)changelog存儲(chǔ)擴(kuò)展低成本table

w/o

pk更新能力事務(wù)能力多版本能力增量讀取OLAP能力流式湖倉Date

Lake

ormatLSMPaimon貨拉拉數(shù)據(jù)湖系統(tǒng)能力建設(shè)全面02數(shù)據(jù)湖系統(tǒng)能力多云存儲(chǔ)支持?jǐn)?shù)據(jù)入湖多維管理03從入湖到管理入湖存儲(chǔ)COSS3kafka-topic讀湖任務(wù)管理入湖任務(wù)管理catalog管理管理flink

sql

taskmysql-binlog-flinkcdc-topiccanal-topicschema管理paimon系統(tǒng)表觀測性管理列血緣管理OSSHDFScompaction任務(wù)管理amoro管理flink

action

jarmigrationtransformation貨拉拉數(shù)據(jù)湖關(guān)鍵能力建設(shè)精細(xì)03數(shù)據(jù)湖關(guān)鍵能力觀測性讀寫規(guī)劃03數(shù)據(jù)湖觀測性metrics-topicpaimon異步構(gòu)建全域元數(shù)據(jù)全局文件數(shù)全局記錄數(shù)event-topiccompaction-event全局血緣flink-cdc-task全局compaction全局讀寫延遲compaction

taskamoro-jbdc-catalogmulti-datalakewrite

taskpaimon-write-metricspaimon-write-eventkafkacatalogPaimon-jdbc-catalogddl-event全局compaction策略全局寫策略global

strategy全局讀策略MaintenacneServiceobservation全局文件大小read

taskpaimon-read-metrics+I+U-U-D統(tǒng)計(jì)count/更新率lag統(tǒng)計(jì)03讀寫規(guī)劃-全局寫策略動(dòng)態(tài)調(diào)整cp減少小文件減少寫沖突local

merge臟數(shù)據(jù)控制限流控制union

all寫入

partial

update開啟/關(guān)閉內(nèi)存托管全局寫策略寫入穩(wěn)定性減少寫失敗突發(fā)數(shù)據(jù)下寫失敗減少寫對(duì)象存儲(chǔ)重試歷史分區(qū)數(shù)據(jù)同分區(qū)多個(gè)小流任務(wù)合并成大流任務(wù)不同分區(qū)任務(wù)拆封任務(wù)獨(dú)立參數(shù)設(shè)置增大buffer資源提前用flink進(jìn)行merge減少paimonmerge壓力分任務(wù)流量不均數(shù)據(jù)不均分時(shí)流量不均03讀寫規(guī)劃-全局compaction策略compaction任務(wù)

append表compaction任務(wù)

kv表全局compaction策略compaction任務(wù)合并compaction任務(wù)隔離主動(dòng)觸發(fā)fullcompaction任務(wù)定時(shí)運(yùn)行觸發(fā)

compaction任務(wù)03讀寫規(guī)劃-全局讀策略統(tǒng)一讀取管道bucket傾斜感知單任務(wù)消費(fèi)進(jìn)度bucket消費(fèi)策略定制讀并發(fā)調(diào)整新增bucket打破平衡kakfa新增分區(qū)感知bucket數(shù)據(jù)并發(fā)數(shù)關(guān)系bucket數(shù)據(jù)本來就不平衡bucket讀取進(jìn)度感知bucket多讀重復(fù)感知多任務(wù)消費(fèi)進(jìn)度最大差異全局讀策略貨拉拉數(shù)據(jù)湖在數(shù)據(jù)領(lǐng)域的應(yīng)用重塑04數(shù)據(jù)湖在數(shù)據(jù)領(lǐng)域的應(yīng)用實(shí)時(shí)數(shù)據(jù)質(zhì)量實(shí)時(shí)鏈路任務(wù)壓測微服務(wù)Tracenew

statenew

task04實(shí)時(shí)鏈路任務(wù)壓測statetasknew

statenew

task任務(wù)壓測1.0topictest

topicstatetasktopic的限制回放容量回放時(shí)間topic管理topic清理state的限制從0開始構(gòu)建狀態(tài)時(shí)間久從0開始構(gòu)建狀態(tài)浪費(fèi)資源new

statenew

task04實(shí)時(shí)鏈路任務(wù)壓測taskstate任務(wù)壓測2.0topicstatetaskpaimonnew

taskinitialize

oldstatenew

statenew

task任務(wù)壓測1.0topicnew

taskinitialize

oldstatetest

topicstatetasktaskstatepaimontopic分區(qū)和bucket保持一致提前N天錄入數(shù)據(jù)到paimonstate壓測任務(wù)保持相同UID整體鏈路使用湖表04

realtime-data-qualityrealtime-data-quality

1.0flink

taskmetrics-report-servicemonitor-service同環(huán)比規(guī)則alerttopicflink

taskpython

task原子指標(biāo)topic1

原子指標(biāo)topic2

原子指標(biāo)hive

原子指標(biāo)topic3需求支持實(shí)時(shí)指標(biāo)+準(zhǔn)實(shí)時(shí)指標(biāo)+離線計(jì)算指標(biāo)融合告警支持任務(wù)鏈路,服務(wù)鏈路告警聯(lián)合感知痛點(diǎn)鏈路管理難,多種任務(wù)形態(tài),多種服務(wù)形態(tài)告警出口多告警規(guī)則不能動(dòng)態(tài)調(diào)整不支持復(fù)雜檢測算法04

realtime-data-qualityflink

taskpaimonrealtime-data-quality

1.0

realtime-data-quality

2.0flink

taskmetrcis

topicflink

taskmetrics-report-servicealertmonitor-service同環(huán)比規(guī)則topicflink

taskpython

task原子指標(biāo)topic1

原子指標(biāo)topic2

原子指標(biāo)hive

原子指標(biāo)topic3

原子指標(biāo)topic1原子指標(biāo)topic2原子指標(biāo)topic3原子指標(biāo)hiveflink-task復(fù)雜規(guī)則/算法1flink-task復(fù)雜規(guī)則/算法2compareUDTFPartially

Update多特征寬表changelog+閾值維表04

micro-services-tracespanId=0parentSpanid=-1EntrySpanspanId=1parentSpanid=0LocalSpanTraceSegmentRefspanId=2parentSpanid=1ExitSpanrefsrefsrefsspanId=0parentSpanid=-1EntrySpanspanId=1parentSpanid=0LocalSpanTraceSegmentRefspanId=2parentSpanid=1ExitSpanrefsrefsrefsTraceSkywalking

Trace數(shù)據(jù)特點(diǎn)數(shù)據(jù)量大pb格式數(shù)據(jù)格式復(fù)雜同個(gè)segment內(nèi)的多個(gè)span在一條kakfa記錄中不同traceId各自形成依賴04

micro-services-trace服務(wù)多進(jìn)程消費(fèi)clickhouseTrace

1.0trace

skywalkingtopictrace-service構(gòu)圖用戶單個(gè)trace查詢flink

taskclickhouseTace

1.1trace

skywalkingtopictrace-service構(gòu)圖用戶單個(gè)trace查詢Trace

1.1痛點(diǎn)超大狀態(tài)多次消費(fèi)pb解析不支持內(nèi)嵌字段水印提取ck-connector不支持Array-RowTrace需求統(tǒng)計(jì)錯(cuò)誤span占比統(tǒng)計(jì)異常應(yīng)用占比拼接錯(cuò)誤鏈路明細(xì)flink

task接收trace統(tǒng)計(jì)告警04

micro-services-traceflink入湖taskflink構(gòu)圖+統(tǒng)計(jì)任務(wù)Trace

2.0trace

skywalingtopic服務(wù)多進(jìn)程消費(fèi)paimonmergeclickhouseTrace

1.0trace

skywalkingtopicclickhousetrace-service構(gòu)圖用戶單個(gè)trace查詢trace-service用戶/管理多種體驗(yàn)用起來pb解析支持內(nèi)嵌字段水印提取ck-sink支持Array-Rowpaimon表使用collect+map

me

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論