版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
面向分析型場景設(shè)計的實(shí)時流存儲流行存 行存Postgre表StreamingWritesookupJoinApacheFluss核心應(yīng)用場景湖流一體實(shí)時數(shù)倉湖流一體實(shí)時數(shù)倉實(shí)時寬表構(gòu)建新范式流式查詢下推流式更新CDC訂閱實(shí)時寬表構(gòu)建新范式流式查詢下推流式更新CDC訂閱ADSODSDWSCDC訂閱流式DWDCDC訂閱流式更新實(shí)時數(shù)倉分層化MergeEngine合并機(jī)制Fluss+Paimon實(shí)時湖倉底座:湖流一體湖流融合的業(yè)界趨勢..為什么不是Tableflow?Tableflow:流式入湖Fluss:湖流一體不支持更新業(yè)務(wù)場景矛盾無不支持更新業(yè)務(wù)場景矛盾無SchemaFluss/Paimon/Kafka數(shù)據(jù)概念對比列存列存行存Fluss數(shù)據(jù)概念與湖倉完全對齊,無縫融合Kafka與湖倉系統(tǒng)割裂湖流同步/湖流一體開啟方式對比ConfluentTableflow:繁瑣的YAML配置和字段映射Fluss:一行SQL?FromTopics->Tables?Schemaas?rst-classci8zen?DataformatfromAvro→TheColumnarStreamFlussTableAparEEon=20250528FlussTableAparEEon=20250528parEEon=20250529LakeTableAparEEon=20250528parEEon=20250529LakeTableB湖流一體:實(shí)時湖倉數(shù)據(jù)底座LakehouseAnaly=csQueryEnginesLambda架構(gòu)湖流一體架構(gòu)?Fluss只需維護(hù)超短周期實(shí)時數(shù)據(jù),大幅降低成本(7day->6hour)?流批存儲統(tǒng)一,一份視圖,提升開發(fā)效率{o?set:xx}{o?set:xx}秒級新鮮度+(Jark,30)+?me分鐘級新鮮度*后續(xù)UnionRead將原生支持DeletionVector模式湖流一體優(yōu)勢(4):湖倉分層新鮮度不受層級影響Paimon湖倉架構(gòu)Fluss+Paimon湖流一體架構(gòu)3分鐘3分鐘秒級延遲3分鐘?Paimon新鮮度依賴FlinkCheckpoint,級聯(lián)作業(yè)可導(dǎo)致新鮮度累加?Fluss實(shí)時入湖與Checkpoint解耦,可穩(wěn)定保證湖倉分層新鮮度PaimonChangelog-ProducerFluss+PaimonMaterializeGenerateChangelogs湖流一體優(yōu)勢(6):湖倉數(shù)據(jù)的實(shí)時接入層*****FlussStorage????高性能實(shí)時數(shù)據(jù)接入層輕客戶端、多語言簡化湖倉數(shù)據(jù)接入秒級流式數(shù)倉秒級流式數(shù)倉表查詢等能力,結(jié)合Flink搭建分層的秒級流式數(shù)倉流式列裁剪流存儲,支持流讀列裁剪,大幅降低io成本,實(shí)現(xiàn)10倍性能提升實(shí)時寬表拼接色能力,高效實(shí)現(xiàn)雙流Join、寬表拼接的場景StarRocks流讀流寫StarRocks流讀流寫CDC訂閱實(shí)時更新擴(kuò)容縮容自動升級權(quán)限安全實(shí)時點(diǎn)查同城容災(zāi)TabletTabletTabletTabletCoordinatorCoordinatorTabletTabletTabletTabletTabletTabletCoordinatorCoordinatorTabletTablet湖流一體冷熱分層冷存儲OSS數(shù)據(jù)湖存儲/product/flink/flussODSODS實(shí)時更新/秒實(shí)時更新/秒實(shí)時更新/秒自動入湖自動入湖自動入湖自動入湖自動入湖離線回刷/天離線回刷/天成本低據(jù),大幅降低實(shí)時成本成本低據(jù),大幅降低實(shí)時成本務(wù),文件級高效數(shù)據(jù)轉(zhuǎn)換效率高一套存儲方案,滿足實(shí)時離線需求一體化實(shí)時、近線、離線一體化,統(tǒng)一表視圖DLF:智能全模態(tài)湖倉管理平臺面向AI時代構(gòu)建全模態(tài)數(shù)據(jù)統(tǒng)一存儲、管控、開放平臺多引擎平權(quán)數(shù)據(jù)計算DLF智能全模態(tài)湖倉管理安全管控開放SDK/REST安全管控開放SDK/RESTFile:Parquet等File:Parquet等IcebergVirtualFileSystem生命周期管理智能存儲優(yōu)化自動冷熱分層存儲管理與優(yōu)化數(shù)據(jù)一鍵入湖存儲,支持存儲自適應(yīng)compaction,自適應(yīng)分元數(shù)據(jù)管理與開放企業(yè)級安全與管控多引擎計算與加速查詢引擎元數(shù)據(jù)統(tǒng)一更高性能THANKYOU謝謝觀看THANKYOU謝謝觀看服務(wù)業(yè)務(wù)淘天集團(tuán)國際數(shù)據(jù)商業(yè)云智能集團(tuán)菜鳥大文娛……AB實(shí)驗(yàn)采集&分析采集AI服務(wù)業(yè)務(wù)淘天集團(tuán)國際數(shù)據(jù)商業(yè)云智能集團(tuán)菜鳥大文娛……AB實(shí)驗(yàn)采集&分析采集AI采集產(chǎn)品A+采集分析產(chǎn)品為阿品查詢加速用戶行為分析引擎湖流一體OLAP引擎StarRocks公共層OLAP引擎StarRocks公共層業(yè)務(wù)數(shù)據(jù)處理全量行為表設(shè)備累計表全量行為表設(shè)備累計表采集SDK采集基礎(chǔ)設(shè)施收數(shù)服務(wù)Fluss數(shù)據(jù)通道集群落地與穩(wěn)集群落地與穩(wěn)定性業(yè)務(wù)實(shí)踐與收益未來規(guī)劃機(jī)遇和挑戰(zhàn)未來規(guī)劃一份手淘TT流量數(shù)據(jù)一份手淘TT流量數(shù)據(jù)手淘首頁業(yè)務(wù)手淘閃購業(yè)務(wù)手淘搜索業(yè)務(wù)首頁搜索其他~~首頁搜索其他~~首頁首頁首頁搜索搜索其他其他~~首頁搜索其他~~搜索實(shí)際收費(fèi):3*「完整數(shù)據(jù)」費(fèi)用+3*「Flink作業(yè)」費(fèi)用 Fluss:多級分區(qū)、過濾下推、列式存儲(消費(fèi)部分字段)降低讀取數(shù)據(jù)量、降低讀取字段、降低FlinkCU消耗湖流割裂雙11落地情況集群部署穩(wěn)定性建設(shè)湖流一體阿里集團(tuán)內(nèi)淘天(含通天塔、阿里媽媽等)、集團(tuán)數(shù)據(jù)公共層、餓了么、淘寶閃購、高德、阿里影業(yè)等多個業(yè)務(wù)已開始線上使用,核心場景主要集中在搜索、推薦、流量等。集群部署盤古盤古盤古空間1空間1空間2空間…機(jī)架感知前物理機(jī):物理機(jī):物理機(jī):集群部署-機(jī)架感知[ASI三副本可能分配在同一臺物理機(jī)的三個Pod上,物理機(jī)故障導(dǎo)致三副本數(shù)據(jù)丟失!機(jī)架感知后物理機(jī):物理機(jī):物理機(jī):物理機(jī):物理機(jī):[]三副本規(guī)避策略,不允許分配在同機(jī)房-同機(jī)架-同物理機(jī)上,即使一臺物理機(jī)故障三副本規(guī)避策略,不允許分配在同機(jī)房-同機(jī)架-同物理機(jī)上,即使一臺物理機(jī)故障,仍有兩副本工作ASI集群部署-監(jiān)控體系穩(wěn)定性建設(shè)-RebalanceFeatur…穩(wěn)定性建設(shè)-表擴(kuò)縮容ClientCoordinatorZookeeperALTERTABLE計算新增bucketTableAssignment通知TabletServer新增BucketReplica穩(wěn)定性建設(shè)-無感升級待下線TabletServer待下線TabletServerCoordinator上線新上線新LeaderControlledShutdownRequestcontrolledShutDown1controlledShutDown1重選Leader2下線Follower關(guān)閉Replica關(guān)閉Replica關(guān)閉其他資源3下線FollowerFlussTabletServer無感升級:對業(yè)務(wù)正在運(yùn)行的作業(yè)沒有明顯影響,讀寫延遲波動小于1minControlledShutdown:支持升級過程中優(yōu)雅切換Leader:容器收到升級命令后,先優(yōu)雅遷移自身的BucketLeader,然后再進(jìn)行關(guān)閉,保證Leader持續(xù)在線。支持灰度升級/滾動升級?支持原地升級:升級鏡像或者修改配置時,不需要kill和重建pod,只需要kill容器并秒級拉起穩(wěn)定性建設(shè)-CoordinatorHA穩(wěn)定性建設(shè)-上線前故障演練計劃主標(biāo)題主標(biāo)題l隨機(jī)宕機(jī)l反復(fù)切換leaderl大量建表和分區(qū)l隨機(jī)宕機(jī)lRemote存儲堆積lBuckect的Replica宕機(jī)l讀寫流量壓測l一致性測試l冷數(shù)據(jù),追數(shù)據(jù)延遲湖流一體1.1創(chuàng)建Fluss數(shù)據(jù)庫FlussManagerFlussManager2.1創(chuàng)建湖流一體表(需數(shù)據(jù)庫owner授權(quán))3.1使用生產(chǎn)賬號讀數(shù)據(jù)2.1創(chuàng)建湖流一體表(需數(shù)據(jù)庫owner授權(quán))3.1使用生產(chǎn)賬號讀數(shù)據(jù)2.2通過可信賬號+表owner創(chuàng)建2.2通過可信賬號+表owner創(chuàng)建Paimon表ALake3.2使用生產(chǎn)賬號寫數(shù)據(jù)TieringService40000案例-淘寶數(shù)據(jù)平臺原架構(gòu)新架構(gòu)新架構(gòu)核心收益?降低實(shí)時數(shù)據(jù)使用門檻,搭建面向業(yè)務(wù)團(tuán)隊的數(shù)倉?替代行式消息隊列,降低成本40%以上?通過Fluss+Paimon搭建的湖倉系統(tǒng)支持流批一體的開發(fā)模式,降低開發(fā)運(yùn)維成本?基于列更新特性,離線和實(shí)時數(shù)據(jù)更新回刷成本大大降低案例-淘寶閃購場景用于淘寶閃購流量采集實(shí)時加工鏈路以及流量監(jiān)控場景將流量實(shí)時DWD公共層寫入Fluss,通過Fluss的TieringService,持久化到湖倉存儲Paimon中,既保障了實(shí)時的時效性,又能及時提供OLAP分析?;叶缺O(jiān)控產(chǎn)出效率上,新的架構(gòu)真正實(shí)現(xiàn)了實(shí)時監(jiān)控,產(chǎn)出效率遠(yuǎn)遠(yuǎn)高于上一個版本的物化視圖定時調(diào)度。案例-AB實(shí)驗(yàn)分析平臺-通天塔場景通天塔是目前淘天集團(tuán)的AB實(shí)驗(yàn)分析平臺,主要專注于淘天內(nèi)C端算法的AB數(shù)據(jù),期望能用通天塔的AB數(shù)據(jù)能力建設(shè),來促進(jìn)科學(xué)決策活動?行式流存儲不支持列裁剪,整行消費(fèi),資源消耗高,以曝光表為例44個字段,平臺僅需13個字段?數(shù)據(jù)探查困難,隨機(jī)抽樣難以定位,導(dǎo)入MaxCompute查詢延遲高、成本高作業(yè)不穩(wěn)定,Checkpoint超時,重啟恢復(fù)慢?Fluss列裁剪能力,減少Flink算子消耗,同時降低無用列的IO流量讀FlussCPU占用減少59%,內(nèi)?數(shù)據(jù)落地Paimon,通過StarRocks高效查詢DeltaJoin,解耦作業(yè)與狀態(tài),修改作業(yè)不需要重跑State,并將狀態(tài)數(shù)據(jù)可查,提高靈活性案例-A+采集分析場景全鏈路成本降低約70%豐富數(shù)據(jù)分析未來規(guī)劃更高的性能擴(kuò)大服務(wù)規(guī)模湖流一體全面推進(jìn)更高的性能擴(kuò)大服務(wù)規(guī)模構(gòu)建業(yè)界領(lǐng)先的Agent采集與評測一體化平臺,用于支撐AIAgent在代碼、電商、數(shù)據(jù)、內(nèi)需要多端SDK研發(fā)、評測平THANKYOU謝謝觀看AIFunc(on支持在SQL流處理中直接調(diào)用大語言模型服務(wù)實(shí)時流智能分析AI_Translate實(shí)時翻譯translated_text,detected_language'translator',originalAI_Classify智能分類Vector_Search向量搜索AI_Image_Classify圖像分類AI_Image_Classify圖像分類'oss-smq://img-bucket/img-AI_Transcribe語音轉(zhuǎn)錄'hls:///stream.m3u);'oss-smq://audio-AI問答應(yīng)用的實(shí)時數(shù)據(jù)向量化構(gòu)建AI大語言模型EmbeddingModel向量數(shù)據(jù)庫Cha1ng/Reasoning近似檢索基于向量索引的實(shí)時數(shù)據(jù)增強(qiáng)數(shù)據(jù)倉庫數(shù)據(jù)倉庫結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)實(shí)時數(shù)據(jù)向量檢索流讀流寫實(shí)時更新部分列更新列式裁剪查詢下推Fluss湖流一體存儲遠(yuǎn)程存儲Fluss湖流一體存儲遠(yuǎn)程存儲(S3/OSS/HDFS)數(shù)據(jù)分層服務(wù)數(shù)據(jù)湖存儲(Paimon/Iceberg)交互對話型交互對話型AIAgents事件驅(qū)動型AI事件驅(qū)動型AIAgentsAnopen-sourceframeworkforbuildingevent-drivenstreamingagentsApacheFlink社區(qū)推出的全新開源子項(xiàng)目,是一個用于構(gòu)建事件驅(qū)動型智能體的開源框架AgentAc)onAgentAc)onclassMyAgent(Agent):)AlreadyRelease!首個預(yù)覽版0.1.0已正式發(fā)布?xì)g迎體驗(yàn)/apache/flink-agents文檔/downloads/#apache-flink-agents/flink/flink-agents-docs-release-0.1/THANKYOU謝謝觀看AgentAc'on )ChatModelConnec'onChatModelConnec'onAnthropic,Ollama,OpenAI,Tongyi)Func'onFunc'on)model="nomic-embed-text”)Connec'onSetupOllama,OpenAI))Connec'onSetupVectorStoreOllama,OpenAI))))THANKYOU謝謝觀看多場景賦能運(yùn)維多場景賦能運(yùn)維與優(yōu)化未來展望單日萬億級流量入湖數(shù)據(jù)時效從2小時降低到10分鐘規(guī)避大state計算;結(jié)合流式延遲讀,局部列更新樣本加速場景(1000w/min)時效從2h提升漏斗模型全鏈路30min級精細(xì)化監(jiān)控,解決離線時效性過低問題,結(jié)合paimon局部列更新,以及merge-engine能力助力算法定位推薦系統(tǒng)問題、指導(dǎo)策略優(yōu)化方向、輔助問題發(fā)現(xiàn)與預(yù)警。從秒級降低到分鐘級別,但是計算資源成本下降50%行權(quán)平臺行權(quán)接口湖表管理行權(quán)平臺行權(quán)接口湖表管理模塊管理提升為分鐘級m中基于tag能力的拉鏈表,替代hive分區(qū)方案,存儲降低9?基于branch能力的特征變更場景優(yōu)化優(yōu)化?進(jìn)一步提升數(shù)據(jù)時效性THANKYOU謝謝觀看解決方案未解決方案未來展望核心策略業(yè)務(wù)訴求與核心痛點(diǎn)核心痛點(diǎn)1.ADS應(yīng)用數(shù)據(jù)層痛點(diǎn):2.DIM維表層痛點(diǎn):?實(shí)時維表需同時維護(hù)離線數(shù)倉快照和在線KV存儲(雙核心策略核心能力描述開放性與存算分離開放性能對接各種優(yōu)秀OLAP引擎,消除數(shù)據(jù)同步鏈路。統(tǒng)一權(quán)限管理,支持跨團(tuán)隊低成本共享StarRocks引擎優(yōu)勢高效執(zhí)行計劃、向量化算子、文件IO優(yōu)化、湖上緩存等,性能優(yōu)于其他OLAP引擎流批一體存儲通過分支機(jī)制隔離實(shí)時與離線數(shù)據(jù),保障數(shù)據(jù)一致性存儲成本優(yōu)化利用HDFS低成本存儲,實(shí)現(xiàn)“以存儲換計算”策略解決方案傳統(tǒng)預(yù)計算ADS痛點(diǎn)ADS層重構(gòu):三種計算模式完全預(yù)計算(傳統(tǒng)架構(gòu))完全OLAPPaimon的低成本存儲(較OLAP引擎內(nèi)表成本下降80%使RoaringBitmap這種存儲換計算的解法成為可能利用Paimon分支靈活適應(yīng)流批數(shù)據(jù)1.數(shù)據(jù)漂移,導(dǎo)致實(shí)時任務(wù)錯誤覆蓋歷史數(shù)據(jù)2.需要切表才能無感修復(fù)ads實(shí)時數(shù)據(jù)ADS層使用Paimon分支表進(jìn)行構(gòu)建。流批表可設(shè)置不同參數(shù),適配不同的查詢,寫入場景。應(yīng)用層建表核心參數(shù)項(xiàng)目價值DIM層傳統(tǒng)架構(gòu)痛點(diǎn)Bucket機(jī)制優(yōu)化加載:解決Flink離線大維表關(guān)聯(lián)慢問題?核心原理:Paimon維表的Bucket-Key與Flink作業(yè)的JoinKey保持一致(哈希算法一致)。分布式秒級加載:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 常州市計劃生育協(xié)會2026年公開招聘社會化用工備考題庫帶答案詳解
- 2026年寧夏財經(jīng)職業(yè)技術(shù)學(xué)院單招職業(yè)技能考試題庫及答案1套
- 2026年山東省日照市單招職業(yè)傾向性考試模擬測試卷及答案1套
- 2026年安徽衛(wèi)生健康職業(yè)學(xué)院單招職業(yè)技能考試題庫必考題
- 廣東農(nóng)信2026年度校園招聘備考題庫及參考答案詳解
- 廣東匯源通集團(tuán)有限公司2026年校園招聘備考題庫及答案詳解一套
- 廣東省茂名市電白區(qū)第二次赴高校公開招聘2026年度急需緊缺人才備考題庫及一套完整答案詳解
- 廣東藥科大學(xué)附屬第一醫(yī)院2026年高層次人才(科主任)招聘備考題庫(3人)及答案詳解參考
- 廣州市從化區(qū)中醫(yī)醫(yī)院2025年第二次公開招聘編外工作人員備考題庫及參考答案詳解
- 廣州市天河區(qū)華港幼兒園2026年1月公開招聘編外聘任制專任教師備考題庫及一套完整答案詳解
- 2025年廣東省中考物理試卷及答案
- 2026屆高三語文聯(lián)考作文題目導(dǎo)寫分析及范文:當(dāng)語言與真實(shí)經(jīng)驗(yàn)脫鉤
- 皮革項(xiàng)目商業(yè)計劃書
- 主管護(hù)師護(hù)理學(xué)考試歷年真題試卷及答案
- 華文慕課《刑法學(xué)》總論課后作業(yè)答案
- 公路護(hù)欄波型梁施工方案
- 《聽力考試室技術(shù)規(guī)范》
- 2024年廣東省高職高考語文試卷及答案
- 人工智能在職業(yè)院校人才培養(yǎng)中的應(yīng)用研究報告
- 2025至2030全球及中國用戶研究軟件行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢及投資規(guī)劃深度研究報告
- 土方開挖回填施工應(yīng)急預(yù)案方案
評論
0/150
提交評論