滴普科技數(shù)據(jù)集成產(chǎn)品FastData DCT架構(gòu)演進與實踐-劉波_第1頁
滴普科技數(shù)據(jù)集成產(chǎn)品FastData DCT架構(gòu)演進與實踐-劉波_第2頁
滴普科技數(shù)據(jù)集成產(chǎn)品FastData DCT架構(gòu)演進與實踐-劉波_第3頁
滴普科技數(shù)據(jù)集成產(chǎn)品FastData DCT架構(gòu)演進與實踐-劉波_第4頁
滴普科技數(shù)據(jù)集成產(chǎn)品FastData DCT架構(gòu)演進與實踐-劉波_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

CONTENT產(chǎn)品的整體介紹,是一款怎樣的產(chǎn)品,如定位、價值主張等說明。應(yīng)用場景的說明,結(jié)合核心功能進行全鏈路致力于提供復(fù)雜網(wǎng)絡(luò)環(huán)境下,豐富致力于提供復(fù)雜網(wǎng)絡(luò)環(huán)境下,豐富的異構(gòu)數(shù)據(jù)源之間高速穩(wěn)定的數(shù)據(jù)傳輸能力,以及繁雜的業(yè)務(wù)背景下的數(shù)據(jù)同步方案。DCT(DataCollectionTransform,簡稱DCT)支持關(guān)系型數(shù)據(jù)庫、NoSQL、數(shù)據(jù)倉庫(OLAP)、數(shù)據(jù)湖(Iceberg、Hudi)等數(shù)據(jù)源,可用于公有云之間、公有云與私有云之間的數(shù)據(jù)入湖入倉的結(jié)構(gòu)遷移,存量數(shù)聚焦聚焦入湖入倉,出湖出倉場景,支持多引擎配置(PSC,F(xiàn)link,Spark),支持批流一體,任務(wù)傳輸支持故障轉(zhuǎn)移。DCTDCT4.0配置化可視化組件化批流一體實時采集批流一體實時采集批流一體源端源端任務(wù)配置任務(wù)配置組件管理組件管理運維管理運維管理系統(tǒng)配置(數(shù)據(jù)源、引擎配置)系統(tǒng)配置(數(shù)據(jù)源、引擎配置)離線采集KafkaDMHudi異構(gòu)數(shù)據(jù)源的實時融合整庫入湖入倉,出湖出倉降本增效支持關(guān)系型數(shù)據(jù)庫、NoSQL、OLAP、數(shù)據(jù)湖等多種同構(gòu)、異構(gòu)數(shù)據(jù)源之間的結(jié)構(gòu)遷移、離線同步和實時同步。支持關(guān)系型數(shù)據(jù)庫、NoSQL、OLAP、數(shù)據(jù)湖等多種同構(gòu)、異構(gòu)數(shù)據(jù)源之間的結(jié)構(gòu)遷移、離線同步和實時同步。使用同一套開發(fā)范式來實現(xiàn)大數(shù)據(jù)的流計算和批計算,進而保證處理過程與結(jié)果的一致性。降低批流采集任務(wù)配置復(fù)雜度,一次配置,程序自動進行批和流的數(shù)據(jù)采集。單進程任務(wù),最低1G內(nèi)存,成本降到最低,支持并行度設(shè)置,有效地提高傳輸效率。組件插拔式管理,可自定義組件擴展,支持拖拉拽任務(wù)配置,低代碼,易學(xué)易維護。批流一體采集批流一體采集高性能多源異構(gòu)采集CDCCDC機制,日志級監(jiān)聽,時效性有保障;支持斷點續(xù)傳、故障轉(zhuǎn)移,保證數(shù)據(jù)傳輸?shù)目煽啃?。組件插拔式低成本、高效率組件插拔式無需調(diào)整現(xiàn)有架構(gòu)無需調(diào)整現(xiàn)有架構(gòu),強兼容;基于日志,對源業(yè)務(wù)無侵入無影響,保證原業(yè)務(wù)庫穩(wěn)定運行。BIBI分析/實時大屏實時數(shù)倉湖倉一體故障轉(zhuǎn)移監(jiān)控大屏通知渠道告警規(guī)則行數(shù)對比短信/電話/郵件字符對比轉(zhuǎn)移次數(shù)超時任務(wù)監(jiān)控告警檢查頻率時延校驗Webhook數(shù)值明細啟動狀態(tài)超時時間消息中心數(shù)值匯總對比運行狀態(tài)數(shù)據(jù)質(zhì)量故障轉(zhuǎn)移監(jiān)控大屏通知渠道告警規(guī)則行數(shù)對比短信/電話/郵件字符對比轉(zhuǎn)移次數(shù)超時任務(wù)監(jiān)控告警檢查頻率時延校驗Webhook數(shù)值明細啟動狀態(tài)超時時間消息中心數(shù)值匯總對比運行狀態(tài)任務(wù)狀態(tài)同步趨勢資源消耗字段映射批量映射整庫映射大批量映射映射規(guī)則任務(wù)類型離線同步實時同步批流一體一對一讀取組件轉(zhuǎn)換組件寫入組件多對一一對多采集模式組件配置前置檢測導(dǎo)入導(dǎo)出操作記錄DDL變更調(diào)度配置版本管理實例管理斷點續(xù)傳字段映射批量映射整庫映射大批量映射映射規(guī)則任務(wù)類型離線同步實時同步批流一體一對一讀取組件轉(zhuǎn)換組件寫入組件多對一一對多采集模式組件配置前置檢測導(dǎo)入導(dǎo)出操作記錄DDL變更調(diào)度配置版本管理實例管理斷點續(xù)傳任務(wù)管理數(shù)據(jù)傳輸結(jié)構(gòu)遷移分鍵策略分鍵策略分區(qū)策略分區(qū)策略分桶策略分桶策略參數(shù)配置參數(shù)配置數(shù)據(jù)安全分類分級分類分級自動標(biāo)注自動標(biāo)注加密解密加密解密靜態(tài)脫敏靜態(tài)脫敏項目空間項目空間項目配置成員管理權(quán)限管理數(shù)據(jù)源/邏輯組數(shù)據(jù)源/邏輯組系統(tǒng)管理資源管理組件管理基礎(chǔ)服務(wù)DLink/EMR/MRS/CDH/CDP/...資源管理資源管理數(shù)據(jù)源管理數(shù)據(jù)源管理將ETL能力抽象為“組件”,支持界面管理讀取、轉(zhuǎn)換、寫入組件管理組件管理任務(wù)配置任務(wù)配置運維監(jiān)控運維監(jiān)控基于Spark引擎,任務(wù)運行在Yarn基于Spark引擎,任務(wù)運行在Yarn基于DLink,任務(wù)運行在Yarn或者K8S里,適用于批流一體擴展性-自定義組件讀取組件轉(zhuǎn)換組件讀取組件轉(zhuǎn)換組件寫入組件寫入組件全量同步全量同步增量同步增量同步epdxepdx.ep_kv::selectid,code,value_str,value_numfromepdx.old_ep_kvwhe?MySQL,通過Binlog方式獲取準(zhǔn)確的數(shù)據(jù),支持5.x及以上多版本,支持只讀庫權(quán)限的同步;支持斷點續(xù)傳。?PostgreSQL,支持邏輯流復(fù)制,通過wal2json解析日志獲取準(zhǔn)確的數(shù)據(jù);支持斷點續(xù)傳。?Oracle,支持LogMiner讀取數(shù)據(jù)庫日志獲取準(zhǔn)確的數(shù)據(jù);支持斷點續(xù)傳。批流資源配置批流資源配置FlinkFlinkCDC配置實例監(jiān)控業(yè)務(wù)監(jiān)控實例監(jiān)控工作流調(diào)度通過可視化的工作流進行任務(wù)編排,支持Cron表達式和API。任務(wù)監(jiān)控可視化運維大屏,實時監(jiān)控任務(wù)狀設(shè)定重跑機制,支持原地重跑。智能調(diào)度資源調(diào)度實時查看CPU、內(nèi)存、I/O等資源使用情況;設(shè)定任務(wù)優(yōu)先級,智能分配資源。分布式跑批通過數(shù)據(jù)分片,將同一個任務(wù)拆分到不同的節(jié)點運行,實現(xiàn)分布式數(shù)據(jù)傳輸,提高傳輸效率。提交日志所有操作記錄保存在Redo日志定期保存檢查點基于CKP快速恢復(fù)提交日志所有操作記錄保存在Redo日志定期保存檢查點基于CKP快速恢復(fù)說明:需數(shù)據(jù)源支持斷點續(xù)傳機制。DCT1.0核心功能支持離線和實時數(shù)據(jù)同步;讀寫組件插件化;命令行的方式,單進程運行;支持MySQL、Oracle、SQLServer、Kafka、Hive等數(shù)據(jù)源。DCT2.0架構(gòu)先進性任務(wù)創(chuàng)建和配置支持界面化操作,以拖拉拽的方式進行任務(wù)開發(fā);支持數(shù)據(jù)源管理、讀寫組件和轉(zhuǎn)換組件的上傳與下載;支持多任務(wù)并行運行。Manger管理端●控制創(chuàng)建任務(wù)以及啟動停止;●實時監(jiān)控MasterNode是否在線。MasterNode主節(jié)點負責(zé)WorkNode注冊上線,監(jiān)控,狀態(tài)維護;對提交的任務(wù)進行節(jié)點分配,任務(wù)下發(fā),狀態(tài)監(jiān)控。WorkNode工作節(jié)點●負責(zé)MasterNode上報所在服務(wù)器節(jié)點的資源相關(guān)信息,接收來自MasterNode下發(fā)的任務(wù);●負責(zé)PSC啟動,監(jiān)控上報,結(jié)束、異常處理等整個完整生命周期。PSC(ProgrammableScheduledContainer)可編程調(diào)度容器●執(zhí)行數(shù)據(jù)同步任務(wù)的最小管理單元,包含讀取、轉(zhuǎn)換、寫入組件,共同組成一個同步任務(wù);由WorkNode負責(zé)管理整個任務(wù)的生命周期。DCT3.0架構(gòu)先進性支持分布式部署,Manager節(jié)點和WorkNode節(jié)點實現(xiàn)了無狀態(tài)化,能夠獨立的橫向擴展,支持高可用和彈性擴縮容;設(shè)定任務(wù)優(yōu)先級,智能分配資源;優(yōu)化PSC,使得能快速地支持自定義組件擴展。優(yōu)化掉了調(diào)度單點瓶頸的MasterNode節(jié)點,降低系統(tǒng)復(fù)雜度,提升了系統(tǒng)的可靠性;自主研發(fā)基于Manager結(jié)合PSC作為資源調(diào)度引擎,實現(xiàn)任務(wù)分片調(diào)度;WorkNode節(jié)點與PSC任務(wù)支持故障轉(zhuǎn)移,使得系統(tǒng)具有更優(yōu)的穩(wěn)定性;DCT-on-Local模式:Local模式支持以工作節(jié)點作為任務(wù)運行的資源,不需要依賴外部資源;DCT-on-Spark模式:使用Spark引擎,以Yarn作為資源調(diào)度運行任務(wù);DCT-on-DLink模式:使用DLink湖倉引擎,以Yarn或K8S作為資源調(diào)度運行任務(wù)。將業(yè)務(wù)庫MySQL中的數(shù)據(jù)入湖,快速構(gòu)建湖倉一體。僅需簡單的四步,即可完成從基礎(chǔ)配新建入湖任務(wù)配置數(shù)據(jù)源新建入湖任務(wù)配置數(shù)據(jù)源新建入湖任務(wù)配置數(shù)據(jù)源新建入湖任務(wù)。?運維文件上傳(配置數(shù)據(jù)源新建入湖任務(wù)配置數(shù)據(jù)源新建入湖任務(wù)配置數(shù)據(jù)源新建入湖任務(wù)配置數(shù)據(jù)源新建入湖任務(wù)油氣開發(fā)協(xié)同研究生產(chǎn)運行經(jīng)營決策安全環(huán)保工程技術(shù)油氣銷售油氣勘探某能源公司是以油氣業(yè)務(wù)、工程技術(shù)服務(wù)、石油工程建設(shè)、其依托數(shù)據(jù)湖和PaaS技術(shù)實現(xiàn)勘探開發(fā)生產(chǎn)管理、協(xié)同 集團主數(shù)據(jù)湖聯(lián)邦查詢調(diào)度引擎滴普實時湖倉引擎DLink油氣開發(fā)協(xié)同研究生產(chǎn)運行經(jīng)營決策安全環(huán)保工程技術(shù)油氣銷售油氣勘探某能源公司是以油氣業(yè)務(wù)、工程技術(shù)服務(wù)、石油工程建設(shè)、其依托數(shù)據(jù)湖和PaaS技術(shù)實現(xiàn)勘探開發(fā)生產(chǎn)管理、協(xié)同 集團主數(shù)據(jù)湖聯(lián)邦查詢調(diào)度引擎滴普實時湖倉引擎DLink勘探開發(fā)云平臺 ·······油田11大類數(shù)據(jù)源,通過邊緣計算設(shè)備計算并上傳流式計算可視化、智能化轉(zhuǎn)型發(fā)展。①提升油田勘探開發(fā)數(shù)據(jù)的服務(wù)時效②全量油田數(shù)據(jù)入湖,油田邊緣計算Trino分析引擎 IcebergTrino分析引擎 Iceberg應(yīng)用服務(wù)圖例現(xiàn)有系統(tǒng)/模塊 新增系統(tǒng)/模塊行行揮離線+實時數(shù)據(jù)插件30+種,且不斷增加中成果:異構(gòu)多模數(shù)據(jù)通過統(tǒng)一數(shù)據(jù)采集架構(gòu)入離線+實時數(shù)據(jù)插件30+種,且不斷增加中……滴普數(shù)據(jù)集成組件DCT支持異構(gòu)多模數(shù)據(jù)的同步/離線接入,作為統(tǒng)一數(shù)據(jù)入湖工具,降低數(shù)據(jù)集成過程的復(fù)雜度。集群架構(gòu)進一步提升容錯性。……XXOracle貼源層治理層資產(chǎn)層流式任務(wù)實時處理ClickHouseOracle貼源層治理層資產(chǎn)層ClickHouse成果:數(shù)據(jù)入湖、湖倉內(nèi)模型處理速度大幅提升,時效升Oracle貼源層治理層資產(chǎn)層流式任務(wù)實時處理ClickHouseOracle貼源層治理層資產(chǎn)層ClickHouse生產(chǎn)環(huán)境日志表日數(shù)據(jù)量峰值2億條,按生產(chǎn)環(huán)境日志表日數(shù)據(jù)量峰值2億條,按照2/8原則9200條/秒。實測入湖速度峰值到2.5萬條/秒。數(shù)據(jù)湖數(shù)據(jù)入服數(shù)據(jù)湖數(shù)據(jù)入服1100條/秒(北務(wù)數(shù)務(wù)數(shù)京-據(jù)庫ClickHouse據(jù)庫ClickHouse,數(shù)據(jù)資產(chǎn)構(gòu)建與業(yè)務(wù)價值數(shù)據(jù)字典/指標(biāo)基礎(chǔ)商品標(biāo)簽基礎(chǔ)渠道標(biāo)簽注:全量標(biāo)簽數(shù)=基礎(chǔ)標(biāo)簽數(shù)*SKU數(shù)高精準(zhǔn)銷量預(yù)測模型數(shù)據(jù)資產(chǎn)構(gòu)建與業(yè)務(wù)價值數(shù)據(jù)字典/指標(biāo)基礎(chǔ)商品標(biāo)簽基礎(chǔ)渠道標(biāo)簽注:全量標(biāo)簽數(shù)=基礎(chǔ)標(biāo)簽數(shù)*SKU數(shù)高精準(zhǔn)銷量預(yù)測模型???建設(shè)實施底層數(shù)據(jù)平臺升級統(tǒng)一全域數(shù)據(jù)實時分析T+0實時分析查詢項目背景及目標(biāo)項目背景及目標(biāo)某大型時尚及運動產(chǎn)業(yè)集團,涵蓋鞋類、運動和服飾3大業(yè)務(wù),旗下?lián)碛?0多個品牌,是Nike、Adidas等國際運動品牌在華關(guān)鍵零售伙的核心角色、價值邏輯、聯(lián)動關(guān)系、業(yè)務(wù)元素等進行梳理和可視化呈現(xiàn),幫助在共建團隊之間達DCT數(shù)據(jù)集成全域數(shù)據(jù)源補貨迭代下沉降解調(diào)撥調(diào)價商品八大業(yè)務(wù)場景經(jīng)營計劃商品企劃OTB采購管理貨品首鋪內(nèi)部數(shù)據(jù)FastData數(shù)據(jù)資產(chǎn)管理運營平臺單品銷售預(yù)測模型尺碼拆分度模型商品暢滯銷模型庫存分析店貨匹配渠道體系標(biāo)簽體系零售域指標(biāo)體系外部數(shù)據(jù)DCT數(shù)據(jù)集成全域數(shù)據(jù)源補貨迭代下沉降解調(diào)撥調(diào)價商品八大業(yè)務(wù)場景經(jīng)營計劃商品企劃OTB采購管理貨品首鋪內(nèi)部數(shù)據(jù)FastData數(shù)據(jù)資產(chǎn)管理運營平臺單品銷售預(yù)測模型尺碼拆分度模型商品暢滯銷模型庫存分析店貨匹配渠道體系標(biāo)簽體系零售域指標(biāo)體系外部數(shù)據(jù)FastData數(shù)據(jù)平臺基礎(chǔ)底座云原生架構(gòu)指標(biāo)和標(biāo)簽賦能百麗補貨平臺升級識別服務(wù)統(tǒng)計服務(wù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論