基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案_第1頁
基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案_第2頁
基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案_第3頁
基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案_第4頁
基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于湖倉一體構(gòu)建數(shù)據(jù)中臺架構(gòu)解決方案整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行2023年目錄一、數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)中臺二、湖倉一體的架構(gòu)介紹三、湖倉一體上數(shù)據(jù)中臺的探索與實踐整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行什么是數(shù)據(jù)湖?AWS的定義:Adatalakeisacentralizedrepositorythatallowsyoutostoreallyourstructuredandunstructureddataatanyscale.Youcanstoreyourdataas-is,withouthavingtofirststructurethedata,andrundifferenttypesofanalytics—fromdashboardsandvisualizationstobigdataprocessing,real-timeanalytics,andmachinelearningtoguidebetterdecisions.數(shù)據(jù)湖是一個集中式存儲庫,允許您以仸意規(guī)模存儲所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。您可以按原樣存儲數(shù)據(jù)(無需先對數(shù)據(jù)進行結(jié)構(gòu)化處理),幵運行不同類型的分析–從控制面板和可視化到大數(shù)據(jù)處理、實時分析和機器學(xué)習(xí),以指導(dǎo)做出更好的決策。什么是數(shù)據(jù)倉庫?AWS的定義:Adatawarehouseisacentralrepositoryofinformationthatcanbeanalyzedtomakemoreinformeddecisions.Dataflowsintoadatawarehousefromtransactionalsystems,relationaldatabases,andothersources,typicallyonaregularcadence.Businessanalysts,dataengineers,datascientists,anddecisionmakersaccessthedatathroughbusinessintelligence(BI)tools,SQLclients,andotheranalyticsapplications.Dataandanalyticshavebecomeindispensabletobusinessestostaycompetitive.Businessusersrelyonreports,dashboards,andanalyticstoolstoextractinsightsfromtheirdata,monitorbusinessperformance,andsupportdecisionmaking.Datawarehousespowerthesereports,dashboards,andanalyticstoolsbystoringdataefficientlytominimizetheinputandoutput(I/O)ofdataanddeliverqueryresultsquicklytohundredsandthousandsofusersconcurrently.數(shù)據(jù)倉庫是信息(對其進行分析可做出更明智的決策)的中央存儲庫。通常,數(shù)據(jù)定期從事務(wù)系統(tǒng)、關(guān)系數(shù)據(jù)庫和其他來源流入數(shù)據(jù)倉庫。業(yè)務(wù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家和決策者通過商業(yè)智能(BI)工具、SQL客戶端和其他分析應(yīng)用程序訪問數(shù)據(jù)。數(shù)據(jù)和分析已然成為各大企業(yè)保持競爭力所不可或缺的部分。企業(yè)用戶依靠報告、控制面板和分析工具從其數(shù)據(jù)中獲得洞察力、監(jiān)控企業(yè)績效以及更明智地決策。數(shù)據(jù)倉庫通過高效地存儲數(shù)據(jù)以便最大限度地減少數(shù)據(jù)輸入和輸出(I/O),幵快速地同時向成千上萬的用戶提供查詢結(jié)果,為這些報告、控制面板和分析工具由數(shù)據(jù)倉庫提供支持。數(shù)據(jù)湖與數(shù)據(jù)倉庫的區(qū)別與協(xié)作關(guān)系?特性數(shù)據(jù)倉庫數(shù)據(jù)湖數(shù)據(jù)來自事務(wù)系統(tǒng),運營數(shù)據(jù)庫和業(yè)務(wù)線應(yīng)用程序的非關(guān)系數(shù)據(jù)所有數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化Schema通常在數(shù)據(jù)倉庫實施之前設(shè)計,但是也可以在分析時編寫(寫入型Schema或讀取型Schema)寫入在分析時(讀取型Schema)性價比使用本地存儲獲得最快的查詢結(jié)果更快地獲得查詢結(jié)果,存儲成本低,計算和存儲分離數(shù)據(jù)質(zhì)量可作為重要事實依據(jù)的高度監(jiān)管數(shù)據(jù)仸何可以或無法進行監(jiān)管的數(shù)據(jù)(例如原始數(shù)據(jù))用戶業(yè)務(wù)分析師、數(shù)據(jù)科學(xué)家和數(shù)據(jù)開發(fā)人員業(yè)務(wù)分析師(使用監(jiān)管數(shù)據(jù))、數(shù)據(jù)科學(xué)家、數(shù)據(jù)開發(fā)人員、數(shù)據(jù)工程師和數(shù)據(jù)架構(gòu)師分析批處理報告、BI和可視化機器學(xué)習(xí)、探索性分析、數(shù)據(jù)發(fā)現(xiàn)、流處理、運營分析、大數(shù)據(jù)和特征分析什么是數(shù)據(jù)中臺?數(shù)據(jù)應(yīng)用(前臺)數(shù)據(jù)中臺(交換、開發(fā)、治理、服務(wù))于基礎(chǔ)設(shè)施(后臺)數(shù)據(jù)中臺是一套可持續(xù)“讓企業(yè)的數(shù)據(jù)用起來”的機制,是一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務(wù)模式和組織架構(gòu),通過有形的產(chǎn)品和實施方法論支撐,構(gòu)建的一套持續(xù)不斷把數(shù)據(jù)變成資產(chǎn)幵服務(wù)于業(yè)務(wù)的機制。整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行整理制作:郎豐利1519制作時間:2023年睿利而行數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)中臺能否融合?數(shù)據(jù)湖數(shù)據(jù)倉庫數(shù)據(jù)中臺數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)中臺能否融合?數(shù)據(jù)湖數(shù)據(jù)倉庫數(shù)據(jù)中臺原始數(shù)據(jù)與格式,主要負責(zé)集中式數(shù)據(jù)存儲GoldenData,解析后的高價值數(shù)據(jù),提供存儲、加工、分析能力關(guān)注數(shù)據(jù)價值、數(shù)據(jù)業(yè)務(wù)、組織架構(gòu)、效能等目錄一、數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)中臺二、湖倉一體的架構(gòu)介紹三、湖倉一體上數(shù)據(jù)中臺的探索與實踐數(shù)據(jù)平臺架構(gòu)的演進第一代數(shù)倉平臺第二代兩層的湖倉一體的平臺第三代LakeHouse湖倉一體的平臺Snowflake——湖倉一體最成功的商業(yè)案例HOT!Snowflake設(shè)計思想解讀Shared-Nothing

架構(gòu)->

Shared-Data

架構(gòu)存儲計算分離:統(tǒng)一存儲、彈性計算數(shù)倉即服務(wù):SaaS化體驗,共享存儲基礎(chǔ)設(shè)施,計算多租戶持續(xù)高可用:在線升級,失敗容錯結(jié)構(gòu)化延伸到半結(jié)構(gòu)化數(shù)據(jù)的處理支持Shared-nothing架構(gòu)(優(yōu)勢)Table

被跨節(jié)點進行水平分區(qū)每個節(jié)點有自己的本地存儲每個節(jié)點只處理自己本地表分區(qū)的數(shù)據(jù)清晰簡潔的處理機制對于“星型”模型有良好的擴展性數(shù)倉領(lǐng)域的典型架構(gòu)NetworkCPUMemoryDiskWorkNodeShared-nothing架構(gòu)(劣勢)耦合了計算與存儲資源彈性集群擴縮容需要重“分布”很多數(shù)據(jù)沒法簡單卸載不用的計算資源受限的可用性角色變化(失敗、升級)

影響性能幵可能導(dǎo)致服務(wù)整體不可用同構(gòu)的資源VS

異構(gòu)的負載批量加載、報表、探索與分析NetworkCPUMemoryDisk第三代真正湖倉一體的架構(gòu)——LakeHouse可靠性數(shù)據(jù)新鮮度高級分析能力的支持數(shù)據(jù)歸屬的成本LakeHouse的核心設(shè)計要素可靠的湖上數(shù)據(jù)管理支持機器學(xué)習(xí)與數(shù)據(jù)科學(xué)高性能的SQL引擎T3出行湖倉一體的架構(gòu)DataLakeStorageDataLakeManagerCacheAd-HocCacheOLAPCacheWarehouseCacheMLMetadataInfrastructureManagerSecurityQueryManagerAPIServiceAuthentication&accesscontrol所有的數(shù)據(jù)存于一處虧補依賴獨立擴展的存儲與計算即開即用,隨時關(guān)閉的“計算”每個集群(理論上)可以訪問全部數(shù)據(jù)目錄一、數(shù)據(jù)湖、數(shù)據(jù)倉庫與數(shù)據(jù)中臺二、湖倉一體的架構(gòu)介紹三、湖倉一體上數(shù)據(jù)中臺的探索與實踐企業(yè)數(shù)據(jù)的幾個應(yīng)用場景有銀彈吒?HybridTransaction/AnalyticsProcessing (HTAP)數(shù)據(jù)來源于業(yè)務(wù)系統(tǒng)(TP)需要事務(wù)機制保證ACID需要保證TP和AP的一致性(數(shù)據(jù)、模

型,大量同步)適合模型簡單,簡單分析場景,以TP

模型解決AP的問題一個系統(tǒng),兩種查詢場景(分

析、服務(wù))無事務(wù)開銷(鎖、同步)行為數(shù)據(jù)、日志數(shù)據(jù),比TP高數(shù)

量級,高嚇吐寫入以數(shù)倉模型(抽象、復(fù)用、標(biāo)準(zhǔn))解決數(shù)據(jù)服務(wù)的問題Transaction隨機讀寫、支持事務(wù)ACID、鎖、面向DBAServing高幵發(fā)、查詢簡單、快速,面向在線應(yīng)用(toC)大規(guī)模數(shù)據(jù)掃描、過濾、匯總,語義層,分布式,列式存儲,面向分析師AnalyticsHybridServing/AnalyticsProcessing(HSAP)數(shù)據(jù)中臺涵蓋的主要數(shù)據(jù)場景Serving(應(yīng)用)OLAP數(shù)據(jù)中臺T3數(shù)據(jù)中臺的探索:HSAP的理念HSAP:HybridServing& AnalyticalProcessing數(shù)據(jù)報告(Analytics)數(shù)據(jù)看板(S&A)在線應(yīng)用(Serving)數(shù)據(jù)應(yīng)用前臺OLAPServing湖倉一體的后臺架構(gòu)數(shù)據(jù)中臺對HSAP有怎樣的期望?豐富生態(tài)兼容主流的大數(shù)據(jù)計算框架兼容主流的大數(shù)據(jù)查詢分析框架分析服務(wù)一體化Point

Query(用于API

服務(wù),類Hbase、Redis場景)OLAP

Query(PB級復(fù)雜查詢,

秒級/亞秒級交虧式分析,類

Presto、Impala、Druid、ClickHouse、Kylin場景)支持流批讀寫的設(shè)計支持實時寫入、實時更新、寫入即可查Flink、Spark超高導(dǎo)入性能計算存儲分離于原生架構(gòu),彈性擴縮容,成本更低兼容傳統(tǒng)的Hadoop生態(tài)統(tǒng)一存儲至數(shù)據(jù)服務(wù)誰是開源界最適合構(gòu)建HSAP的核心框架?Hudi:HadoopUpsertsDeletesand

Incrementals管理DFS/于上超大規(guī)模(上百PB)分析數(shù)據(jù)集支持揑入、更新、刪除的增量數(shù)據(jù)湖處理框架2019年1月加入Apache孵化器,2020年5月畢業(yè)為TLP對所有于服務(wù)(AWS/Tencent

Cloud/Aliyun)都開箱即用已在Uber線上穩(wěn)定運行近4年事務(wù)性(ACID)存儲管理時間旅行增量處理HSAP:分析服務(wù)一體化之于HudiServingOLAP兼容Hive支持主流查詢分析引擎KylinSpark

SQLPresto準(zhǔn)實時的upsert支持支持揑件化的主鍵索引Javanative

client:寫(已支持)讀(待支持)HSAP:支持流批讀寫的設(shè)計之于Hudi批量數(shù)據(jù)流式數(shù)據(jù)全量DeltaStreamer微批流式批/微批流式HSAP:計算與存儲分離之于HudiPluggableIndex(Bloom/HBase)PluggableDataformat(Avro,Parquet)TimelineMetadataHivePrestoSpark寫入讀取存儲類型查詢/視圖Impala化讀優(yōu)增量快照COWMORPluggableStorage(HDFS,OSS,S3)JavaFlinkSparkPython存儲計算HSAP:開源生態(tài)之于Hudi湖倉一體的技術(shù)架構(gòu)圖AliyunOSSYARN存儲格式存儲層數(shù)據(jù)湖存儲計算層編排加速資源管理多元計算數(shù)據(jù)中臺整體架構(gòu)圖湖倉一體的技術(shù)底座數(shù)據(jù)匯聚異構(gòu)網(wǎng)絡(luò)異構(gòu)數(shù)據(jù)源離線同步實時接入可視化配置…數(shù)據(jù)開發(fā)離線開發(fā)實時開發(fā)算法開發(fā)智能調(diào)度智能運維監(jiān)控告警環(huán)境隔離…

數(shù) 數(shù)據(jù) 據(jù)運 安營 全體 管系 理數(shù)據(jù)應(yīng)用數(shù)據(jù)分析數(shù)據(jù)運營可視化BI數(shù)據(jù)資產(chǎn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論