MaxCompute大數(shù)據(jù)運(yùn)算挑戰(zhàn)與實(shí)踐_第1頁
MaxCompute大數(shù)據(jù)運(yùn)算挑戰(zhàn)與實(shí)踐_第2頁
MaxCompute大數(shù)據(jù)運(yùn)算挑戰(zhàn)與實(shí)踐_第3頁
MaxCompute大數(shù)據(jù)運(yùn)算挑戰(zhàn)與實(shí)踐_第4頁
MaxCompute大數(shù)據(jù)運(yùn)算挑戰(zhàn)與實(shí)踐_第5頁
已閱讀5頁,還剩18頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、MaxCompute大數(shù)據(jù)運(yùn)算挑戰(zhàn)與實(shí)踐內(nèi)容概述什么是MaxCompute大數(shù)據(jù),大流量,高并發(fā)下對(duì)于MaxCompute的挑戰(zhàn)MaxCompute的實(shí)踐什么是MaxCompute大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原名ODPS)是一種快速、完全托 管的PB/EB級(jí)數(shù)據(jù)倉庫解決方案。具備萬臺(tái)服務(wù)器擴(kuò)展能力和跨 地域容災(zāi)能力,是阿里巴巴內(nèi)部核心大數(shù)據(jù)平臺(tái),支撐每日百 萬級(jí)作業(yè)規(guī)模。MaxCompute向用戶提供了完善的數(shù)據(jù)導(dǎo)入方案以及多種經(jīng)典的 分布式計(jì)算模型,能夠更快速的解決用戶海量數(shù)據(jù)計(jì)算問題, 有效降低企業(yè)成本,并保障數(shù)據(jù)安全。MaxCompute架構(gòu)SQLMR迭代計(jì) 算MaxCompu

2、te:統(tǒng)一的計(jì)算引擎伏羲:分布式調(diào)度系統(tǒng)盤古:分布式存儲(chǔ)系統(tǒng)10000臺(tái)10000臺(tái)10000臺(tái)集群1集群2集群n圖計(jì)算流計(jì)算阿里巴巴對(duì)MaxCompute需求(挑戰(zhàn))兼容Hive擁抱生態(tài),利用和回饋社區(qū)易用性,擴(kuò)展性高性能,低成本持續(xù)可發(fā)展性多租戶需要滿足用戶不同 規(guī)模,性能,延時(shí), 運(yùn)算形式上要求大規(guī)模萬臺(tái)單集群,多集 群穩(wěn)定,隔離,數(shù)據(jù)安全一個(gè)SQL運(yùn)行實(shí)例MaxCompute語言特點(diǎn)兼容Hive擴(kuò)展Hive更為豐富的UDF支持,全面深入和優(yōu)化器交互,使得用戶僅僅需要考慮業(yè)務(wù)邏輯,而把分布式執(zhí)行優(yōu)化交給系統(tǒng)。除了僅支持subquery外,充分支持存儲(chǔ)過 程,使得用戶能夠更加容易實(shí)現(xiàn)復(fù)雜任

3、務(wù), 并且給優(yōu)化器和執(zhí)行器更多空間去優(yōu)化, 從而提高性能,降低成本更多豐富數(shù)據(jù)接口:結(jié)構(gòu),非結(jié)構(gòu),多維 度數(shù)據(jù)安全控制更為復(fù)雜的編程表達(dá):LOOP/IF迭代,內(nèi)存計(jì)算支持MaxCompute查詢優(yōu)化器(RBO-CBO)RBO: 基于規(guī)則的優(yōu)化器(Oracle 6-9i, Hive)一種過時(shí)的優(yōu)化器框架,它只認(rèn)規(guī)則,對(duì)數(shù)據(jù)不敏感。優(yōu)化是局部貪婪, 容易陷入局部?jī)?yōu)但是全局差的場(chǎng)景,容易受應(yīng)用規(guī)則的順序而生產(chǎn)迥異 的執(zhí)行計(jì)劃,往往結(jié)果是不是最優(yōu)的。CBO:基于代價(jià)的優(yōu)化器 (Oracle 8開始,Oracle 10g完全取代RBO;MaxCompute)Volcano模型,展開各種可能等價(jià)的執(zhí)行計(jì)劃

4、,然后依賴數(shù)據(jù)的統(tǒng)計(jì)信息, 計(jì)算這些等價(jià)執(zhí)行計(jì)劃的“代價(jià)”,最后從中選用cost最低的執(zhí)行計(jì)劃。MaxCompute優(yōu)化器(CBO)ABCA.col2 100BCAA.col2100BCAA.col2100BCA.col2100A通過統(tǒng)計(jì)信息和推測(cè)B Join C的結(jié)果遠(yuǎn)小于其 他方式200050001500Cost火山模型展開 多個(gè)可執(zhí)行計(jì)劃通過Cost Model來選擇最優(yōu)的執(zhí)行計(jì)劃分布式場(chǎng)景下特有 Cost ModelNon-SQL和關(guān)系數(shù)據(jù)的查詢優(yōu)化的結(jié)合多種分布式 場(chǎng)景的優(yōu)化分布式查詢中的一個(gè)優(yōu)化問題T1 已經(jīng)按照 a,b 進(jìn)行了分區(qū); T2 已經(jīng)按照a 進(jìn)行了分區(qū)a,ba,ba,b

5、aaT 1:aaT 2:JJPair-wise Joina,ba,bT1:aaT 2:JJJa,bBroadcast JoinSIGMOD12HBO (基于歷史優(yōu)化)每天相似的查詢給我們優(yōu)化器帶來巨大機(jī)會(huì)我們會(huì)對(duì)每天提交的查詢進(jìn)行聚類,把以前運(yùn)行數(shù)據(jù)作為 Hint來幫助未來的相似的查詢上任務(wù)運(yùn)行 數(shù)據(jù)收集查詢聚類相似判斷Hint注入基于歷史 數(shù)據(jù)優(yōu)化HBO統(tǒng)計(jì)數(shù) 據(jù)庫執(zhí)行新的查詢?nèi)终{(diào)度Table: AClusterA: V0ClusterB: V0遠(yuǎn)程讀,Replicate 等多種模式充分考慮帶寬,任 務(wù)完成時(shí)效需求全局分析動(dòng)態(tài)預(yù)先調(diào)整Table: AClusterA: V1ClusterB

6、: V0Table: AClusterA: V1ClusterB: V1MaxCompute DAG執(zhí)行ABCA.col2 100BCAA.col2100BCAA.col2100BCA.col2100A200050001500CostBCoutABBCJJ1DJ2AB伏羲RRoutMBCABBCJJ1DJ2MJJ1BJ1AMapReduce多余的一次 讀寫操作再來說說分布式調(diào)度 - 資源調(diào)度的挑戰(zhàn)性能:增量式調(diào)度彈性配額:(削峰填谷)任務(wù)的最優(yōu)化調(diào)度:latency和throughput的平衡負(fù)載均衡,熱點(diǎn)規(guī)避任務(wù)優(yōu)先級(jí)和搶占:實(shí)時(shí)性和公平性復(fù)雜的任務(wù)調(diào)度限制:Service/Job資源調(diào)度資

7、源容器數(shù):40,000+待調(diào)度實(shí)例數(shù):800,000,000+/D調(diào)度決策頻率 2,000+/s調(diào)度的多維目標(biāo)多維度的資源和各異需 求CPU/Disk/Memory各個(gè)調(diào)度對(duì)象統(tǒng)計(jì)信息各個(gè)機(jī)器資源的實(shí)時(shí)統(tǒng) 計(jì)信息高使用效率實(shí)時(shí)性多租戶 公平性資源配額調(diào)度優(yōu)先級(jí)超賣負(fù)載平衡Locality離線在線混布,資源隔離:cgroup, tc等優(yōu)先級(jí)超賣各種艙位的比例什么時(shí)候搶占,誰搶占,搶占誰乘坐的時(shí)間,區(qū)段,如何分配大規(guī)模下任務(wù)調(diào)度的挑戰(zhàn)數(shù)據(jù)交換10K+個(gè)partitioner和10K+個(gè)aggregator, 100M+連接邊Outlier(長(zhǎng)尾)長(zhǎng)尾的檢測(cè),Duplicate Execution觸

8、發(fā)調(diào)度10K機(jī)器,每天百萬job,數(shù)百億的task,如何高效調(diào)度動(dòng)態(tài)DAG(運(yùn)行時(shí)優(yōu)化)考慮運(yùn)行時(shí)候數(shù)據(jù)大小進(jìn)行并行 粒度的選擇考慮到運(yùn)行節(jié)點(diǎn)在集群中的拓?fù)?結(jié)構(gòu)來進(jìn)行有效數(shù)據(jù)傳遞提高網(wǎng) 絡(luò)性能和容錯(cuò)處理通過運(yùn)行數(shù)據(jù)分布決定Range Partition的邊界選取,避免data- skew.AggregateAggregateOutput_1Output_2ReaderPartitionReaderPartitionInputReaderPartitionAgg_DynAgg_DynMaxCompute 運(yùn)行時(shí)充分利用硬件的計(jì)算能力列式執(zhí)行框架SIMD運(yùn)行時(shí) 代碼生 成利用LLVM技術(shù),在運(yùn)行

9、時(shí)根據(jù)SQL Query特點(diǎn)生成較優(yōu)的機(jī)器碼;采用列式執(zhí)行框架,提高CPU流水線的執(zhí)行效率,并提高緩存命中率;充分利用CPU特性(SIMD),實(shí)現(xiàn)指令 級(jí)別的向量執(zhí)行;持續(xù)改進(jìn)和發(fā)布中的挑戰(zhàn)MaxCompute每天都有百萬級(jí)作業(yè)。 如何能夠保證新的功能不會(huì)造成 線上故障?同時(shí)MaxCompute從第一天就強(qiáng)調(diào)安全性,如何處理可測(cè)性和安全性 之間的矛盾?MaxCompute Compiler playback工具M(jìn)axComputeFlighting工具M(jìn)axCompute灰度上線,細(xì)粒度回滾等伏羲simulator,解決調(diào)度不可測(cè)問題等等MaxCompute編譯器 Playback工具我們需要

10、快速提高我們編譯器,優(yōu)化器的表達(dá)能力,性能優(yōu)化水平。如何能夠保證升級(jí)過程中沒有大的Regression. 每天有100萬+個(gè)job,每天都在 變化,并且需要保證用戶數(shù)據(jù)和運(yùn)算的安全性利用我們自己大規(guī)模運(yùn)算平臺(tái)的并行運(yùn)算能力來驗(yàn)證兼容性測(cè)試將編譯查詢作為一個(gè)ODPS的UDF, 然后執(zhí)行一個(gè)并行DAG執(zhí)行來并行執(zhí)行上百萬查詢的編譯優(yōu)化,然后在智能分析結(jié)果得到新功能的潛在風(fēng)險(xiǎn)Odps Playback Query查詢數(shù)據(jù)庫 odps meta執(zhí)行新的查詢DailyReportMaxCompute Flighting 工具如何保證MaxCompute優(yōu)化器和運(yùn)行器是正確執(zhí)行的,如何避免在快速迭代中 的正確性問題,從而避免重大的事故

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論