版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄需求側(cè)優(yōu)化供給側(cè)優(yōu)化商務(wù)手段:折扣技術(shù)手段:彈性資源池存算分離多類(lèi)型實(shí)例綜合使用包年/包月實(shí)例按量/Spot實(shí)例多云實(shí)例運(yùn)營(yíng)手段梳理下線無(wú)效、低效任務(wù)技術(shù)手段業(yè)務(wù)邏輯優(yōu)化資源優(yōu)化:RightSizing
&HBO實(shí)施成本穩(wěn)定性?xún)?yōu)化效果
大數(shù)據(jù)任務(wù)異常
大數(shù)據(jù)服務(wù)或主機(jī)異常低侵入性,業(yè)務(wù)無(wú)感全自動(dòng)優(yōu)化實(shí)施周期短降低任務(wù)總時(shí)長(zhǎng)、基線完成時(shí)間降低資源使用量(內(nèi)存/CPU)收益要夠大(如>30%)任務(wù)參數(shù)動(dòng)態(tài)調(diào)優(yōu)穩(wěn)定性保障RightSizing
&HBO問(wèn)題高峰時(shí)段任務(wù)繁忙,YARN資源分滿(mǎn)狀態(tài)高峰時(shí)段YARN資源排隊(duì)嚴(yán)重主機(jī)CPU/內(nèi)存利用率不高解決方法:RightSizing任務(wù)的實(shí)際資源使用與申請(qǐng)量匹配,減少浪費(fèi)難點(diǎn):任務(wù)數(shù)量多,調(diào)優(yōu)門(mén)檻高,工作量巨大解決方法:HBO
(History
BasedOptimization)通過(guò)對(duì)任務(wù)的歷史運(yùn)行數(shù)據(jù)進(jìn)行分析,為每個(gè)任務(wù)計(jì)算更優(yōu)的 運(yùn)行參數(shù),并在任務(wù)提交時(shí)自動(dòng)運(yùn)用,從而實(shí)現(xiàn)任務(wù)的資源
RightSizing典型案例主機(jī)CPU/內(nèi)存利用率YARN
Vcore/內(nèi)存分配YARN
Pending容器數(shù)量數(shù)據(jù)采集HistoryServer數(shù)據(jù)數(shù)據(jù)質(zhì)量,基于javaagent和listener運(yùn)行時(shí)采集,資源控制,避免過(guò)多影響優(yōu)化策略使用動(dòng)態(tài)歷史時(shí)間窗口自適應(yīng)優(yōu)化算法預(yù)估模型:不同并行度預(yù)估運(yùn)行時(shí)長(zhǎng)變化各種邊界處理,參數(shù)之間的聯(lián)動(dòng)依賴(lài)自動(dòng)優(yōu)化基于javaagent技術(shù)的Hook注入機(jī)制調(diào)度側(cè)優(yōu)化(合理申請(qǐng)資源)引擎?zhèn)葍?yōu)化(高效使用資源)資源不足/空閑->調(diào)大/調(diào)小并行度、預(yù)啟動(dòng)、數(shù)據(jù)本地性等...優(yōu)化手段:任務(wù)動(dòng)態(tài)參數(shù)調(diào)優(yōu)技術(shù)挑戰(zhàn):覆蓋和適配各種場(chǎng)景通過(guò)字節(jié)碼注入的方式抽象優(yōu)化參數(shù)注入方式Hive
on
MR/Tez/SparkNative
MR
JobSpark
ApplicationFlinkStarRocks/Doris開(kāi)源主流版本CDH&TDH等定制版
×本云廠商EMR版本技術(shù)挑戰(zhàn):任務(wù)歸一化可編程方式,方便定制典型歸一化信息:job/application
name,命令行信息,SQL...新任務(wù)發(fā)現(xiàn)和優(yōu)化效果指標(biāo):任務(wù)運(yùn)行總時(shí)長(zhǎng)、CPU/內(nèi)存使用量方案與效果參數(shù)自動(dòng)調(diào)優(yōu):為每個(gè)任務(wù)自動(dòng)設(shè)定最佳運(yùn)行資源參數(shù),無(wú)需改動(dòng)任務(wù)代碼任務(wù)總時(shí)長(zhǎng)減少28%,產(chǎn)出時(shí)間提前2小時(shí)任務(wù)排隊(duì)峰值降低50%,業(yè)務(wù)反饋任務(wù)卡頓顯著好轉(zhuǎn)第一輪優(yōu)化:可以看到在開(kāi)啟優(yōu)化的前后時(shí)間段,PendingMB曲線面積有明顯下降第二輪優(yōu)化:不斷完善優(yōu)化策略,PendingMB曲線面積較優(yōu)化前降低更為明顯,曲線峰值約12M降至1M,整體可減少40%左右的離線計(jì)算資源灰度機(jī)制異常重試失敗隔離故障隔離彈性資源池與混部彈性資源池ElasticPool已有的云資源
通過(guò)不同優(yōu)先級(jí)任務(wù)混部實(shí)現(xiàn)
典范是GoogleBorg,通過(guò)混部,計(jì)算型資源的平均利用率拉升到50%+,節(jié)省超過(guò)30%機(jī)器
對(duì)基礎(chǔ)設(shè)施要求很高:不同優(yōu)先級(jí)任務(wù)通常至少要部署在同城機(jī)房、帶寬>100G、存算分離、操作系統(tǒng)要具備不同優(yōu)先級(jí)任務(wù)
QoS能力Spot/競(jìng)價(jià)/搶占式實(shí)例
價(jià)格最低可到:按量機(jī)型1/10,包月機(jī)型1/6
國(guó)外像Cast.ai、Kubecost、BreezeML、Skypilot這些公司基本都是這個(gè)方向
國(guó)外云在SpotInstance上的成熟度和供應(yīng)上比國(guó)內(nèi)好很多多云資源組合
對(duì)于計(jì)算數(shù)據(jù)量小,或依賴(lài)的數(shù)
據(jù)在多家云上都有,可臨時(shí)根據(jù)各家云目前的spotinstance等情況,來(lái)構(gòu)建一個(gè)最佳的資源池,可以是單云構(gòu)成的,甚至是跨多云構(gòu)成的規(guī)格名稱(chēng)規(guī)格系統(tǒng)盤(pán)按量包月?lián)屨际桨⒗镌芿cs.c6.xlarge4核8G40G0.744元/時(shí)
535.68元/月356.6元/月0.26元/小時(shí)187.2元/月華為云c6s.xlarge.24核8G40G0.6988元/時(shí)503.136元/月346.6元/月0.29元/小時(shí)208.8元/月騰訊云S5.LARGE84核8G50G0.65元/時(shí)
468元/月356.2元/月0.17元/小時(shí)122.4元/月問(wèn)題業(yè)務(wù)和大數(shù)據(jù)離線作業(yè)的錯(cuò)峰,集群利用率不高大量的容器OOM
300+w次/周1%的夯機(jī)率每周hung
task
28.8%難點(diǎn)資源利用率提升達(dá)到瓶頸單機(jī)的資源隔離能力解決思路穩(wěn)定性:資源面的邊界壓力感知,單機(jī)資源健康度保障利用率:復(fù)用已有機(jī)器,構(gòu)建新的大數(shù)據(jù)集群ElasticPool-ElasticPool-輕量的接入方式大數(shù)據(jù)存算分離架構(gòu)部署新大數(shù)據(jù)集群控制器混部節(jié)點(diǎn)部署內(nèi)核隔離能力混部節(jié)點(diǎn)部署lcc-agent將任務(wù)從老集群遷移到新集群原集群逐漸釋放ElasticPool-Latency/壓力/邊界感知ElasticPool-內(nèi)存健康度保障表數(shù)據(jù)分析:小文件/數(shù)據(jù)冷熱/壓縮格式等數(shù)據(jù)壓縮歸檔治理湖倉(cāng)數(shù)據(jù)存儲(chǔ)治理現(xiàn)狀:存儲(chǔ)水位長(zhǎng)期超80%根因:文本格式未壓縮列式存儲(chǔ)(ORC/Parquet)使用低效壓縮算法(如Snappy)冷數(shù)據(jù)未治理,占用高成本存儲(chǔ)問(wèn)題:存儲(chǔ)效率低,水位高分析評(píng)估表大小、格式、壓縮率→預(yù)估收益基于HDFS審計(jì)日志分析冷熱數(shù)據(jù)壓縮優(yōu)化文本數(shù)據(jù)→ORC/Parquet+Zstd/Zlib壓縮(壓縮率提升10倍)列式數(shù)據(jù):低效壓縮→升級(jí)至Zstd/Zlib(節(jié)省30-50%空間)優(yōu)先級(jí)策略:冷數(shù)據(jù)優(yōu)先,空閑自動(dòng)治理安全執(zhí)行:治理前后數(shù)據(jù)一致性校驗(yàn)方案:四步治理流程容量?jī)?yōu)化:存儲(chǔ)水位從87%降至60%+(已維持1年)性能提升:查詢(xún)速度提升(列式存儲(chǔ)+高效壓縮)存儲(chǔ)資源成本下降20%+自動(dòng)化能力:冷熱分析+定時(shí)任務(wù),減少人工干預(yù)效果:顯著降本與長(zhǎng)期穩(wěn)定痛點(diǎn):初始文件數(shù):6億+→NameNode性能壓力巨大性能影響:任務(wù)運(yùn)行時(shí)間慢資源浪費(fèi):大量小文件占用存儲(chǔ)塊,利用率不足問(wèn)題:小文件過(guò)多引發(fā)性能瓶頸精準(zhǔn)分析
掃描小文件分布,按大小/熱度分類(lèi)→預(yù)估收益無(wú)感治理時(shí)段規(guī)避:選擇業(yè)務(wù)低峰期自動(dòng)觸發(fā)任務(wù)資源隔離:限制治理任務(wù)資源,避免影響線上業(yè)務(wù)熱表保護(hù):實(shí)時(shí)監(jiān)控,跳過(guò)活躍表治理3. 安全執(zhí)行:治理前后數(shù)據(jù)一致性校驗(yàn)方案:合并治理流程文件量級(jí):6億→8000萬(wàn)(減少86.7%)性能提升:NameNode元數(shù)據(jù)負(fù)載降低80%任務(wù)平均運(yùn)行時(shí)間縮短自動(dòng)化能力:定時(shí)任務(wù),減少人工干預(yù)效果:性能與效率雙提升 客戶(hù)案例:優(yōu)化后節(jié)省1/3云賬單
2、解決方案與項(xiàng)目效果參數(shù)自動(dòng)調(diào)優(yōu):為每個(gè)任務(wù)自動(dòng)設(shè)定合理的運(yùn)行資源參數(shù),減少資源浪費(fèi)任務(wù)總時(shí)長(zhǎng)減少25%,YARN
NM節(jié)點(diǎn)減少48%每月離線計(jì)算資源云賬單節(jié)省36%1、項(xiàng)目背景:資源申請(qǐng)普遍過(guò)大,集群資源利用率較低,云成本高百臺(tái)集群規(guī)模,主要為Spark
SQL任務(wù),集群資源平均利用率40%左右任務(wù)資源申請(qǐng)普遍較大,缺乏有效的管控機(jī)制,人工優(yōu)化成本高 客戶(hù)案例:千級(jí)規(guī)模集群,減緩擴(kuò)容
規(guī)模:千級(jí)服務(wù)器,萬(wàn)級(jí)Vcores規(guī)模,公有云,Spark任務(wù)效果:資源全天用滿(mǎn)狀態(tài)(優(yōu)化前)->有較多富余(優(yōu)化后),優(yōu)化后排隊(duì)幾乎完全消除提升任務(wù)運(yùn)行穩(wěn)定性,降低運(yùn)維人員的起夜率降低核心隊(duì)列運(yùn)行時(shí)間,讓最重要的任務(wù)跑的更快 客戶(hù)案例:核心任務(wù)提效、OOM治理
優(yōu)化挑戰(zhàn):收益要高、確保
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鏟運(yùn)安全培訓(xùn)課件
- 問(wèn)題回答類(lèi)任務(wù)驅(qū)動(dòng)型作文
- 山西省2025九年級(jí)物理上冊(cè)專(zhuān)訓(xùn)4新情境實(shí)驗(yàn)題課件新版新人教版
- 小班買(mǎi)賣(mài)流程
- (新教材)2026年蘇教版二年級(jí)上冊(cè)數(shù)學(xué) 第4課時(shí) 七巧板的故事 課件
- 小學(xué)世界環(huán)境日主題活動(dòng)策劃
- 武漢碼頭施工方案(3篇)
- 中職考試活動(dòng)策劃方案(3篇)
- 外墻修補(bǔ)-施工方案(3篇)
- 親子酒店施工方案(3篇)
- 2025版國(guó)家開(kāi)放大學(xué)法學(xué)本科《知識(shí)產(chǎn)權(quán)法》期末紙質(zhì)考試總題庫(kù)
- DB11T 354-2023 生活垃圾收集運(yùn)輸管理規(guī)范
- 赤石特大橋施工安全風(fēng)險(xiǎn)評(píng)估報(bào)告
- 九宮數(shù)獨(dú)200題(附答案全)
- QBT 2770-2006 羽毛球拍行業(yè)標(biāo)準(zhǔn)
- 部編版八年級(jí)上冊(cè)語(yǔ)文《期末考試卷》及答案
- 售后服務(wù)流程管理手冊(cè)
- 2020-2021學(xué)年新概念英語(yǔ)第二冊(cè)-Lesson14-同步習(xí)題(含答案)
- 地下車(chē)庫(kù)建筑結(jié)構(gòu)設(shè)計(jì)土木工程畢業(yè)設(shè)計(jì)
- PDM結(jié)構(gòu)設(shè)計(jì)操作指南v1
- 投資學(xué)-課件(全)
評(píng)論
0/150
提交評(píng)論