肖松-大模型場景下智算平臺的設(shè)計(jì)與優(yōu)化實(shí)踐_第1頁
肖松-大模型場景下智算平臺的設(shè)計(jì)與優(yōu)化實(shí)踐_第2頁
肖松-大模型場景下智算平臺的設(shè)計(jì)與優(yōu)化實(shí)踐_第3頁
肖松-大模型場景下智算平臺的設(shè)計(jì)與優(yōu)化實(shí)踐_第4頁
肖松-大模型場景下智算平臺的設(shè)計(jì)與優(yōu)化實(shí)踐_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

j百度智能云大模型場景下智算平j(luò)百度智能云j百度智能云我資源比較少,我資源比較少,幾十卡的規(guī)模,如何提升卡的利用率?我的模型跑起來耗時長,我的模型跑起來耗時長,能加速嗎?我想跑大模型,需要多少資源?我想跑大模型,需要多少資源?網(wǎng)絡(luò)如何構(gòu)建?多長時間能跑完?國產(chǎn)卡怎么用?國產(chǎn)卡怎么用?能否與NV卡一起使用?20242j百度智能云大模型時代,智算平臺新特點(diǎn)智算平臺需解決的問題大模型場景技術(shù)實(shí)踐對于智算平臺發(fā)展的未來思考j百度智能云01大模型時代,智算平臺新特點(diǎn)大模型時代,智算平臺新特點(diǎn)j百度智能云ResNet50(小模型)$15$15GPT-4(大模型)$2150萬$2150萬新要求工程問題增強(qiáng):耗時長凸顯大模型訓(xùn)推加速需求新增:成本高帶來穩(wěn)定性需求,減少資源閑置增強(qiáng):參數(shù)爆炸突破顯存墻,多機(jī)多卡成為常態(tài)增強(qiáng):卡間和機(jī)間高性能通信愈發(fā)重要維持:新增:新卡適配和芯片利舊,多芯混合調(diào)度新增:數(shù)據(jù)集處理加速新增:數(shù)據(jù)湖存儲和高性能存儲5j百度智能云02智算平臺需解決的問題智算平臺需解決的問題智算平臺需解決的問題運(yùn)維運(yùn)維應(yīng)用應(yīng)用調(diào)度調(diào)度基礎(chǔ)設(shè)施基礎(chǔ)設(shè)施訓(xùn)練推理數(shù)據(jù)訓(xùn)練推理數(shù)據(jù)資源管理資源管理存儲百度智能云百度智能云7j百度智能云03大模型場景技術(shù)實(shí)踐j百度智能云基礎(chǔ)設(shè)施——混合多芯j百度智能云AI效能矩陣圖譜9基礎(chǔ)設(shè)施——高性能存儲 托管BCC/BBC集群TCP并行文件存儲PFSKP2P鏡像分發(fā)全P2P鏡像分發(fā)全SSD閃存基礎(chǔ)設(shè)施——高性能網(wǎng)絡(luò)3層無收斂RDMA網(wǎng)絡(luò)j百度智能云TorTor拓?fù)涓兄{(diào)度NCCLNCCL通信拓?fù)涓兄猨百度智能云03大模型場景技術(shù)實(shí)踐調(diào)度——GPU虛擬化j百度智能云CUDAdriverAPI,提供顯存限制,算力時分SR-IOV,硬件劃分,提供顯存劃分、算力劃分(1/3、調(diào)度——GPU虛擬化j百度智能云優(yōu)勢:故障隔離好缺點(diǎn):有一定性能損耗14優(yōu)勢:故障隔離好缺點(diǎn):有一定性能損耗14缺點(diǎn):故障隔離差j百度智能云調(diào)度——資源管理和調(diào)度邏輯j百度智能云調(diào)度會話插件集合 入隊(duì)調(diào)度會話插件集合 入隊(duì)資源分配資源回收資源搶占資源分配資源回收資源搶占Binpack/Spread調(diào)Binpack/Spread調(diào)度GPU拓?fù)鋔百度智能云03大模型場景技術(shù)實(shí)踐AIAK訓(xùn)推加速j百度智能云應(yīng)用——AIAK訓(xùn)推加速j百度智能云應(yīng)用——大模型推理加速鏡像量化/剪枝/蒸餾品數(shù)學(xué)等價代換/死代碼移除大模型推理加速鏡像量化/剪枝/蒸餾品數(shù)學(xué)等價代換/死代碼移除大模型訓(xùn)練加速鏡像大模型訓(xùn)練加速鏡像品用——訓(xùn)練容錯矢百應(yīng)用——訓(xùn)練容錯矢百應(yīng)×(任務(wù)故障恢復(fù)時長+任務(wù)故障重算時長)×(任務(wù)故障恢復(fù)時長+任務(wù)故障重算時長)+任務(wù)常態(tài)鏡像/數(shù)據(jù)緩存加速鏡像/數(shù)據(jù)緩存加速節(jié)點(diǎn)熱維修/秒級冷遷移恢復(fù)主流框架/分布式庫,打開開關(guān)即可容錯j百度智能云應(yīng)用——FlashCheckpointj百度智能云如何降低Checkpoint時間? 有效訓(xùn)練時間訓(xùn)練框架訓(xùn)練框架訓(xùn)練框架訓(xùn)練框架同步寫加速層同步寫加速層 NVME NVMESSD分布式,異步寫流式分塊上傳等待流式分塊上傳并行文件存儲PFSFlashCKPT并行內(nèi)存寫入,快速完成checkpoint操作,提升整體有效訓(xùn)練時長。業(yè)務(wù)可制定更細(xì)粒度的檢查點(diǎn)策略,從而降低故障恢復(fù)時間3秒1秒j百度智能云03大模型場景技術(shù)實(shí)踐j百度智能云運(yùn)維目標(biāo)j百度智能云運(yùn)維目標(biāo) 運(yùn)維目標(biāo)!故障處理任務(wù)性能調(diào)優(yōu) 故障處理任務(wù)性能調(diào)優(yōu)故障定位時間小時級->分鐘級發(fā)現(xiàn)資源瓶頸提升分配/利用率發(fā)現(xiàn)任務(wù)性能瓶頸,避免空跑j百度智能云03大模型場景技術(shù)實(shí)踐智算平臺架構(gòu)池大規(guī)模鏡像P2P加速大規(guī)模鏡像P2P加速CCECCEK8S集群A800/H800/昆侖/升騰異構(gòu)算A800/H800/昆侖/升騰異構(gòu)算力高性能分布式存儲高性能分布式存儲PFS98.8%j百度智能云j百度智能云百度百舸發(fā)展歷程j百度智能云AI硬核能力積累百舸1.0AI基礎(chǔ)設(shè)施產(chǎn)品化太行.彈性裸金屬滄海.高性能存儲百舸2.0AI百舸2.0AI基礎(chǔ)設(shè)施云原生化百舸3.0一站式大模型算力平臺j百度智能云對智算平臺發(fā)展的一些思考j百度智能云智算平臺個人思考j百度智能云承上啟下,承上啟下,向下

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論