版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
百度AI大底座大模型研發(fā)基礎設施方案最佳實踐和案例大模型研發(fā)集群構建方案大模型訓推加速優(yōu)化方案基于Al大底座的大模型研發(fā)基礎設施概覽大模型Al新時代的基礎設施0201040503Jared,et
al.2020.(藍色:語言模型;綠色:中文語言模型;橘色:多模態(tài)模型;黃色:視覺模型)500ERNIE3.0Titan(260B)
●Plato-
XL(11B)ERNIE-VILG(10B)CogView(4B)●DALL-E(1.2B)
viT(630M)
viT-G(2B)SwinV2(3B)0.5ERN|E1.0(110M)0.052018/9/182019/10/232020/11/262021/12/31計算規(guī)模大GP3:314
ZFLOPS單卡A100訓練需要32年成本投入大GP3:數(shù)以億計的訓練和推
理成本模型參數(shù)大GP3:
175B參數(shù)350G+存儲空間算力是大模型核心驅動力,推進AI基礎設施新范式演進以GPT-3為例,
1750億參數(shù)模型、
3000億詞語,計算量314ZFLOPS整體向低精度遷移,混合精度是常態(tài)訓練顯存,推理服務,芯片存算比us時代的萬卡互聯(lián)新摩爾定律分布式架構Scaling
三要素模型參數(shù)演進Turing-NLG(17B)
T5(11B)
v-MOE(15B)
ERNIE3.0(10B)模型大小(十億參數(shù))ERN|E2.0(330M)BERT(340M)GPT-3(175B)GPT-2(1.5B)ELMo(90M)2017/8/14505高性價比利用率提升多級存儲彈性按需訓練加速優(yōu)化分布式訓練高性能算子顯存優(yōu)化集群加速比算法收斂速度彈性容錯一站式平臺最佳實踐智算集群構建異構算力萬卡集群高速互聯(lián)大模型訓練的核心需求關注點百度AI大底座全景圖
百度AI大底座由AI
IaaS層(百舸AI異構計算平臺)、
AI
PaaS層(AI中臺)兩大部分組成
文心大模型及相關應用第三方模型及相關應用推理加速AlAK-lnference高性能存儲并行文件存儲PFSAI服務器lnfiniBand
x-MAN樣本中心
模型中心全功能Al開發(fā)平臺BML
零門檻Al開發(fā)平臺EasyDL數(shù)據(jù)湖存儲加速RapidFS海量數(shù)據(jù)湖存儲對象存儲BOS異構芯片昆侖芯GPU分布式訓練加速AlAK-Training高速互聯(lián)RDMAGPU調度Al作業(yè)調度彈性訓練可觀測性應用計百
算舸
平異
臺構百度AI大底座全景圖Al資產(chǎn)共享平臺Al服務運行平臺AI
中
臺基礎管控最佳實踐和案例大模型研發(fā)集群構建方案大模型訓推加速優(yōu)化方案基于Al大底座的大模型研發(fā)基礎設施方案概覽大模型開啟Al新時代0201040503
異構調度數(shù)據(jù)加速
訓練加速
百度AI大底座
-
AI基礎設施解決方案全景圖最適合跑大模型的大規(guī)模、高性能AI基礎設施CCE(公有云)穩(wěn)定收斂CCE-Stack(私有云)最優(yōu)的訓練推理性能BF16優(yōu)化參數(shù)推薦CostModel通信overlap動態(tài)batch行模型輕量化模型稀疏化多卡部署灰度發(fā)布流量控制動態(tài)伸縮公共數(shù)據(jù)集公共模型庫模型/數(shù)據(jù)預熱高性能存儲一鍵跑通千億大模型訓練推理高性能計算(A100、A800、昆侖)高速互聯(lián)
網(wǎng)絡(IB
、
RoCE)云原生AI套件配置網(wǎng)絡產(chǎn)品配置容器平臺配置故障感知算力容錯存儲產(chǎn)品配置計算產(chǎn)品配置云原生平臺
服務部署
推理加速
容錯訓練
基礎設施高性能存儲(PFS、
BOS、
RapidFS)百舸控制面網(wǎng)絡容錯任務容錯GPU架構感知Tor架構感知Binpack調度Gang調度穩(wěn)定性萬卡模型訓練不中斷云原生AI套件最佳實踐和案例大模型研發(fā)集群構建方案大模型訓推加速優(yōu)化方案基于Al大底座的大模型研發(fā)基礎設施概覽大模型開啟Al新時代0201040503實例名稱實例規(guī)格ehc.lgn5.c128
m1024.8a800.8
re.4dCPU:IntelXeonGold8350C/32C2.6GHz
240W
*2內存:DDR4-320064G
RDIMM*16磁盤:SATA-SSD480G*1+
NVMe-SSD4T*4網(wǎng)卡:100GCX6雙口*4+
100G雙口智能網(wǎng)卡*
1其他:NVIDIA
A80080G
NVLinkSW*8ehc.lgn5.c128
m1024.8a100.8
ib.4dCPU:IntelXeonGold8350C/32C2.6GHz
240W
*2內存:DDR4-320064G
RDIMM*16磁盤:SATA-SSD480G*1+
NVMe-SSD4T*4網(wǎng)卡:200GCX6單口*4+
100G雙口智能網(wǎng)卡*
1其他:NVIDIA
A10080G
NVLinkSW*8大模型訓練物理服務器介紹服務器配置–
A100/A800存儲帶寬
實例
2GB/s設備數(shù)
實例32*基于多可用區(qū)部署統(tǒng)計存儲虛擬化(裸金屬終態(tài))網(wǎng)絡帶寬
實例
180GbpsPPS50M+Gbps支持DPU卸載網(wǎng)絡+存儲網(wǎng)絡虛擬化性能卓越SPDKOVS-ControllerNova-puteSnic-Agent8導軌優(yōu)化的三層CLOS架構?結合網(wǎng)絡流量特點,重點優(yōu)化同號卡AllReduce操作?一組機器有8臺Tor組成,分別連接20臺機器對應變化
的GPU網(wǎng)卡?多組Unit間的同號卡通過Leaf層連接,支持最大400卡AllReduce互聯(lián)?異號GPU網(wǎng)卡通過Spine層連接,使能異號卡網(wǎng)絡通信EHC集群AEHC集群B?
網(wǎng)絡帶寬更充足?節(jié)點間跳步數(shù)更穩(wěn)定大模型集群可達萬卡級別,單作業(yè)千卡;兼顧P2P延遲和通信吞吐AI訓練中網(wǎng)絡側最多的流量是同號卡AllReduce操作與DragonfIY
、Torus拓撲比較的優(yōu)勢?IB可支撐16000卡規(guī)模,RoCE可支持30000+卡專有RDMA100GbVPC接入400GB
NVLink800Gb
RDMA通信
特點通信
需求專
有VPC
BVPC
ARDMAKM
E
MD
IS分布式緩存加速
RapidFS托管BCC/BBC
集群并行文件存儲
PFSMDISKME
MDIS
K*
數(shù)據(jù)集存儲/上傳
-月光寶盒/對象存儲BOS*
預訓練模型存儲
-
訓練開
始時遠端拉取到本地-
PFS*
容錯檢查點存儲
-訓練過
程中的checkpoint存儲到
遠端存儲
-PFS*
Conda
/VSCode代碼庫
存儲
-PFS*
支持存儲可觀測性對象存儲
BOS標準存儲
低頻存儲
冷存儲
歸檔存儲大模型存儲方案介紹覆蓋模型訓練全周期離線傳輸月光寶盒TCP/InfiniBand/RoCE大模型訓練全場景覆蓋TCPM
E
MDISKE
M遷移方式方式描述優(yōu)勢局限性全托管?
公網(wǎng)端到端直連遷移?
適用于百TB以下規(guī)模的跨云遷移或本地自建S3集群搬站?
全流程可視化?
操作簡單?
僅公網(wǎng)環(huán)境,速率
較慢,遷移周期長半托管?
專線環(huán)境跨云遷移/本地
自建S3集群搬站?
公網(wǎng)環(huán)境跨云遷移(源端
有閑置的公網(wǎng)帶寬)?
支持專線,速
度快?
專線環(huán)境遷移非端
到端直連,需IDC
中轉,并部署遷移
Agent?
公網(wǎng)環(huán)境遷移速度
較慢月光寶盒?
百度提供100TB~800TB
硬件,拷貝后物流運送到百度機房上傳?
適用于本地IDC上云,不
適用于跨云遷
移?
需要物流運送,第
三方物流存在不可
控因素硬盤寄送?
客戶自有硬盤寄送到百度
云機房?
適用于本地IDC上云、自
動駕駛數(shù)據(jù)采
集場景?
需要物流運送,且
需要客戶擁有較多
磁盤開源大模型&數(shù)據(jù)集緩存加速數(shù)據(jù)和環(huán)境準備,避免跨網(wǎng)數(shù)據(jù)訪問數(shù)據(jù)集上云方案數(shù)據(jù)集加速數(shù)據(jù)流轉平臺CloudFlow開發(fā)鏡像開源數(shù)據(jù)集開源大模型托管BCC/BBC
集群大規(guī)模訓練場景下,支持高并發(fā)、低延遲數(shù)據(jù)訪問、具備橫向擴展能力……
OSS
數(shù)據(jù)節(jié)點……元數(shù)據(jù)節(jié)點并行文件存儲PFS全閃硬件架構,適合大訓練集讀寫計算節(jié)點內核客戶端*IO
并行*
亞毫秒延時*
百
GB/s
吞吐*
內核客戶端*
高速硬件*
極短IO
路徑MDSMDSMDSMDSOSSOSSOSSOSS
OSS
最佳實踐和案例大模型研發(fā)集群構建方案大模型訓推加速優(yōu)化方案基于Al大底座的大模型研發(fā)基礎設施概覽大模型開啟Al新時代0201040503
通信效率優(yōu)化
高性能訓練通信庫ECCLAIAK-Training:全鏈路訓練優(yōu)化能力AIAK-Training
訓練加速套件通信優(yōu)化策略:隱藏/融合/壓縮/卸載/拓撲預處理加速算子融合低精度訓練顯存卸載機制參數(shù)/梯度/優(yōu)化器分片DataLoader優(yōu)化高性能算子重計算技術
顯存利用優(yōu)化
計算效率優(yōu)化
IO和預處理優(yōu)化
單機多卡RDMA
多機優(yōu)化TCP多機優(yōu)化通信優(yōu)化All2All加速:通過機內NVLink減輕對網(wǎng)絡的壓力?
在8導軌優(yōu)化的網(wǎng)絡架構下,同號卡最多3條,但所有異號卡通信需要經(jīng)過Spine層?同號卡AllReduce操作性能好,但All2All操作對網(wǎng)絡壓力較大?
優(yōu)化思路是通過機內高性能NVLink中轉網(wǎng)絡請求,從而將異號卡通信轉換為同號卡通信,充
分利用8導軌優(yōu)勢?
如右圖所示,A節(jié)點的GPU0先經(jīng)過NVLink到GPU3,再發(fā)往B節(jié)點GPU38導軌優(yōu)化下,同號卡最多經(jīng)過Leaf層,異號卡通信需要經(jīng)過spine層
Rail-localAll2All
(NCCL2.12十)1.91.71.51.31.10.9 All2All性能提升(%)
170.40%123.59%116.17%107.98%109.66%
o
107.75%2
4
8
16
32
64
。
歸—化后收益
通信卡數(shù)—
All2All加速
算子庫:針對大模型典型模型結構專門優(yōu)化 圖轉換:將聚類后的圖轉換為后端表示、加速算子庫使能
多后端:兼容手寫
+編譯的多種后端,提供可擴展后端抽象
圖優(yōu)化:模型量化&稀疏化、重點算子融合
后端加速:動態(tài)Batch,行通信加速
流量動態(tài)調度:彈性擴縮TritonFastDeployKserveAIAK-
Inference推理加速GraphOptimizerAIAK-OP(代碼自動生成)GraphConverter基礎算子庫
(如cuDNN)TensorRT
TVM
一
豎切、橫切、縱向擴展
模型分組參數(shù)切片,減少顯存占用(Groupsharding)
干億模型訓練配置
4D
混合并行框架策略參與節(jié)點行機內8卡AllReducesharding機內8卡Broadcast流水并行多機—組,機間同號卡P2P通信數(shù)據(jù)并行多組數(shù)據(jù)并行(多機—個單元)高效流水并行編排框架加速大模型天然適合切分混合多種并行策略–
4D混合并行Transformer層內大MatMul切分,
稱為
模型并行(MP)將訓練數(shù)據(jù)切分加速
訓練,稱為數(shù)據(jù)并行
(DP)按
Transformer
層切分,稱為流
水線并行(PP)縱向擴展模型切分橫切豎切主流框架支持通信層監(jiān)控層框架層任務層容錯訓練|保障大規(guī)模并行訓練穩(wěn)定執(zhí)行PaddlePaddlePytorch任務自動重啟Checkpoint存儲加速千億參數(shù)大模型訓練不中斷自動checkpoint訓練拓撲維護網(wǎng)絡抖動錯誤重試網(wǎng)絡異常節(jié)點感知Step粒度容錯網(wǎng)絡多路徑利用任務監(jiān)控資源監(jiān)控容錯判斷最佳實踐和案例大模型研發(fā)集群構建方案大模型訓推加速優(yōu)化方案基于Al大底座的大模型研發(fā)基礎設施概覽大模型開啟Al新時代0201040503百舸LLaMA-65B大模型快速搭建最佳實踐操作流程圖:集群創(chuàng)建:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年朔州職業(yè)技術學院單招職業(yè)技能考試題庫及答案1套
- 2026年湖南單招摸擬試題及答案1套
- 2026年山東職高單招試題附答案
- 2026年深圳電工競賽試題及完整答案1套
- 2026年無錫工藝職業(yè)技術學院單招職業(yè)技能測試題庫附答案
- 2026年心理學測試題期末及完整答案1套
- 2026年無錫城市職業(yè)技術學院單招職業(yè)適應性考試題庫附答案
- 2026年河源職業(yè)技術學院單招綜合素質考試題庫附答案
- 2026年成都文理學院單招職業(yè)傾向性考試模擬測試卷及答案1套
- 2026年吉林省經(jīng)濟管理干部學院單招職業(yè)傾向性考試題庫及答案1套
- VFP表單控件的使用
- 化學月考卷子講解
- 婦幼保健員考試試題題庫及答案
- 建筑垃圾清理清運方案
- 外貿(mào)跟單基礎知識培訓課件
- 雙氧水安全管理制度
- (高清版)DBJ∕T 13-278-2025 《福建省電動汽車充電基礎設施建設技術標準》
- 江西省三校生高考數(shù)學試卷
- 2025年高一數(shù)學必修一數(shù)學競賽模擬題
- 咨詢管理方案大綱模板
- 第四單元歐洲風情《友誼地久天長》《云雀》《愛的羅曼斯》課件人音版(簡譜)初中音樂七年級下冊
評論
0/150
提交評論