版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
演講提綱GPT-3開啟大模型時(shí)代GPT-3開啟大模型時(shí)代大模型帶來質(zhì)的效果飛躍32條樣本即可達(dá)到BERT的效果以O(shè)penAIGPT-3為例32條樣本即可達(dá)到BERT的效果1750億模型帶來了質(zhì)的效果飛躍1750億模型帶來了質(zhì)的效果飛躍提升40%提升提升40%提升20%大模型帶來AI通用性顯著提升閱讀理解新詞構(gòu)造多輪問答指代推理超大規(guī)模模型逐漸具備使用處理各種新任務(wù)的通用能力閱讀理解新詞構(gòu)造多輪問答指代推理數(shù)學(xué)計(jì)算數(shù)學(xué)計(jì)算SATSAT考試注:基于GPT-3的實(shí)驗(yàn)分析爆款應(yīng)用拉動(dòng)大模型訓(xùn)練需求AIGC文生圖ChatGPT模型大小(十億參數(shù))50.50.05(藍(lán)色:語言模型;綠色:中文語言模型;橘色:多模態(tài)模型;黃色:視覺模型)模型大小(十億參數(shù))50.50.05(藍(lán)色:語言模型;綠色:中文語言模型;橘色:多模態(tài)模型;黃色:視覺模型)2017/8/142018/9/182019/10/232020/11/26ScalingLaw三要素以GPT-3為例,1750億參數(shù)模型、3000億詞語,計(jì)算量314ZFlops超大模型訓(xùn)練對基礎(chǔ)設(shè)施的需求面向大模型的基礎(chǔ)設(shè)施全景圖VIMER-UFO2.0ERNIE3.0超大模型VIMER-UFO2.0ERNIE3.0超大模型---AI框架---加速庫-----硬件資源---ERNIE3.0TitanDeepSpeed/DeepSpeed/Megatron+PyTorchFleet+PaddlePaddle集合通信庫(NCCL集合通信庫(NCCL,ECCL)AI算子庫(cuDNN,cuBLAS、AIAK-OP)AIAI平臺AI調(diào)度器存儲服務(wù)RDMA存儲節(jié)點(diǎn)GPURDMA存儲節(jié)點(diǎn)GPU/昆侖A100算力312TFLOPS千億參數(shù)需要2TB存儲單卡顯存80GB,放不下A100算力312TFLOPS千億參數(shù)需要2TB存儲單卡顯存80GB,放不下ZFLOPs計(jì)算量GPT-3:314ZFLOPs算力墻·大規(guī)模參數(shù)175B參數(shù)存儲墻·GPU0梯度更新梯度更新反向計(jì)算反向計(jì)算前向計(jì)算前向計(jì)算常見梯度同步策略:同步更新vs異步更新策略異步更新同步更新常用AllReduce實(shí)現(xiàn)無阻塞,100%能網(wǎng)絡(luò)下,可以做到95%+目前大模型訓(xùn)練主要采用同步更新策略 GPU0GPU1 存儲墻——流水線并行每張卡保存部分層,通過點(diǎn)對點(diǎn)Send/Recv同步激活與梯度;將數(shù)據(jù)切分成mini-batch傳入流水線Send/RecvSend/RecvSend/RecvGPU0GPU0GPU1通過調(diào)整不同mini-batch數(shù)據(jù)執(zhí)通過調(diào)整不同mini-batch數(shù)據(jù)執(zhí)存儲墻——張量并行對于單層參數(shù)仍然過大問題,可以將單層操作切分到多卡進(jìn)行XGELUYGEMMBYZGPU0XGEMMAXGELUYGEMMBYZGPU0XGEMMAXfY1GEMMB1GPU0XGEMMAXfY1GEMMB1GPU0XGEMMA1GELUY1Z1XgXY2GEMMGPU1XY2GEMMGPU1XXGEMMA2GELUY2Z2最后通過AllReduce匯聚結(jié)果存儲墻——分組參數(shù)切片數(shù)據(jù)并行的顯存冗余:數(shù)據(jù)并行中的每張卡都會(huì)保存一份完整的模型參數(shù)、梯度及優(yōu)化器狀態(tài) GPU0GPU1分組參數(shù)切片將參數(shù)與優(yōu)化器狀態(tài)在參與數(shù)據(jù)并行的卡間切分,計(jì)算時(shí)按需通信同步,時(shí)間換空間 Broadcastbroadcast Broadcastbroadcast(參數(shù)廣播)(狀態(tài)廣播)GPU0GPU1大模型加速——減少計(jì)算量當(dāng)數(shù)據(jù)量足夠大時(shí),參數(shù)越多的模型精度越好;而參數(shù)量增加造成計(jì)算量增加,需要更多資源如何保證參數(shù)規(guī)模的同時(shí),減少計(jì)算量? (上圖中單樣本計(jì)算量減少1/3) 減少計(jì)算量——混合專家模式基于條件計(jì)算范式,將模型抽象為多個(gè)專家,每卡處02030010203001112131122132223231333 112131122132223231333(序號代表(序號代表Gating后適合放置的卡;顏色表示當(dāng)前所在的卡)高效流水并行編排并行策略實(shí)戰(zhàn)——飛槳4D混合并行訓(xùn)練高效流水并行編排大模型,大模型,堆疊Transformer層,天然適合切分豎切、橫切、縱向擴(kuò)展豎切橫切模型切分豎切橫切模型切分縱向擴(kuò)展縱向擴(kuò)展Transformer層內(nèi)大Transformer層內(nèi)大千億模型訓(xùn)練配置策略參與節(jié)點(diǎn)機(jī)內(nèi)8卡AllReduceSharding機(jī)內(nèi)8卡Broadcast多機(jī)一組,機(jī)間同號卡P2P通信多組數(shù)據(jù)并行(多機(jī)一個(gè)單元)硬件資源——大模型訓(xùn)練對算力和通信的需求切分方式通信操作通信量(單卡)通信卡數(shù)計(jì)算時(shí)間對集群的需求AllReduce百GB/PP數(shù)量Send/RecvP2P低延遲AllReduceGB級別高吞吐AllReduce參數(shù)分組(Sharding)百GB/PP數(shù)量百GB預(yù)估:1750億參數(shù)、3000億詞語、1024卡A100,需要34天訓(xùn)練單機(jī)硬件選型GPUGPU8xNVIDIAA10080GB80GB*8NVSwitchNVSwitch6CPU2S/4SCPU200Gb/s200Gb/s存儲存儲4T*8NVMESSD性能性能5petaFLOPS@FP16機(jī)內(nèi)互聯(lián)機(jī)內(nèi)互聯(lián)134GB/s(AllReduce算法帶寬)集群網(wǎng)絡(luò)設(shè)計(jì)大模型集群可達(dá)萬卡級別,單作業(yè)千卡;兼顧P2P延遲和通信吞吐AI訓(xùn)練中網(wǎng)絡(luò)側(cè)最多的流量是同號卡AllReduce操作8導(dǎo)軌優(yōu)化的三層8導(dǎo)軌優(yōu)化的三層CLOS架構(gòu)?最大可支撐16000卡規(guī)模,目前IB盒式組網(wǎng)最大規(guī)模?結(jié)合網(wǎng)絡(luò)流量特點(diǎn),重點(diǎn)優(yōu)化同號卡AllReduce操作?一組機(jī)器有8臺TOR組成,分別連接20臺機(jī)器對應(yīng)變化的GPU網(wǎng)卡?多組Unit間的同號卡通過Leaf層連接,支持最大400卡AllReduce互聯(lián)?異號GPU網(wǎng)卡通過Spine層連接,使能異號卡網(wǎng)絡(luò)通信軟硬件結(jié)合的聯(lián)合優(yōu)化基于靜態(tài)圖的多后端加速架構(gòu)+GraphCaptureGraphCaptureAbstractBackendAbstractBackendLayerFastDeployFastDeploy(如cuDNN)TVMTVMGraphConverterGraphConverterTensorRTTensorRTAIAK-OPAIAK-OP圖優(yōu)化:通用圖優(yōu)化(DCE、CSE)、重點(diǎn)算子融合算子庫:針對典型模型結(jié)構(gòu)專門優(yōu)化;基于Cutlass模塊化算子生成;基于TVM算子自動(dòng)編譯優(yōu)化大模型加速——圖接入AI框架提供一系列API進(jìn)行模型圖描述,按圖執(zhí)行時(shí)機(jī)分為動(dòng)態(tài)圖與靜態(tài)圖動(dòng)態(tài)圖:圖構(gòu)建與計(jì)算執(zhí)行同時(shí)發(fā)生(defineby立即創(chuàng)建aaSession立即計(jì)算cc?專有API構(gòu)建圖、異步執(zhí)行立即創(chuàng)建aaSession立即計(jì)算cc?專有API構(gòu)建圖、異步執(zhí)行abc動(dòng)態(tài)圖易于開發(fā)調(diào)試,靜態(tài)圖易于優(yōu)化執(zhí)行,算法工程師更加喜好動(dòng)態(tài)圖框架(如PyTorch)各取所長,動(dòng)態(tài)圖與靜態(tài)圖融合路線二:Tracing&SymbolicTracing特殊結(jié)構(gòu)a特殊結(jié)構(gòu)b路線二:Tracing&SymbolicTracing特殊結(jié)構(gòu)a特殊結(jié)構(gòu)b!!ctrace后abc?特殊結(jié)構(gòu)兼容Tensor接口,并能記錄執(zhí)行的操作?實(shí)際執(zhí)行圖,執(zhí)行結(jié)束后,回放記錄?對于依賴輸入的分支、循環(huán)結(jié)構(gòu),存在安全性問題?例如上圖的if節(jié)點(diǎn)結(jié)果就只保留加法的一枝路線一:基于PythonAST的靜態(tài)轉(zhuǎn)換碼靜態(tài)圖IR碼靜態(tài)圖IRParserCodegenAST?靜態(tài)代碼分析,從PythonAST入手?將PythonAST中的函數(shù)調(diào)用轉(zhuǎn)換為靜態(tài)圖操作?Python語言靈活性導(dǎo)致靜態(tài)分析無法理解語義?又如,靜態(tài)分析無法推斷range范圍Python語言的靈活性使得動(dòng)態(tài)圖完整轉(zhuǎn)換靜態(tài)圖成為(現(xiàn)階段)不可能完成的任務(wù)百度智能云加速方案——基于AST的代碼替換百度智能云TreePatternMatchingSubtreeReplacerSourceMatcher&ReplacerSourceASTPatternAST優(yōu)化后源碼..TreePatternMatchingSubtreeReplacerSourceMatcher&ReplacerSourceASTPatternAST優(yōu)化后源碼..………………社區(qū)方案——TorchDynamo基于PythonFrameEvalutionAPI,在PythonBytecode層面做劫持++ab**c子圖1,在Python執(zhí)行*子圖1,在Python執(zhí)行*ab++c社區(qū)在7500+模型上驗(yàn)證捕獲可行性與安全性,隨PyTorch2.0發(fā)布后端加速——計(jì)算執(zhí)行時(shí)間分析子圖執(zhí)行時(shí)間=算子求和(kernellaunch時(shí)間+訪存時(shí)間+計(jì)算時(shí)間)GPU設(shè)備SharedShared計(jì)算加速——算子融合其他重要融合模式:模型方向其他重要融合模式:模型方向NLPFusedMHA,SkipLayerNorn…VISAdaptiveLin,YoloBox,…Conv+BN+(Mish/Gelu),GEMM+GEMM,GEMM+BN,Conv3x3+Conv1x1,Conv1x1+BN+HardSiLU,Conv+Reshape+Transpose+Softmax,…融合收益來源:去掉kernellaunch時(shí)間,提升計(jì)算密度,減少額外訪存?算子對單位數(shù)據(jù)上進(jìn)行的計(jì)算次數(shù),定義為計(jì)算密度?按計(jì)算密度根據(jù)roofline模型可以分為計(jì)算密集型和訪存密集型?GEMM通常為計(jì)算密集型算子,Elementwise通常是訪存密集型算子?期望的目標(biāo)是所有算子都是計(jì)算密集型,可以充分利用算力?計(jì)算密集型+訪存密集型算子,訪存密集型算子之間可以進(jìn)行融合 batchGEMMQxK+ SoftmaxFused batchGEMMQKxV Transpose計(jì)算加速——算子實(shí)現(xiàn)優(yōu)化?如cuBLAS、cuDNN?如cuBLAS、cuDNN?如CUTLASS式計(jì)算邏輯芯片架構(gòu)三種方案各有優(yōu)劣,實(shí)踐中通常三者并存,按計(jì)時(shí)選擇最佳性能實(shí)現(xiàn)通信優(yōu)化—交換機(jī)哈希沖突RoCERoCE網(wǎng)絡(luò)下交換機(jī)無收斂比,仍然可能發(fā)生網(wǎng)絡(luò)側(cè)流量沖突32節(jié)點(diǎn)30次AllReduce測試總線帶寬IP、目的IP、目的端口信息?IP、目的IP、目的端口信息?哈希選路四元組中源端口可調(diào),利用這一特性在建連前靜態(tài)分(源IP,源端口,目的IP,目的端口) 根本原因:基于四元組的選路方式?RoCE基于以太網(wǎng)四元組哈希選擇路徑?當(dāng)點(diǎn)對點(diǎn)有多路徑可達(dá)時(shí),可能出現(xiàn)多連接搶占同一鏈路通信優(yōu)化—All2All加速通過機(jī)內(nèi)NVLink減輕對網(wǎng)絡(luò)的壓力8導(dǎo)軌優(yōu)化下,同號卡最多經(jīng)過Leaf層,異號卡通信需要經(jīng)過Spine層((NCCL2.12+)0.9 AllReduce算法帶寬(GB/s)40AllReduce算法帶寬(GB/s)40SHARP:網(wǎng)絡(luò)中的計(jì)算,提升AllReduce性能?現(xiàn)有AllReduce操作通常使用GPU卡通過通信算法實(shí)現(xiàn)?常見的算法有Ring和Tree?SHARP將計(jì)算能力卸載到交換機(jī)上,在數(shù)據(jù)傳輸中完成計(jì)算通信次數(shù)從O(logn)降低到O(1)GPU計(jì)算單元釋放,提升計(jì)算、通信并行度A100A100…RoCE網(wǎng)絡(luò)A100端到端自動(dòng)化任務(wù)切分與放置A100A100…RoCE網(wǎng)絡(luò)A100端到端自動(dòng)化任務(wù)切分與放置構(gòu)建計(jì)算、通信的costmodel,基于costmodel搜索優(yōu)化?框架側(cè)將模型網(wǎng)絡(luò)進(jìn)行切分,并結(jié)合并行策略產(chǎn)出通信需求(PCG)?通信側(cè)進(jìn)行網(wǎng)絡(luò)拓?fù)涮綔y,結(jié)合帶寬、鏈路構(gòu)建通信costmodel(CTG)?基于通信costmodel使能?找到放置策略后,再將模型圖實(shí)際匹配到硬件單元上大模型發(fā)展推動(dòng)基礎(chǔ)設(shè)施演進(jìn)多模態(tài)訓(xùn)練
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026中國科學(xué)院昆明動(dòng)物研究所管理部門崗位招聘2人(云南)考試參考題庫及答案解析
- 眼部物理治療與康復(fù)
- 2026廣西貴港市桂平市垌心鄉(xiāng)衛(wèi)生院招聘編外人員1人筆試備考題庫及答案解析
- 2026航空工業(yè)上電校園招聘考試備考試題及答案解析
- 2026河南信陽市潢川縣應(yīng)急管理局招聘全日制公益性崗位2人考試參考題庫及答案解析
- 手術(shù)臺安裝培訓(xùn)課件
- NSTL外文文獻(xiàn)數(shù)據(jù)庫資源特色和使用方法(工科)
- 資本社會(huì)化與壟斷的發(fā)展
- 知識產(chǎn)權(quán)戰(zhàn)略培訓(xùn)課件
- 棒材軋制主控臺培訓(xùn)課件
- 電氣防火防爆培訓(xùn)課件
- 彝族文化和幼兒園課程結(jié)合的研究獲獎(jiǎng)科研報(bào)告
- 空調(diào)安裝免責(zé)協(xié)議
- 湖北省襄樊市樊城區(qū)2023-2024學(xué)年數(shù)學(xué)四年級第一學(xué)期期末質(zhì)量檢測試題含答案
- 新北師大版八年級數(shù)學(xué)下冊導(dǎo)學(xué)案(全冊)
- 常用實(shí)驗(yàn)室檢查血常規(guī)演示文稿
- 生命第一:員工安全意識手冊
- cimatron紫藤教程系列g(shù)pp2運(yùn)行邏輯及block說明
- GB/T 32473-2016凝結(jié)水精處理用離子交換樹脂
- CB/T 1233-1994水面艦船螺旋槳脈動(dòng)壓力測量規(guī)程
- 《工程勘察設(shè)計(jì)收費(fèi)標(biāo)準(zhǔn)》(2002年修訂本)
評論
0/150
提交評論