版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
多模態(tài)大模型加速算法與開發(fā)實踐20240102030405目錄多模態(tài)大模型趨勢與挑戰(zhàn)MindSpeed-MM介紹應(yīng)用案例趨勢與挑戰(zhàn)多模態(tài)算力趨勢多模態(tài)算法結(jié)構(gòu)1.1多模態(tài)趨勢開源:清影(智譜)、OpenSoraPlan(北大)、OpenSora(潞晨)、Mochi、騰訊混元(hunyuanvideo)AI迭代持續(xù)帶來爆點應(yīng)用,多模態(tài)大模型將帶動更多行業(yè)變革業(yè)界主要的視頻生成模型:閉源:Sora(
OpenAI
)、海螺AI(miniMax)、可靈(快手)、Pixverse(愛詩科技)、即夢(字節(jié))、通義萬相(阿里)、Runway、Luma視頻生成大模型催生新應(yīng)用及新需求:AI短劇,短視頻進入“零基礎(chǔ)創(chuàng)作”時代多模態(tài)數(shù)據(jù)推動算力、存儲、網(wǎng)絡(luò)迎來新一輪爆發(fā)1.1多模態(tài)算力趨勢大模型對集群算力需求快速增長EFLOPS-day:1EFLOPS(約3千張A100卡)集群運行1天所提供的算力Huawei
OpenAI
Google0.1110100100010000PanGu-αLaMDAEFLOPS-days2020
2021
2022
2023
2024
2025>1000
Eflops-days100~1000
Eflops-days10~100
Eflops-daysPanGuGPT5PanGuGPT47287976
PaLM83GLaM30<10
Eflops-daysT5
2.6GPT20.5GPTBERT2018
2019?Gemini
?>1000
?GPT3102022
2024以Movie
Gen
30B的模型為例,數(shù)據(jù)量:100M視頻文本對和1B級圖片文本對,集群規(guī)模:6144
H100多模態(tài)模型參數(shù)持續(xù)增長多模態(tài)大模型已成為AI算力消耗的新增點1.2多模態(tài)算法結(jié)構(gòu)以擴散技術(shù)(diffusion)為主的多模態(tài)生成模型以LLM
Next-TokenPrediction為主的多模態(tài)生成理解原生訓(xùn)練統(tǒng)一模型技術(shù)趨于成熟
技術(shù)趨于成熟
技術(shù)尚不成熟多模態(tài)模型結(jié)構(gòu)非常復(fù)雜,并且在快速持續(xù)創(chuàng)新和演進中例如:視頻生成SORA類、圖像生成SD類例如:Qwen2-VL系列、InternVL
2.0系列以LLM+視覺編碼器+對齊層為主的多模態(tài)理解模型例如:EMU3、Janus1.2多模態(tài)算法結(jié)構(gòu)以LLM+Diffusion為主的多模態(tài)生成理解原生訓(xùn)練統(tǒng)一模型覆蓋圖文音視頻的全模態(tài)模型多模態(tài)模型結(jié)構(gòu)非常復(fù)雜,并且在快速持續(xù)創(chuàng)新和演進中例如:JanusFlow、Transfusion技術(shù)尚不成熟技術(shù)尚不成熟例如:推測1.3加速算法及套件同步快速發(fā)展技術(shù)效果DPZeRO
(Microsoft).DP維度切分參數(shù)、梯度、優(yōu)化器狀態(tài),減少內(nèi)存開銷CPRing
Attention
(Colossal
AI).DP維度切分attention
head,針對長序列場景大幅減少內(nèi)存Ulysses
(Microsoft).進一步優(yōu)化Ringattention,減少內(nèi)存的同時提高性能TPMegatron-TP
(NVIDIA).Transformer結(jié)構(gòu)親和的分布式矩陣乘,解決單卡不能訓(xùn)大模型的問題
2D,2.5D,3D-TP
(Colossal
AI).基于不同的分布式矩陣乘算法,進一步發(fā)展TP,但這些方法對組網(wǎng)和通信有額外要求PP
Gpipe
(Google).將不同層切分到不同NPU上,使能大模型訓(xùn)練。同時為了提升性能,將一個batch分成不同microbatch以實現(xiàn)流水,流水方式為全部前向+全部反向1F1B
(Microsoft).流水方式為一次反向緊跟一次前向,解決Gpipe中激活值存儲的問題TeraPipe
(UCB).按seq維度切分,實現(xiàn)流水并行
BFPipe
(ServiceNow).通過重組PP維度的排布,實現(xiàn)DP+PP的通信計算overlap,52B模型吞吐提高43%
Chimera
(ETHZ).通過額外存一份模型減少流水線氣泡,內(nèi)存換性能,2048
V100訓(xùn)練1.3B模型,加速約20%FisherPipe
(ETHZ).針對二階優(yōu)化器K-FAC設(shè)計的流水線并行自動并行Alpa
(UCB).自動PTD并行,通過動態(tài)規(guī)劃+整數(shù)規(guī)劃搜索最優(yōu)方案Dapple
(Alibaba)DP+PP自動并行,通過整數(shù)規(guī)劃搜索最優(yōu)方案Colossal-AUTO
(Colossal
AI)TP+DP+重計算自動并行,整數(shù)規(guī)劃搜索最優(yōu)解Galvatron
(北大)PTD+ZeRO自動并行,決策樹+動態(tài)規(guī)劃搜索最優(yōu)解Unity
(Stanford)將PTD并行和算子融合同時優(yōu)化以提升性能Nemo
Hyperparameter
tool.該功能只在企業(yè)版中提供,不對社區(qū)開放MoETutel
(Microsoft).優(yōu)化MoE的計算,gating和All2AllFasterMoE
(清華)提出影子專家、細(xì)粒度調(diào)度等算法解決動態(tài)不均衡問題FlexMoE
(清華)設(shè)計負(fù)載調(diào)度模塊,利用啟發(fā)式算法動態(tài)優(yōu)化專家計算負(fù)載SmartMoE
(清華),設(shè)計了專家放置策略,在PTD并行策略組合的基礎(chǔ)上,實現(xiàn)了動態(tài)負(fù)載均衡充分挖掘算力價值成為熱門研究課題,不斷涌現(xiàn)的熱門技術(shù)集中于頭部加速套件業(yè)界研究現(xiàn)狀
Dapple
Alibaba5月GPIPEGoogle1F1BMicrosoft6月20199月Megatron-TP
NVIDIAZeROMicrosoft10月20207月20215月Ring
Atten
Colossal
AITeraPipe
UCB9月
20221月Galvatron北大7月
6月4月4月7月2月Alpa
UCBFasterMoE清華Tutel
MicrosoftChimera
ETHZUnity
stanfordFisherPipe
ETHZBFPipe
ServiceNow8月
3D-TPColossal
AI11月20232月FlexMoE清華SmartMoE清華Ulysses
MicrosoftColossal-AutoMindSpeed研究現(xiàn)狀Gpipe1F1BPTD并行Sequence
Parallel并行Virtual
Pipeline并行Expert
Parallel并行重計算技術(shù)分布式優(yōu)化器(ZeRO-1)ZeRO-2/ZeRO-3計算通信并行技術(shù)超長序列優(yōu)化技術(shù)已支持的技術(shù)內(nèi)存深度優(yōu)化MoE負(fù)載均衡自動并行在研技術(shù)MindSpeed-MM介紹MindSpeed-MM
架構(gòu)設(shè)計MindSpeed-MM
模型開發(fā)MindSpeed-MM
加速方法2.1
MindSpeed
MM架構(gòu)全棧聯(lián)合優(yōu)化、分層開放長序列、MoE、多模態(tài)等典型模型應(yīng)用PyTorch/MindSporeCANN基礎(chǔ)算子|融合算子|
HCCL
|
GE引擎|畢昇編譯器昇騰系列硬件
MindSpeed大模型加速庫套件MindSpeed
MM-多模態(tài)模型套件MindSpeed
LLM-大語言模型套件典型LLM模型LLM模型核心組件數(shù)據(jù)工程、模型增強、訓(xùn)練流程、偏好對齊稠密 稀疏Qwen/LLaMA3.1系列
GPT4/Deepseek系列MindSpeed
Core-親和加速模塊并行優(yōu)化多維混合并行自動并行搜索高效流水排布內(nèi)存優(yōu)化內(nèi)存壓縮算法
自適應(yīng)SwapGelu重計算優(yōu)化通信優(yōu)化通信隱藏
流量沖突管理通算融合計算優(yōu)化高性能融合算子昇騰親和優(yōu)化…MM模型核心組件預(yù)處理加速、模態(tài)編碼對齊、訓(xùn)練流程、評價體系典型MM模型多模態(tài)生成 多模態(tài)理解類Sora/SDXL/SD3系列
InternVL/LLaVA系列2.2
MindSpeed
MM架構(gòu)大規(guī)模分布式訓(xùn)練,多模態(tài)統(tǒng)一架構(gòu)模型套件軟件架構(gòu)統(tǒng)一的多模態(tài)大模型套件并行優(yōu)化MindSpeed
Core內(nèi)存優(yōu)化通信優(yōu)化計算優(yōu)化預(yù)置模型生成模型 理解模型
原生適配類
SORA、CogVideoX
LLAVA、InternVL、Qwen2-VL
Diffusers功能任務(wù)預(yù)訓(xùn)練 全參微調(diào) 低參微調(diào) 在線推理 評估生成結(jié)構(gòu)SoraModel
SDModel
AudioGeModelPredictModel
AEModelSTDIT
CasualVAEDIT
VQVAELatteT2V
2D
VAEUNet
…理解結(jié)構(gòu)VLMModel
AudioReModelVisionModel
GPTModelCLIPViT
LlamaInternViT
InternLMQwen2-LM…數(shù)據(jù)工程 公共模塊數(shù)據(jù)構(gòu)建、預(yù)處理、圖文交織、數(shù)據(jù)分桶… DiffusionModel、TextModel、Tokenizer…預(yù)置模型預(yù)置模型:提供開箱即用腳本,包括預(yù)訓(xùn)練/微調(diào)/在線推理等。原生適配接入:第三方庫Diffusers已原生適配NPU,在MM中提供啟動腳本,部分加速代碼通過Patch替換,不與MM整體架構(gòu)強耦合,可快速支持圖像生成能力。主體結(jié)構(gòu)支持靈活搭建多模態(tài)生成模型和多模態(tài)理解模型,可擴展:PredictModel:多模態(tài)擴散骨干模型。AEModel:壓縮骨干模型。VisionModel:視覺編碼骨干模型。GPTModel:LLM骨干模型。對接MindSpeed
Core具備更強大的并行能力,非對齊長序列并行提供更長序列訓(xùn)練能力。對接MindSpeed
Core加速庫,更多親和優(yōu)化,提升性能。2.2
MindSpeed
MM架構(gòu)-訓(xùn)練流程InternVL2 MindSpeed-MM/modelsInternViTMLPInternLMmodel.jsonVisionModelProjectorGPTModel實例化模型選擇/開發(fā)原子模型開發(fā)配置實例化設(shè)計模型結(jié)構(gòu)組合并實例化模型選擇原子模型編寫模型配置2.3
MindSpeed
MM模型開發(fā)—理解模型WFVAEMT5VideoDiTDDPMmodel.jsonOpenSoraPlan MindSpeed-MM/modelsaepredictortext_encoderdiffusion實例化模型選擇/開發(fā)原子模型開發(fā)配置實例化設(shè)計模型結(jié)構(gòu)組合并實例化模型選擇原子模型編寫模型配置2.3
MindSpeed
MM模型開發(fā)—生成模型2.3
MindSpeed
MM加速方法PP:切分模型權(quán)重,降低內(nèi)存VPP:進一步切分PPstage,減少空泡率,提升性能異構(gòu)PP:靈活切分模型,提高負(fù)載均衡動態(tài)PP:減少冗余計算和通信,降低內(nèi)存3.4
MindSpeed
MM加速方法USP:CP-Ulysses融合CP-RingAttentionNPU12跨節(jié)點Ring
P2PNPU8NPU4NPU0NPU15NPU11NPU7NPU3節(jié)點內(nèi)Ulysses
AlIToAIINPU1
NPU2NPU5
NPU6NPU9
NPU10NPU13
NPU14Node0Node1Node2Node3分層zero:節(jié)點內(nèi)zero3,節(jié)點間zero1ZeRO1:節(jié)點間通信ZeRO3:節(jié)點內(nèi)通信編碼器離線處理:離線提取文本和視頻特征,訓(xùn)練DiTDiTs(PTD并行)讀取離線特性TP+SP:切分權(quán)重和激活值 TP:切分Linear和Attention,Linear按行或列切分權(quán)重,Attention將head計算切分到多個device TP通信:2次all-reduce,前向?qū)斎隺ll-reduce,反向?qū)μ荻萢ll-reduce TP-SP:對Sequence進行切分,作用于layernorm和dropout,將計算和激活切分到多個device TP-SP通信:2次all-gather,2次reduce-scatter2.3
MindSpeed
MM加速方法:DistTrain多模態(tài)異構(gòu)模型分解訓(xùn)練?獨立并行:針對不同結(jié)構(gòu)的模型,獨立設(shè)置多維并行配置,利用數(shù)據(jù)、模型參數(shù)等特性,設(shè)置最優(yōu)性能的資源和并行配置。?分離部署:根據(jù)最優(yōu)性能配置,將異構(gòu)模型Encoder、LLM、Generator,分離部署到不同的計算單元,實現(xiàn)多模態(tài)訓(xùn)練流水優(yōu)化。關(guān)鍵技術(shù)關(guān)鍵挑戰(zhàn)EncoderLLMGeneratorCPU
NPU
NPU
NPU預(yù)處理計算單元1計算單元2計算單元3?獨立并行?分離部署?異構(gòu)模型,流水空泡大?異構(gòu)模型:針對Encoder、LLM、Generator等不同結(jié)構(gòu)的模型,采用與LLM相同的并行策略,流水線并行空泡大。?動態(tài)數(shù)據(jù):針對圖像、視頻、文本等不同模態(tài)的數(shù)據(jù),不同
DP采用相同的Batch
Size,計算負(fù)載差距大,由于動態(tài)分辨率場景數(shù)據(jù)形狀動態(tài)變化,相同DP內(nèi)計算也拖尾。?動態(tài)數(shù)據(jù),計算負(fù)載不均2.4
MindSpeed
MM典型多模態(tài)模型性能0.90.921
1
10.97
0.97
0.970.98110.80.60.40.201.2
1.1
1.1
OpenSora
1.2OpenSoraPlan
1.2OpenSoraPlan
1.3SDXLSD3SD3.5FLUXLLAVA
1.5Intern
VL
2.0-8BIntern
VL
2.0-76BQwen2-VL-2BQwen2-VL-7BNPU性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高級運營官面試題及答案
- 2025年銅川市新區(qū)審判庭招聘法官助理、司法輔助人員(8人)筆試考試備考試題及答案解析
- 商業(yè)保險顧問崗位面試題庫及答案參考
- 高級銷售顧問客戶關(guān)系管理面試題及答案解析
- 2025廣西南寧賓陽縣“點對點”送工和鄉(xiāng)村公崗專管員招聘1人考試筆試模擬試題及答案解析
- 市場分析師面試考核要點及答案
- 編程邏輯思維與測試題解析集
- 寵物美容師技能提升培訓(xùn)合同2025
- 2025年中職(美發(fā)與形象設(shè)計)時尚盤發(fā)技術(shù)試題及答案
- 2025年高職市政工程技術(shù)(市政橋梁施工技術(shù))試題及答案
- 氫能與燃料電池-課件-第五章-制氫技術(shù)
- 科研倫理與學(xué)術(shù)規(guī)范-課后作業(yè)答案
- 交通銀行跨境人民幣業(yè)務(wù)介紹
- GB/T 33636-2023氣動用于塑料管的插入式管接頭
- 旅游地理學(xué) 國家公園建設(shè)與管理
- JJF(石化)036-2020漆膜附著力測定儀(劃圈法)校準(zhǔn)規(guī)范
- 診所醫(yī)生聘用合同(3篇)
- JJG 693-2011可燃?xì)怏w檢測報警器
- 美拉德反應(yīng)課件
- 可再生能源領(lǐng)域:陽光電源企業(yè)組織結(jié)構(gòu)及部門職責(zé)
- 電腦節(jié)能環(huán)保證書
評論
0/150
提交評論