版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
行業(yè)研究報(bào)告AI算力跟蹤深度(三):從英偉達(dá)的視角看算力互連板塊成長性——Scale
Up網(wǎng)絡(luò)的“Scaling
Law”存在嗎?2025年8月20日核心觀點(diǎn)我們認(rèn)為Scale
Up網(wǎng)絡(luò)存在Scaling
Law,Scale
Up柜間第二層網(wǎng)絡(luò)會逐漸出現(xiàn),光+AEC連接多出與芯片1:9的配比需求,交換機(jī)多出與芯片4:1的配比需求,相較Scale
Out網(wǎng)絡(luò)均倍增:1.英偉達(dá)持續(xù)擴(kuò)大Scale
Up規(guī)模:英偉達(dá)正通過兩大路徑持續(xù)擴(kuò)大Scale
Up網(wǎng)絡(luò)規(guī)模。2)提升單卡帶寬:NVLink持續(xù)迭代,NVLink
5.0單卡帶寬達(dá)7200Gb/s;2)擴(kuò)大超節(jié)點(diǎn)規(guī)模:Scale
Up超節(jié)點(diǎn)規(guī)模不斷擴(kuò)大,從H100
NVL8到GH200再到GB200等,NVL72等機(jī)柜方案可以提高訓(xùn)推效率,但并不是Scale
Up的上限,
NVL72等機(jī)柜后續(xù)會作為最小的節(jié)點(diǎn)(Node)存在,像積木一樣在柜與柜之間進(jìn)一步拼出更大的Scale
Up超節(jié)點(diǎn),屆時(shí)需要光連接等進(jìn)行通信。2.為什么需要ScaleUp網(wǎng)絡(luò):“內(nèi)存墻”問題和AI計(jì)算范式演進(jìn)推動ScaleUp網(wǎng)絡(luò)升級。
“內(nèi)存墻”:單一大模型的參數(shù)量與單卡顯存的差距(即模型內(nèi)存墻)、單卡算力與單卡顯存間的差距(即算力內(nèi)存墻)均逐代放大,通過Scale
Up將顯存池化。計(jì)算范式:為了提升計(jì)算效率,在進(jìn)行數(shù)據(jù)并行、流水線并行的同時(shí)也采用張量并行與專家并行,后者對通信頻次、容量的要求都跨越數(shù)量級。1核心觀點(diǎn)3.為什么需要更大的Scale
Up網(wǎng)絡(luò):TCO、用戶體驗(yàn)、模型能力拓展。隨著單用戶每秒消耗的Token數(shù)(TokensPer
Second,TPS)提高,包括NVL72在內(nèi)的現(xiàn)有服務(wù)器單卡性能都會逐漸坍縮,在用戶體驗(yàn)持續(xù)提升、模型能力拓展的趨勢下,單用戶TPS必然增長,采用更大規(guī)模的Scale
Out能提高單卡有效性能,TCO也更具經(jīng)濟(jì)性。我們認(rèn)為Scale
Up規(guī)模與預(yù)期單用戶TPS、單卡實(shí)際性能間存在Scaling
Law,前者會隨后者非線性增長。4.怎么組建更大的ScaleUp網(wǎng)絡(luò):網(wǎng)絡(luò)結(jié)構(gòu)層面,在柜間搭建第二層ScaleUp交換機(jī);端口連接層面,光與AEC有望在第二層網(wǎng)絡(luò)中并存,按照最新的NVLink與IB標(biāo)準(zhǔn)測算,1顆GPU需要9個額外的等效1.6T連接,為ScaleOut網(wǎng)絡(luò)的3-4.5倍,每4顆GPU需要額外1臺交換機(jī),為ScaleOut網(wǎng)絡(luò)的7.5-12倍。投資建議:我們認(rèn)為Scale
Up需求有望持續(xù)拓展,帶來倍增的網(wǎng)絡(luò)連接需求,光連接、AEC、交換機(jī)等環(huán)節(jié)都有望深度受益,相關(guān)標(biāo)的——光互連:中際旭創(chuàng),新易盛,天孚通信,光庫科技,長芯博創(chuàng),仕佳光子,源杰科技,長光華芯,太辰光;銅互連:中際旭創(chuàng),兆龍互連;交換機(jī):銳捷網(wǎng)絡(luò),盛科通信,AsteraLabs(美股,后同),博通,天弘科技,Arista風(fēng)險(xiǎn)提示:算力互連需求不及預(yù)期;客戶處份額不及預(yù)期;產(chǎn)品研發(fā)落地不及預(yù)期;行業(yè)競爭加劇。2核心觀點(diǎn)我們認(rèn)為后續(xù)算力互連需求發(fā)展存在乘數(shù)效應(yīng):?資本開支結(jié)構(gòu)優(yōu)化,算力芯片增長速度高于資本開支增速?
單芯片帶寬提升,算力互連需求增速高于芯片需求增速?
芯片需求=CapE
×算力芯片投資在CapEx占比
×芯片投資性價(jià)=芯片需求
×單芯片帶寬?
算力互連需求AI算力互連需求的“乘數(shù)效應(yīng)”(縱軸取對數(shù))3資料:東吳證券研究所目錄英偉達(dá)持續(xù)擴(kuò)大ScaleUp規(guī)模為什么需要ScaleUp網(wǎng)絡(luò)為什么需要更大的ScaleUp網(wǎng)絡(luò)怎么組建更大的ScaleUp網(wǎng)絡(luò)投資建議及風(fēng)險(xiǎn)提示41.
英偉達(dá)持續(xù)擴(kuò)大Scale
Up規(guī)模5up1.1
英偉達(dá)持續(xù)嘗試擴(kuò)大Scale
Up規(guī)模VRNVL144(72GPU)
NVL576(144GPU)?
英偉達(dá)從單卡帶寬與超節(jié)點(diǎn)規(guī)模兩個路徑升級Scale
Up;?
NVLink跟隨每一代GPU架構(gòu)進(jìn)行升級,目前最新用于B系列GPU的NVLink5.0可支持單卡7.2Tb的帶寬,相較用于H100的NVLink4.0帶寬翻倍;GB系列
NVL72?
ScaleUp超節(jié)點(diǎn)規(guī)模在H100之后經(jīng)歷了GH200、GB200等方案,從NVL8拓展至NVL72甚至更高,這個擴(kuò)展路徑是復(fù)雜但必需的。GH200NVL256歷代NVLink版本1.0年份20162017202020222024GPU架構(gòu)Pascal每鏈接帶寬(Gb/s)鏈接數(shù)
總帶寬(Gb/s)16020020040080046402.0Volta612002400360072003.0AmpereHopperBlackwell121818H100NVL84.05.06資料:英偉達(dá),東吳證券研究所1.2
H100
NVL8到GH200
NVL
256:前瞻但過于激進(jìn)的一步?
英偉達(dá)在2023年基于H200發(fā)布了GH200
NVL256超節(jié)點(diǎn),后者由32個計(jì)算Chassis組成,每個Chassis由8張GH200組成;?
Chassis內(nèi)8張GH200通過L1
NVSwitch連接,32個Chassis間通過L2
NVSwitch連接;?
L2NVSwitch通過光連接,每張GPU配套8個800G光模塊,大約每7張GPU對應(yīng)一臺L2
NVSwitch;?
單張GPU配套Scale
Up的通信硬件成本較高與GPU為同一數(shù)量級,且訓(xùn)練、推理性能提升尚不明顯,GH200
NVL
256未實(shí)現(xiàn)大范圍推廣,英偉達(dá)后續(xù)推出成本更低的GB200NVL72的前身GH200
NVL32。初代GH200
NVL256網(wǎng)絡(luò)拓?fù)鋱D初代GH200
NVL32機(jī)柜8臺GH200NVL32拓展為NVL2567資料:英偉達(dá)東吳證券研究所1.3
GB與VR機(jī)柜:有效但并非Scale
Up最終形態(tài)?
GB與VR的機(jī)柜方案已經(jīng)討論了很多,這里主要闡述我們對這類機(jī)柜產(chǎn)品的判斷:?
機(jī)柜方案延續(xù)了英偉達(dá)在GH200NVL256上的思路,即除了提升NVLink帶寬外,還要提高Scale
Up超節(jié)點(diǎn)的規(guī)模,升級為機(jī)柜方案是為了增加GPU密度,節(jié)省物理空間的同時(shí)縮小GPU間連接距離,以使用相比于光連接成本更低的PCB、銅連接;?
銅連接、PCB、液冷、電源等都隨著GPU密度提高實(shí)現(xiàn)單張GPU對應(yīng)價(jià)值量的躍升;?
機(jī)柜方案實(shí)現(xiàn)的NVL72、NVL144等Scale
Up確實(shí)可以提高訓(xùn)練、推理效率,但并不是英偉達(dá)ScaleUp的上限,
NVL72、NVL144等機(jī)柜方案后續(xù)會作為最小的ScaleUp節(jié)點(diǎn)(Node)存在,像積木一樣在柜與柜之間進(jìn)一步拼出更大的Scale
Up超節(jié)點(diǎn),屆時(shí)需要光連接等進(jìn)行通信??删唧w參考后續(xù)章節(jié)對Scale
Up需求的底層邏輯以及趨勢的分析。GB200
NVL72網(wǎng)絡(luò)拓?fù)鋱D8臺GB200NVL72機(jī)柜8資料:英偉達(dá),東吳證券研究所2.
為什么需要Scale
Up網(wǎng)絡(luò)92.1
Scale
Up與Scale
out的特點(diǎn)與作用各不相同若干超節(jié)點(diǎn)(SuperPod,如NVL
72)組成集群(Cluster,如萬卡、十萬卡集群);?
Scale
Out網(wǎng)絡(luò)實(shí)現(xiàn)集群內(nèi)所有GPU卡互聯(lián),亮點(diǎn)在于網(wǎng)絡(luò)內(nèi)連接GPU數(shù)量大,與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)類似;?
Scale
Up網(wǎng)絡(luò)實(shí)現(xiàn)超節(jié)點(diǎn)內(nèi)所有GPU卡互聯(lián),亮點(diǎn)在于網(wǎng)絡(luò)內(nèi)單卡通信帶寬高,組網(wǎng)規(guī)模尚小,為AI算力場景下新興的網(wǎng)絡(luò)架構(gòu);?
ScaleUp并不僅限于柜內(nèi),柜外也可進(jìn)行Scale
Up。(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)ScaleOut與Scale
Up網(wǎng)絡(luò)對比(一層NVLink交換機(jī)+CX-8網(wǎng)卡+三層Quantum-X800
IB網(wǎng)絡(luò))ScaleOut網(wǎng)絡(luò)與Scale
Up網(wǎng)絡(luò)最大GPU數(shù)(張)
單卡帶寬(Gb/s)Scale
OutScale
Up746496728007200集群內(nèi)Scale
Out超節(jié)點(diǎn)內(nèi)Scale
Up10資料:Marvell,東吳證券研究所2.2
“內(nèi)存墻”問題需要Scale
Up網(wǎng)絡(luò)將顯存池化來緩解訓(xùn)推計(jì)算的“內(nèi)存墻”催生出通過Scale
Up網(wǎng)絡(luò)將顯存池化的需求:?
單一大模型的參數(shù)量與單卡顯存的差距(即模型內(nèi)存墻)、單卡算力與單卡顯存間的差距(即算力內(nèi)存墻)均逐代放大?
除模型參數(shù)外,推理計(jì)算生成的KV
Cache(關(guān)鍵中間值的緩存,用于簡化計(jì)算)占用顯存大小也可達(dá)模型的50%甚至以上?
因此單卡運(yùn)算時(shí)需從多張卡的顯存讀取所需參數(shù)、數(shù)據(jù),為了盡可能減少數(shù)據(jù)傳輸時(shí)延,目前產(chǎn)業(yè)化應(yīng)用最優(yōu)解是使用Scale
Up網(wǎng)絡(luò)將顯存池化,如NVL72。(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)模型內(nèi)存墻逐代放大算力內(nèi)存墻逐代放大11資料:Medium,東吳證券研究所2.3
AI訓(xùn)推計(jì)算范式推動Scale
Up升級、單卡帶寬提升?
AI訓(xùn)推需要分布式并行計(jì)算,基于對計(jì)算效率不斷提升的追求,并行計(jì)算方式有數(shù)據(jù)并行(DataParallelism)、流水線并行(Pipeline
Parallelism)、專家并行(MoEParallelism
)及張量并行(Tensor
Parallelism)。?
數(shù)據(jù)并行:將輸入數(shù)據(jù)分配給各個負(fù)載,各負(fù)載上基于不同數(shù)據(jù)進(jìn)行同一模型的訓(xùn)練/推理;?
流水線并行:將模型分為若干層分配給各個負(fù)載,各負(fù)載分別進(jìn)行不同層的計(jì)算;?
張量并行:將模型參數(shù)運(yùn)算的矩陣拆分為子矩陣傳輸至各個負(fù)載,各負(fù)載分別進(jìn)行不同的矩陣運(yùn)算(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)數(shù)據(jù)并行(左),流水線并行(右)計(jì)算原理張量并行計(jì)算原理12資料:Github-PhillipLippe,Hugging
Face,東吳證券研究所2.3
張量并行可優(yōu)化計(jì)算效率?
目前模型訓(xùn)推主要采用混合并行,即多種并行方式同時(shí)進(jìn)行,可從不同維度切分/編組進(jìn)行并行?
張量并行、專家并行是粒度更細(xì)的并行方式,更高效利用單張芯片配套內(nèi)存,因此可以明顯提升計(jì)算效率。(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)3D混合并行計(jì)算在兩類推理引擎中張量并行(TP)均可縮短輸出單Token所需時(shí)間(TPOT)13資料:《3Dparallelism:
Scaling
totrillion-parameter
models》,
SqueezeBits,東吳證券研究所2.3
張量并行對通信的高要求催生Scale
Up需求?
張量并行在每一層神經(jīng)網(wǎng)絡(luò)的計(jì)算后都需要將新的計(jì)算結(jié)果收集、匯總,并將完整結(jié)果重新分發(fā),即Allreduce通信,因此在訓(xùn)推時(shí)對通信頻率、傳輸容量都有更高要求。?
需要用ScaleUp滿足越來越高的通信頻率、傳輸容量需求。(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)推理中張量并行(TP)的通信次數(shù)與規(guī)模均比流水線并行(PP)高出數(shù)量級訓(xùn)練中張量并行需要傳輸?shù)臄?shù)據(jù)量多出一到兩個數(shù)量級(GPT-3B模型基于32個GPU訓(xùn)練數(shù)據(jù))推理中張量并行規(guī)模越大通信量越大()各類并行通信方式對比切分方式通信操作AllReduceAll-to-AllSend/RecvAllReduce每次迭代單卡通信量
對網(wǎng)絡(luò)的需求張量并行(TP)專家并行(EP)流水并行(PP)數(shù)據(jù)并行(PP)百GB級別百GB級別MB級別(超)節(jié)點(diǎn)內(nèi)高速互聯(lián)(超)節(jié)點(diǎn)內(nèi)高速互聯(lián)節(jié)點(diǎn)間高速互聯(lián)GB級別節(jié)點(diǎn)間高速互聯(lián)14資料:《Understanding
Communication
Characteristics
ofDistributed
Training》,《Characterizing
Communication
PatternsinDistributed
Large
Language
Model
Inference》,新華三,東吳證券研究所3.為什么需要更大的Scale
Up網(wǎng)絡(luò)153.1
Scale
Up可加速推理,且增益隨推理負(fù)載提升而擴(kuò)大?
我們認(rèn)為Scale
Up規(guī)模越大,集群算力有效利用率往往越高,且隨著單用戶推理負(fù)載增加,增益會越來越大,這里以GB200NVL72、B200
NVL8的對比為例(可見下一頁圖片)?
測試配置:各類方案都是基于33000張GPU的Scale
Out集群進(jìn)行測試,GB200
NVL72采用了NVL72ScaleUp超節(jié)點(diǎn)、Grace
CPU、FP4精度,B200NVL8采用了NVL8
Scale
Up超節(jié)點(diǎn)、IntelXeonCPU、FP8精度,因此精度優(yōu)化可為GB200NVL72直接帶來1倍單卡性能提升;?
模型:GPT
MoE1.8T模型,采用混合并行推理(最多64維并行),F(xiàn)TL=5s,TTL=50ms,input/output長度分別為32768/1024;?
坐標(biāo)軸含義:橫軸代表單用戶每秒收到的Token數(shù)(Tokens
PerSecond,TPS),亦即用戶體驗(yàn)或模型推理的實(shí)際輸出能力;縱軸代表集群內(nèi)每張GPU每秒輸出的Token數(shù),亦即推理時(shí)單張卡的實(shí)際性能或有效利用程度;?
每條曲線每點(diǎn)對應(yīng)各單用戶TPS下,所有混合并行方案及Chunk
Size組合中單卡性能最大值?
可以初步觀測到橫縱坐標(biāo)成反比,主要原因?yàn)閱斡脩鬞PS提升后需要在單位時(shí)間內(nèi)用更多GPU輸出更多Token,通信阻塞變大,GPU等待數(shù)據(jù)傳輸?shù)臅r(shí)間增加,利用率下降。16資料:英偉達(dá),東吳證券研究所3.1
Scale
Up可加速推理,且增益隨推理負(fù)載提升而擴(kuò)大?
在單用戶TPS為10
Tokens/s時(shí),GB200
NVL72的單卡實(shí)際性能約為B200NVL8的3倍,考慮FP4精度優(yōu)化帶來的約1倍提升后,Scale
Up+GraceCPU帶來約50%的性能提升;?
在單用戶TPS為20
Tokens/s時(shí),GB200
NVL72的單卡實(shí)際性能約為B200NVL8的7倍,考慮FP4精度優(yōu)化帶來的約1倍提升后,Scale
Up+GraceCPU帶來約250%的性能提升;?
我們認(rèn)為隨著單用戶TPS增加,Scale
Up帶來的單卡利用率增益會越來越大。(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)不同方案推理性能對比單卡性能~3×單卡性能~7×17資料:英偉達(dá),東吳證券研究所3.2
NVL72、144不是推理Scale
Up的上限?
我們認(rèn)為機(jī)柜對應(yīng)的NVL72、NVL144等方案并不是Scale
Up超節(jié)點(diǎn)的上限,機(jī)柜會像積木一樣進(jìn)一步拼出更大的超節(jié)點(diǎn),這主要來自硬件TCO、用戶體驗(yàn)、模型能力拓展三層因素;?
當(dāng)單用戶TPS沿橫軸提高到50
Tokens/s時(shí),B200
NVL8、H200
NVL8的單卡真實(shí)性能已經(jīng)沒有實(shí)際意義,GB200
NVL72仍有70
Tokens/s的單卡TPS,但已相較最大性能縮減50%;?
要繼續(xù)提高縱軸單卡性能,我們認(rèn)為除了在軟件層面引入新的推理引擎,如英偉達(dá)Dynamo外,還需提升Scale
Up規(guī)模,以及增加混合并行線路數(shù)(圖中限制為64路并行)。GB200
NVL72單卡性能逐漸衰減單卡性能縮減~50%18資料:英偉達(dá),東吳證券研究所3.2
組建更大Scale
Up網(wǎng)絡(luò)的TCO優(yōu)于堆更多GPU?
基于以上分析與結(jié)論,我們認(rèn)為在前圖中橫軸單用戶TPS達(dá)到某一個數(shù)值時(shí)(很可能在100tokens/s之前),GB200
NVL576的單卡TPS可做到GB200
NVL72的兩倍,且單用戶TPS繼續(xù)增長時(shí),性能差距會進(jìn)一步擴(kuò)大,這時(shí)可選擇兩種方案:1)繼續(xù)采用NVL72或
2)采用NVL576,投入更多網(wǎng)絡(luò)成本以提高單GPU有效利用率:?
GB200NVL72需每兩顆B200實(shí)現(xiàn)對標(biāo)性能?
GB200
NVL576在柜內(nèi)L1
NVSwitch基礎(chǔ)上再加一層L2
NVSwitch,每顆GPU需多接9個1.6T端口(可光可電),每4顆GPU多出一臺NVSwitch?
NVL576方案TCO更優(yōu),且單用戶TPS繼續(xù)提升后,TCO的優(yōu)勢還將隨著單卡性能差距持續(xù)擴(kuò)大GB200
NVL576或采用與GH200
NVL256
類似網(wǎng)絡(luò)架構(gòu)兩種方案TCO對比項(xiàng)目價(jià)值量(萬美元)GB200
NVL72整機(jī)柜價(jià)值300368.34機(jī)柜內(nèi)GB200
Superchip(2*B200+1*GraceCPU)數(shù)量機(jī)柜內(nèi)單個GB200
Superchip及配套單臺NVSwitch價(jià)值單支1.6T光模塊價(jià)格0.1NVL72NVL576需要B200
GPU數(shù)量2110.50.259需要GB200
Superchip數(shù)量額外需要NVSwitch數(shù)量0額外需要光模塊數(shù)量(按端口都插光模塊計(jì)算)主要硬件TCO(萬美元)08.36.119資料:英偉達(dá),TweakTown,東吳證券研究所3.2
用戶體驗(yàn)及模型能力拓展推動單用戶TPS增長各能力帶的LLM單用戶TPS均不斷提升?
各能力帶的LLM單用戶TPS均不斷提升,目前前五名主流模型的單用戶TPS均在200
Tokens/s以上;?
我們認(rèn)為用戶使用模型過程中最直觀、最核心的體驗(yàn)點(diǎn)是回答結(jié)果的生成速度,即單用戶的TPS,且TPS提升后具有實(shí)際應(yīng)用意義的場景會逐漸涌現(xiàn),如AIcoding。前五名主流模型的單用戶TPS均在200
Tokens/s以上20資料:artificialanalysis,
東吳證券研究所3.2
用戶體驗(yàn)及模型能力拓展推動單用戶TPS增長?
模型能力從LLM擴(kuò)展到多模態(tài),;?
我們認(rèn)為用戶使用模型過程中最直觀、最核心的體驗(yàn)點(diǎn)是回答結(jié)果的生成速度,即單用戶的TPS,且TPS提升后具有實(shí)際應(yīng)用意義的場景會逐漸涌現(xiàn),如AI
coding。GPT-image-1輸出圖像大小及耗時(shí)Meta為廣告主提供的AI圖像功能QualityLowSquare
(1024x1024)
Portrait(1024x1536)
landscape
(1536x1024)272tokens1056tokens4160tokens408tokens400tokensMediumHigh1584tokens6240tokensHigh
Detail15-25seconds1568tokens6208tokensPeakHours20-35secondsSimple
Prompt
Complex
Prompt3-8seconds
10-20seconds21資料:微軟,cursor,
東吳證券研究所3.3
Scale
Up網(wǎng)絡(luò)存在隨用戶TPS增長的“Scaling
Law”不同方案推理性能對比估算(GB200來自原數(shù)據(jù)估測存在一定誤差)22資料:英偉達(dá),東吳證券研究所4.
怎么組建更大的Scale
Up網(wǎng)絡(luò)234.1
網(wǎng)絡(luò)架構(gòu):柜外搭建第二層Scale
Up交換機(jī)網(wǎng)絡(luò)?
英偉達(dá)的機(jī)柜中加入了一層NVSwitch,
以GB200
NVL72為例,單顆B200
NVLink帶寬7.2Tb(單向帶寬,下同),9個Switch
Tray總帶寬57.6Tb×9=518.4T,剛好與72顆B200進(jìn)行無阻塞通信,這意味著如果在柜內(nèi)繼續(xù)增加GPU,需要同步增加配套Switch
Tray,需要的物理空間和距離增加。因此我們認(rèn)為在GB機(jī)柜使用銅連接,VR機(jī)柜有望增加PCB后,柜內(nèi)擴(kuò)展難度增加,需要增加第二層交換機(jī)做柜間Scale
Up;?
對于NVL72而言,則需要改為NVL36×2以使得第一層Switch
Tray翻倍至18個,以提供連接至第二層NVSwitch的上行帶寬。英偉達(dá)GB200
NVL36×2方案ScaleUp兩層網(wǎng)絡(luò)拓?fù)洌ㄒ缘珯C(jī)柜64卡為例)24資料:新華三,英偉達(dá),東吳證券研究所4.2
連接方式:第二層Scale
Up網(wǎng)絡(luò)中光與AEC并存?
在單通道200G速率下,無源銅(如DAC)的有效距離上限在1m左右,因此基本無法滿足跨柜ScaleUp的連接需求,有源銅(如AEC)的有效距離上限在3米左右,因此可滿足部分跨柜Scale
Up的連接需求,光(如AOC、光模塊)可滿足所有跨柜Scale
Up的連接距離要求;?
我們認(rèn)為“能用銅的地方就不會用光”,在第二層柜間Scale
Up場景會有光與AEC并存。ScaleUp網(wǎng)絡(luò)通信距離AEC與DAC有效距離對比25資料:新華三,Marvell,東吳證券研究所4.2
連接方式:第二層Scale
Up網(wǎng)絡(luò)帶來的網(wǎng)絡(luò)增量需求有多少?
按照最新的NVLink
與IB標(biāo)準(zhǔn)測算,第二層Scale
Up網(wǎng)絡(luò)中1顆GPU需要9個額外的等效1.6T連接(等于第一層),每4顆GPU需要額外1臺NVLink
5.0交換機(jī);兩到三層Scale
Out中1顆GPU對應(yīng)2-3個等效1.6T連接,每30-48顆GPU對應(yīng)一臺Quantum-X800
Q34xx系列交換機(jī)。?
目前ScaleUp與ScaleOut并存,其最終形態(tài)是做到與Scale
Out相近的規(guī)模后取代Scale
out,但需要考慮到在成本與物理空間維度都數(shù)倍增長的網(wǎng)絡(luò)連接。英偉達(dá)Scale
Up與Scale
Out網(wǎng)絡(luò)連接需求對比(均基于最新平臺)Scale
Up(第二層)Scale
Out(兩到三層)連接端口數(shù)量
1顆GPU需要額外9個等效1.6T連接
1顆GPU對應(yīng)2-3個等效1.6T連接每4顆GPU需要額外1臺NVLink
5.0
每30-48顆GPU對應(yīng)一臺Quantum-交換機(jī)數(shù)量SwitchX800
Q34xx系列交換機(jī)26資料:英偉達(dá),東吳證券研究所4.2
連接方式:潛在技術(shù)路線適用于Scale
Up嗎??
我們認(rèn)為CPO、OCS等潛在的新技術(shù)在Scale
Up中的應(yīng)用會比Scale
Out更難,這些新技術(shù)在ScaleOut中規(guī)?;瘧?yīng)用后,對它們在Scale
Up中應(yīng)用可能性的討論才有實(shí)際意義;?
2.3節(jié)中我們說過Scale
Up網(wǎng)絡(luò)用來滿足張量并行、專家并行等計(jì)算的通信需求,其單位時(shí)間內(nèi)需要傳輸數(shù)據(jù)的頻次與大小都是Scale
Out網(wǎng)絡(luò)的幾十倍甚至上百倍,這意味著應(yīng)用新技術(shù)路線的難度與故障率都會相應(yīng)增加。推理中張量并行(TP)的通信次數(shù)與規(guī)模均比流水線并行(PP)高出數(shù)量級訓(xùn)練中張量并行需要傳輸?shù)臄?shù)據(jù)量多出一到兩個數(shù)量級(GPT-3B模型
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 玉米花期預(yù)測實(shí)訓(xùn)報(bào)告
- 呼吸科的科普宣教
- 健康綠色好營養(yǎng)
- 中秋主題手指操教學(xué)課件
- 肺炎患者呼吸康復(fù)訓(xùn)練計(jì)劃
- 中等技工教育制圖基礎(chǔ)
- 《客戶關(guān)系管理》課件-3.2.2 流失預(yù)警與挽回策略
- 2025版關(guān)節(jié)炎常見癥狀及護(hù)理培訓(xùn)
- 西遷精神系列介紹
- 醫(yī)學(xué)生個人介紹
- 2025四川航天川南火工技術(shù)有限公司招聘考試題庫及答案1套
- 2025年度皮膚科工作總結(jié)及2026年工作計(jì)劃
- (一診)成都市2023級高三高中畢業(yè)班第一次診斷性檢測物理試卷(含官方答案)
- 2025年青島市公安局警務(wù)輔助人員招錄筆試考試試題(含答案)
- 2024江蘇無錫江陰高新區(qū)招聘社區(qū)專職網(wǎng)格員9人備考題庫附答案解析
- 科技園區(qū)入駐合作協(xié)議
- 電大??啤秱€人與團(tuán)隊(duì)管理》期末答案排序版
- 冠狀動脈微血管疾病診斷和治療中國專家共識(2023版)
- GB/T 16938-2008緊固件螺栓、螺釘、螺柱和螺母通用技術(shù)條件
- C語言課程設(shè)計(jì)-商品信息管理系統(tǒng)
- 注塑QC工作流程
評論
0/150
提交評論