AI行業(yè)市場前景及投資研究報(bào)告:英偉達(dá)視角算力互連板塊成長性Scale Up 網(wǎng)絡(luò)“Scaling Law”_第1頁
AI行業(yè)市場前景及投資研究報(bào)告:英偉達(dá)視角算力互連板塊成長性Scale Up 網(wǎng)絡(luò)“Scaling Law”_第2頁
AI行業(yè)市場前景及投資研究報(bào)告:英偉達(dá)視角算力互連板塊成長性Scale Up 網(wǎng)絡(luò)“Scaling Law”_第3頁
AI行業(yè)市場前景及投資研究報(bào)告:英偉達(dá)視角算力互連板塊成長性Scale Up 網(wǎng)絡(luò)“Scaling Law”_第4頁
AI行業(yè)市場前景及投資研究報(bào)告:英偉達(dá)視角算力互連板塊成長性Scale Up 網(wǎng)絡(luò)“Scaling Law”_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

行業(yè)研究報(bào)告AI算力跟蹤深度(三):從英偉達(dá)的視角看算力互連板塊成長性——Scale

Up網(wǎng)絡(luò)的“Scaling

Law”存在嗎?2025年8月20日核心觀點(diǎn)我們認(rèn)為Scale

Up網(wǎng)絡(luò)存在Scaling

Law,Scale

Up柜間第二層網(wǎng)絡(luò)會逐漸出現(xiàn),光+AEC連接多出與芯片1:9的配比需求,交換機(jī)多出與芯片4:1的配比需求,相較Scale

Out網(wǎng)絡(luò)均倍增:1.英偉達(dá)持續(xù)擴(kuò)大Scale

Up規(guī)模:英偉達(dá)正通過兩大路徑持續(xù)擴(kuò)大Scale

Up網(wǎng)絡(luò)規(guī)模。2)提升單卡帶寬:NVLink持續(xù)迭代,NVLink

5.0單卡帶寬達(dá)7200Gb/s;2)擴(kuò)大超節(jié)點(diǎn)規(guī)模:Scale

Up超節(jié)點(diǎn)規(guī)模不斷擴(kuò)大,從H100

NVL8到GH200再到GB200等,NVL72等機(jī)柜方案可以提高訓(xùn)推效率,但并不是Scale

Up的上限,

NVL72等機(jī)柜后續(xù)會作為最小的節(jié)點(diǎn)(Node)存在,像積木一樣在柜與柜之間進(jìn)一步拼出更大的Scale

Up超節(jié)點(diǎn),屆時(shí)需要光連接等進(jìn)行通信。2.為什么需要ScaleUp網(wǎng)絡(luò):“內(nèi)存墻”問題和AI計(jì)算范式演進(jìn)推動ScaleUp網(wǎng)絡(luò)升級。

“內(nèi)存墻”:單一大模型的參數(shù)量與單卡顯存的差距(即模型內(nèi)存墻)、單卡算力與單卡顯存間的差距(即算力內(nèi)存墻)均逐代放大,通過Scale

Up將顯存池化。計(jì)算范式:為了提升計(jì)算效率,在進(jìn)行數(shù)據(jù)并行、流水線并行的同時(shí)也采用張量并行與專家并行,后者對通信頻次、容量的要求都跨越數(shù)量級。1核心觀點(diǎn)3.為什么需要更大的Scale

Up網(wǎng)絡(luò):TCO、用戶體驗(yàn)、模型能力拓展。隨著單用戶每秒消耗的Token數(shù)(TokensPer

Second,TPS)提高,包括NVL72在內(nèi)的現(xiàn)有服務(wù)器單卡性能都會逐漸坍縮,在用戶體驗(yàn)持續(xù)提升、模型能力拓展的趨勢下,單用戶TPS必然增長,采用更大規(guī)模的Scale

Out能提高單卡有效性能,TCO也更具經(jīng)濟(jì)性。我們認(rèn)為Scale

Up規(guī)模與預(yù)期單用戶TPS、單卡實(shí)際性能間存在Scaling

Law,前者會隨后者非線性增長。4.怎么組建更大的ScaleUp網(wǎng)絡(luò):網(wǎng)絡(luò)結(jié)構(gòu)層面,在柜間搭建第二層ScaleUp交換機(jī);端口連接層面,光與AEC有望在第二層網(wǎng)絡(luò)中并存,按照最新的NVLink與IB標(biāo)準(zhǔn)測算,1顆GPU需要9個額外的等效1.6T連接,為ScaleOut網(wǎng)絡(luò)的3-4.5倍,每4顆GPU需要額外1臺交換機(jī),為ScaleOut網(wǎng)絡(luò)的7.5-12倍。投資建議:我們認(rèn)為Scale

Up需求有望持續(xù)拓展,帶來倍增的網(wǎng)絡(luò)連接需求,光連接、AEC、交換機(jī)等環(huán)節(jié)都有望深度受益,相關(guān)標(biāo)的——光互連:中際旭創(chuàng),新易盛,天孚通信,光庫科技,長芯博創(chuàng),仕佳光子,源杰科技,長光華芯,太辰光;銅互連:中際旭創(chuàng),兆龍互連;交換機(jī):銳捷網(wǎng)絡(luò),盛科通信,AsteraLabs(美股,后同),博通,天弘科技,Arista風(fēng)險(xiǎn)提示:算力互連需求不及預(yù)期;客戶處份額不及預(yù)期;產(chǎn)品研發(fā)落地不及預(yù)期;行業(yè)競爭加劇。2核心觀點(diǎn)我們認(rèn)為后續(xù)算力互連需求發(fā)展存在乘數(shù)效應(yīng):?資本開支結(jié)構(gòu)優(yōu)化,算力芯片增長速度高于資本開支增速?

單芯片帶寬提升,算力互連需求增速高于芯片需求增速?

芯片需求=CapE

×算力芯片投資在CapEx占比

×芯片投資性價(jià)=芯片需求

×單芯片帶寬?

算力互連需求AI算力互連需求的“乘數(shù)效應(yīng)”(縱軸取對數(shù))3資料:東吳證券研究所目錄英偉達(dá)持續(xù)擴(kuò)大ScaleUp規(guī)模為什么需要ScaleUp網(wǎng)絡(luò)為什么需要更大的ScaleUp網(wǎng)絡(luò)怎么組建更大的ScaleUp網(wǎng)絡(luò)投資建議及風(fēng)險(xiǎn)提示41.

英偉達(dá)持續(xù)擴(kuò)大Scale

Up規(guī)模5up1.1

英偉達(dá)持續(xù)嘗試擴(kuò)大Scale

Up規(guī)模VRNVL144(72GPU)

NVL576(144GPU)?

英偉達(dá)從單卡帶寬與超節(jié)點(diǎn)規(guī)模兩個路徑升級Scale

Up;?

NVLink跟隨每一代GPU架構(gòu)進(jìn)行升級,目前最新用于B系列GPU的NVLink5.0可支持單卡7.2Tb的帶寬,相較用于H100的NVLink4.0帶寬翻倍;GB系列

NVL72?

ScaleUp超節(jié)點(diǎn)規(guī)模在H100之后經(jīng)歷了GH200、GB200等方案,從NVL8拓展至NVL72甚至更高,這個擴(kuò)展路徑是復(fù)雜但必需的。GH200NVL256歷代NVLink版本1.0年份20162017202020222024GPU架構(gòu)Pascal每鏈接帶寬(Gb/s)鏈接數(shù)

總帶寬(Gb/s)16020020040080046402.0Volta612002400360072003.0AmpereHopperBlackwell121818H100NVL84.05.06資料:英偉達(dá),東吳證券研究所1.2

H100

NVL8到GH200

NVL

256:前瞻但過于激進(jìn)的一步?

英偉達(dá)在2023年基于H200發(fā)布了GH200

NVL256超節(jié)點(diǎn),后者由32個計(jì)算Chassis組成,每個Chassis由8張GH200組成;?

Chassis內(nèi)8張GH200通過L1

NVSwitch連接,32個Chassis間通過L2

NVSwitch連接;?

L2NVSwitch通過光連接,每張GPU配套8個800G光模塊,大約每7張GPU對應(yīng)一臺L2

NVSwitch;?

單張GPU配套Scale

Up的通信硬件成本較高與GPU為同一數(shù)量級,且訓(xùn)練、推理性能提升尚不明顯,GH200

NVL

256未實(shí)現(xiàn)大范圍推廣,英偉達(dá)后續(xù)推出成本更低的GB200NVL72的前身GH200

NVL32。初代GH200

NVL256網(wǎng)絡(luò)拓?fù)鋱D初代GH200

NVL32機(jī)柜8臺GH200NVL32拓展為NVL2567資料:英偉達(dá)東吳證券研究所1.3

GB與VR機(jī)柜:有效但并非Scale

Up最終形態(tài)?

GB與VR的機(jī)柜方案已經(jīng)討論了很多,這里主要闡述我們對這類機(jī)柜產(chǎn)品的判斷:?

機(jī)柜方案延續(xù)了英偉達(dá)在GH200NVL256上的思路,即除了提升NVLink帶寬外,還要提高Scale

Up超節(jié)點(diǎn)的規(guī)模,升級為機(jī)柜方案是為了增加GPU密度,節(jié)省物理空間的同時(shí)縮小GPU間連接距離,以使用相比于光連接成本更低的PCB、銅連接;?

銅連接、PCB、液冷、電源等都隨著GPU密度提高實(shí)現(xiàn)單張GPU對應(yīng)價(jià)值量的躍升;?

機(jī)柜方案實(shí)現(xiàn)的NVL72、NVL144等Scale

Up確實(shí)可以提高訓(xùn)練、推理效率,但并不是英偉達(dá)ScaleUp的上限,

NVL72、NVL144等機(jī)柜方案后續(xù)會作為最小的ScaleUp節(jié)點(diǎn)(Node)存在,像積木一樣在柜與柜之間進(jìn)一步拼出更大的Scale

Up超節(jié)點(diǎn),屆時(shí)需要光連接等進(jìn)行通信??删唧w參考后續(xù)章節(jié)對Scale

Up需求的底層邏輯以及趨勢的分析。GB200

NVL72網(wǎng)絡(luò)拓?fù)鋱D8臺GB200NVL72機(jī)柜8資料:英偉達(dá),東吳證券研究所2.

為什么需要Scale

Up網(wǎng)絡(luò)92.1

Scale

Up與Scale

out的特點(diǎn)與作用各不相同若干超節(jié)點(diǎn)(SuperPod,如NVL

72)組成集群(Cluster,如萬卡、十萬卡集群);?

Scale

Out網(wǎng)絡(luò)實(shí)現(xiàn)集群內(nèi)所有GPU卡互聯(lián),亮點(diǎn)在于網(wǎng)絡(luò)內(nèi)連接GPU數(shù)量大,與傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)類似;?

Scale

Up網(wǎng)絡(luò)實(shí)現(xiàn)超節(jié)點(diǎn)內(nèi)所有GPU卡互聯(lián),亮點(diǎn)在于網(wǎng)絡(luò)內(nèi)單卡通信帶寬高,組網(wǎng)規(guī)模尚小,為AI算力場景下新興的網(wǎng)絡(luò)架構(gòu);?

ScaleUp并不僅限于柜內(nèi),柜外也可進(jìn)行Scale

Up。(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)ScaleOut與Scale

Up網(wǎng)絡(luò)對比(一層NVLink交換機(jī)+CX-8網(wǎng)卡+三層Quantum-X800

IB網(wǎng)絡(luò))ScaleOut網(wǎng)絡(luò)與Scale

Up網(wǎng)絡(luò)最大GPU數(shù)(張)

單卡帶寬(Gb/s)Scale

OutScale

Up746496728007200集群內(nèi)Scale

Out超節(jié)點(diǎn)內(nèi)Scale

Up10資料:Marvell,東吳證券研究所2.2

“內(nèi)存墻”問題需要Scale

Up網(wǎng)絡(luò)將顯存池化來緩解訓(xùn)推計(jì)算的“內(nèi)存墻”催生出通過Scale

Up網(wǎng)絡(luò)將顯存池化的需求:?

單一大模型的參數(shù)量與單卡顯存的差距(即模型內(nèi)存墻)、單卡算力與單卡顯存間的差距(即算力內(nèi)存墻)均逐代放大?

除模型參數(shù)外,推理計(jì)算生成的KV

Cache(關(guān)鍵中間值的緩存,用于簡化計(jì)算)占用顯存大小也可達(dá)模型的50%甚至以上?

因此單卡運(yùn)算時(shí)需從多張卡的顯存讀取所需參數(shù)、數(shù)據(jù),為了盡可能減少數(shù)據(jù)傳輸時(shí)延,目前產(chǎn)業(yè)化應(yīng)用最優(yōu)解是使用Scale

Up網(wǎng)絡(luò)將顯存池化,如NVL72。(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)模型內(nèi)存墻逐代放大算力內(nèi)存墻逐代放大11資料:Medium,東吳證券研究所2.3

AI訓(xùn)推計(jì)算范式推動Scale

Up升級、單卡帶寬提升?

AI訓(xùn)推需要分布式并行計(jì)算,基于對計(jì)算效率不斷提升的追求,并行計(jì)算方式有數(shù)據(jù)并行(DataParallelism)、流水線并行(Pipeline

Parallelism)、專家并行(MoEParallelism

)及張量并行(Tensor

Parallelism)。?

數(shù)據(jù)并行:將輸入數(shù)據(jù)分配給各個負(fù)載,各負(fù)載上基于不同數(shù)據(jù)進(jìn)行同一模型的訓(xùn)練/推理;?

流水線并行:將模型分為若干層分配給各個負(fù)載,各負(fù)載分別進(jìn)行不同層的計(jì)算;?

張量并行:將模型參數(shù)運(yùn)算的矩陣拆分為子矩陣傳輸至各個負(fù)載,各負(fù)載分別進(jìn)行不同的矩陣運(yùn)算(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)數(shù)據(jù)并行(左),流水線并行(右)計(jì)算原理張量并行計(jì)算原理12資料:Github-PhillipLippe,Hugging

Face,東吳證券研究所2.3

張量并行可優(yōu)化計(jì)算效率?

目前模型訓(xùn)推主要采用混合并行,即多種并行方式同時(shí)進(jìn)行,可從不同維度切分/編組進(jìn)行并行?

張量并行、專家并行是粒度更細(xì)的并行方式,更高效利用單張芯片配套內(nèi)存,因此可以明顯提升計(jì)算效率。(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)3D混合并行計(jì)算在兩類推理引擎中張量并行(TP)均可縮短輸出單Token所需時(shí)間(TPOT)13資料:《3Dparallelism:

Scaling

totrillion-parameter

models》,

SqueezeBits,東吳證券研究所2.3

張量并行對通信的高要求催生Scale

Up需求?

張量并行在每一層神經(jīng)網(wǎng)絡(luò)的計(jì)算后都需要將新的計(jì)算結(jié)果收集、匯總,并將完整結(jié)果重新分發(fā),即Allreduce通信,因此在訓(xùn)推時(shí)對通信頻率、傳輸容量都有更高要求。?

需要用ScaleUp滿足越來越高的通信頻率、傳輸容量需求。(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)推理中張量并行(TP)的通信次數(shù)與規(guī)模均比流水線并行(PP)高出數(shù)量級訓(xùn)練中張量并行需要傳輸?shù)臄?shù)據(jù)量多出一到兩個數(shù)量級(GPT-3B模型基于32個GPU訓(xùn)練數(shù)據(jù))推理中張量并行規(guī)模越大通信量越大()各類并行通信方式對比切分方式通信操作AllReduceAll-to-AllSend/RecvAllReduce每次迭代單卡通信量

對網(wǎng)絡(luò)的需求張量并行(TP)專家并行(EP)流水并行(PP)數(shù)據(jù)并行(PP)百GB級別百GB級別MB級別(超)節(jié)點(diǎn)內(nèi)高速互聯(lián)(超)節(jié)點(diǎn)內(nèi)高速互聯(lián)節(jié)點(diǎn)間高速互聯(lián)GB級別節(jié)點(diǎn)間高速互聯(lián)14資料:《Understanding

Communication

Characteristics

ofDistributed

Training》,《Characterizing

Communication

PatternsinDistributed

Large

Language

Model

Inference》,新華三,東吳證券研究所3.為什么需要更大的Scale

Up網(wǎng)絡(luò)153.1

Scale

Up可加速推理,且增益隨推理負(fù)載提升而擴(kuò)大?

我們認(rèn)為Scale

Up規(guī)模越大,集群算力有效利用率往往越高,且隨著單用戶推理負(fù)載增加,增益會越來越大,這里以GB200NVL72、B200

NVL8的對比為例(可見下一頁圖片)?

測試配置:各類方案都是基于33000張GPU的Scale

Out集群進(jìn)行測試,GB200

NVL72采用了NVL72ScaleUp超節(jié)點(diǎn)、Grace

CPU、FP4精度,B200NVL8采用了NVL8

Scale

Up超節(jié)點(diǎn)、IntelXeonCPU、FP8精度,因此精度優(yōu)化可為GB200NVL72直接帶來1倍單卡性能提升;?

模型:GPT

MoE1.8T模型,采用混合并行推理(最多64維并行),F(xiàn)TL=5s,TTL=50ms,input/output長度分別為32768/1024;?

坐標(biāo)軸含義:橫軸代表單用戶每秒收到的Token數(shù)(Tokens

PerSecond,TPS),亦即用戶體驗(yàn)或模型推理的實(shí)際輸出能力;縱軸代表集群內(nèi)每張GPU每秒輸出的Token數(shù),亦即推理時(shí)單張卡的實(shí)際性能或有效利用程度;?

每條曲線每點(diǎn)對應(yīng)各單用戶TPS下,所有混合并行方案及Chunk

Size組合中單卡性能最大值?

可以初步觀測到橫縱坐標(biāo)成反比,主要原因?yàn)閱斡脩鬞PS提升后需要在單位時(shí)間內(nèi)用更多GPU輸出更多Token,通信阻塞變大,GPU等待數(shù)據(jù)傳輸?shù)臅r(shí)間增加,利用率下降。16資料:英偉達(dá),東吳證券研究所3.1

Scale

Up可加速推理,且增益隨推理負(fù)載提升而擴(kuò)大?

在單用戶TPS為10

Tokens/s時(shí),GB200

NVL72的單卡實(shí)際性能約為B200NVL8的3倍,考慮FP4精度優(yōu)化帶來的約1倍提升后,Scale

Up+GraceCPU帶來約50%的性能提升;?

在單用戶TPS為20

Tokens/s時(shí),GB200

NVL72的單卡實(shí)際性能約為B200NVL8的7倍,考慮FP4精度優(yōu)化帶來的約1倍提升后,Scale

Up+GraceCPU帶來約250%的性能提升;?

我們認(rèn)為隨著單用戶TPS增加,Scale

Up帶來的單卡利用率增益會越來越大。(由于篇幅有限本文未就技術(shù)原理做詳細(xì)闡述,具體細(xì)節(jié)歡迎進(jìn)一步交流)不同方案推理性能對比單卡性能~3×單卡性能~7×17資料:英偉達(dá),東吳證券研究所3.2

NVL72、144不是推理Scale

Up的上限?

我們認(rèn)為機(jī)柜對應(yīng)的NVL72、NVL144等方案并不是Scale

Up超節(jié)點(diǎn)的上限,機(jī)柜會像積木一樣進(jìn)一步拼出更大的超節(jié)點(diǎn),這主要來自硬件TCO、用戶體驗(yàn)、模型能力拓展三層因素;?

當(dāng)單用戶TPS沿橫軸提高到50

Tokens/s時(shí),B200

NVL8、H200

NVL8的單卡真實(shí)性能已經(jīng)沒有實(shí)際意義,GB200

NVL72仍有70

Tokens/s的單卡TPS,但已相較最大性能縮減50%;?

要繼續(xù)提高縱軸單卡性能,我們認(rèn)為除了在軟件層面引入新的推理引擎,如英偉達(dá)Dynamo外,還需提升Scale

Up規(guī)模,以及增加混合并行線路數(shù)(圖中限制為64路并行)。GB200

NVL72單卡性能逐漸衰減單卡性能縮減~50%18資料:英偉達(dá),東吳證券研究所3.2

組建更大Scale

Up網(wǎng)絡(luò)的TCO優(yōu)于堆更多GPU?

基于以上分析與結(jié)論,我們認(rèn)為在前圖中橫軸單用戶TPS達(dá)到某一個數(shù)值時(shí)(很可能在100tokens/s之前),GB200

NVL576的單卡TPS可做到GB200

NVL72的兩倍,且單用戶TPS繼續(xù)增長時(shí),性能差距會進(jìn)一步擴(kuò)大,這時(shí)可選擇兩種方案:1)繼續(xù)采用NVL72或

2)采用NVL576,投入更多網(wǎng)絡(luò)成本以提高單GPU有效利用率:?

GB200NVL72需每兩顆B200實(shí)現(xiàn)對標(biāo)性能?

GB200

NVL576在柜內(nèi)L1

NVSwitch基礎(chǔ)上再加一層L2

NVSwitch,每顆GPU需多接9個1.6T端口(可光可電),每4顆GPU多出一臺NVSwitch?

NVL576方案TCO更優(yōu),且單用戶TPS繼續(xù)提升后,TCO的優(yōu)勢還將隨著單卡性能差距持續(xù)擴(kuò)大GB200

NVL576或采用與GH200

NVL256

類似網(wǎng)絡(luò)架構(gòu)兩種方案TCO對比項(xiàng)目價(jià)值量(萬美元)GB200

NVL72整機(jī)柜價(jià)值300368.34機(jī)柜內(nèi)GB200

Superchip(2*B200+1*GraceCPU)數(shù)量機(jī)柜內(nèi)單個GB200

Superchip及配套單臺NVSwitch價(jià)值單支1.6T光模塊價(jià)格0.1NVL72NVL576需要B200

GPU數(shù)量2110.50.259需要GB200

Superchip數(shù)量額外需要NVSwitch數(shù)量0額外需要光模塊數(shù)量(按端口都插光模塊計(jì)算)主要硬件TCO(萬美元)08.36.119資料:英偉達(dá),TweakTown,東吳證券研究所3.2

用戶體驗(yàn)及模型能力拓展推動單用戶TPS增長各能力帶的LLM單用戶TPS均不斷提升?

各能力帶的LLM單用戶TPS均不斷提升,目前前五名主流模型的單用戶TPS均在200

Tokens/s以上;?

我們認(rèn)為用戶使用模型過程中最直觀、最核心的體驗(yàn)點(diǎn)是回答結(jié)果的生成速度,即單用戶的TPS,且TPS提升后具有實(shí)際應(yīng)用意義的場景會逐漸涌現(xiàn),如AIcoding。前五名主流模型的單用戶TPS均在200

Tokens/s以上20資料:artificialanalysis,

東吳證券研究所3.2

用戶體驗(yàn)及模型能力拓展推動單用戶TPS增長?

模型能力從LLM擴(kuò)展到多模態(tài),;?

我們認(rèn)為用戶使用模型過程中最直觀、最核心的體驗(yàn)點(diǎn)是回答結(jié)果的生成速度,即單用戶的TPS,且TPS提升后具有實(shí)際應(yīng)用意義的場景會逐漸涌現(xiàn),如AI

coding。GPT-image-1輸出圖像大小及耗時(shí)Meta為廣告主提供的AI圖像功能QualityLowSquare

(1024x1024)

Portrait(1024x1536)

landscape

(1536x1024)272tokens1056tokens4160tokens408tokens400tokensMediumHigh1584tokens6240tokensHigh

Detail15-25seconds1568tokens6208tokensPeakHours20-35secondsSimple

Prompt

Complex

Prompt3-8seconds

10-20seconds21資料:微軟,cursor,

東吳證券研究所3.3

Scale

Up網(wǎng)絡(luò)存在隨用戶TPS增長的“Scaling

Law”不同方案推理性能對比估算(GB200來自原數(shù)據(jù)估測存在一定誤差)22資料:英偉達(dá),東吳證券研究所4.

怎么組建更大的Scale

Up網(wǎng)絡(luò)234.1

網(wǎng)絡(luò)架構(gòu):柜外搭建第二層Scale

Up交換機(jī)網(wǎng)絡(luò)?

英偉達(dá)的機(jī)柜中加入了一層NVSwitch,

以GB200

NVL72為例,單顆B200

NVLink帶寬7.2Tb(單向帶寬,下同),9個Switch

Tray總帶寬57.6Tb×9=518.4T,剛好與72顆B200進(jìn)行無阻塞通信,這意味著如果在柜內(nèi)繼續(xù)增加GPU,需要同步增加配套Switch

Tray,需要的物理空間和距離增加。因此我們認(rèn)為在GB機(jī)柜使用銅連接,VR機(jī)柜有望增加PCB后,柜內(nèi)擴(kuò)展難度增加,需要增加第二層交換機(jī)做柜間Scale

Up;?

對于NVL72而言,則需要改為NVL36×2以使得第一層Switch

Tray翻倍至18個,以提供連接至第二層NVSwitch的上行帶寬。英偉達(dá)GB200

NVL36×2方案ScaleUp兩層網(wǎng)絡(luò)拓?fù)洌ㄒ缘珯C(jī)柜64卡為例)24資料:新華三,英偉達(dá),東吳證券研究所4.2

連接方式:第二層Scale

Up網(wǎng)絡(luò)中光與AEC并存?

在單通道200G速率下,無源銅(如DAC)的有效距離上限在1m左右,因此基本無法滿足跨柜ScaleUp的連接需求,有源銅(如AEC)的有效距離上限在3米左右,因此可滿足部分跨柜Scale

Up的連接需求,光(如AOC、光模塊)可滿足所有跨柜Scale

Up的連接距離要求;?

我們認(rèn)為“能用銅的地方就不會用光”,在第二層柜間Scale

Up場景會有光與AEC并存。ScaleUp網(wǎng)絡(luò)通信距離AEC與DAC有效距離對比25資料:新華三,Marvell,東吳證券研究所4.2

連接方式:第二層Scale

Up網(wǎng)絡(luò)帶來的網(wǎng)絡(luò)增量需求有多少?

按照最新的NVLink

與IB標(biāo)準(zhǔn)測算,第二層Scale

Up網(wǎng)絡(luò)中1顆GPU需要9個額外的等效1.6T連接(等于第一層),每4顆GPU需要額外1臺NVLink

5.0交換機(jī);兩到三層Scale

Out中1顆GPU對應(yīng)2-3個等效1.6T連接,每30-48顆GPU對應(yīng)一臺Quantum-X800

Q34xx系列交換機(jī)。?

目前ScaleUp與ScaleOut并存,其最終形態(tài)是做到與Scale

Out相近的規(guī)模后取代Scale

out,但需要考慮到在成本與物理空間維度都數(shù)倍增長的網(wǎng)絡(luò)連接。英偉達(dá)Scale

Up與Scale

Out網(wǎng)絡(luò)連接需求對比(均基于最新平臺)Scale

Up(第二層)Scale

Out(兩到三層)連接端口數(shù)量

1顆GPU需要額外9個等效1.6T連接

1顆GPU對應(yīng)2-3個等效1.6T連接每4顆GPU需要額外1臺NVLink

5.0

每30-48顆GPU對應(yīng)一臺Quantum-交換機(jī)數(shù)量SwitchX800

Q34xx系列交換機(jī)26資料:英偉達(dá),東吳證券研究所4.2

連接方式:潛在技術(shù)路線適用于Scale

Up嗎??

我們認(rèn)為CPO、OCS等潛在的新技術(shù)在Scale

Up中的應(yīng)用會比Scale

Out更難,這些新技術(shù)在ScaleOut中規(guī)?;瘧?yīng)用后,對它們在Scale

Up中應(yīng)用可能性的討論才有實(shí)際意義;?

2.3節(jié)中我們說過Scale

Up網(wǎng)絡(luò)用來滿足張量并行、專家并行等計(jì)算的通信需求,其單位時(shí)間內(nèi)需要傳輸數(shù)據(jù)的頻次與大小都是Scale

Out網(wǎng)絡(luò)的幾十倍甚至上百倍,這意味著應(yīng)用新技術(shù)路線的難度與故障率都會相應(yīng)增加。推理中張量并行(TP)的通信次數(shù)與規(guī)模均比流水線并行(PP)高出數(shù)量級訓(xùn)練中張量并行需要傳輸?shù)臄?shù)據(jù)量多出一到兩個數(shù)量級(GPT-3B模型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論