技術(shù)解構(gòu)英偉達H100體系800G光模塊需求幾何_第1頁
技術(shù)解構(gòu)英偉達H100體系800G光模塊需求幾何_第2頁
技術(shù)解構(gòu)英偉達H100體系800G光模塊需求幾何_第3頁
技術(shù)解構(gòu)英偉達H100體系800G光模塊需求幾何_第4頁
技術(shù)解構(gòu)英偉達H100體系800G光模塊需求幾何_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2整體結(jié)論H100最新架構(gòu)試算:8個節(jié)點(單服務器),NVLink下需要18對、36個osfp,也就是36個800G

->

一個POD集群需要36x32=1152個800G光模塊。若需要InfiniBand網(wǎng)絡,則是傳統(tǒng)葉脊雙層架構(gòu),需要800G或2x400G(NDR),數(shù)量關(guān)系與普通集群差異不大,依據(jù)不同規(guī)??闪硗庥嬎?。

資料來源:英偉達技術(shù)文檔,申萬宏源研究3投資案件結(jié)論在英偉達DGX

H100

SuperPOD最新的NVLink

Switch架構(gòu)算力架構(gòu)下,GPU+NVLink+NVSwitch+NVLink交換機的架構(gòu)需要大量800G通信連接方案,

NVLink系統(tǒng)大致可對應GPU與800光模塊1:4-1:5的數(shù)量關(guān)系,IB

NDR網(wǎng)絡則需要更多。原因及邏輯英偉達占訓練推理環(huán)節(jié)GPU幾乎90%以上份額,在DGXH100

SuperPOD架構(gòu)引入更高速NVLink方案,且用NVLink和InfiniBand的PCIe兩套體系解決通信問題。盡管目前InfiniBand

NDR網(wǎng)絡是主流,但新的NVLink

Switch的架構(gòu)在H100硬件基礎(chǔ)上,在某些AI場景下可以貢獻比IB網(wǎng)絡接近翻倍的性能。AI發(fā)展的基礎(chǔ)是算力提升,預計極致性能和極致功耗是未來硬件架構(gòu)發(fā)展的主要驅(qū)動,預計400G/800G以上速率的網(wǎng)絡方案將加速放量。在H100最新的NVLink

Switch架構(gòu)下試算,單服務器NVLink下需要18對、36個osfp,也就是36個800G;一個POD集群的32臺服務器則需要36x32=1152個800G光模塊。若不采用NVLink

Switch架構(gòu)或者需要多集群擴容,需要使用InfiniBandNDR網(wǎng)絡,則采用傳統(tǒng)葉脊雙層架構(gòu),需要800G+2x400G(NDR)的方案,數(shù)量關(guān)系可參考普通集群,核心是系統(tǒng)內(nèi)帶寬激增,依據(jù)不同規(guī)??闪硗庥嬎恪S袆e于大眾的認識鑒于H100

GPU的供貨范圍限制,市場對其實際的架構(gòu)理解有一定信息差,我們借助英偉達技術(shù)文檔試圖拆解H100超算系統(tǒng)的通信架構(gòu);市場擔心800G在AI算力環(huán)節(jié)并非剛需,但高速率光模塊、CPO/LPO/MPO等技術(shù)本身預示了未來硬件架構(gòu)發(fā)展的主要方向是追求極低功耗下的極高性能,且系統(tǒng)整體算力效率有木桶效應,網(wǎng)絡環(huán)節(jié)較容易產(chǎn)生瓶頸,影響各類訓練推理考慮,因此高速光網(wǎng)絡的迭代是AI剛需。風險提示

? NVLink

Switch方案滲透不達預期;技術(shù)迭代產(chǎn)生新的通信方案。 主要內(nèi)容DGX

H100

SuperPOD架構(gòu)引入更高速NVLink方案用NVLink和PCIe兩套體系解決架構(gòu)問題組網(wǎng)架構(gòu)與光模塊需求預測結(jié)論與相關(guān)標的451.

DGX

H100

SuperPOD架構(gòu)引入更高速NVLink方案以全球算力領(lǐng)軍和標桿NVIDIA為案例,在最新的DGX

H100

SuperPOD方案下,做一個嘗試性的定量測算,解釋為何400G/800G以上光網(wǎng)絡在AI框架下是必然選擇:(一)NVLink迭代至gen4,每通道帶寬達100

Gbps:NVLink是專門設計用于高速點對點鏈路互連GPU(GPU

to

GPU)的網(wǎng)絡方案,開銷比傳統(tǒng)網(wǎng)絡更低,傳統(tǒng)網(wǎng)絡中復雜網(wǎng)絡功能(例如端到端重試、自適應路由、數(shù)據(jù)包重新排序等)可以在增加端口數(shù)的情況下進行權(quán)衡。此外,基于NVLink的網(wǎng)絡接口更加簡單,允許將應用程序?qū)?、表示層和會話層功能直接嵌入到CUDA本身中,從而進一步減少通信開銷。NVIDIA

2016-2022

4

的NVLink

滿足了其算力方案的兩大需求(專用連接方案解決專業(yè)問題),使GPU具有盡可能高的性能、使用專用協(xié)議和系統(tǒng)設計以實現(xiàn)更高的性能。傳統(tǒng)的PCIe

Gen5每通道僅為32Gbps,而NVLink每通道高達100Gbps、多個通道連接其GPU系統(tǒng)。最新的NVLink

4相比上代從12

Links升級至18

Links,每個GPU提供900GB/s

7200Gbs)

的雙向帶寬(bidirectional

bandwidth)。資料來源:英偉達技術(shù)文檔,申萬宏源研究61.

DGX

H100

SuperPOD架構(gòu)引入更高速NVLink方案與英偉達H100

GPU結(jié)合:1)在DGX

H100服務器內(nèi)部,搭載了8個H100

GPU;2)每一個H100

GPU通過18個NVLink4連接到內(nèi)部NVSwitch3芯片(每臺服務器搭配4個NVSwitch3芯片);3

每一個

NVLink4

擁有

2

條通道(

lane

,

每條通道參數(shù)為

100Gbps-per-lane(x2@50Gbaud-PAM4),即一個NVLink4單向200Gbps,

或換算為25GB/s單向帶寬、50GB/s雙向帶寬。在18個NVLink4時,H100搭配NVLink4可以實現(xiàn)900GB/s雙向帶寬。英偉達NVLink迭代至gen4資料來源:英偉達技術(shù)文檔,申萬宏源研究71.

DGX

H100

SuperPOD架構(gòu)引入更高速NVLink方案(二)NVSwitch芯片迭代至gen3,每個芯片64個NVLink

4接口:此外NVIDIA發(fā)布適用于超算服務器內(nèi)部的NVSwitch芯片(類似于交換機ASIC),進一步通過上述NVLink協(xié)議接口將多個GPU高速互聯(lián)到一起。在H100芯片+NVLink

4協(xié)議這一代,應為配套了NVSwitch

3芯片方案,采用臺積電4N工藝,滿足GPU間的點對點連接,內(nèi)嵌ALU使NVSwitch提供FP32的400GFLOPS計算吞吐,每個芯片64個NVLink

4接口。資料來源:英偉達技術(shù)文檔,申萬宏源研究81.

DGX

H100

SuperPOD架構(gòu)引入更高速NVLink方案資料來源:英偉達技術(shù)文檔,申萬宏源研究依據(jù)技術(shù)文檔,NVSwitch3芯片大小50mm*50mm,包括一個

SHARP

控制器,可并行管理多達

128

SHARP

組;內(nèi)嵌ALU可幫助NVSwitch提供FP32的400GFLOPS計算吞吐,并且支持FP16、FP32、FP64和BF16等精度計算。另外PHY

接口可以兼容400Gbps

以太網(wǎng)或者NDR

InfiniBand

連接,

每個cage

4

個NVLink4的OSFP接口,同時支持FEC校驗。NVSwitch3芯片提供64個NVLink4接口,每個NVLink4通道x2即200Gbps單向帶寬,單個芯片可提供64

x200Gbps=12.8Tbps(1.6TB/s)單向帶寬、或3.2TB/s雙工帶寬。NVSwitch3芯片架構(gòu)主要內(nèi)容DGX

H100

SuperPOD架構(gòu)引入更高速NVLink方案用NVLink和PCIe兩套體系解決架構(gòu)問題組網(wǎng)架構(gòu)與光模塊需求預測結(jié)論與相關(guān)標的9102.

DGX

H100用NVLink和PCIe兩套體系解決架構(gòu)問題基本原則:GPU卡的通信以NVLink為基礎(chǔ),CPU/存儲的通信+跨集群通信以PCIe為基礎(chǔ)。NVIDIA的DGX

H100服務器,每臺服務器擁有8個H100

GPU、4個NVSwitch

3,且相互連接。在服務器發(fā)布的同時,NVIDIA還發(fā)布了搭載2個NVSwitch

3芯片的NVLink交換機,連同GPU服務器和NVLink

4協(xié)議組成NVLink網(wǎng)絡。(一)H100

GPU發(fā)布后,服務器架構(gòu)變化較大:資料來源:英偉達技術(shù)文檔,申萬宏源研究112.

DGX

H100用NVLink和PCIe兩套體系解決架構(gòu)問題資料來源:英偉達技術(shù)文檔,g-dep

jp,申萬宏源研究DGX

H100服務器架構(gòu):GPU

Tray和Motherboard分離,是NVLink和PCIe分離的基礎(chǔ)如左圖,DGX

H100服務器機柜內(nèi)大致包括了GPU

Tray、Motherboard

Tray、Power系統(tǒng)、Front

Cage等部分。如右圖,DGX

H100服務器背面接口以Motherboard

Tray為主。122.

DGX

H100用NVLink和PCIe兩套體系解決架構(gòu)問題DGX

H100服務器架構(gòu):Motherboard

Tray中,ConnectX-7網(wǎng)卡是主要的網(wǎng)絡組成部分,而CX-7網(wǎng)卡基于PCIe方案。按照公開參數(shù),每臺服務器擁有8個ConnectX-7

InfiniBand/

Ethernet適配器

(400Gb/s)。技術(shù)文檔描述:4xOSFPportsserving8xsingle-portNVIDIAConnectX-7400Gb/s

InfiniBand/Ethernet資料來源:英偉達技術(shù)文檔,g-dep

jp,申萬宏源研究132.

DGX

H100用NVLink和PCIe兩套體系解決架構(gòu)問題DGX

H100服務器架構(gòu):GPU

Tray中,擁有8x

H100

GPU

+

4x

NVSwitch芯片,芯片端4-5-5-4共18組OSFP接口負責不同DGX

H100節(jié)點(服務器)之間的連接。(理想情況)資料來源:英偉達技術(shù)文檔,g-dep

jp,申萬宏源研究142.

DGX

H100用NVLink和PCIe兩套體系解決架構(gòu)問題資料來源:英偉達技術(shù)文檔,HC34,申萬宏源研究(二)NVLink交換機是H100體系的創(chuàng)新,也是800G光通信方案應用的亮點。英偉達發(fā)布新的NVLink交換機,1U尺寸設計,32個OSFP接口的設計;和普通交換機不同,每臺NVLink交換機搭載2個NVSwitch3芯片,提供128個NVLink4接口(

單個NVSwitch3

提供64

個NVLink4

,

雙工帶寬6.4TB/s

單個NVLink4

單向200Gbps,128x

200Gbps=25.6Tb/s單向帶寬)。NVLink交換機搭載了OSFP等接口152.

DGX

H100用NVLink和PCIe兩套體系解決架構(gòu)問題NVLink交換機推出背景是搭建H100

SuperPOD的計算集群。據(jù)英偉達設計,每套SuperPOD系統(tǒng)32臺服務器折合256個H100

GPU,AI性能高達1EFlops;每套系統(tǒng)配18臺NVLink交換機,系統(tǒng)雙向帶寬57.6TB/s;同時每套系統(tǒng)的32臺DGX

H100服務器中的400Gb/s

ConnectX-7網(wǎng)卡對外與IB交換機連接,用于連接多套SuperPOD系統(tǒng)。兩層NVSwitch芯片設計:一層交換芯片位于服務器內(nèi),二層交換芯片位于交換機內(nèi)。?128個L1層芯片(32臺服務器,每臺4個)+36個L2層芯片(18臺NVLink交換機,每臺2個)。一個SuperPOD內(nèi)所有256個GPU的互聯(lián),都通過NVLink協(xié)議和NVLink交換機單獨完成,不經(jīng)過CX-7

PCIe網(wǎng)絡。因此,從通信網(wǎng)絡角度看,

DGXH100

SuperPOD高算力、高吞吐升級的精髓,在于:將過去A100及之前用于服務器內(nèi)部GPU高效連接的NVLink,外化到整個集群,借助新的NVLink交換機,搭建L1、L2兩層網(wǎng)絡,實現(xiàn)跨服務器、跨機柜的GPU

to

GPU連接。162.

DGX

H100用NVLink和PCIe兩套體系解決架構(gòu)問題若不使用新的NVLink交換機體系,DGX

H100

SuperPOD也可以使用,但仍然用和A100類似的體系,

使用CX-7

InfiniBand實現(xiàn)跨服務器的連接,

則預計需要方案直接連接MotherBoard

Tray進而外接交換機。(但該IB網(wǎng)絡的H100方案訓練效率明顯遜于NVLink交換機系統(tǒng)。資料來源:英偉達技術(shù)文檔,申萬宏源研究172.

DGX

H100用NVLink和PCIe兩套體系解決架構(gòu)問題如下圖所示,H100架構(gòu)中可能的OSFP存在于兩處:若傳統(tǒng)IB網(wǎng)絡方案,兩張CX-7網(wǎng)卡各提供400Gb帶寬,形成4個2x400G

NDR

OSFP需求;若新的NVLink交換機系統(tǒng)方案,則需要4個NVSwitch芯片對應了18個800G

OSFP需求。資料來源:英偉達技術(shù)文檔,HC34,申萬宏源研究182.

DGX

H100用NVLink和PCIe兩套體系解決架構(gòu)問題上述是從服務器角度;

而如果從

NVLink

交換機的角度,

NVLink

交換機中

2

個NVSwitch3芯片合計128個NVLink接口,雙工帶寬6.4TB/s,也必然需要使用高速率的400G/800G光通信方案。上一代DGX

A100

256

SuperPOD架構(gòu)和目前最新DGX

H100

256

SuperPOD架構(gòu)對比,NVLink的作用方式差異明顯。總結(jié)來看,A100架構(gòu)下NVLink主要用于單個服務器內(nèi)部GPU和NVSwitch的“板載”連接;而H100架構(gòu)下,除了“板載”連接外,GPU到新的NVLink交換機之間的連接并非板載,optical

OSFP等連接方式是新增需求,在極致性能的要求下,也就帶動了光通信市場的必然需求。資料來源:英偉達技術(shù)文檔,HC34,申萬宏源研究192.

DGX

H100用NVLink和PCIe兩套體系解決架構(gòu)問題如果在256個節(jié)點的基礎(chǔ)上,需要進一步擴容至1024個節(jié)點,則需要借助NDR

InfiniBandLinks連接4個DGX

H100

256

SuperPOD集群。這種方案搭配英偉達的ConnectX-7

NDR

NIC網(wǎng)絡適配器和Quantum2

NDR交換機,性能強于A100體系的HDR

IB網(wǎng)絡。下圖以Quantum-2

QM9700交換機為例,擁有32個OSFP接口承載64x400Gb/s的容量。資料來源:英偉達技術(shù)文檔,申萬宏源研究主要內(nèi)容DGX

H100

SuperPOD架構(gòu)引入更高速NVLink方案用NVLink和PCIe兩套體系解決架構(gòu)問題組網(wǎng)架構(gòu)與光模塊需求預測結(jié)論與相關(guān)標的20213.

組網(wǎng)架構(gòu)與光模塊需求預測擴充至32臺服務器的一個SuperPOD集群,架構(gòu)預計如下所示。資料來源:申萬宏源研究223.

組網(wǎng)架構(gòu)與光模塊需求預測H100最新架構(gòu)試算:8個節(jié)點(單服務器),NVLink下需要18對、36個osfp,也就是36個800G->

一個POD集群需要36x32=1152個800G光模塊。若需要InfiniBand網(wǎng)絡,則是傳統(tǒng)葉脊雙層架構(gòu),需要800G或2x400G(NDR),數(shù)量關(guān)系與普通集群差異不大,依據(jù)不同規(guī)??闪硗庥嬎恪?/p>

資料來源:英偉達技術(shù)文檔,申萬宏源研究主要內(nèi)容DGX

H100

SuperPOD架構(gòu)引入更高速NVLink方案用NVLink和PCIe兩套體系解決架構(gòu)問題組網(wǎng)架構(gòu)與光模塊需求預測結(jié)論與相關(guān)標的23244.

結(jié)論與相關(guān)標的我們的結(jié)論在于:

在英偉達DGX

H100

SuperPOD

最新的NVLink

Switch

架構(gòu)算力架構(gòu)下,GPU+NVLink+NVSwitch+NVLink交換機的架構(gòu)需要大量800G通信連接方案,

NVLink系統(tǒng)大致可對應GPU與800光模塊1:4-1:5的數(shù)量關(guān)系,IB

NDR網(wǎng)絡則需要更多。具體而言,英偉達占訓練推理環(huán)節(jié)GPU幾乎90%以上份額,在DGX

H100

SuperPOD架構(gòu)引入更高速NVLink方案,且用NVLink和InfiniBand的PCIe兩套體系解決通信問題。盡管目前InfiniBandNDR網(wǎng)絡是主流,但新的NVLink

Switch的架構(gòu)在H100硬件基礎(chǔ)上,在某些AI場景下可以貢獻比IB網(wǎng)絡接近翻倍的性能。AI發(fā)展的基礎(chǔ)是算力提升,預計極致性能和極致功耗是未來硬件架構(gòu)發(fā)展的主要驅(qū)動,預計400G/800G以上速率的網(wǎng)絡方案將加速放量。在H100最新的NVLink

Switch架構(gòu)下試算,單服務器NVLink下需要18對、36個osfp,也就是36個800G;一個POD集群的32

臺服務器則需要36x32=1152

個800G光模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論