版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
Google集群拆解2025年11月目
錄1.Google集群的Scaleup:3D結構2.Google集群的Scaleup光互聯(lián):光路交換機3.TPU集群內(nèi),光路交換機和光模塊占比4.Google集群的Scaleout1Scaleup與Scaleout2Google:Scaleup與Scaleout31Google集群的柜內(nèi)Scaleup:3D結構TPU6*112
Gb/s
*8/8*2≈1.2TB/s5從TPU到TPU
TrayTPUV7單卡TPUTray6*NvidiaGPU:Hopper到BlackwellBlackwellNVLink
5:1.8
TB/s7*AMD
GPU:MI350到MI400PCIe
5.0:128
GB/S3張
800G網(wǎng)
卡
,
對
應2.4Tb/s
per
GPU
的Scale
out網(wǎng)絡單
卡
72
條
200Gb
UALinkLane,對應
72
*
200
/
8
=1.8TB/s的Scaleup網(wǎng)絡封裝內(nèi)帶寬:5.5TB/S封裝外
GPU-GPU帶寬:1.075TB/S8從TPU
Tray到TPURack物理結構:一列8行,每行2個TPU
Tray。一個機架16個TPU
Tray,64個TPU芯片TPU機架外觀圖TPU機架拆分連接到數(shù)據(jù)中心主交換網(wǎng)絡(DCN)的通道,用于常規(guī)管
理
、數(shù)
據(jù)
存取
、
外部通信,與
ICI
網(wǎng)絡是分離的。CPU
Host(主機計算節(jié)點)Heat
Out(散熱):機架的空氣與液冷散熱通道。TPU
板卡采用液體冷卻系統(tǒng),而整個
rack
的熱量則通過風冷加液冷系統(tǒng)排出。Copper
Intra-rack
ICI
Interconnects(機架內(nèi)電纜
ICI)9TPU
Rack:拓撲結構藍色箭頭:內(nèi)部ICI連接;向外箭頭:連向外側OCS的光纜。10*NvidiaGPU:連網(wǎng)方式11*NvidiaGPU:Scaleup12*AMD
GPU:Scaleup132Google集群的Scaleup光互聯(lián):光路交換機光路交換機的工作原理光信號輸入和輸出:??光纖準直器(136通道):把來自光纖的發(fā)散光束變成平行光束,以便在空間中傳播和被MEMS反射二維透鏡陣列:輔助光束的準直與聚焦,使得每根光纖對應一條獨立的光束。光束交換:?二維
MEMS
微鏡陣列:通過控制每個MEMS鏡子的角度,光束可以被精確地反射到目標輸出端口光路監(jiān)控和對準:???注入模塊(850nm
激光二極管):注入一束監(jiān)控光(850
nm),它和信號光(O波段)共路。二色分光元件:把監(jiān)控光和數(shù)據(jù)信號光分開:相機模塊(850nm):接收監(jiān)控光,判斷光束是否準確到達目標端口,實現(xiàn)自動對準和校準。15TPU
SuperPod:組成結構TPUV4Superpod:8*8TPUV7
Superpod:16*916TPU
SuperPod:組成結構Scale-up部分由光路交換機連接,實現(xiàn)TPU之間的全連接17TPU
SuperPod:整體物理結構???每套系統(tǒng)包含
64個
機架,被劃分成
8組,每組
8個機架??偣布闪?/p>
4096
芯片,共享
256
TiBHBM內(nèi)存容量??傆嬎阈阅艹^
1ExaFLOP(101?
FLOPS)。每組
8
個機架配備一臺
Coolant
Distribution
Unit(CDU),負責提供液冷循環(huán)中的冷卻介質(zhì)。18TPU
SuperPod:整體物理結構?
Ironwood
TPU
將幫助客戶進一步突破規(guī)模和效率的極限。部署
TPU
時,系統(tǒng)會將每個芯片彼此連接,形成一個芯片組
(pod),從而使互連的
TPU
能夠作為一個整體協(xié)同工作。?借助
Ironwood,我們可以在一個超級芯片組中擴展多達
9,216
個芯片,并通過突破性的芯片間互連
(ICI)
網(wǎng)絡以
9.6
Tb/s
的速度連接。這種強大的連接能力使數(shù)千個芯片能夠快速相互通信,并訪問高達
1.77
PB的HBM,從而克服即使是最苛刻模型的數(shù)據(jù)瓶頸。19TPU
SuperPod:整體物理結構?
TPUV7Superpod物理結構:包含144個機架203TPU集群內(nèi),Scaleup部分互聯(lián)組件占比TPU
V4
光路交換機占比:1.1%?
TPU數(shù)量:4096??相關參數(shù):光路交換機端口
136*136,使用端口數(shù)為128*128考慮Z軸方向通路,每個機架包含16個(4*4)向上的TPU,一個Superpod包含64個機架,所以向上的TPU數(shù)為16*64,考慮上下兩個面,一個TPU連出/連入一根光纜,因此總的光纜數(shù)為
16*64*2?光路交換機端口為128,
16*64*2/128=16,所以Z軸方向16個光路交換機?
X/Y/Z軸一共48個光路交換機22TPU
V7
光路交換機占比:0.52%?
TPU數(shù)量:9216??相關參數(shù):光路交換機端口
300*300,使用端口數(shù)為288*288考慮Z軸方向通路,每個機架包含16個(4*4)向上的TPU,一個Superpod包含144個機架,所以向上的TPU數(shù)為16*144,考慮上下兩個面,一個TPU連出/連入一根光纜,因此總的光纜數(shù)為
16*144*2?光路交換機端口為128,
16*144*2/288=16,所以Z軸方向16個光路交換機?
X/Y/Z軸一共48個光路交換機,光路交換機占比為0.52%23TPU
V4集群Scale
up光模塊比例:1.5?
TPU數(shù)量:4096??光模塊數(shù)量
=總的光纜數(shù)
=朝向外的TPU數(shù)量
=16
*64(每個面朝外的TPU)
*6(6個面)=
6144光模塊比例:6144/4096
=1.524TPU
V7集群Scale
up光模塊比例:1.5?
TPU數(shù)量:9216??光模塊數(shù)量
=總的光纜數(shù)
=朝向外的TPU數(shù)量
=16
*144(每個面朝外的TPU)
*6(6個面)=
13824光模塊比例:13824/9216
=1.525機架內(nèi):其他量化數(shù)據(jù)????對于單個Rack:向外光模塊:6*16PCB
Traces:4*16Copper
cables:12(單方向連線)*4*3(3個方向)
–
4*16
=
8026TPU?為什么每個TPU對應4個OSFP??
80
*
2(Copper
cables)+
96(96
optical
fiber)
=256
=64*4TPUV4TPUV7274Google集群的ScaleoutScaleoutTomahawk
5交換機參數(shù):128個400G端口29TPU
SuperPod之外?通過數(shù)據(jù)中心網(wǎng)絡
(DCN)進行通信30Google:Scaleout中的OCS31Google:Scaleout中的OCS32NVScaleout中的OCS??2025年7月:Nvidia論文Programmable
Fabrics
withOpticalSwitchesin
AI
Supercomputers通用三層
FT
拓撲中光交換機的主要集成點:通過截取不同節(jié)點和分組交換層之間的光纖連接,引入了相應的
OCS
層,為連接的網(wǎng)絡端點提供
L1
可編程數(shù)據(jù)平面。當與冗余硬件(分組交換機、收發(fā)器和服務器)配合使用時,支持
OCS
的架構可以增強架構中硬件和軟件故障的彈性,從而最大限度地減少故障對計算集群利用率和效率的顯著影響。此外,OCS
層還可以用于創(chuàng)建更扁平的網(wǎng)絡,并消除相應的分組交換層。例如,OCS
核心層可以在脊交換機之間建立直接連接,從而無需核心分組交換層。33Google:Scaleout?在這種規(guī)模下,服務需要不間斷的可用性。因此,我們的光路交換
(OCS)
技術充當動態(tài)可重構架構,能夠即時繞過中斷,在服務持續(xù)運行的同時恢復工作負載。當您需要更強大的性能時,Ironwood
可以跨
pod擴展到包含數(shù)十萬個
TPU的集群。34十萬卡集群,Scale
out的光模塊、交換機占比十萬卡集換機數(shù)量和光模塊數(shù)量十萬卡集群
互聯(lián)和服務器
部分成本拆分(個)交換機數(shù)量光模塊數(shù)量(百萬美元)400,000350,000300,000250,000200,000150,000100,00050,0000服務器成本交換機成本光模塊成本350,2083,9394,0003,5003,0002,5002,0001,5001,0005003,770251,904251,9044262073,516299136131799,4083,1683,168BroadcomTomahawk5InfiniBandNVIDIASpectrum-X十萬卡集群
光模塊和交換機占比(%)光模塊/GPU(左軸)交換機/GPU(右軸)3,3353,3054.03.53.02.52.01.51.00.50.012.0%3,3053.610.0%8.0%6.0%4.0%2.0%0.0%9.6%2.62.603.2%3.2%InfiniBandNVIDIASpectrum-XBroadcomTomahawk5InfiniBandNVIDIASpectrum-XBroadcomTomahawk535十萬卡集群,不同互聯(lián)方案對比InfiniBand98,304NVIDIASpectrum-X
BroadcomTomahawk5測算邏輯:基于連接示意圖測算邏輯:基于通信需求GPU數(shù)量交換機數(shù)量(臺)98,30498,304Spectrum-X每個SN5600交換機有128個400G端口,64個接GPU,64個接第二層交換機,98304/64=1536,Tomahawk5也是128個400G端口每個Rail包含64個Leaf交換機,每個計算島(Pod)包含8個Rail,一共有三個Pod,因此
64*8*3=1536第一層交換機3,0721,5361,536第二層交換機第三層交換機第四層交換機3,0723,0721,536961,53696Spine交換機和Leaf交換機數(shù)量相同圖片中包含92個Super
Spine交換機Spine交換機和Leaf交換機數(shù)量相同1929,4089.6%2200交換機總數(shù)3,1683.2%433,1683.2%25交換機占比平均價格(USD
K)交換機總支出(USD
M)207.0136.279.2收發(fā)器數(shù)量400G
單端口多模收發(fā)器98,30498,30498,304位于HGX
H100側的收發(fā)器數(shù)量,4096*8*3=98304Spine-Leaf結構中的收發(fā)器數(shù)量,(64*64*8*3*2+98304)/2=147456,前部分是葉脊結構中全連接的收發(fā)器數(shù)量,后部分是從下面HGX
H100向上連的數(shù)量。800G
雙端口多模收發(fā)器245,760147,456147,456800G
單模收發(fā)器光模塊總數(shù)6,144350,208
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年浙江建設職業(yè)技術學院單招職業(yè)技能測試題庫及完整答案詳解1套
- 2026年正德職業(yè)技術學院單招職業(yè)適應性測試題庫含答案詳解
- 2026年貴州文化旅游職業(yè)學院單招職業(yè)適應性考試題庫含答案詳解
- 2026年浙江汽車職業(yè)技術學院單招綜合素質(zhì)考試題庫及答案詳解一套
- 2026年長春早期教育職業(yè)學院單招職業(yè)技能考試題庫及參考答案詳解一套
- 2026年駐馬店幼兒師范高等專科學校單招職業(yè)傾向性考試題庫及參考答案詳解一套
- 2025年鄂州市華容區(qū)屬國有企業(yè)面向社會公開招聘工作人員備考題庫完整答案詳解
- 【歷 史】2025-2026學年七年級上冊地圖信息合集課件
- 2025年楚雄市愛昕健康養(yǎng)老產(chǎn)業(yè)有限公司招聘備考題庫及一套答案詳解
- 信陽國信發(fā)展集團有限公司2025年公開招聘職業(yè)經(jīng)理人備考題庫及答案詳解1套
- 2025-2030集中式與分散式青年公寓運營效率對比分析
- 礦山環(huán)境監(jiān)測評價報告
- 廣西協(xié)美化學品有限公司年產(chǎn)7400噸高純有機過氧化物項目環(huán)評報告
- 智慧樹知道網(wǎng)課《艾滋病、性與健康》課后章節(jié)測試答案
- 配電施工工藝培訓
- 2025年全國教師師德網(wǎng)絡培訓考試題庫及答案
- 2025年醫(yī)院新進人員崗前培訓綜合試題(附答案)
- 2025年嫩江市招聘農(nóng)墾社區(qū)工作者(88人)筆試備考試題附答案詳解
- 醫(yī)藥行業(yè)KA經(jīng)理工作匯報
- 乳液穩(wěn)定性研究-洞察及研究
- 人工智能在醫(yī)藥健康領域的應用
評論
0/150
提交評論