版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025行業(yè)分析報(bào)告 6 6 8 3.產(chǎn)業(yè)鏈影響:分工細(xì)化,各環(huán)節(jié)均有增量 3.1服務(wù)器:產(chǎn)業(yè)鏈分工細(xì)化 3.2光通信:國產(chǎn)超節(jié)點(diǎn)方案帶來光模塊增量 3.3銅連接:高速背板連接、銅連接仍為重 圖1:同樣為256GPUPod,不同組網(wǎng)技術(shù)導(dǎo)致組網(wǎng)效率不同 6圖2:集群擴(kuò)大有Scale-up和Scale-out兩個(gè)方向 6圖3:英偉達(dá)NVLinkClos拓?fù)?8圖4:AMDMI300X網(wǎng)狀互聯(lián)拓?fù)?8圖5:英偉達(dá)Scale-up演進(jìn)趨勢(shì):機(jī)柜算力密度大幅提升趨勢(shì) 9圖6:GB200NVL72為單機(jī)柜“超節(jié)點(diǎn)”產(chǎn)品 9圖7:GB200NVL72拓?fù)洹?2個(gè)B200通過18個(gè)NVSwitch實(shí)現(xiàn)全互聯(lián).10圖8:AMDInfinityFabric演進(jìn)圖 圖9:IF128超節(jié)點(diǎn)內(nèi)通過IFoE實(shí)現(xiàn)互聯(lián) 圖10:MI450X預(yù)計(jì)將采用IFoE實(shí)現(xiàn)Scale-up 圖11:25個(gè)D1Die構(gòu)成一張DojoTrainingTile 圖12:6個(gè)Tile加20張DIP構(gòu)成1個(gè)SystemTray 圖13:1個(gè)機(jī)柜(Cabinet)包含2個(gè)SystemTray和1個(gè)Host 圖14:借助DIP和TTPoE,Dojo通過以太網(wǎng)形成互聯(lián) 圖15:基于DeepSeekR1測(cè)算,相較于Hopper架構(gòu),GB300NVL72的性能提升顯著:用戶響應(yīng)(單用戶TPS,橫軸)提升約10倍,運(yùn)算吞吐量(每兆瓦TPS,縱軸)提升約5倍,整體性能提升達(dá)50倍 圖16:Scaleup網(wǎng)絡(luò)規(guī)模的提升,對(duì)模型性能優(yōu)化顯著 圖17:CloudMatrix384為16機(jī)柜的“超節(jié)點(diǎn)”產(chǎn)品 圖18:CloudMatrix中384個(gè)NPU通過2層UBSwitch實(shí)現(xiàn)全互聯(lián) 圖19:通過兩層UBSwitch網(wǎng)絡(luò)實(shí)現(xiàn)全互聯(lián) 20圖20:實(shí)測(cè)數(shù)據(jù)證明兩層UBSwitch互聯(lián)對(duì)超節(jié)點(diǎn)性能影響較小 20圖21:Decode優(yōu)化,目的是減少EP并行的巨大的通信開銷和串行依賴 22圖22:Prefill優(yōu)化,目的是做大吞吐,采用混合并行+微批次預(yù)填充流水線 23圖23:DeepseekV3/R1on華為CM384 24圖24:DeepseekV3/R1onGB200NVL72 24圖25:不同Batchsize對(duì)不同任務(wù)下吞吐的影響 24圖26:華為CM384采用PDC分離架構(gòu) 25圖27:Prefill和Decode實(shí)例數(shù)量的比例關(guān)系示意 26圖28:英偉達(dá)計(jì)算板卡和交換板卡設(shè)計(jì)復(fù)雜 28圖29:CloudMatrix384超節(jié)點(diǎn)在UB網(wǎng)絡(luò)的Scaleup組網(wǎng)拓?fù)?,NPU的400G光模塊用量比在1:14,或者800G光模塊的用量比在1:7 29圖30:華為設(shè)計(jì)UB-Mesh網(wǎng)絡(luò)架構(gòu)優(yōu)化LLM訓(xùn)練性能 圖31:UB-Mesh重點(diǎn)強(qiáng)化了NPU的電氣電纜直接互連 圖32:光電混合是重要的技術(shù)趨勢(shì) 表1:Scale-up和Scale-out在通信帶寬上存在較大差異 表2:光與銅連接在距離、成本、功耗等方面區(qū)別影響超節(jié)點(diǎn)Scaleup的規(guī)模設(shè)計(jì) 表3:CloudMatrix384整體算力為GB200NVL72的1.7倍 21表4:Prefill任務(wù)和Decode任務(wù)特性對(duì)比 22表5:華為在單卡算力更低的情況下,實(shí)現(xiàn)了更高Prefill吞吐 26表6:不同AI芯片推理DeepseekR1模型的單卡Decode吞吐對(duì)比 26表7:英偉達(dá)今年并購標(biāo)的提升算力集群軟硬件能力 27表8:重要公司估值表 大模型參數(shù)增長和模型架構(gòu)變化的背景下,Scaleup和Scaleout是算力系統(tǒng)擴(kuò)容的兩個(gè)重要維度,可以幫助理解AI計(jì)算與網(wǎng)絡(luò)硬件的發(fā)展趨勢(shì)。以貨輪為比喻,當(dāng)總運(yùn)力需求擴(kuò)張時(shí),Scale-up是建造更大的貨輪,而Scale-out則是增加貨輪的數(shù)量。Scale-up追求硬件的緊密耦合;Scale-out追求實(shí)現(xiàn)彈性擴(kuò)展,支撐松散任務(wù)(如數(shù)據(jù)并行)。二者在協(xié)議棧、硬件、容錯(cuò)機(jī)制上存在本質(zhì)差異,通信效率不以A100和H100分別組成的DGX256Pod為例,兩者均由32臺(tái)8卡服務(wù)器跨機(jī)柜組成。DGXA100實(shí)際為服務(wù)器通過Infiniband交換網(wǎng)絡(luò)Scale-out組成;而DGXH100通過第二層NVSwitch組網(wǎng),實(shí)現(xiàn)256個(gè)H100全互聯(lián),為Scale-up,形成1個(gè)超大節(jié)點(diǎn),在通信性能方面具備優(yōu)勢(shì)。華為HCCS392GB/s1)Scaleup較多表示GPU在節(jié)點(diǎn)內(nèi)部的性能擴(kuò)充。例如:增加Computedie或HBM的數(shù)量、性能;增加服務(wù)器等節(jié)點(diǎn)內(nèi)的GPU數(shù)量,通過PCB、銅線等進(jìn)行小范圍互聯(lián);有時(shí)會(huì)增加一層交換芯片,例如PCIeSwitch、NVSwitch都是算力scaleup的一部分。(傳統(tǒng)的AI4卡、8卡、16卡服務(wù)器都是典型的Scaleup形式。)Scale-up系統(tǒng)往往對(duì)基于算力優(yōu)化的網(wǎng)絡(luò)協(xié)議與標(biāo)準(zhǔn)有更高技術(shù)要求。代表性的Scale-up網(wǎng)絡(luò)包括英偉達(dá)多年迭代的NVLink、基于AMD早期InfinityFabric協(xié)議的UALink、博通發(fā)布的ScaleUpEthernet(SUE)等,擁有更高的帶寬和信令速率,從底層協(xié)議到系統(tǒng)硬件一般均獨(dú)立與傳統(tǒng)通信網(wǎng)絡(luò)。例如英偉達(dá)的Blackwell芯片,其NVLink帶寬達(dá)到1.8TB/s,由18個(gè)Port構(gòu)成,每個(gè)Port100GB/s、四對(duì)差分線構(gòu)成、包含兩組224Gbps的Serdes。Scaleup場(chǎng)景:張量并行、專家并行等,高頻交互、內(nèi)存讀寫是重點(diǎn),通常放在超高帶寬、超低時(shí)延的網(wǎng)絡(luò)中進(jìn)行處理。Scaleup本質(zhì)上是支持內(nèi)存語義的網(wǎng)絡(luò)。例如NVLink,在節(jié)點(diǎn)范圍內(nèi)實(shí)現(xiàn)內(nèi)存語義級(jí)通信和總線域網(wǎng)絡(luò)內(nèi)部的內(nèi)存共享,本質(zhì)上是一個(gè)顯存的Load-Store網(wǎng)絡(luò),性能和延遲均優(yōu)于傳統(tǒng)網(wǎng)絡(luò)協(xié)議。一般Scaleup網(wǎng)絡(luò)是GPU芯片直出互連,不采用傳統(tǒng)網(wǎng)絡(luò)的傳輸層和網(wǎng)絡(luò)層,采用信用機(jī)制流量控制、鏈路層重傳等機(jī)制保障可靠性。上代Scale-up規(guī)模為8卡,英偉達(dá)Clos結(jié)構(gòu)領(lǐng)先。8卡服務(wù)器時(shí)代Scale-up主要為兩種拓?fù)洹?)網(wǎng)狀拓?fù)洌篏PU之間以“手拉手”形式實(shí)現(xiàn)全互聯(lián),無交換芯片導(dǎo)致通信壓力集中于GPU上,且GPU一對(duì)一通信效率下滑。2)Clos拓?fù)洌河ミ_(dá)將引入交換芯片引入Scale-up,使通信壓力集中于NVSwitch,GPU間形成無阻塞的全互聯(lián);通信帶寬彈性較大,能更好處理通信峰值,使集群性能提升。資料來源:英偉達(dá),申萬宏源研究當(dāng)前Scale-up突破傳統(tǒng)單服務(wù)器、單機(jī)柜限制進(jìn)入“超節(jié)點(diǎn)”時(shí)代。Scale-up可理解為增加單個(gè)節(jié)點(diǎn)(過去指單臺(tái)服務(wù)器)內(nèi)GPU數(shù)量(從2卡到8卡但其核心在于實(shí)現(xiàn)節(jié)點(diǎn)內(nèi)全互聯(lián)GPU,而非物理地存在于單臺(tái)服務(wù)器或單個(gè)機(jī)柜。隨著互聯(lián)技術(shù)的演進(jìn),Scale-up正在突破單服務(wù)器、單機(jī)柜的限制,“超節(jié)點(diǎn)”可以跨服務(wù)器、跨機(jī)柜。Scaleup已成為全球算力方案商的發(fā)力重點(diǎn)。英偉達(dá)除了將NVLink的性能迭代作為重要定期更新之外,在2025COMPUTEX會(huì)議上還以NVLinkFusionIP授權(quán)的形式對(duì)第三方部分開放了NVLink機(jī)柜級(jí)的架構(gòu)互聯(lián);臺(tái)媒《電子時(shí)報(bào)》報(bào)道稱,首款支持UALink規(guī)范高速互聯(lián)芯片最早可能今年底實(shí)現(xiàn)流片;博通發(fā)布ScaleUpEthernet技術(shù)框架,在多XPU系統(tǒng)中提供XPU間的通信。超節(jié)點(diǎn)實(shí)際就是算力網(wǎng)絡(luò)系統(tǒng)在單個(gè)或多個(gè)機(jī)柜層面的Scaleup,節(jié)點(diǎn)內(nèi)主流通信方案是銅連接與電氣信號(hào),跨機(jī)柜則考慮引入光通信;其與Scaleout的硬件邊界是NIC網(wǎng)卡,外部借助光模塊、以太網(wǎng)交換機(jī)等設(shè)備。二者的架構(gòu)設(shè)計(jì)、硬件設(shè)備、協(xié)議標(biāo)準(zhǔn)有本質(zhì)不同。目前,Scaleup和Scaleout尚未融合或交叉,以英偉達(dá)、博通、華為、海光等為代表的芯片廠商預(yù)計(jì)在Scaleup領(lǐng)域深耕,而以太網(wǎng)(例如博通網(wǎng)絡(luò)芯片、海思網(wǎng)絡(luò)芯片、盛科通信等)則聚焦Scaleout領(lǐng)域。英偉達(dá)在HopperGPU一代嘗試突破服務(wù)器架構(gòu)、在機(jī)柜層級(jí)拓展Scaleup系統(tǒng)。英偉達(dá)2023年發(fā)布DGXGH200系統(tǒng)是較早的“超節(jié)點(diǎn)”嘗試,同過去A100和H100系列服務(wù)器最大區(qū)別在于,將GraceCPU和HopperGPU封裝在同一塊板卡上,連同其他部件形成1U大小的“刀片服務(wù)器”,并將其通過內(nèi)部線纜(cablecartridge)和光模塊的方式和2層專門設(shè)計(jì)的NVLink交換機(jī)連接在一起。我們預(yù)計(jì),早期成本和節(jié)點(diǎn)規(guī)模設(shè)計(jì)等因素影響了GH200的實(shí)際推廣。2024年3月,英偉達(dá)推出基于BlackwellGPU打造的GB200NVL72超節(jié)點(diǎn)產(chǎn)品,NVL72是較為成熟的超節(jié)點(diǎn)產(chǎn)品。借助第五代NVLink,GB200系統(tǒng)最大可576個(gè)GPU擴(kuò)容,目前商用方案在柜層面連接72個(gè)GPU,相較此前GH200系統(tǒng),Scaleup的帶寬與尋址性能大幅提升。Scale-up方案:NVL72中72個(gè)B200GPU分布于18個(gè)ComputeTray中;18個(gè)NVSwitch交換機(jī)芯片分布于9個(gè)SwitchTray中。72個(gè)GPU通過盲插高速背板(blindmatebackplane)實(shí)現(xiàn)Scale-up,銅線為主。NVL72中所有Tray部署在單個(gè)機(jī)柜中,可視為一個(gè)超節(jié)點(diǎn)。Scale-out為光通信方案:依靠InfiniBand或以太網(wǎng),對(duì)應(yīng)ConnectX-7的400G(800G)網(wǎng)卡與交換機(jī),或未來升級(jí)的ConnectX-8的800G(1.6T)網(wǎng)絡(luò),帶動(dòng)800G至1.6T光模塊、交換機(jī)的放量。拓?fù)浣Y(jié)構(gòu)上,72個(gè)B200通過單層的NVSwitch(圖7中橙色部分)實(shí)現(xiàn)全互聯(lián),每個(gè)B200對(duì)超節(jié)點(diǎn)內(nèi)其他71個(gè)GPU的通信帶寬均達(dá)到1800GB/s,應(yīng)對(duì)通信峰值的能力顯著提升。資料來源:網(wǎng)易,申萬宏源研究InfinityFabric是AMD的互聯(lián)總線技術(shù),既用于芯片內(nèi)部的不同模組,也用于外部互聯(lián)。IF的總線結(jié)構(gòu)包含兩個(gè)部分:負(fù)責(zé)數(shù)據(jù)傳輸?shù)腟calableDataFabric(SDF)、負(fù)責(zé)控制的ScalableControlFabric(SCF),分別類比為血管和神經(jīng)。IF的設(shè)計(jì)目標(biāo)是將不同芯片納入同一控制下的系統(tǒng)并確保數(shù)據(jù)傳輸?shù)母咄卣剐?,包括異?gòu)芯片(如CPU和GPU)以及同個(gè)芯片上的不同Die。InfinityFabric演進(jìn)路徑:第一代:用于CPU-CPU通信,①實(shí)現(xiàn)雙路或多路服務(wù)器中多個(gè)CPU間頻繁交換數(shù)據(jù)和同步任務(wù);避免傳統(tǒng)PCIe總線的瓶頸;②支持全局地址空間,使多個(gè)CPU可共享內(nèi)存資源。第二代:4個(gè)GPU間形成環(huán)形連接,但CPU-GPU通信仍為傳統(tǒng)PCIe。第三代:8個(gè)GPU通過IF連接形成網(wǎng)狀拓?fù)?,同時(shí)CPU-GPU間通過IF連接,IF實(shí)現(xiàn)CPU與GPU的統(tǒng)一內(nèi)存尋址;CPU可直接訪問GPU顯存,避免數(shù)據(jù)遷移開銷,加速AI推理中的模型參數(shù)傳遞。根據(jù)TechPowerUp,AMD將在26H2推出搭載128個(gè)MI450X的超節(jié)點(diǎn)產(chǎn)品。AMD或?qū)沓?jié)點(diǎn)新的融合技術(shù)路徑,MI450XIF128通過實(shí)現(xiàn)以太網(wǎng)Scale-up。與NVL72類似,4個(gè)MI450X與1個(gè)EPYCCPU組成1U的ComputeTray,32個(gè)ComputeTray分布于2個(gè)機(jī)柜中,由SwitchTray中的定制IFoE交換芯片實(shí)現(xiàn)互聯(lián),兩個(gè)機(jī)柜通過銅背板實(shí)現(xiàn)連接。與NVL72不同的是,IF128內(nèi)GPU的連接通過IFoE(InfinityFabricoverEthernet)連接,可以理解為基于以太網(wǎng)技術(shù)的打造了新的超節(jié)點(diǎn)互聯(lián)方式,對(duì)標(biāo)UB互聯(lián)網(wǎng)絡(luò)及NVLink,一定程度地打破Scale-up和Scale-out界限。我們認(rèn)為,在當(dāng)前大模型和超節(jié)點(diǎn)趨勢(shì)下,集群Scaling采用Clos類拓?fù)涞拇_定性較高,而Scale-up的技術(shù)路徑將受到工程、通信協(xié)議優(yōu)化等因素影響。2019年4月,馬斯克首次在TeslaAutonomyInvestorDay上分享特斯拉專為神經(jīng)網(wǎng)絡(luò)和自動(dòng)駕駛汽車設(shè)計(jì)的AI訓(xùn)練超級(jí)計(jì)算機(jī)Dojo。2021年8月,TeslaAIDay正式官宣Dojo技術(shù)細(xì)節(jié);2023年7月Dojo上線并開始投入使用。Dojo系統(tǒng)與傳統(tǒng)AI架構(gòu)形成鮮明對(duì)比。由于Dojo專為視頻等視覺訓(xùn)練數(shù)據(jù)打造,在計(jì)算/存儲(chǔ)/帶寬上進(jìn)行了專門化設(shè)計(jì),從芯片設(shè)計(jì)到服務(wù)器網(wǎng)絡(luò)架構(gòu)均與傳統(tǒng)AI架構(gòu)不層級(jí)一:最小芯片單元為D1Die(大致類比為GPU由354個(gè)DojoCore構(gòu)成。每個(gè)DojoCore擁有1.25MB的片上SRAM,1TFlop的FP16算力,并包含了東-西-南-北四個(gè)方向的NOC網(wǎng)絡(luò)連接,直接與相鄰的4個(gè)Core連接,Core間雙向帶寬達(dá)到256GB/s。因此,一個(gè)D1Die擁有440MBSRAM、362TFlopsBF16算力。D1Die采用臺(tái)積電7nm工藝,面積為645mm2、功耗為400W。層級(jí)二:25個(gè)D1Die以5×5矩形陣列的形狀,通過40個(gè)I/ODie相互連接,組成1個(gè)TrainingTile。TrainingTile是解決供電、散熱、對(duì)外連接的最小單元,每個(gè)Tile提供15kW的功率(其中D1Die共10kW,其他為I/O等)每個(gè)D1die在垂直方向的下面,提供單獨(dú)的供電(共18000A、52VDC,自研電源模塊);5×5矩陣每個(gè)邊,提供9TB/s帶寬,自研連接器通過高速線纜與相鄰Tile串聯(lián)。層級(jí)三:每6個(gè)Tile搭配20張DojoInterfaceProcessor(DIP組成1個(gè)SystemTray(大致可類比為服務(wù)器)。DIP部署在6個(gè)Tile組成的陣列的邊緣,用于內(nèi)存擴(kuò)容、PCIe擴(kuò)展、網(wǎng)絡(luò)連接。DIP是Dojo組網(wǎng)的核心,可類比為Nvidia的DPU+NVSwitch+InfiniBandNIC,提供共享內(nèi)存,與相鄰D1Die互聯(lián)、集群網(wǎng)絡(luò)連接、以及Host的連接。1)每個(gè)DIP提供800GB/s內(nèi)存帶寬、32GB的HBM內(nèi)存,每個(gè)SystemTray對(duì)應(yīng)640GB的可共享內(nèi)存。2)對(duì)外連接分為三個(gè)方向。①TTP(TeslaTransportProtocol):類比通過NVLinkScale-up,實(shí)現(xiàn)跨SystemTray之間Tile的高速互聯(lián),帶寬為900GB/s;②TTPoE(TTPoverEthernet):用于對(duì)外連接以太網(wǎng)交換機(jī),類比Scale-out,每張DIP對(duì)應(yīng)1個(gè)帶寬為50GB/s(400Gbps)的接口;③PCIGen4:用于連接Host系統(tǒng)(核心為CPU,用于控制、管理),帶寬為32GB/s。層級(jí)四:2個(gè)SystemTray+1個(gè)CPU為核心的Host系統(tǒng)組成1個(gè)機(jī)柜。每個(gè)機(jī)柜包含40個(gè)400GBps接口,使用光連接與其它機(jī)柜進(jìn)行Scale-out。資料來源:申萬宏源研究2DMesh(2維網(wǎng)格)結(jié)構(gòu)下,Dojo借助軟件與網(wǎng)絡(luò)平衡系統(tǒng)中的Scaling問題。傳統(tǒng)AI架構(gòu)(Clos架構(gòu))中,超節(jié)點(diǎn)內(nèi)、超節(jié)點(diǎn)間GPU通信距離分別相等;而Dojo系統(tǒng)中Scale-up更像是在2D地圖上的行進(jìn),Scale-up的距離、時(shí)延隨著物理距離的增加而增加,且跨Tile/Tray時(shí)通信帶寬降低。因此Dojo通過軟件與網(wǎng)絡(luò)設(shè)計(jì),把大量的數(shù)據(jù)通信范圍控制在本地較短的距離上,而長距離的全局通信則聚焦在同步(synchronization)、AllReduce等環(huán)節(jié)。將Dojo的Scaling簡單分為兩個(gè)層級(jí):2D(近似類比為Scale-up):Dojo系統(tǒng)的多數(shù)數(shù)據(jù)處理可以在Tile或數(shù)個(gè)Tiles的層級(jí)上完成,主要的數(shù)據(jù)傳輸通過相鄰D1Die之間的片上直連、經(jīng)過多跳完成,物理距離越遠(yuǎn),通信效率越低;3D(Scale-out)當(dāng)數(shù)據(jù)傳輸路徑太長時(shí)(例如橫跨兩個(gè)機(jī)柜),通過TTPoE的以太網(wǎng)連接,僅需約4跳即可完成互聯(lián)(Tile01->DIP01->交換機(jī)->DIP02->Tile02,共4組連接)。Dojo進(jìn)展不及預(yù)期,特斯拉算力主力仍為英偉達(dá)。24Q4財(cái)報(bào)電話會(huì)上,特斯拉宣布已完成Cortex超級(jí)計(jì)算集群(包含10萬張英偉達(dá)H100和H200)部署,并表示Cortex是推動(dòng)FSDV13版本實(shí)現(xiàn)的關(guān)鍵;而Dojo到24年底的訓(xùn)練能力僅約等于8000張H100。我們認(rèn)為,Dojo的封閉生態(tài)和2DMesh拓?fù)浣Y(jié)構(gòu)為重要掣肘。問題一:Dojo作為全定制芯片,需要完全重構(gòu)軟件棧。由于Dojo的硬件設(shè)計(jì)上與傳統(tǒng)GPU架構(gòu)顯著不同,在搭建軟件棧時(shí)需要自上而下的完全重構(gòu);行業(yè)主流AI框架基于CUDA深度優(yōu)化,在訓(xùn)練平臺(tái)遷移時(shí),與主流AI框架的算子對(duì)齊、以及算子在硬件上的實(shí)現(xiàn)需要比其他GPU平臺(tái)互相遷移(如CUDA→CANN)更大的成本。當(dāng)其由視頻數(shù)據(jù)相關(guān)訓(xùn)練轉(zhuǎn)向通用訓(xùn)練時(shí),生態(tài)問題可能更為凸顯。問題二:Dojo2DMesh拓?fù)鋸椥暂^弱,不利于全局通信、不符合主流大模型趨勢(shì)。2DMesh的核心優(yōu)勢(shì)在于局部通信高效,鄰近節(jié)點(diǎn)通信跳數(shù)少,適合計(jì)算任務(wù)具有強(qiáng)空間局部性的場(chǎng)景(如流體動(dòng)力學(xué)仿真、圖像處理)。對(duì)于MoE模型而言,模型在訓(xùn)推時(shí)需動(dòng)態(tài)分配輸入數(shù)據(jù)到不同專家網(wǎng)絡(luò),導(dǎo)致需要頻繁的All-to-All通信。而2DMesh的固定拓?fù)浣Y(jié)構(gòu)(2D網(wǎng)格)要求數(shù)據(jù)必須通過相鄰節(jié)點(diǎn)跳轉(zhuǎn),All-to-All通信時(shí)將受到“木桶效應(yīng)”中短板的拖累,導(dǎo)致整個(gè)集群的效率降低。此外,MoE中部分高頻專家可能被過度激活,而2DMesh的固定路徑易使熱點(diǎn)專家所在節(jié)點(diǎn)成為通信瓶頸,導(dǎo)致整體算力閑置。問題三:工程問題或?yàn)橄拗艱ojo的又一因素。Dojo中單Tile功率達(dá)到15kW,單機(jī)柜中僅計(jì)算部分功率超過180kW(NVL72整體功率為145kW對(duì)供電設(shè)施及熱管理(液冷)等工程需求提升,能效比的優(yōu)勢(shì)可能被數(shù)據(jù)中心基礎(chǔ)設(shè)施的成本抵消。Scaleup超節(jié)點(diǎn)設(shè)計(jì)對(duì)模型訓(xùn)練、推理性能提升效果顯著,尤其相較于傳統(tǒng)8卡服務(wù)器架構(gòu)。LLM的實(shí)時(shí)延遲、多用戶并發(fā)、降低服務(wù)成本是當(dāng)前AI應(yīng)用的剛需。使用多GPU的超節(jié)點(diǎn)架構(gòu)和張量并行等技術(shù)來運(yùn)行大型模型,可以快速處理推理請(qǐng)求,從而實(shí)現(xiàn)實(shí)時(shí)響應(yīng);若進(jìn)一步均衡選擇超節(jié)點(diǎn)內(nèi)的GPU數(shù)量,還可以同時(shí)優(yōu)化用戶體驗(yàn)和成本。超節(jié)點(diǎn)的多GPU推理是通信密集型推理。據(jù)英偉達(dá)技術(shù)博客,多GPUTP推理的工作原理是將每個(gè)模型層的計(jì)算拆分為服務(wù)器中的2個(gè)、4個(gè)甚至8個(gè)GPU,理論上GPU的數(shù)量等同于模型運(yùn)行速度的提升倍數(shù)。但每個(gè)GPU完成模型層各自部分的執(zhí)行后,必須將計(jì)算結(jié)果發(fā)送到每個(gè)其他GPU(all-to-allreduction),且通信時(shí)計(jì)算閑置,因此縮短GPU之間的結(jié)果通信時(shí)間至關(guān)重要。而對(duì)比全球主要科技廠商的超節(jié)點(diǎn)方案,基本可分為單柜更多GPU的單柜高密高電路徑、多機(jī)柜多GPU路徑兩大方向。目前,前者對(duì)單體供電要求、柜內(nèi)銅/電氣信號(hào)和背板連接、液冷要求更高(英偉達(dá)NVL72為例而后者對(duì)光學(xué)連接要求更高(谷歌TPU、華為CloudMatrix為例)。超節(jié)點(diǎn)內(nèi)GPU數(shù)量與架構(gòu)的設(shè)計(jì),受底層模型并行、數(shù)據(jù)中心架構(gòu)、成本性能均衡等影響,壁壘較高。1)模型角度,參考Meta論文(下圖)基于英偉達(dá)H100GPU對(duì)GPT模型進(jìn)行研究,當(dāng)前72卡規(guī)模以上的Scaleup節(jié)點(diǎn)是較優(yōu)的選擇。如果將NVLink互聯(lián)的Scaleup網(wǎng)絡(luò)理解為一個(gè)高帶寬域(HighBandwidthDomain,HBD),對(duì)于GPT-1T模型,GPU數(shù)量在64卡以上時(shí)相較于傳統(tǒng)8卡系統(tǒng)性能提升顯著;同時(shí),當(dāng)Scaleup的NVLink網(wǎng)絡(luò)規(guī)模增大時(shí),實(shí)際上節(jié)點(diǎn)內(nèi)互聯(lián)的RDMA帶寬帶來的性能收益在減小。在考慮系統(tǒng)復(fù)雜度、工程難度和成本等因素下,72卡是目前英偉達(dá)Blackwell超節(jié)點(diǎn)的均衡選擇。而當(dāng)模型架構(gòu)變化(例如MoE增加對(duì)顯存的訪問需求)、參數(shù)量繼續(xù)增長后,更大規(guī)模的Scaleup超節(jié)點(diǎn)預(yù)計(jì)是必然選擇(例如華為CloudMatrix384系統(tǒng)、英偉達(dá)VRNVL576系統(tǒng)等)。資料來源:論文《HowtoBuildLow-cos2)IDC實(shí)踐角度,超節(jié)點(diǎn)設(shè)計(jì)應(yīng)考慮機(jī)房內(nèi)液冷、供電、布線和整體布局的實(shí)際情況。以英偉達(dá)GB200NVL72機(jī)柜為例,整個(gè)機(jī)柜功率大約120kW、采用標(biāo)準(zhǔn)的19英寸機(jī)柜,按照物理原理和行業(yè)慣例,單機(jī)柜功率超過30至40kW則有必要采用液冷方案,此時(shí)72GPU的Scaleup超節(jié)點(diǎn)是目前單機(jī)柜內(nèi)的擴(kuò)展密度的極限,除非進(jìn)一步優(yōu)化供電和散熱能力;以華為為代表的國產(chǎn)硬件廠商工程優(yōu)化能力出色,結(jié)合我國市場(chǎng)的制造、基建、能源和產(chǎn)業(yè)鏈優(yōu)勢(shì),則可以考慮將Scaleup擴(kuò)展至多機(jī)柜布局,如華為CloudMatrix384系統(tǒng)。模塊化布局也是AI機(jī)房發(fā)展的重要趨勢(shì),利于交付和運(yùn)維。維諦技術(shù)、科華數(shù)據(jù)、英維克等公司針對(duì)算力集群需求推出模塊化和一體化解決方案,整合計(jì)算、電氣、溫控等模塊,符合云廠商定制化需求、同時(shí)加快交付節(jié)奏。傳統(tǒng)IDC通常逐機(jī)柜上架,依照經(jīng)驗(yàn),上架率達(dá)到90%大約需要12-18個(gè)月的上架周期;而智算中心交付需求時(shí)間通常在3-9個(gè)月,未來甚至更短,超節(jié)點(diǎn)的模塊屬性滿足AI大廠快速投建投產(chǎn)的需求。3)成本角度,光通信等組網(wǎng)成本、系統(tǒng)復(fù)雜度和維護(hù)也制約了超節(jié)點(diǎn)Scaleup的規(guī)AI集群的通信需求,帶寬固定(等寬網(wǎng)絡(luò)),但距離多變。參考標(biāo)準(zhǔn)的19英寸機(jī)柜,僅一個(gè)5臺(tái)機(jī)柜的節(jié)點(diǎn),服務(wù)器到一層交換機(jī)的連接距離預(yù)計(jì)在3至5m以上,光連接是跨機(jī)柜連接的必要選擇,小集群內(nèi)的多模光模塊+多模光纖連接是主流;而機(jī)柜內(nèi)連接則可選擇背板、銅纜、PCB等方案。銅連接(DAC等)最大優(yōu)勢(shì)是成本與功耗,痛點(diǎn)則是距離。參考英偉達(dá)官方配置的800G無源銅纜,最大傳輸距離3m;但優(yōu)勢(shì)是功耗極低,幾乎沒有額外耗電;以及相較于有源電纜更低的成本(無驅(qū)動(dòng)芯片)。有源銅纜可以以1.5W的功耗將距離擴(kuò)展至最大5m;預(yù)計(jì)1.6T網(wǎng)絡(luò)下,該距離縮短。而光模塊的有效連接距離、速率升級(jí)潛力是最大優(yōu)因此從英偉達(dá)的NVL72方案到華為的CloudMatrix384系統(tǒng),參考當(dāng)前不同速率光模塊的采購成本(400G、800G到1.6T之間差異巨大),超節(jié)點(diǎn)的規(guī)模選擇也考慮了綜合成本、系統(tǒng)運(yùn)維因素。產(chǎn)品系列內(nèi)部型號(hào)速率制式長度應(yīng)用場(chǎng)景備注產(chǎn)品系列內(nèi)部型號(hào)速率制式長度應(yīng)用場(chǎng)景備注switch-to-switchandswitch-to-switches,liquid-cooSpectrum-4air-cooled2.2華為CM384:跨機(jī)柜超節(jié)點(diǎn)國產(chǎn)范式2025年4月,華為正式推出基于384個(gè)昇騰NPU構(gòu)建的CloudMatrix384超節(jié)點(diǎn)。產(chǎn)品形態(tài)上,384個(gè)NPU分布于48臺(tái)8卡服務(wù)器中,48臺(tái)服務(wù)器分布于12個(gè)計(jì)算機(jī)柜內(nèi);通過4個(gè)交換機(jī)柜實(shí)現(xiàn)384個(gè)NPU的全互聯(lián)。拓?fù)浣Y(jié)構(gòu)上,計(jì)算機(jī)柜內(nèi)的所有處理器通過UB鏈路連接到板載的UBSwitch交換芯片上,形成單層的UB平面。這些板載交換機(jī)(L1層)再通過高速鏈路連接到位于通信機(jī)柜中的第二層(L2)UB交換機(jī)。整個(gè)UB交換系統(tǒng)被精心設(shè)計(jì)成一個(gè)兩級(jí)、無阻塞的Clos網(wǎng)絡(luò)拓?fù)?。L2交換機(jī)被劃分為7個(gè)獨(dú)立的子平面,每個(gè)L1交換芯片精確地連接到對(duì)應(yīng)子平面的所有L2交換機(jī)。這種設(shè)計(jì)保證了從任何一個(gè)節(jié)點(diǎn)到L2交換矩陣的上行總帶寬與其內(nèi)部UB容量完全匹配,從而在整個(gè)384-NPU的超級(jí)節(jié)點(diǎn)范圍內(nèi)實(shí)現(xiàn)了無帶寬收斂,確保了任意NPU之間都能獲得穩(wěn)定、高帶寬的通信能力。而在信號(hào)和數(shù)據(jù)傳輸層面,CM384包含三大通路:1)UB平面:作為超節(jié)點(diǎn)內(nèi)部的核心擴(kuò)展(Scale-Up)網(wǎng)絡(luò),它以非阻塞的全對(duì)全拓?fù)溥B接所有NPU和CPU,每個(gè)昇騰910C提供392GB/s的單向帶寬。UB平面是實(shí)現(xiàn)大規(guī)模TP/EP和高效訪問分布式內(nèi)存池(用于緩存模型權(quán)重和KVCache)的關(guān)鍵。2)RDMA平面:用于超節(jié)點(diǎn)間的橫向擴(kuò)展(Scale-Out)通信,采用RoCE協(xié)議以兼容標(biāo)準(zhǔn)的RDMA生態(tài)。該平面主要連接NPU,用于在Prefill和Decode集群間高速傳輸KVCache,或支持跨超級(jí)節(jié)點(diǎn)的分布式訓(xùn)練。3)VPC平面:通過華為擎天DPU將超級(jí)節(jié)點(diǎn)接入更廣泛的數(shù)據(jù)中心網(wǎng)絡(luò),處理管理、控制、持久化存儲(chǔ)訪問以及外部服務(wù)通信等任務(wù)。對(duì)于一個(gè)AI推理任務(wù),其在CM384網(wǎng)絡(luò)中的流轉(zhuǎn)大致可抽象為:CPU通過VPC平面讀取內(nèi)存/硬盤數(shù)據(jù),通過UB平面將任務(wù)分發(fā)到各NPU,NPU進(jìn)行計(jì)算,并通過UB平面同步模型權(quán)重及KVCache,再通過RDMA平面與另一機(jī)柜間進(jìn)行KVCache交換。CloudMatrix384超節(jié)點(diǎn)核心:UB網(wǎng)絡(luò)保證節(jié)點(diǎn)間通信。CloudMatrix384通過兩層UBSwitch實(shí)現(xiàn)Scale-up。分層看,第一層UB網(wǎng)絡(luò)(圖19紅線)實(shí)現(xiàn)了小節(jié)點(diǎn)內(nèi)8張NPU的全互聯(lián),而二層UB網(wǎng)絡(luò)實(shí)現(xiàn)了48個(gè)小節(jié)點(diǎn)的無收斂全互聯(lián)。兩層Scale-up網(wǎng)絡(luò)結(jié)構(gòu)與英偉達(dá)此前推出的DGXH100256Pod(拓?fù)鋱D見圖1)類似,而由于熱功耗、穩(wěn)定性等工程問題,雙層NVLink的Scale-up并未大面積推廣。從實(shí)測(cè)數(shù)據(jù)看,CloudMatrix384兩層網(wǎng)絡(luò)對(duì)性能影響較小。如圖20,Intra-node表示最小節(jié)點(diǎn)內(nèi)的GPU通信(即8卡服務(wù)器內(nèi)Inter-node表示不同服務(wù)器中的GPU通信;由于Inter-node通信需要經(jīng)過L2UBSwitch(多一跳)因此通信性能有小幅影響。節(jié)點(diǎn)間帶寬衰減低于3%,節(jié)點(diǎn)間延遲增加低于1μs。鑒于現(xiàn)代AI工作負(fù)載主要依賴帶寬而非延遲,這種邊際延遲開銷對(duì)AI任務(wù)的端到端性能的影響微乎其微,因此CloudMatrix384可以理解為超大規(guī)模、緊密耦合的超節(jié)點(diǎn)。CloudMatrix384核心進(jìn)展在于UB網(wǎng)絡(luò)的工程能力突破,彌補(bǔ)單卡性能短板。與過去網(wǎng)狀8卡互聯(lián)相比,UB網(wǎng)絡(luò)將通信壓力更多轉(zhuǎn)移到UBSwitch上,提升NPU間一對(duì)一通信帶寬和超節(jié)點(diǎn)內(nèi)應(yīng)對(duì)通信峰值的能力,疊加優(yōu)化的通信協(xié)議顯著提升通信效率。我們認(rèn)為,在國產(chǎn)算力單卡性能仍有差距的情況下,通過光互聯(lián)組建大規(guī)模Scale-up超節(jié)點(diǎn)將成為趨勢(shì)。大規(guī)模超節(jié)點(diǎn)將更適合未來AI工作負(fù)載。與NVL72相比,CloudMatrix384超節(jié)點(diǎn)的算力達(dá)到300P,為NVL72的1.7倍;內(nèi)存為NVL72的3.6倍。隨著模型參數(shù)量、MoE模型趨勢(shì)下專家數(shù)量的增加,推理對(duì)計(jì)算、內(nèi)存和互連帶寬的要求將繼續(xù)提升。新興的架構(gòu)模式,如用于專門推理的模塊化子網(wǎng)絡(luò)、檢索增強(qiáng)生成或混合密集/稀疏計(jì)算,要求模型組件之間更緊密的耦合,從而增加模型內(nèi)部的通信和同步。這些工作負(fù)載需要將計(jì)算和內(nèi)存共置在一個(gè)緊密集成的超級(jí)節(jié)點(diǎn)內(nèi),以減少通信延遲并保持高吞吐量。因此,超節(jié)點(diǎn)的容量對(duì)維持MoE模型所需的細(xì)粒度局部性和性能特性較為重要。更大的資源池可以為非均勻大小的作業(yè)提供更大的部署靈活性,在實(shí)際工作負(fù)載分布下,擴(kuò)展超級(jí)節(jié)點(diǎn)規(guī)??娠@著提高系統(tǒng)吞吐量和效率。此外,擴(kuò)大超節(jié)點(diǎn)規(guī)模并不會(huì)必然導(dǎo)致每個(gè)NPU的網(wǎng)絡(luò)成本增加。假設(shè)網(wǎng)絡(luò)架構(gòu)相同,例如雙層Clos類交換拓?fù)?,只要配置?shí)現(xiàn)交換機(jī)端口充分利用,每個(gè)NPU的網(wǎng)絡(luò)基礎(chǔ)設(shè)施攤銷成本在不同規(guī)模間幾乎保持不變。給定交換層數(shù)下,超節(jié)點(diǎn)規(guī)模的擴(kuò)展不會(huì)帶來額外的成本開銷,因此從網(wǎng)絡(luò)角度來看,這是一種經(jīng)濟(jì)高效的策略。TB/sWW/TFLOP我們認(rèn)為,華為CM384機(jī)柜代表了國產(chǎn)超節(jié)點(diǎn)機(jī)柜的趨勢(shì)。我們對(duì)384機(jī)柜的總體一是為推理而生。AI大模型的推理,分為兩階段,Prefill(預(yù)填充)和Decode(解碼)。其中:1)Prefill:AI模型理解問題的過程,LLM并行處理所有用戶輸入的token,計(jì)算出對(duì)應(yīng)的KVCache,并生成第一個(gè)輸出token。2)Decode:AI模型生成結(jié)果的過程,模型基于已有的KVCache,通過自回歸方式順序生成后續(xù)的token,每次迭代只產(chǎn)生一個(gè)新token。P、D分離是當(dāng)前AI模型推理的趨勢(shì)。P、D分離的意思是,模型prefill任務(wù)和decode任務(wù),使用不同的芯片完成。一般來說,會(huì)將整個(gè)集群劃分為P實(shí)例和D實(shí)例,P實(shí)例只執(zhí)行Prefill任務(wù),D實(shí)例只執(zhí)行Decode任務(wù)。高低為什么是為推理而生?華為針對(duì)推理過程的Prefill和decode兩大階段,進(jìn)行了針對(duì)二是深度適配DeepSeek,機(jī)柜內(nèi)資源調(diào)度靈活性強(qiáng),一定程度犧牲多機(jī)柜靈活性。在大規(guī)模并行計(jì)算中,提升資源的使用效率是核心命題,同時(shí)需要考慮通信時(shí)延和成本,因此部署一個(gè)MoE模型,較佳的方案是:1)單機(jī)柜就可部署下整個(gè)模型,因?yàn)榭鐧C(jī)柜之間的通信一般速率低于機(jī)柜內(nèi)通信,減少跨機(jī)柜通信可提升效率。2)每個(gè)MoE盡量占據(jù)單個(gè)芯片,這樣芯片的核心可以充分用于計(jì)算而減少通信任務(wù),此外一定的冗余算力可以幫助實(shí)現(xiàn)負(fù)載均衡,減少閑置資源和時(shí)延。DeepseekV3/R1模型典型的特點(diǎn)之一是細(xì)顆粒度MoE,模型中包含256個(gè)專家,每個(gè)token只激活8個(gè)專家。華為的CM384機(jī)柜,充分考慮到了上述兩大問題,采用了適配Prefill階段的EP32+Decode階段的EP320的超節(jié)點(diǎn)內(nèi)芯片數(shù)量方案。Prefill階段:EP32策略,32個(gè)專家模型并行,DeepseekMoE擁有256個(gè)專家,因此一個(gè)die放置8個(gè)專家,32個(gè)die,16張卡組成一個(gè)prefill實(shí)例。Decode階段:EP320策略,320個(gè)專家模型并行,320=256個(gè)路由專家+32個(gè)共享專家+32個(gè)冗余專家。華為設(shè)計(jì)了一die一專家,Decode階段的320個(gè)專家需要使用160張昇騰910C芯片(一張芯片2die)。對(duì)比DeepseekV3/R1在英偉達(dá)GB200NVL72上的EP72策略,一卡四個(gè)專家,四個(gè)專家可能在不同時(shí)間被激活,增大了數(shù)據(jù)和通信的復(fù)雜程度(因此英偉達(dá)卡需要規(guī)定計(jì)算核和通信核,也在芯片內(nèi)增加了相應(yīng)的因此,384=320+32×2。就Deepseek模型而言,一個(gè)CM384超節(jié)點(diǎn)可以部署2個(gè)DeepseekDecode實(shí)例+4個(gè)Prefill實(shí)例。如何理解?可以把一個(gè)CM384超節(jié)點(diǎn)想象成一個(gè)公司,公司有768名員工(對(duì)應(yīng)768個(gè)die公司每天要處理大量的客戶請(qǐng)求(用戶Prompt)。每個(gè)客戶需求的處理都可以分成P和D兩個(gè)任務(wù),P任務(wù)有320個(gè)小環(huán)節(jié),D任務(wù)有32個(gè)小環(huán)節(jié),公司為了提升效率,讓640個(gè)人只做P任務(wù)(2個(gè)小組,每小組320人,每人只承擔(dān)一個(gè)小環(huán)節(jié))128個(gè)人只做D任務(wù)(4個(gè)小組,每小組32人,每人只承擔(dān)一個(gè)小環(huán)節(jié))。最終,CM384可以同時(shí)處理2個(gè)客戶需求中的P任務(wù),和4個(gè)客戶需求中的D任務(wù)。按照320、32劃分P和D,能做到的是當(dāng)客戶請(qǐng)求到達(dá)時(shí),每個(gè)人都在工作,不會(huì)有人在休息,且每個(gè)人的工作效率是最大的(后文解釋但是,未必能實(shí)現(xiàn)用最短的時(shí)間,處理完所有客戶請(qǐng)求,因?yàn)镻任務(wù)和D任務(wù)處理所需的時(shí)長是不一樣的,因此客戶請(qǐng)求足夠大時(shí),需要靈活調(diào)整P任務(wù)小組和D任務(wù)小組數(shù)量的比例。為什么按照320、32劃分,每個(gè)人(每個(gè)die)的工作效率是最大的?可見下圖為什么機(jī)柜內(nèi)的靈活性高?資源池化且是對(duì)等關(guān)系。華為把LLM的推理流程分解為三個(gè)可獨(dú)立擴(kuò)展的功能子系統(tǒng):Prefill(提示處理)集群、Decode(解碼生成)集群和Caching(緩存)集群,即PDC分離架構(gòu)。這三個(gè)子系統(tǒng)是對(duì)等(Peer-to-Peer)關(guān)系。其實(shí)實(shí)質(zhì)的是基于一個(gè)內(nèi)存總線,把所有的資源都拉平,無論是CPU還是GPU,或者是一些其它的內(nèi)存資源/存儲(chǔ)資源等,都拉平到一個(gè)大的超節(jié)點(diǎn)網(wǎng)絡(luò)中。這種設(shè)計(jì)與當(dāng)前主流的、以KVCache為中心的架構(gòu)(如vLLM)形成了鮮明對(duì)比。在傳統(tǒng)架構(gòu)中,請(qǐng)求的調(diào)度與KVCache的物理位置緊密耦合,系統(tǒng)必須將請(qǐng)求路由到存儲(chǔ)著其對(duì)應(yīng)KVCache的計(jì)算節(jié)點(diǎn)上,以避免高昂的跨節(jié)點(diǎn)內(nèi)存訪問開銷。這種設(shè)計(jì)雖然減少了數(shù)據(jù)移動(dòng),但大大增加了調(diào)度器的復(fù)雜性,容易導(dǎo)致負(fù)載不均,并限制了資源的靈活性。為什么多機(jī)柜靈活性差?P:D的實(shí)例未必是2:1前文提到,CM384超節(jié)點(diǎn)可容納4個(gè)Prefill實(shí)例和2個(gè)Decode實(shí)例,如果集群全部使用CM384,則Prefill實(shí)例:Decode實(shí)例為2:1時(shí),超節(jié)點(diǎn)的效用發(fā)揮最大。而現(xiàn)實(shí)的情況,以Deepseek官方為例,其實(shí)際部署的PD實(shí)例比例是3.26:1。原因包括1)Prefill階段要處理的token數(shù)和Decode階段要處理的token數(shù)不是1:1;2)Prefill任務(wù)單芯片的性能和Decode任務(wù)單芯片性能(吞吐)有差異。以上兩原因造成了P實(shí)例和D實(shí)例的處理任務(wù)時(shí)間差異,從系統(tǒng)最優(yōu)角度考慮,應(yīng)當(dāng)找到P和D處理任務(wù)時(shí)間的最小公倍數(shù),以下圖為例,最佳的P:D比例即為2:3.而對(duì)于英偉達(dá)NVL72而言,在EP72策略下,單機(jī)柜可以僅部署一個(gè)Decode實(shí)例,或者多個(gè)prefill實(shí)例,多個(gè)機(jī)柜便可靈活調(diào)整P:D節(jié)點(diǎn)比例。第三點(diǎn),華為CM384在國產(chǎn)AI芯片方案中已經(jīng)具備一定性價(jià)比,體現(xiàn)在單算力的MethodBatchSizeInputLengthThroughput(tokens/s)ThroughputperTFLOPSDeepSeekonH800(Blog)4,0262.03SGLangonH100(Default)16,3844,0966,2883.18CloudMatrix-Infer(Default)16,3844,0965,6553.76DeepSeekonH800(Profile)16,3844,0967,8393.96SGLangonH100(PerfectEPLB)16,3844,0967,4173.75CloudMatrix-Infer(PerfectEPLB)16,3844,0966,6884.45MethodBatchSizeKVCacheLengthTPOT(ms)Throughput(tokens/s)1,8502,3252,1721,943ThroughputperTFLOPSDeepSeek(Blog)onH800 DeepSeek(Profile)onH800SGLang(Simu.MTP)onH100 CloudMatrix-Infer4,989~50.00.934,0964,096~50.2~50.24,000~55.696964,0964,09649.449.4機(jī)柜/超節(jié)點(diǎn)趨勢(shì)下,AI芯片廠商縱向整合,提升自身通信、存儲(chǔ)、軟件等能力是確定趨勢(shì)。芯片巨頭在強(qiáng)化自己在算力網(wǎng)絡(luò)中的布局。英偉達(dá)、AMD、國內(nèi)海光信息吸收合并中科曙光,均在動(dòng)作。全球龍頭英偉達(dá)近6年并購案例8宗,聚焦于算力全鏈條整合。通過收購網(wǎng)絡(luò)技術(shù)(Mellanox)、軟件定義網(wǎng)絡(luò)(Cumulus)、行業(yè)應(yīng)用(Parabricks)、云服務(wù)(LeptonAI)及AI開發(fā)工具(Run.ai、Deci),構(gòu)建從芯片到應(yīng)用的閉環(huán)生態(tài),應(yīng)對(duì)云巨頭競(jìng)爭(zhēng)并滲透新興市場(chǎng)。AMD并購頻繁,并在AMDAdvancingAI2025大會(huì)上推出全新AI產(chǎn)品陣容——旗艦數(shù)據(jù)中心AI芯片、AI軟件棧、AI機(jī)架級(jí)基礎(chǔ)設(shè)施、AI網(wǎng)卡與DPU。25年AMD收購硅光芯片初創(chuàng)公司Enosemi、AI軟件Brium、AI推理芯片UntetherAI三家公司,24年收購SiloAI(歐洲最大私人AI實(shí)驗(yàn)室,開發(fā)多語言大模型及企業(yè)級(jí)AI解決方案)和ZTSystems(定制化服務(wù)器、液冷機(jī)架及云原生解決方案),補(bǔ)足了AMD的全棧能力。專注AI模型壓縮技術(shù),使大模型可在邊緣行端到端深度學(xué)習(xí)開發(fā)平臺(tái),提供可微調(diào)的大模云原生多云GPU資源調(diào)度平臺(tái),整合全球國內(nèi)海光信息發(fā)布預(yù)案,擬吸收合并中科曙光,也印證了這一產(chǎn)業(yè)趨勢(shì)。產(chǎn)業(yè)協(xié)同角度。海光信息主要收入來源為CPU+DCU,中科曙光主要收入來源為服務(wù)器+云基礎(chǔ)設(shè)施。合并完成后,海光+曙光,完成從芯到云,硬件全產(chǎn)業(yè)鏈部署,協(xié)同效應(yīng)明顯。服務(wù)器廠商生存空間是否受到擠壓?首先,我們認(rèn)為AI芯片廠商不會(huì)切入代工業(yè)務(wù)。AMD收購ZTSystem后剝離了其代工業(yè)務(wù),避免與OEM/ODM的競(jìng)爭(zhēng),海光收購曙光目的也是為了強(qiáng)化協(xié)同,提升液冷、軟件等能力。但是,算力鏈條的產(chǎn)業(yè)鏈分工可能會(huì)進(jìn)一步細(xì)化。在超節(jié)點(diǎn)趨勢(shì)下,AI芯片之間、AI芯片與交換機(jī)芯片之間的互聯(lián),大都需要通過板卡(尤其是電信號(hào)互聯(lián))。以英偉達(dá)為例,其板卡在產(chǎn)品推出初期自行設(shè)計(jì),產(chǎn)品穩(wěn)定后會(huì)開放給OEM合作伙伴,此時(shí)板卡設(shè)計(jì)的能力就成為了能否獲取更多價(jià)值量的核心差異化能力。因此代工產(chǎn)業(yè)鏈分工可能進(jìn)一步分化為板卡設(shè)計(jì)代工供應(yīng)商、以及機(jī)柜代工供應(yīng)商。對(duì)英偉達(dá)來說,其板卡、模組代工供應(yīng)商主要為鴻海精密(中國臺(tái)灣地區(qū))、緯創(chuàng),機(jī)柜代工商為廣達(dá)等,已經(jīng)體現(xiàn)出分工細(xì)化趨勢(shì),后續(xù)國內(nèi)代工產(chǎn)業(yè)鏈或也將出現(xiàn)該趨勢(shì)。此時(shí),代工廠商競(jìng)爭(zhēng)的核心要素將從資金、供應(yīng)鏈能力拓展到:1)是否具備板卡設(shè)計(jì)能力;2)能夠與下游客戶,如CSP廠商緊密協(xié)同。相關(guān)標(biāo)的:海光信息、中科曙光、浪潮信息、紫光股份、神州數(shù)碼、聯(lián)想集團(tuán)、華勤技術(shù)。結(jié)合上文解釋,超節(jié)點(diǎn)目前分化為單柜更多GPU的單柜高密高電、多機(jī)柜多GPU兩大路徑。以CloudMatrix方案為代表的國產(chǎn)化方案預(yù)計(jì)將強(qiáng)調(diào)通過多機(jī)柜路徑增強(qiáng)Scaleup網(wǎng)絡(luò),彌補(bǔ)單卡性能短板。預(yù)計(jì)產(chǎn)業(yè)鏈影響是增加400G或LPO等成本優(yōu)化方案的采購,同時(shí)加速向800G演進(jìn)。光通信需求測(cè)算:Scaleup維度——節(jié)點(diǎn)內(nèi)12個(gè)Compute機(jī)柜,共48臺(tái)服務(wù)器,48x8=384NPU;中間4個(gè)網(wǎng)絡(luò)機(jī)柜,負(fù)責(zé)384張卡的內(nèi)部互聯(lián)(Scaleup),類比為英偉達(dá)的NVLink網(wǎng)絡(luò)。兩層UB平面的Scaleup網(wǎng)絡(luò)拓?fù)淙缦?。第一層:每個(gè)NPU由2個(gè)die組成、每個(gè)die提供7個(gè)224Gb通道連接至UB網(wǎng)絡(luò)的第一層(在8NPU服務(wù)器內(nèi)),因此每個(gè)NPU到第一層UB網(wǎng)絡(luò)7x224Gbpsx2=392GBps(注意Gb到GB的換算)。這一層為電氣信號(hào)連接。第二層:在第一層的每個(gè)8NPU服務(wù)器內(nèi),均在板卡層面配置
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 紡絲凝固浴液配制工崗前創(chuàng)新思維考核試卷含答案
- 輕冶料漿配料工操作知識(shí)強(qiáng)化考核試卷含答案
- 信息通信網(wǎng)絡(luò)測(cè)量員崗前班組安全考核試卷含答案
- 2025年聚氨酯泡沫穩(wěn)定劑合作協(xié)議書
- 2025年輸液輸血類產(chǎn)品項(xiàng)目合作計(jì)劃書
- 2025年娛樂、游覽用船舶項(xiàng)目合作計(jì)劃書
- 2025年玉米免耕播種機(jī)項(xiàng)目發(fā)展計(jì)劃
- 2026年生態(tài)價(jià)值銀行項(xiàng)目建議書
- 2025年山東省菏澤市中考生物真題卷含答案解析
- 心電圖實(shí)時(shí)處理算法試題及答案
- 2026年榆能集團(tuán)陜西精益化工有限公司招聘?jìng)淇碱}庫完整答案詳解
- 2026廣東省環(huán)境科學(xué)研究院招聘專業(yè)技術(shù)人員16人筆試參考題庫及答案解析
- 邊坡支護(hù)安全監(jiān)理實(shí)施細(xì)則范文(3篇)
- 6.1.3化學(xué)反應(yīng)速率與反應(yīng)限度(第3課時(shí) 化學(xué)反應(yīng)的限度) 課件 高中化學(xué)新蘇教版必修第二冊(cè)(2022-2023學(xué)年)
- 北京市西城區(qū)第8中學(xué)2026屆生物高二上期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)模擬試題含解析
- 廣東高中高考英語聽說考試故事速記復(fù)述技巧
- GB/T 32065.5-2015海洋儀器環(huán)境試驗(yàn)方法第5部分:高溫貯存試驗(yàn)
- GB/T 20033.3-2006人工材料體育場(chǎng)地使用要求及檢驗(yàn)方法第3部分:足球場(chǎng)地人造草面層
- 2023年牡丹江市林業(yè)系統(tǒng)事業(yè)單位招聘筆試模擬試題及答案解析
- 數(shù)字電子技術(shù)說課課件
- 天然氣加氣站安全事故的案例培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論