版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
--網(wǎng)絡(luò)需求白皮書(shū)開(kāi)放數(shù)據(jù)中心標(biāo)準(zhǔn)推進(jìn)委員會(huì)ODCC2025年9月版權(quán)聲明轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字或者觀點(diǎn)千億乃至萬(wàn)億參數(shù)模型的訓(xùn)練與推理,催生了GP的下一代高速互聯(lián)網(wǎng)絡(luò),已成為釋放AI算力潛能、贏得智能時(shí)代求、關(guān)鍵技術(shù)挑戰(zhàn)與未來(lái)演進(jìn)方向。其目的在于凝聚產(chǎn)業(yè)共識(shí)網(wǎng)絡(luò)架構(gòu)師、設(shè)備制造商、芯片研發(fā)者及云服務(wù)提供商提供權(quán)技術(shù)參考與規(guī)劃指南,并促進(jìn)產(chǎn)業(yè)鏈上下游協(xié)同,推動(dòng)技術(shù)創(chuàng)共同構(gòu)建面向未來(lái)的、可持續(xù)的高性能智能計(jì)算網(wǎng)絡(luò)底座,為 7 1 6 8 8 9 2一、智算網(wǎng)絡(luò)發(fā)展現(xiàn)狀與趨勢(shì)(全球)萬(wàn)億參數(shù)、長(zhǎng)序列、多模態(tài)、長(zhǎng)思維鏈以及物理AI幾趨勢(shì)??梢灶A(yù)見(jiàn)的是,未來(lái)幾年AI對(duì)集群算力的需求智算網(wǎng)絡(luò)發(fā)展至今,以太網(wǎng)技術(shù)在標(biāo)準(zhǔn)組織(如UEC超級(jí)以太網(wǎng)聯(lián)盟)和產(chǎn)業(yè)上下游的共同努力下,在與Infiniband技術(shù)的競(jìng)爭(zhēng)中取得明顯的優(yōu)勢(shì),已經(jīng)成為萬(wàn)卡以上集群ScaleOut網(wǎng)絡(luò)的首選場(chǎng)景成為業(yè)界關(guān)注的焦點(diǎn)。以AMD為首的UALink1.0協(xié)議規(guī)范的NVL72/CloudMatrix384超節(jié)點(diǎn)對(duì)推理性能和集群算力利用率提32.大模型業(yè)務(wù)的分布式、稀疏化、服務(wù)化,要求智算網(wǎng)絡(luò)具有趨勢(shì),專(zhuān)家并行(EP)的廣泛使用導(dǎo)致了通信對(duì)象的不可預(yù)期,并礎(chǔ)的電互聯(lián)網(wǎng)絡(luò)已經(jīng)初現(xiàn)IO性能和集群架構(gòu)的雙重瓶頸,加速了XPO技術(shù)的產(chǎn)業(yè)應(yīng)用節(jié)奏。以NPO/CPO光電共封裝、OCS光交換4.AI負(fù)載展現(xiàn)出對(duì)規(guī)模、帶寬和延遲性能的極度貪婪,智算網(wǎng)議上指出:“我們正處于分布式計(jì)算的第五個(gè)歷史性時(shí)刻,生成式AI對(duì)連接性能的需求躍遷意味著我們需要重新審視未來(lái)的網(wǎng)絡(luò)”。4何在滿(mǎn)足規(guī)模的前提下進(jìn)一步滿(mǎn)足超高帶寬和超低延遲的需求成為5.AI對(duì)網(wǎng)絡(luò)的影響力已經(jīng)外溢至數(shù)據(jù)中心外,AIWAN成為新2023-2024年間,在AI業(yè)務(wù)的驅(qū)動(dòng)下,Meta骨干網(wǎng)流量呈30%以上的高增長(zhǎng),且AI流量占比已經(jīng)超過(guò)了傳統(tǒng)流量。由于國(guó)內(nèi)6.智算標(biāo)準(zhǔn)和技術(shù)聯(lián)盟推動(dòng)開(kāi)放互聯(lián)取得實(shí)質(zhì)性進(jìn)展,行業(yè)進(jìn)網(wǎng)絡(luò)最重要的細(xì)分場(chǎng)景,行業(yè)均進(jìn)入了多生態(tài)賽馬的關(guān)鍵階段。在5二、AI大模型演進(jìn)對(duì)智算網(wǎng)絡(luò)需求綜述基于以上主流趨勢(shì)及AI大模型持續(xù)升級(jí),因模型性能與參數(shù)規(guī)模呈超線(xiàn)性關(guān)系,模型參數(shù)規(guī)模在指數(shù)級(jí)增長(zhǎng)(破)、訓(xùn)練數(shù)據(jù)量爆發(fā)式擴(kuò)張(單模型訓(xùn)練數(shù)據(jù)達(dá)EB級(jí))。AI頭推動(dòng)了對(duì)更高性能計(jì)算平臺(tái)的需求。這促使AI系統(tǒng)架構(gòu)向Scaleup(縱向擴(kuò)展)轉(zhuǎn)變,即通過(guò)增強(qiáng)單節(jié)點(diǎn)內(nèi)的計(jì)算點(diǎn)數(shù)量來(lái)提高整體性能。在Scaleup架構(gòu)下,數(shù)百乃至上千個(gè)GPU來(lái)源:Huawei,20246在此背景下,互聯(lián)網(wǎng)絡(luò)成為影響AI訓(xùn)練效率的關(guān)鍵2)為了減少跨節(jié)點(diǎn)梯度同步所帶來(lái)的通信延遲,亟需部署低延同步訓(xùn)練至關(guān)重要,特別是在大規(guī)模GPU集群中,任何微小3)為確保系統(tǒng)的長(zhǎng)期穩(wěn)定運(yùn)行與數(shù)據(jù)安全,網(wǎng)絡(luò)架構(gòu)必須具備4)面對(duì)大規(guī)模集群環(huán)境下的復(fù)雜通信模式,傳統(tǒng)網(wǎng)絡(luò)拓?fù)湟央y5)為實(shí)現(xiàn)大規(guī)模分布式訓(xùn)練中各計(jì)算節(jié)點(diǎn)間的高效協(xié)同,高精76)為保障智算網(wǎng)絡(luò)的高效運(yùn)轉(zhuǎn)與持續(xù)可用性,還需在運(yùn)維管理三、智算業(yè)務(wù)對(duì)網(wǎng)絡(luò)的新重點(diǎn)需求3.1新拓?fù)湫枨?.1.1大規(guī)模智算集群場(chǎng)景AI大模型計(jì)算需求持續(xù)攀升,直接驅(qū)動(dòng)集群組網(wǎng)規(guī)模擴(kuò)張,亟百卡級(jí)別。結(jié)合業(yè)界最新提出的Attention-MoE分離技術(shù)(MegaScale推理架構(gòu)已公開(kāi)采用該技術(shù)),推理算力池預(yù)計(jì)可以擴(kuò)大到K~10K8來(lái)源:根據(jù)公開(kāi)資料整理智算中心的網(wǎng)絡(luò)設(shè)計(jì)需滿(mǎn)足高性能、低延遲、高擴(kuò)展性因此需要選擇合適的網(wǎng)絡(luò)設(shè)計(jì)。此外,數(shù)據(jù)中心的規(guī)模從幾十臺(tái)服務(wù)來(lái)源:SPCL,ETHZurich9模和成本的最優(yōu)平衡點(diǎn)。在智算中心中,Clos/FatTree拓?fù)涫亲顝V泛連在一起。如圖3所示,它的創(chuàng)建方式是,每個(gè)Leaf交換機(jī)都直接出色的靈活性。Clos/Fat-Tree可以進(jìn)行。Clos/Fat-Tree架構(gòu)可有2層/3來(lái)源:ClipSafariDragonfly拓?fù)涫荋PC(HighPerform來(lái)源:《華為研究》,2025年7月在Dragonfly的基礎(chǔ)上,可進(jìn)一步升級(jí)為Dragonf于傳統(tǒng)的Dragonfly網(wǎng)絡(luò),Dragonfly+主要在拓?fù)浣Y(jié)構(gòu)、全局鏈路分布、路由策略以及可擴(kuò)展性方面進(jìn)行了改進(jìn)。Dragonfly+的組網(wǎng)方式用Clos架構(gòu)2)組內(nèi)通信,組內(nèi)交換機(jī)和節(jié)點(diǎn)通過(guò)高帶寬連接實(shí)現(xiàn)低延遲通信3)組間通信,使用分層全局鏈路連接各組,鏈路Dragonfly+組網(wǎng)架構(gòu)可以靈活分配組內(nèi)通信和組間通信的連接來(lái)源:《華為研究》,2025年7月),Group-WiseDragonfly+通過(guò)改變Dragonfly+組網(wǎng)中L2交換機(jī)連Group-WiseDragonfly+具備Dragonfly+的全部?jī)?yōu)點(diǎn)(除了犧牲了最大Dragonfly+由于中間交換組(組B)的每個(gè)L2交換機(jī)連接了所有組的同號(hào)L2交換機(jī),因此不需要Down-Up繞行就能實(shí)現(xiàn)繞路。如圖號(hào)的低損耗傳輸。此時(shí),鏈路的靜態(tài)延遲天然會(huì)增大到us級(jí)別,甚徑,3條繞路路徑。雖然稀疏化互聯(lián)在一定程度上犧牲了P2P的通信帶寬,然而AI因此,BST的均衡性設(shè)計(jì)原則又保障了M2M通信具有與Clos持平節(jié)點(diǎn)radix=R,無(wú)收斂情況上行端口數(shù)為R/2,Clos與其他任意數(shù)量的Leaf節(jié)點(diǎn)通信時(shí)均可用滿(mǎn)這R/2份帶寬;結(jié)合集合通信的M2M流量模式,BST的設(shè)計(jì)規(guī)則需要滿(mǎn)足該Leaf節(jié)點(diǎn)與其他(M-1)個(gè)Leaf節(jié)點(diǎn)通信時(shí)可以均衡打滿(mǎn)R/2份帶寬,即任意Leaf節(jié)點(diǎn)到其他(M-1)個(gè)Leaf節(jié)點(diǎn)具有相同的最短路徑數(shù)量。3.1.2扁平化拓?fù)浼夹g(shù)體系場(chǎng)景時(shí),使用Dragonfly拓?fù)渚哂性谑褂肅los/FatTree拓?fù)鋾r(shí),則需要考慮計(jì)算單元之間不能有太在部署Clos/Fat-Tree等拓?fù)鋾r(shí),網(wǎng)絡(luò)中有大量的ECMP鏈路,跳節(jié)點(diǎn)之間的鏈路故障/擁塞情況,可顯著減少因選擇錯(cuò)誤的下一跳在智算中心的規(guī)模較小或者非密集型拓?fù)鋾r(shí),也可采用OSPFIntermediateSystem)等傳統(tǒng)路由協(xié)議,如果輔以泛洪減少、加速通Protocol)和RIFT(RoutinginFatTree)等,BGP/RIFT協(xié)議不僅適配大規(guī)模路由數(shù)量,其優(yōu)良的擴(kuò)展性也是優(yōu)勢(shì)。模網(wǎng)絡(luò)中部署可有效減少運(yùn)行和維護(hù)的壓力。特別的,RIFT協(xié)議本身沒(méi)有冗余泛洪的問(wèn)題,其南北向分離通告和算路特點(diǎn),非常符合另外還需要考慮這類(lèi)大型網(wǎng)絡(luò)的運(yùn)行和維護(hù)難度,具備ZTP3.2P2MP通信需求3.2.1P2MP通信關(guān)鍵場(chǎng)景混合專(zhuān)家模型(MixtureofExperts:MoE)通過(guò)把超大網(wǎng)絡(luò)拆成的前提下大幅擴(kuò)容參數(shù)量。MoE模型的核心流程分為兩步(如圖9),來(lái)源:DeepSeek-V3TechnicalReport在DeepSeekV3等模型中,專(zhuān)家數(shù)量眾多,難以在單節(jié)點(diǎn)存儲(chǔ),階段涉及大范圍節(jié)點(diǎn)的AlltoAll通信,同一token的多專(zhuān)家冗余傳輸MoE模型在推理過(guò)程中,不同專(zhuān)家冷熱程度每隔一定時(shí)間隨請(qǐng)求負(fù)載發(fā)生變化,收到token更多的熱專(zhuān)家容易成為慢節(jié)點(diǎn),影響推在多Agent系統(tǒng)協(xié)同工作的場(chǎng)景下,主模型Agent對(duì)請(qǐng)求任務(wù)規(guī)Agent往往都需要基于主模型Agent產(chǎn)生的上下文信息進(jìn)行推理,例主模型Agent產(chǎn)生的上下文發(fā)送給其他模型Agent,后續(xù)Agent可以3.2.2P2MP通信核心需求MoE場(chǎng)景下Gating對(duì)專(zhuān)家選擇具有隨機(jī)性,在專(zhuān)家BIER是一種高度靈活的組播技術(shù),相對(duì)于傳統(tǒng)的組播技術(shù),BIER技術(shù)將組播流的轉(zhuǎn)發(fā)與網(wǎng)絡(luò)狀態(tài)完全解耦,其核心轉(zhuǎn)發(fā)層的轉(zhuǎn)機(jī)制,優(yōu)化組播流量在智算多路徑條件下的自),接的可靠確認(rèn)機(jī)制以應(yīng)對(duì)極端丟包場(chǎng)景,防止偶發(fā)丟包造成訓(xùn)練/推3.3高可靠需求3.3.1高可靠核心場(chǎng)景雜任務(wù)分配給多個(gè)專(zhuān)業(yè)化“專(zhuān)家子模型”并行處都有嚴(yán)格要求;另一方面,推理過(guò)程中“門(mén)控網(wǎng)絡(luò)與專(zhuān)家子模型”“不同專(zhuān)家子模型之間”的交互頻繁,任何一次數(shù)據(jù)傳輸失敗或延遲超標(biāo),都會(huì)導(dǎo)致整個(gè)推理結(jié)果錯(cuò)誤或超時(shí)。因此,在為MOE推理場(chǎng)景設(shè)計(jì)可靠性解決方案時(shí)需著重考慮低時(shí)延要求。多元化AI智能應(yīng)用場(chǎng)景:可靠性隨應(yīng)用自定義,彈性適配各類(lèi)3.3.2高可靠具體需求再根據(jù)不同業(yè)務(wù)場(chǎng)景的可靠性訴求,匹配差異化的恢復(fù)策略,既保證故障處理的效率,又避免“一刀切”式恢復(fù)造成的資源浪費(fèi)或體驗(yàn)通信單元)、多層架構(gòu)(云—邊—端)和動(dòng)態(tài)流量(如MoE推理的隨機(jī)調(diào)度微秒級(jí)甚至納秒級(jí)精準(zhǔn)檢測(cè)故障類(lèi)型并快速略,在恢復(fù)速度、資源消耗、和業(yè)務(wù)影響之間找到最優(yōu)解。3.4高精度時(shí)間同步需求3.4.1高精度時(shí)間同步場(chǎng)景隨著智算網(wǎng)絡(luò)業(yè)務(wù)的發(fā)展,分布式業(yè)務(wù)部署越來(lái)越普遍,即:業(yè)也可能是部署在同一機(jī)房的不同物理設(shè)備如何保證訓(xùn)練推理任務(wù)運(yùn)行的一致性,以及異地?cái)?shù)據(jù)的讀寫(xiě)一致性,這個(gè)問(wèn)題會(huì)變得越來(lái)越當(dāng)前國(guó)際ITU和IEEE標(biāo)準(zhǔn)組織,及OCP開(kāi)源組織等正在研究數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備(包括:末端計(jì)算服務(wù)器,DC交換機(jī))支持高精效率和GPU利用率當(dāng)用戶(hù)在讀寫(xiě)多個(gè)異地備份數(shù)據(jù)時(shí),高精度時(shí)間同步可以提升數(shù)據(jù)讀3.4.2高精度時(shí)間同步需求對(duì)于上述四個(gè)業(yè)務(wù)場(chǎng)景,目前的普通精度時(shí)間同步(如:N),),),考慮在網(wǎng)絡(luò)故障時(shí),長(zhǎng)時(shí)間內(nèi)(如:30天)還能提供滿(mǎn)足業(yè)務(wù)應(yīng)用3.5高安全需求AI大模型及智能體等技術(shù)驅(qū)動(dòng)了高性能集群網(wǎng)絡(luò)的蓬勃發(fā)展,在智算任務(wù)部署與執(zhí)行之前,兩個(gè)執(zhí)行AI任務(wù)并需要協(xié)作的通信實(shí)體之間,需要執(zhí)行雙向認(rèn)證以確保連接的合法性。在處理用戶(hù)AI任務(wù)請(qǐng)求時(shí),需要驗(yàn)證請(qǐng)求及來(lái)源的合法性,向客行業(yè)務(wù)實(shí)體的合法性。另外,針對(duì)高安全的場(chǎng)景需要提供更加可信的認(rèn)證技術(shù),需要有可信的硬在某些場(chǎng)景下需要支持納秒級(jí)安全傳輸延遲、Tbps級(jí)線(xiàn)速加解密能且高效的訪問(wèn)隔離技術(shù)來(lái)防范非法的訪問(wèn)。三、傳統(tǒng)網(wǎng)絡(luò)需求的新變化4.1大帶寬互聯(lián)需求視頻與文本等多種數(shù)據(jù)類(lèi)型需在訓(xùn)練和推理中被同時(shí)處理。這類(lèi)任務(wù)4.1.2大帶寬需求的均衡分配與高效利用,避免熱點(diǎn)鏈路擁塞,確保GPU/AI芯片算4.2低時(shí)延需求4.2.1低時(shí)延場(chǎng)景分布式AI訓(xùn)練與推理調(diào)度生成式AI(如LLM訓(xùn)練)在內(nèi)的大規(guī)模分布式訓(xùn)練任務(wù)。若通信延時(shí)過(guò)高,將導(dǎo)致GPU/AI加速芯片的利用率顯著下降。有文獻(xiàn)如“ResearchonDistributedTrainingArchitectureforLargeScaleModels以保障大規(guī)模并行運(yùn)算的進(jìn)行。存儲(chǔ)與計(jì)算解耦架構(gòu)跨集群與多數(shù)據(jù)中心協(xié)同4.2.2低時(shí)延需求成為主要優(yōu)化目標(biāo),由此可以歸納出三大核心需求1)輕量化協(xié)4.3運(yùn)維/檢測(cè)4.3.1動(dòng)態(tài)流量下的性能波動(dòng)實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)性能(時(shí)延、抖動(dòng)、吞吐)的敏感度差異顯著。傳統(tǒng)“秒級(jí)/亞理請(qǐng)求)的毫秒級(jí)波動(dòng)。針對(duì)原生ld/st甚至需要亞微秒級(jí)的測(cè)量精業(yè)務(wù)級(jí)根因分析:構(gòu)建業(yè)務(wù)-網(wǎng)絡(luò)聯(lián)動(dòng)引擎,關(guān)聯(lián)網(wǎng)絡(luò)指標(biāo)(端口擁塞、ECN)與任務(wù)狀態(tài)(GPU利用率),快速定位鏈路擁塞、4.3.2超大規(guī)模網(wǎng)絡(luò)故障快速定位與自愈場(chǎng)景:在萬(wàn)卡級(jí)GPU集群中,單交換機(jī)或鏈
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025湖南懷化市會(huì)同縣林城鎮(zhèn)東門(mén)社區(qū)公益性崗位招聘筆試考試備考試題及答案解析
- 旱獺認(rèn)知能力研究-洞察及研究
- 2025黑龍江森林康養(yǎng)產(chǎn)業(yè)供需趨勢(shì)及投資評(píng)估規(guī)劃分析研究報(bào)告
- 婚前財(cái)產(chǎn)協(xié)議法律風(fēng)險(xiǎn)分析報(bào)告
- 2026年江西省第五人民醫(yī)院招聘編制外工作人員1人筆試考試參考題庫(kù)及答案解析
- 2025魚(yú)糜制品市場(chǎng)供需變化分析投資風(fēng)險(xiǎn)評(píng)估規(guī)劃行業(yè)研究報(bào)告總結(jié)
- 2025魚(yú)丸制作工藝行業(yè)市場(chǎng)現(xiàn)狀供需分析及投資評(píng)估規(guī)劃分析研究報(bào)告
- 2025香料調(diào)味品市場(chǎng)國(guó)際化品牌推廣競(jìng)爭(zhēng)研究規(guī)劃評(píng)估報(bào)告
- 2025預(yù)包裝食品行業(yè)供需分析及市場(chǎng)競(jìng)爭(zhēng)格局規(guī)劃研究分析報(bào)告
- 2025預(yù)制菜產(chǎn)業(yè)市場(chǎng)調(diào)研及供應(yīng)鏈優(yōu)化與品牌發(fā)展報(bào)告
- 業(yè)主授權(quán)租戶(hù)安裝充電樁委托書(shū)
- 化工建設(shè)綜合項(xiàng)目審批作業(yè)流程圖
- 親子鑒定的報(bào)告單圖片
- 遼寧軌道交通職業(yè)學(xué)院?jiǎn)握小堵殬I(yè)技能測(cè)試》參考試題庫(kù)(含答案)
- 馬工程《經(jīng)濟(jì)法學(xué)》教學(xué)
- 新概念二單詞表新版,Excel 版
- 2023年陜西西安經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)招聘120人(共500題含答案解析)筆試必備資料歷年高頻考點(diǎn)試題摘選
- 第八講 發(fā)展全過(guò)程人民民主PPT習(xí)概論2023優(yōu)化版教學(xué)課件
- 篇12pmc窗口功能指令舉例講解
- GB/T 7332-2011電子設(shè)備用固定電容器第2部分:分規(guī)范金屬化聚乙烯對(duì)苯二甲酸酯膜介質(zhì)直流固定電容器
- GB/T 38658-20203.6 kV~40.5 kV交流金屬封閉開(kāi)關(guān)設(shè)備和控制設(shè)備型式試驗(yàn)有效性的延伸導(dǎo)則
評(píng)論
0/150
提交評(píng)論