版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
[編號ODCC-2025-03006]扁平化智算網絡架構研究報告開放數據中心標準推進委員會ODCC2025年9月版權聲明ODCC(開放數據中心委員會)發(fā)布的各項成果,受《著作權法》保護,編制單位共同享有著作權。轉載、摘編或利用其它方式使用ODCC成果中的文字對于未經著作權人書面同意而實施的剽竊、復制、修改、銷售、改編、匯編和翻譯出版等侵權行為,ODCC及有關單位將追究其法律責任,感謝各單位的配合與支持。本研究報告通過剖析智算網絡訓練與推理兩大場景的業(yè)務負載 6 2 4 5 6 9 5 6 7 一、智算網絡場景(一)業(yè)務負載說明1.訓練場景前向傳播計算損失值、反向傳播確定梯度,以及通過優(yōu)化器調整模型模型和激活張量分割至數萬塊XPU。在每個迭代輪次內,XPU之間頻繁交換數據以分發(fā)輸入數據、同步激活值及梯度等。隨著訓練系統規(guī)模擴大,數據移動成為整個系統中最耗資源的環(huán)節(jié)。若缺乏強大的針對采用混合專家(MoE)的模型,將稠密MLP層替換為含多2.推理場景階段,分別部署不同的XPU上。Prefill階段處理用戶輸入的整個的輸入,網絡新增的負載就從Prefill節(jié)點傳輸KVCache數據到Decode節(jié)點。業(yè)界有實踐證明PD分離可以大幅提升推理的TPS將MoE模型推理解耦為Attention(注意力計算)與Expert(專家執(zhí)行)兩個獨立階段,分別部署不同的XPU上。Attention階段執(zhí)batchsize設置不宜過高,硬件需求為訪存密集型,適合部的batchsize以提高計算效率。硬件需求為計算密集型,適合部署在數據和專家計算結果,形成M:N的數據交互,這是AE分離所產生3.負載樣例多種并行技術共同將訓練任務分發(fā)至集群中的XPU進行并行計算。如下是基于Deepseek模型建模的通信量數據。表1描述了同并行技術產生的數據流量存在顯著差異:EP占據總通信量中的絕量111811111//2//041416888比比比(二)三種網絡類型智算集群涉及三個獨立網絡,包括Scale-Up、Scale-Out和用于互聯多臺XPU服務器,支持分布式訓練、推理任務的節(jié)點條來源:UEC1.SO網絡的主要需求根據epoch.ai[4]的測算,在過去的五年,前沿大模型的算力需求然而大規(guī)模組網的成本,是個重要的挑戰(zhàn)。DCN普遍采用胖樹具體地講,SO網絡的下一個目標,是如何低成本地滿足十萬卡量級2.SU網絡的主要需求模型參數量破萬億。對于稀疏模型,最優(yōu)的部署方式,通常是每個XPU部署一個專家,這樣可以最小化推理過程中的訪存帶寬需求,K3.VPC網絡的主要需求務器進行計算數據供給,主要的數據包括推理請求、檢索增強、KV這中間潛在的需求是提升VPC網絡端到端的帶寬供給。此方向有待二、現有組網架構討論1.胖樹拓撲及其各類變形一個物理臨近的區(qū)域,業(yè)界也稱為POD,網絡視角的特征是在一個網絡設備,在初始階段就按最大規(guī)模建好,其下層的網絡,按POD的數量、XPU所屬的物理位置。要準確計算準確的收斂比需求,需Serdes速率Cable電纜驅動距離(米)~1于網絡負載均衡即不存在ECMPHASH選路的路徑沖突問題。業(yè)界2.Dragonfly拓撲不同于胖樹用“堆疊交換層級”擴展組網規(guī)模的高成本方式,Dragonfly通過交換機間的直連替換交換機層次堆疊,實現組網規(guī)模Dragonfly類拓撲具有相對較好的對稱性、可模組性、成本、普適性。其對于通信性能而言,Dragonfly的全局均勻流量下的性能與胖樹幾乎持平,但這需要適配的自適應路由及流量均衡算法。Dragonfly的可劃分性遠不如胖樹,因此面對局部熱點流量時,性能3.Dragonfly+拓撲Dragonfly+拓撲在超算有少量的應用,在智算尚未見公不同于傳統的Dragonfly拓撲,其交換機組內交換機的互聯關系交換機組間的互聯關系與Dragonfly拓撲一致,即:通過1DFullMesh對比傳統的Dragonfly與胖樹,Dragonfly+的優(yōu)勢在于:具有更1.胖樹拓撲分對。NVL576跨機柜的超節(jié)點,采用2層Clos架構,導致高成本光互聯,成為阻礙客戶接受的主要原因。2.Torus拓撲谷歌通過自研TPU計算芯片,疊加Torus低成本組網,實現 Torus拓撲的缺點是對于All-to-嚴重影響超節(jié)點拓撲在稀疏模型訓練下的線性度。TorusAll-to-AllAllReduce流量主導,適配Torus拓撲;其通信模型都可以轉換為近性能。TPUv5e在Pod間進行Clos集群組網,能夠部分解決集群3.Mesh類拓撲三、扁平化智算網絡架構優(yōu)化方向圍后,Group-WiseDragonfly+是較優(yōu)的選項,邏輯上看,這兩種拓對于SU網絡,業(yè)界重點關注的方向是一層全光互連,實現升引入光互連后的系統可靠性,同時為了最大化規(guī)模,需要端側IO1.多平面胖樹拓撲單個網卡的接入帶寬需求為400G,則采用四平面,每個平面提供simultaneouslyutilizeallavailableportsfortransmitting此網絡架構有4個主要問題需要解決:在此基礎上,需要進一步解決布線問題。如圖24所示,有兩種式,下圖25是逐包均衡的一個示意,以條流,在網卡側逐包packet如圖26所示,當網卡接入的某個平面發(fā)生故障時,此網卡的收2.Group-WiseDragonfly+線密度,即:每個組內的同號L2交換機之間進行采用最大組網規(guī)模而相對Dragonfly+而言有如下路由上的改進。(a)Dragonfly+拓撲的Down-Up繞路(b)Group-WiseDragonfly+拓撲的繞路圖ETH-XUltra方案有幾個優(yōu)點:第一控制了超過64卡超節(jié)點的網絡成本,相比64卡電互連超節(jié)點,均分到每GPU的網絡成本僅有小幅增加(從電互連改為光互連第二實現了超節(jié)點這種產品形態(tài)計算與網絡的解耦,每個計算節(jié)點可以維持標準服務器形態(tài),與普通HighBandwidthDomain四、未來網絡架構趨勢展望(一)大規(guī)模低直徑的網絡層Clos架構下組網規(guī)模為0(n2)@Rf在2024年NSDI會議論文中介紹其實際的部署情況,以及在AI因此其上層算法(例路由、流控、負載均衡和TCP流量,通信需求在數據大小、距離、丟包、時延和數據包長 五、附錄跳數計)NA1r斂3斂568fly141414884NANANANANANANANA數NANANANANANA3六、參考/online/files/p63-alfares.pdf/doi/pdf/10.1145/doi/pdf/10.1145GB200
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 靜脈治療知識考試題及解析
- 房地產經紀人培訓題及答案參考
- 網絡安全行業(yè)解決方案顧問面試題
- 建筑設計師招聘面試題集及答案詳解
- 2025年智能化社區(qū)服務中心建設項目可行性研究報告
- 2025年城市社區(qū)綜合服務平臺建設項目可行性研究報告
- 2025年在線新零售平臺項目可行性研究報告
- 2025年低碳生活示范社區(qū)建設項目可行性研究報告
- 2025年東南沿海海洋牧場項目可行性研究報告
- 2026年資陽口腔職業(yè)學院單招職業(yè)傾向性考試題庫含答案詳解
- 全域土地綜合整治項目社會穩(wěn)定風險評估報告
- 2024-2025學年廣東省深圳市福田區(qū)七年級(上)期末英語試卷
- 《證券投資學》吳曉求課后習題答案
- 消防員心理測試題目及答案大全2025
- 住院醫(yī)師規(guī)范化培訓急診科模擬試題及答案
- 2025國考國資委申論高分筆記
- 2025年高級經濟師《人力資源》考試真題及答案
- 礦山項目經理崗位職責與考核標準
- 2025年鄉(xiāng)村旅游民宿業(yè)發(fā)展現狀與前景可行性研究報告
- 國家安全生產公眾號
- 2025年中國多深度土壤水分傳感器行業(yè)市場全景分析及前景機遇研判報告
評論
0/150
提交評論