王瑞雪:中國(guó)移動(dòng)智算中心網(wǎng)絡(luò)技術(shù)實(shí)踐與思考_第1頁(yè)
王瑞雪:中國(guó)移動(dòng)智算中心網(wǎng)絡(luò)技術(shù)實(shí)踐與思考_第2頁(yè)
王瑞雪:中國(guó)移動(dòng)智算中心網(wǎng)絡(luò)技術(shù)實(shí)踐與思考_第3頁(yè)
王瑞雪:中國(guó)移動(dòng)智算中心網(wǎng)絡(luò)技術(shù)實(shí)踐與思考_第4頁(yè)
王瑞雪:中國(guó)移動(dòng)智算中心網(wǎng)絡(luò)技術(shù)實(shí)踐與思考_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中國(guó)移動(dòng)智算中心網(wǎng)絡(luò)技術(shù)實(shí)踐與思考姓名:王瑞雪中國(guó)移動(dòng)目錄一、中國(guó)移動(dòng)NICC技術(shù)體系二、智算中心網(wǎng)絡(luò)面臨的挑戰(zhàn)三、智算中心網(wǎng)絡(luò)創(chuàng)新實(shí)踐四、總結(jié)與展望智算中心背景與需求AIGC(AI-Generated

Content,人工智能生產(chǎn)內(nèi)容)發(fā)展迅猛,迭代速度呈現(xiàn)指數(shù)級(jí)增長(zhǎng),全球范圍內(nèi)經(jīng)濟(jì)價(jià)值預(yù)計(jì)將達(dá)到數(shù)萬(wàn)億美元,智能算力將成為未來(lái)主流算力國(guó)內(nèi)市場(chǎng)規(guī)模2000億元(2025年)大模型參數(shù)量千億、萬(wàn)億級(jí)GPU算力規(guī)模10000+卡新型智算中心—以高性能GPU、AI加速卡為中心,以高速互聯(lián)智算集群為目標(biāo),形成集約化建設(shè)的E級(jí)超大規(guī)模算力基礎(chǔ)設(shè)施,具備軟硬件AI全棧環(huán)境,支撐AI大模型的高效訓(xùn)練和推理NICC新型智算中心技術(shù)體系新平臺(tái)-算力原生“芯合”算力原生平臺(tái),使能應(yīng)用一次開(kāi)發(fā),跨架構(gòu)遷移新互聯(lián)-高速互聯(lián)計(jì)算總線構(gòu)建智算芯片快速互聯(lián)標(biāo)準(zhǔn)體系,提升卡間互聯(lián)性能新存儲(chǔ)-內(nèi)存池構(gòu)建統(tǒng)一內(nèi)存池,實(shí)現(xiàn)一致性內(nèi)存語(yǔ)義和空間尋址新互聯(lián)-全調(diào)度以太網(wǎng)GSE無(wú)阻塞、高帶寬、低時(shí)延網(wǎng)絡(luò),提升節(jié)點(diǎn)間的傳輸性能新算效-DPU與計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)深度協(xié)同,助力算效提升。新節(jié)能-冷板式液冷聚焦液冷服務(wù)器和機(jī)柜的接口標(biāo)準(zhǔn),優(yōu)化運(yùn)維管理能力中國(guó)移動(dòng)NICC技術(shù)體系從新互聯(lián)、新算效、新存儲(chǔ)、新平臺(tái)、新節(jié)能等五大方面進(jìn)行系統(tǒng)性重構(gòu),加快發(fā)展智能算力,構(gòu)建標(biāo)準(zhǔn)統(tǒng)一、技術(shù)領(lǐng)先、軟硬協(xié)同、兼容開(kāi)放的新型智算中心技術(shù)體系NICC新型智算中心技術(shù)體系布局攻關(guān)創(chuàng)新技術(shù)推動(dòng)智算發(fā)展基礎(chǔ)設(shè)施智算平臺(tái)ROCmCUDACANNTesnsorFlowPyTorchPaddlePaddleDeepSpeedGPU液冷高效供電機(jī)房配套冷卻水系統(tǒng)應(yīng)用使能......智算運(yùn)營(yíng)跨架構(gòu)編譯器算力抽象運(yùn)行時(shí)算力原生智算運(yùn)維裸金屬實(shí)例容器實(shí)例DPURoCE GSE高速互聯(lián)計(jì)算總線文件 對(duì)象

塊 內(nèi)存池融合存儲(chǔ) 全局統(tǒng)一存儲(chǔ)Hypervisor

+虛擬機(jī)實(shí)例AI開(kāi)發(fā)框架AI

DSA互聯(lián)計(jì)算網(wǎng)絡(luò)存儲(chǔ)存儲(chǔ)算效節(jié)能平臺(tái)AI參數(shù)面通信特征服務(wù)器內(nèi)Tensor并行(機(jī)內(nèi)總線通信)大模型的參數(shù)量呈指數(shù)增長(zhǎng)態(tài)勢(shì),“大模型”正走向“超大模型”,基于數(shù)據(jù)并行、模型并行的分布式訓(xùn)練成為處理超大模型和超大數(shù)據(jù)集的有效手段一組服務(wù)器內(nèi)Pipeline并行(網(wǎng)絡(luò)同軌通信)服務(wù)器間數(shù)據(jù)并行(網(wǎng)絡(luò)同軌通信)GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stage0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stageXDataParallel

Rank0Pipeline

stage1GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stage0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0GPU7

GPU6

GPU5

GPU4

GPU3GPU2

GPU1

GPU0Pipeline

stageXDataParallel

Rank1Pipeline

stage1DataParallelRank

Y大模型訓(xùn)練通信特點(diǎn):周期性,每輪迭代的通信模式一致流數(shù)量少,單流帶寬大,同步突發(fā)每輪通信量大(GB~百GB級(jí))服務(wù)器內(nèi)通信量為百GB級(jí),以allreduce為主服務(wù)器間通信量為GB級(jí),包括allreduce和p2p,大部分可以被計(jì)算掩蓋MOE會(huì)引入節(jié)點(diǎn)間alltoall流量網(wǎng)絡(luò)是提升AI大模型訓(xùn)練效率的關(guān)鍵作為集群共享資源,相比單點(diǎn)GPU故障或性能波動(dòng),網(wǎng)絡(luò)故障影響域大,網(wǎng)絡(luò)性能波動(dòng)影響范圍廣在大模型訓(xùn)練任務(wù)場(chǎng)景,并行系統(tǒng)節(jié)點(diǎn)數(shù)越多,機(jī)間通信占比越高,網(wǎng)絡(luò)性能成為獲得線性加速比的關(guān)鍵AI業(yè)務(wù)對(duì)丟包敏感,2

的丟包就會(huì)使RDMA吞吐率下降為0GPU集群性能

單GPU性能*N網(wǎng)絡(luò)芯片能力一定程度決定智算中心網(wǎng)絡(luò)規(guī)模和性能,單芯片容量越大,組網(wǎng)規(guī)模越大且成本越低大模型以GPU集群分布式訓(xùn)練為基礎(chǔ),集群節(jié)點(diǎn)間頻繁地參數(shù)同步帶來(lái)大量通信開(kāi)銷(xiāo),網(wǎng)絡(luò)性能成為提升GPU集群算力水平的關(guān)鍵集群有效算力∝{GPU單卡算力*總卡數(shù)*線性加速比*有效運(yùn)行時(shí)}網(wǎng)絡(luò)性能決定GPU集群算力加速比 芯片能力決定GPU集群組網(wǎng)規(guī)模 網(wǎng)絡(luò)可用性決定GPU集群穩(wěn)定性H800(400G*8)服務(wù)器,51.2T可支持1024臺(tái)服務(wù)器組網(wǎng),12.8T僅支持64臺(tái)服務(wù)器組網(wǎng)12.8T芯片端口數(shù)量交換機(jī)數(shù)量Leaf32*400G128Spine32*400G128Core32*400G6451.2T芯片端口數(shù)量交換機(jī)數(shù)量Leaf128*400G32Spine128*400G16以256臺(tái)H800服務(wù)器,每服務(wù)器出8個(gè)400G網(wǎng)卡為例傳統(tǒng)無(wú)損以太技術(shù)存在性能瓶頸,需從底層機(jī)制革新現(xiàn)有以太網(wǎng)協(xié)議基礎(chǔ)轉(zhuǎn)發(fā)和調(diào)度機(jī)制,在AI模型訓(xùn)練場(chǎng)景存在天然缺陷,單純優(yōu)化上層網(wǎng)絡(luò)協(xié)議無(wú)法解決,需深入底層基礎(chǔ)協(xié)議,對(duì)物理層、MAC層轉(zhuǎn)發(fā)機(jī)制進(jìn)行革新,突破無(wú)損以太性能瓶頸有效通信帶寬≠網(wǎng)卡/交換機(jī)組網(wǎng)物理帶寬任務(wù)同步產(chǎn)生“多打一”流量,擁塞導(dǎo)致時(shí)延、抖動(dòng)增加方向:對(duì)每條流的多個(gè)數(shù)據(jù)包逐個(gè)進(jìn)行負(fù)載分擔(dān),實(shí)現(xiàn)單流在全路徑“噴灑”,提升有效帶寬,更好應(yīng)對(duì)突發(fā)流量問(wèn)題:傳統(tǒng)以太網(wǎng)源端發(fā)流不關(guān)注網(wǎng)絡(luò)情況及目的端接受能力,直接向網(wǎng)絡(luò)“推”流,AI訓(xùn)練過(guò)程存在多打一流量,導(dǎo)致網(wǎng)絡(luò)產(chǎn)生擁塞或丟包;通知源端降速或重傳,導(dǎo)致GPU空閑,算力損失問(wèn)題:AI訓(xùn)練的流特征是流數(shù)量少但單流帶寬大,傳統(tǒng)流級(jí)負(fù)載均衡極易造成多個(gè)流哈希到同一條鏈路,造成部分鏈路擁塞,部分空閑,網(wǎng)絡(luò)利用率低,無(wú)法應(yīng)對(duì)突發(fā)的網(wǎng)絡(luò)流量In-cast流量方向:源端向目的端“請(qǐng)求”發(fā)送權(quán)限,基于網(wǎng)絡(luò)轉(zhuǎn)發(fā)能力的被動(dòng)“拉”流,最大概率消除擁塞概率,優(yōu)化長(zhǎng)尾時(shí)延如何提升網(wǎng)絡(luò)可靠性和有效帶寬,降低時(shí)延抖動(dòng)是提升模型訓(xùn)練效率的關(guān)鍵基于流轉(zhuǎn)發(fā),流數(shù)量少導(dǎo)致哈希失效,鏈路負(fù)載不均 源端任意向網(wǎng)絡(luò)推流,出現(xiàn)擁塞被動(dòng)降速,GPU閑置等待全調(diào)度以太網(wǎng)(GSE)技術(shù)特征從“局部”決策到“全局”調(diào)度從“流”分發(fā)到“報(bào)文”分發(fā)從盲發(fā)+被動(dòng)控制到感知+主動(dòng)控制將業(yè)務(wù)流拆分到不同“報(bào)文容器”轉(zhuǎn)發(fā),提供逐“報(bào)文容器”負(fù)載均衡機(jī)制,提升帶寬利用率從被動(dòng)擁塞控制,到基于“授權(quán)請(qǐng)求和響應(yīng)機(jī)制”的主動(dòng)流控,最大限度避免網(wǎng)絡(luò)擁塞產(chǎn)生全局視野的轉(zhuǎn)發(fā)調(diào)度機(jī)制,實(shí)現(xiàn)集中式管理運(yùn)維、分布式控制轉(zhuǎn)發(fā),提高網(wǎng)絡(luò)可用性當(dāng)前:逐流負(fù)載,鏈路利用率低、發(fā)生擁塞被動(dòng)降速未來(lái):逐報(bào)文容器轉(zhuǎn)發(fā),鏈路負(fù)載均衡,全局調(diào)度,避免擁塞聯(lián)合產(chǎn)業(yè)發(fā)布全調(diào)度以太網(wǎng)(GSE)技術(shù)架構(gòu),最大限度兼容以太網(wǎng)生態(tài),創(chuàng)新基于報(bào)文容器(PKTC)的轉(zhuǎn)發(fā)及調(diào)度機(jī)制,構(gòu)建無(wú)阻塞、高帶寬、低時(shí)延的新型智算中心網(wǎng)絡(luò),形成標(biāo)準(zhǔn)開(kāi)放的技術(shù)體系,助力AI產(chǎn)業(yè)發(fā)展創(chuàng)新以太網(wǎng)轉(zhuǎn)發(fā)機(jī)制,實(shí)現(xiàn)三大核心機(jī)制轉(zhuǎn)變LeafSpineSpineSpineLeaf3 2 13 2 132

13 2 13 2 13 2 1擁塞3 2 13 2 12 1丟包全調(diào)度以太網(wǎng)(GSE)組網(wǎng)場(chǎng)景GSE協(xié)議可根據(jù)網(wǎng)絡(luò)設(shè)備和網(wǎng)卡能力,將方案各組件功能在網(wǎng)絡(luò)組件中重新分工,支持多種組網(wǎng)場(chǎng)景,為后續(xù)網(wǎng)絡(luò)建設(shè)和設(shè)備選型提供靈活的選擇方案場(chǎng)景一:僅網(wǎng)側(cè)運(yùn)行GSE,網(wǎng)卡不感知 場(chǎng)景二:部分功能下沉網(wǎng)卡,實(shí)現(xiàn)端網(wǎng)協(xié)同…GSF…GSFGSPLeaf網(wǎng)卡網(wǎng)卡網(wǎng)卡計(jì)算卡計(jì)算卡計(jì)算卡GSP網(wǎng)卡網(wǎng)卡網(wǎng)卡計(jì)算卡計(jì)算卡計(jì)算卡SpineGSF…GSFGSP…Leaf網(wǎng)卡網(wǎng)卡網(wǎng)卡計(jì)算卡計(jì)算卡計(jì)算卡GSFGSPGSPGSP計(jì)算卡計(jì)算卡計(jì)算卡Spine網(wǎng)卡GSP和GSF角色均由網(wǎng)絡(luò)設(shè)備擔(dān)任,執(zhí)行GSE頭解封裝、容器生成、多路徑分發(fā)、端到端授權(quán)應(yīng)答及報(bào)文排序傳統(tǒng)RoCE網(wǎng)卡,對(duì)網(wǎng)卡無(wú)額外要求源GSP、GSF由網(wǎng)絡(luò)設(shè)備擔(dān)任,執(zhí)行GSE頭解封裝、容器生成、多路徑分發(fā)等功能網(wǎng)卡承擔(dān)部分GSP角色,負(fù)責(zé)授權(quán)應(yīng)答和報(bào)文排序全調(diào)度以太網(wǎng)(GSE)推進(jìn)進(jìn)展評(píng)估評(píng)測(cè)技術(shù)標(biāo)準(zhǔn)聯(lián)合儀表廠家開(kāi)展合作,制定普適統(tǒng)一的網(wǎng)絡(luò)功能、性能評(píng)估方法聯(lián)合產(chǎn)業(yè)推動(dòng)GSE方案成熟,形成開(kāi)放統(tǒng)一的技術(shù)標(biāo)準(zhǔn)體系依托中國(guó)移動(dòng)CIFIT試驗(yàn)網(wǎng),驗(yàn)證新型網(wǎng)絡(luò)技術(shù),推動(dòng)技術(shù)成熟與規(guī)模建設(shè)創(chuàng)新試驗(yàn)聯(lián)合產(chǎn)業(yè)發(fā)布《全調(diào)度以太網(wǎng)(GSE)技術(shù)架構(gòu)》白皮書(shū)中國(guó)算力大會(huì)正式啟動(dòng)全調(diào)度以太網(wǎng)(GSE)推進(jìn)計(jì)劃中國(guó)網(wǎng)絡(luò)大會(huì)發(fā)布業(yè)界首款GSE原型系統(tǒng)CCSA立項(xiàng)《全調(diào)度以太網(wǎng)總體技術(shù)要求》2023.82023.92023.5 2023.6全調(diào)度以太網(wǎng)(GSE)推進(jìn)計(jì)劃中國(guó)移動(dòng)攜手中國(guó)信通院,聯(lián)合國(guó)內(nèi)外三十余家主流互聯(lián)網(wǎng),設(shè)備商、芯片商、高校院所聯(lián)合發(fā)起GSE推進(jìn)計(jì)劃,推動(dòng)智算中心網(wǎng)絡(luò)技術(shù)創(chuàng)新、標(biāo)準(zhǔn)完善和產(chǎn)業(yè)應(yīng)用,打造高速無(wú)損、開(kāi)放兼容的新型智算中心網(wǎng)絡(luò)技術(shù)體系全調(diào)度以太網(wǎng)(GSE)推進(jìn)計(jì)劃研究范疇:物理層:低時(shí)延Phy、PhySEC、故障快速檢測(cè)、B400G高速光接口、光交換等鏈路層:基于報(bào)文分發(fā)和重組機(jī)制、調(diào)度技術(shù)、鏈路級(jí)安全及容錯(cuò)等網(wǎng)絡(luò)層:新型組網(wǎng)拓?fù)?、新型組播/任播協(xié)議等;傳輸層:改進(jìn)的RDMA、新型擁塞控制等應(yīng)用層:在網(wǎng)計(jì)算、存儲(chǔ)加速、開(kāi)放API框架等管理和運(yùn)維體系:網(wǎng)絡(luò)可視化、可調(diào)試能力、多維自動(dòng)化能力中國(guó)移動(dòng),中國(guó)信息通信研究院,華為、中興、銳捷、新華三、浪潮、Intel、Broadcom、清華大學(xué)、上海交通大學(xué)、鵬城實(shí)驗(yàn)室、紫金山實(shí)驗(yàn)室、北京郵電大學(xué)、中科院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、中信科、Spirent、是德科技、盛科、云合智網(wǎng)、楠菲微電子、燧原科技、昆侖芯、邁普,星云智聯(lián)、云脈芯聯(lián)、中科馭數(shù)、云豹智能、大禹智芯、中盈優(yōu)創(chuàng)等成員情況:期待更多產(chǎn)學(xué)研合作伙伴加入GSE推進(jìn)計(jì)劃,攜手共建新型智算中心網(wǎng)絡(luò)產(chǎn)業(yè)生態(tài)!業(yè)務(wù)通信原語(yǔ)與網(wǎng)絡(luò)通信模型存在差異分布式系統(tǒng)節(jié)點(diǎn)間以多對(duì)多的集合通信為主,業(yè)界主流方案基于RDMA點(diǎn)到點(diǎn)高效傳輸,實(shí)現(xiàn)多對(duì)多集合通信,存在性能瓶頸11Npoint-to-point34Reduce4.6Gather1.2Reduce-Scatter0.2Bcast14Scatter0.2Allgather0.6AllReduce19.4AlltoAll6.814.86Barrier13.239.4AI大模型中典型通信原語(yǔ)調(diào)用N超算系統(tǒng)通信原語(yǔ)調(diào)用統(tǒng)計(jì)當(dāng)前組播實(shí)現(xiàn)方式多播業(yè)務(wù)效率問(wèn)題引入了與通信規(guī)模線性相關(guān)的額外開(kāi)銷(xiāo),且無(wú)法通過(guò)優(yōu)化下層網(wǎng)絡(luò)的延遲/吞吐性能來(lái)消除擴(kuò)展性問(wèn)題有測(cè)試表明,RDMA商用網(wǎng)卡在QP數(shù)量超過(guò)256時(shí),吞吐即會(huì)出現(xiàn)明顯的下降WangZ,LuoL,NingQ,etal.SRNIC:AScalableArchitectureforRDMA

NICs[J]NDMA面向集合通信的原生設(shè)計(jì),最優(yōu)化集合通信性能交換機(jī)無(wú)處理QPType:RCOp:Send

Only進(jìn)交換機(jī)前出交換機(jī)后交換機(jī)復(fù)制報(bào)文新QP

Type:

MCOp:Send

Only新QP

Type:

MCOp:Send

Only交換機(jī)匯聚ACK新QPType:CCOp:Acknowledge新QPType:CCOp:Acknowledge原始請(qǐng)求56->54交換機(jī)經(jīng)計(jì)算后修改報(bào)文目的ip:

56->53數(shù)據(jù)直回53->56新QPType:ANYC(復(fù)用RD)Op:Send

Only新QPType:ANYC(復(fù)用RD)Op:Send

Only原始請(qǐng)求

56->53轉(zhuǎn)發(fā)請(qǐng)求

53->54數(shù)據(jù)傳輸

54->53數(shù)據(jù)傳輸

53->56網(wǎng)絡(luò)級(jí)DMA(NDMA)對(duì)網(wǎng)絡(luò)中一組節(jié)點(diǎn)內(nèi)存直讀/寫(xiě),是面

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論