秦鳳偉:AIGC時(shí)代智算中心網(wǎng)絡(luò)協(xié)議演進(jìn)與思考_第1頁(yè)
秦鳳偉:AIGC時(shí)代智算中心網(wǎng)絡(luò)協(xié)議演進(jìn)與思考_第2頁(yè)
秦鳳偉:AIGC時(shí)代智算中心網(wǎng)絡(luò)協(xié)議演進(jìn)與思考_第3頁(yè)
秦鳳偉:AIGC時(shí)代智算中心網(wǎng)絡(luò)協(xié)議演進(jìn)與思考_第4頁(yè)
秦鳳偉:AIGC時(shí)代智算中心網(wǎng)絡(luò)協(xié)議演進(jìn)與思考_第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

中國(guó)移動(dòng)秦鳳偉2023.11AI需求激增推動(dòng)建設(shè)計(jì)算和網(wǎng)絡(luò)基礎(chǔ)設(shè)施來(lái)源:Frost&Sulivan,2面向大模型訓(xùn)練,網(wǎng)絡(luò)成為AI算力瓶頸AI大模型以AI大模型以GPU集群分布式訓(xùn)練為基礎(chǔ),帶來(lái)大量節(jié)點(diǎn)間通信消耗,網(wǎng)絡(luò)成為AI算力“瓶頸”當(dāng)前業(yè)界主流智算中心網(wǎng)絡(luò)技術(shù)被國(guó)外廠商壟斷,網(wǎng)絡(luò)芯片存在代際差距,網(wǎng)絡(luò)可能成為我國(guó)AI發(fā)展的“新卡點(diǎn)”集群有效算力∝{GPU單卡算力*總卡數(shù)*線性加速比*有隨著GPU單卡算力進(jìn)一步受限,獲得同等算力的難度持續(xù)增加,以網(wǎng)強(qiáng)算是支撐為未來(lái)大模型訓(xùn)練的關(guān)鍵3傳統(tǒng)DC與智算中心流量模型區(qū)別傳統(tǒng)DC流量模型智算中心大模型(All-to-all)流量模型?單個(gè)流量:數(shù)量多、帶寬小、異步?累積流量:抖動(dòng)幅度較小,具有隨機(jī)性?單個(gè)流量:數(shù)量少、帶寬大、同步?累積流量:波峰、波谷效應(yīng)明顯,具有周期性4IB與RoCE是目前業(yè)界主流高性能網(wǎng)絡(luò)協(xié)議InfiniBand與RoCE是由IBTA提出的兩種主流面向RDMA提供高性能交換能力的傳輸協(xié)議,前者從硬件級(jí)別保證網(wǎng)絡(luò)低時(shí)延、高吞吐,后者是將RDMA應(yīng)用到以太網(wǎng),依賴PFC等協(xié)議實(shí)現(xiàn)無(wú)損,兩者在路由機(jī)制、轉(zhuǎn)發(fā)機(jī)制、算網(wǎng)能力等方面存在差異RoCEv1緩存校驗(yàn)查表緩存校驗(yàn)查表當(dāng)前RoCE網(wǎng)絡(luò)存在諸多問(wèn)題,不適應(yīng)大AI模型部署現(xiàn)有以太網(wǎng)協(xié)議基礎(chǔ)轉(zhuǎn)發(fā)和調(diào)度機(jī)制,在AI模型訓(xùn)練場(chǎng)景存在天然缺陷,單純優(yōu)化上層網(wǎng)絡(luò)協(xié)議無(wú)法解決,需對(duì)底層轉(zhuǎn)發(fā)和調(diào)度機(jī)制進(jìn)行革新,并推動(dòng)網(wǎng)絡(luò)芯片底層邏輯架構(gòu)支持,突破無(wú)損以太性能瓶頸基于流轉(zhuǎn)發(fā),流數(shù)量少導(dǎo)致哈希失效,鏈路負(fù)載不均?方向:對(duì)每條流的多個(gè)數(shù)據(jù)包逐個(gè)進(jìn)行負(fù)載分源端任意向網(wǎng)絡(luò)推流,出現(xiàn)擁塞被動(dòng)降速,GPU閑置等待In-castIn-cast流量667業(yè)界智算中心高性能網(wǎng)絡(luò)標(biāo)準(zhǔn)組織介紹---UEC2023年7月19日,Linux基金會(huì)成立超以太網(wǎng)聯(lián)盟(UEC),發(fā)布UE技術(shù)愿景白皮書(shū),當(dāng)前已成立四個(gè)工作組并與OCP開(kāi)展合作UEC組織愿景開(kāi)放性高性能全棧優(yōu)化物理層、鏈路層、傳輸層、軟件基于以太網(wǎng),實(shí)現(xiàn)一個(gè)開(kāi)放、可互通、高性能、全通信棧開(kāi)放性高性能全棧優(yōu)化物理層、鏈路層、傳輸層、軟件可互通物理層不做顛覆性改革8業(yè)界智算中心高性能網(wǎng)絡(luò)創(chuàng)新方向AWS基于自研Nitro卡革新SRD協(xié)議,優(yōu)化組網(wǎng)規(guī)模和抖動(dòng)基于信元交換的博通DDC架構(gòu),端到端授權(quán),充分利用網(wǎng)絡(luò)帶寬9GSE技術(shù)體系框架大規(guī)模QP大規(guī)模QP傳輸層擁塞通告擁塞算法傳輸層擁塞通告擁塞算法擁塞檢測(cè)管理與運(yùn)維體系網(wǎng)絡(luò)層新型組網(wǎng)拓?fù)湫滦徒M播/任播協(xié)議新型負(fù)載均衡機(jī)制管理與運(yùn)維體系網(wǎng)絡(luò)層鏈路層報(bào)文分發(fā)和重組機(jī)制調(diào)度機(jī)制鏈路級(jí)安全及容錯(cuò)機(jī)制鏈路層化物理層高速光接口光交換低物理層GSE技術(shù)體系---高速以太網(wǎng)800G&1.6Tbps以太網(wǎng)將成為承載超高速算力互聯(lián)、構(gòu)建算網(wǎng)基礎(chǔ)設(shè)施的重要手段,滿足智算中心網(wǎng)絡(luò)AI大模型應(yīng)用場(chǎng)景帶來(lái)的數(shù)據(jù)量持續(xù)增長(zhǎng)需求高波特率光電器件、5高波特率光電器件、5nm制程oDSP成熟當(dāng)前:光電接口均以單通道100G速率為主》》未來(lái):光電接口將采用單通道200G速率以及800GE/1.6TE相干800GE&1.6TE接口形態(tài)800GE&1.6TE標(biāo)準(zhǔn)演進(jìn)20232027草案階段標(biāo)準(zhǔn)發(fā)布標(biāo)準(zhǔn)發(fā)布2025草案階段20232027草案階段標(biāo)準(zhǔn)發(fā)布標(biāo)準(zhǔn)發(fā)布2025草案階段GSE技術(shù)體系---光交換新型光交換機(jī)與傳統(tǒng)交換機(jī)的核心區(qū)別在于用光口代替電口,無(wú)需插光模塊,可實(shí)現(xiàn)端口與速率無(wú)關(guān);內(nèi)部無(wú)交換芯片,點(diǎn)到點(diǎn)通信關(guān)系一定時(shí)間內(nèi)固定,設(shè)備容量及端口密度與芯片無(wú)關(guān),可用在網(wǎng)絡(luò)中替代Spine設(shè)備,提升網(wǎng)絡(luò)性能及建設(shè)擴(kuò)容靈活性?額外需求:配備400G光模塊(3w/個(gè))GSE技術(shù)體系---新型拓?fù)?Group與Group之間full-mash,每個(gè)group內(nèi)部可以是任意拓?fù)浣Y(jié)構(gòu),如Fat-tree(Dragonfly+)switchgroupnodeIntra-linkInter-link):):?人為干預(yù)控制流量轉(zhuǎn)發(fā),缺乏動(dòng)態(tài)負(fù)載分擔(dān)機(jī)制?現(xiàn)有網(wǎng)絡(luò)架構(gòu)缺乏網(wǎng)絡(luò)擁塞的標(biāo)準(zhǔn)定義和遠(yuǎn)程擁塞的通知機(jī)制,難以及時(shí)獲取擁塞信息。IETF117:draft-wang-rtgGSE技術(shù)體系---全調(diào)度以太網(wǎng)三大核心機(jī)制中國(guó)移動(dòng)提出全調(diào)度以太網(wǎng)(GSE)技術(shù)架構(gòu),最大限度兼容以太網(wǎng)生態(tài),創(chuàng)新基于報(bào)文容器(PKTC)的轉(zhuǎn)發(fā)及調(diào)度機(jī)制,構(gòu)建無(wú)阻塞、高帶寬、低時(shí)延的新型智算中心網(wǎng)絡(luò),形成標(biāo)準(zhǔn)開(kāi)放的技術(shù)體系,助力AI產(chǎn)業(yè)發(fā)展創(chuàng)新以太網(wǎng)轉(zhuǎn)發(fā)機(jī)制,實(shí)現(xiàn)三大核心機(jī)制轉(zhuǎn)變 11213213 213213 1 當(dāng)前:逐流負(fù)載,鏈路利用率低、發(fā)生擁塞被動(dòng)降速未來(lái):逐報(bào)文容器轉(zhuǎn)發(fā),鏈路負(fù)載均衡,全局調(diào)度,避免擁塞13GSE技術(shù)體系---全調(diào)度以太網(wǎng)(GSE)推進(jìn)計(jì)劃中國(guó)移動(dòng)攜手中國(guó)信通院,聯(lián)合國(guó)內(nèi)外三十余家主流互聯(lián)網(wǎng),設(shè)備商、芯片商、高校院所聯(lián)合發(fā)起GSE推進(jìn)計(jì)劃,推動(dòng)智算中心網(wǎng)絡(luò)技術(shù)創(chuàng)新、標(biāo)準(zhǔn)完善和產(chǎn)業(yè)應(yīng)用,打造高速無(wú)損、開(kāi)放兼容的新型智算中心網(wǎng)絡(luò)技術(shù)體系2023.52023.62023.82023.9中國(guó)移動(dòng),中國(guó)信息通信研究院,華為、中興、銳捷、新華三、浪潮信息、中國(guó)移動(dòng),中國(guó)信息通信研究院,華為、中興、銳捷、新華三、浪潮信息、Broadcom、Intel、清華大學(xué)、上海交通大學(xué)、鵬城實(shí)驗(yàn)室、紫金山實(shí)驗(yàn)室、北京郵電大學(xué)、中科院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、中信科、邁普、Spirent、是德科技、盛科、云合智網(wǎng)、楠菲微電子、燧原科技、昆侖芯、星云智聯(lián)、云脈芯聯(lián)、中科馭數(shù)、云豹智能、大禹智芯等GSE技術(shù)體系---NDMA分布式系統(tǒng)節(jié)點(diǎn)間以多對(duì)多的集合通信為主,業(yè)界主流方案基于RDMA點(diǎn)到點(diǎn)高效傳輸,實(shí)現(xiàn)多對(duì)多集合通信,存在性能瓶頸?引入了與通信規(guī)模線性相關(guān)的面向集合通信原生傳輸框架,通過(guò)端網(wǎng)協(xié)同,支持組播、任播、聚播三種基本模式,實(shí)現(xiàn)網(wǎng)絡(luò)中一組節(jié)點(diǎn)內(nèi)存直讀/寫(xiě) 組播(算)任播(存)通過(guò)原型系統(tǒng)驗(yàn)證,MPI_bcast任務(wù)完成時(shí)間平均降低50%,存儲(chǔ)場(chǎng)景IOPS提升45%以上(任播模式)GSE技術(shù)體系---網(wǎng)絡(luò)可靠性?光模塊故障:近10w個(gè)光模塊的IETF118:draft-cheng-r總結(jié)與展望?智算中心網(wǎng)絡(luò)的有效帶寬、時(shí)延抖動(dòng)、可靠性成為提升訓(xùn)練效率的關(guān)鍵因素

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論