智算網(wǎng)絡(luò)實(shí)踐及未來(lái)演進(jìn)趨勢(shì)與標(biāo)準(zhǔn)化_第1頁(yè)
智算網(wǎng)絡(luò)實(shí)踐及未來(lái)演進(jìn)趨勢(shì)與標(biāo)準(zhǔn)化_第2頁(yè)
智算網(wǎng)絡(luò)實(shí)踐及未來(lái)演進(jìn)趨勢(shì)與標(biāo)準(zhǔn)化_第3頁(yè)
智算網(wǎng)絡(luò)實(shí)踐及未來(lái)演進(jìn)趨勢(shì)與標(biāo)準(zhǔn)化_第4頁(yè)
智算網(wǎng)絡(luò)實(shí)踐及未來(lái)演進(jìn)趨勢(shì)與標(biāo)準(zhǔn)化_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

智算網(wǎng)絡(luò)實(shí)踐及未來(lái)演進(jìn)趨勢(shì)與標(biāo)準(zhǔn)化01智算網(wǎng)絡(luò)項(xiàng)目實(shí)踐02智算網(wǎng)絡(luò)未來(lái)趨勢(shì)03算網(wǎng)融合應(yīng)對(duì)思路01智算網(wǎng)絡(luò)項(xiàng)目實(shí)踐當(dāng)前智算網(wǎng)絡(luò)項(xiàng)目實(shí)踐中,網(wǎng)絡(luò)相關(guān)的TOP痛點(diǎn)和業(yè)務(wù)挑戰(zhàn)訓(xùn)練任務(wù)重啟作業(yè),千卡規(guī)模下MTBF不到萬(wàn)卡集群晚交付折舊2800萬(wàn)/月,集群提前開(kāi)通和進(jìn)入生產(chǎn)一個(gè)月,就能節(jié)省2800空閑空閑擁塞擁塞2024CCNISSUMMIT算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)開(kāi)放、創(chuàng)新、融合、共贏①光鏈路故障提前識(shí)別,消除訓(xùn)練任務(wù)中斷隱患訓(xùn)前光鏈路問(wèn)題突出,且均為被動(dòng)響應(yīng),替換時(shí)間超半小時(shí),影響訓(xùn)練效率,已經(jīng)成為當(dāng)前威脅集群穩(wěn)定性的頭號(hào)風(fēng)險(xiǎn)。訓(xùn)前光鏈路問(wèn)題突出,且均為被動(dòng)響應(yīng),替換時(shí)間超半小時(shí),影響訓(xùn)練效率,已經(jīng)成為當(dāng)前威脅集群穩(wěn)定性的頭號(hào)風(fēng)險(xiǎn)。光模塊端面臟污光纖故障暫未定位根因其他硬件失效端到端管控質(zhì)量,落地溫巡、端面清潔檢測(cè)光鏈路故障高精度實(shí)時(shí)檢測(cè)預(yù)測(cè)、智能運(yùn)維光鏈路訓(xùn)前壓測(cè),故障提前識(shí)別,縮短問(wèn)題處理時(shí)間2024CCNISSUMMIT算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)開(kāi)放、創(chuàng)新、融合、共贏2024CCNISSUMMIT算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)開(kāi)放、創(chuàng)新、融合、共贏②打造智算集群集成一體化工具鏈,提升TTM3000P萬(wàn)卡集群參數(shù)面一次性部署300+交換機(jī)設(shè)備,某AI智算項(xiàng)目,交付范圍涉及出口互聯(lián)域、網(wǎng)絡(luò)服務(wù)域、管理域、智算POD域,業(yè)務(wù)復(fù)雜度高,同時(shí)涉及9個(gè)廠家近制定網(wǎng)絡(luò)設(shè)計(jì)規(guī)范、硬件施工規(guī)范、設(shè)備配置規(guī)范、網(wǎng)絡(luò)驗(yàn)收規(guī)范(含韌性),指導(dǎo) DD腳本配置核查工程包驗(yàn)收參數(shù)表驗(yàn)收工程包腳本&參數(shù)表標(biāo)準(zhǔn)化參數(shù)表DD腳本③NSLB網(wǎng)絡(luò)級(jí)負(fù)載均衡,提升訓(xùn)練效率2024CCNISSUMMIT算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)開(kāi)放、創(chuàng)新、融合、共贏02智算網(wǎng)絡(luò)未來(lái)趨勢(shì)大模型算力需求快速增長(zhǎng),超大集群訓(xùn)練和多模態(tài)推理并存參數(shù)規(guī)模:千億->萬(wàn)億->十萬(wàn)億(2025)參數(shù)規(guī)模:千億->萬(wàn)億->十萬(wàn)億(2025)十萬(wàn)億模型需要數(shù)萬(wàn)卡算力規(guī)模十萬(wàn)億模型需要數(shù)萬(wàn)卡算力規(guī)模?①單數(shù)據(jù)中心向超節(jié)點(diǎn)高密算力總線演進(jìn);②多數(shù)據(jù)中心跨地域互聯(lián),整合分散智算資源,服務(wù)更大智算資源需求;?推理應(yīng)用快速成熟,從單模態(tài)向多模態(tài)融合方向發(fā)展,人工智能進(jìn)入2H/2C/2B應(yīng)用,③進(jìn)入推理態(tài)越來(lái)越多,產(chǎn)生收2024CCNISSUMMIT算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)開(kāi)放、創(chuàng)新、融合、共贏2024CCNISSUMMIT算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)開(kāi)放、創(chuàng)新、融合、共贏①網(wǎng)絡(luò)規(guī)模和復(fù)雜性同步增加,單數(shù)據(jù)中心發(fā)展受限當(dāng)前交付項(xiàng)目的算力規(guī)模和布纖規(guī)模當(dāng)前交付項(xiàng)目的算力規(guī)模和布纖規(guī)模 3.6w纖8w纖40w纖業(yè)界知名專(zhuān)家學(xué)者觀點(diǎn)業(yè)界知名專(zhuān)家學(xué)者觀點(diǎn)?NVIDIA服務(wù)器8卡現(xiàn)在是14000瓦,如果到下一代2028年,隨著性?Nvidia一個(gè)柜子72個(gè)B200,差不多5000多個(gè)800G光模塊,工程大模型成功的核心挑戰(zhàn)3–大模型計(jì)算面臨巨大的可靠性?超級(jí)計(jì)算機(jī)集群運(yùn)行起來(lái)經(jīng)常會(huì)出錯(cuò),一萬(wàn)張卡連續(xù)跑不出錯(cuò)約可持續(xù)30小時(shí),到了10萬(wàn)卡的時(shí)候,基本上2到3個(gè)小時(shí)就要出一個(gè)錯(cuò)單DC單DC組網(wǎng)向三層盒盒、超節(jié)點(diǎn)高密算力總線演進(jìn)??支持三總線(供電、液三總線計(jì)算節(jié)點(diǎn)全盲插?昇騰下一代芯片全面支),合總線和網(wǎng)絡(luò)的優(yōu)勢(shì)??計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、能源一體化,單柜算力密度業(yè)界2倍?相比業(yè)界水平,2倍能效比②跨域多集群聯(lián)合面臨延遲高、帶寬受限、快慢不均衡等問(wèn)題 光纖距離2254公里哈爾濱集群A光纖距離2751公里光纖距離光纖距離2254公里哈爾濱集群A光纖距離2751公里光纖距離4709公里呼和浩特呼和浩特集群B貴安貴安集群C?距離遠(yuǎn),時(shí)延大:長(zhǎng)距離場(chǎng)景下時(shí)延開(kāi)銷(xiāo)大,傳統(tǒng)集合通信算法局部時(shí)延增加導(dǎo)致全局通信等待?帶寬收斂,網(wǎng)絡(luò)擁塞沖突嚴(yán)重:傳統(tǒng)集合通信算法基于無(wú)收斂場(chǎng)景設(shè)計(jì),對(duì)頂層帶寬要求高,帶寬收斂導(dǎo)致?lián)砣?快慢不均衡:跨代集群間兩邊算力、內(nèi)存容量、內(nèi)存IO、通信帶寬不均衡,造成跨代同步訓(xùn)練性能惡化2024CCNISSUMMIT算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)開(kāi)放、創(chuàng)新、融合、共贏2024CCNISSUMMIT算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)開(kāi)放、創(chuàng)新、融合、共贏③推理態(tài)向多機(jī)多卡發(fā)展,高吞吐,低時(shí)延,體驗(yàn)優(yōu)化成剛需某互聯(lián)網(wǎng)企業(yè)BD人工智能頭部企業(yè)某互聯(lián)網(wǎng)企業(yè)BD人工智能頭部企業(yè)當(dāng)前以單機(jī)多卡推理為主,要求時(shí)延50~60ms業(yè)務(wù)可滿足當(dāng)前以單機(jī)為主,但未來(lái)模型尺寸進(jìn)一步增加后,持,多機(jī)多卡推未來(lái)會(huì)成為趨勢(shì),傳輸數(shù)據(jù)量正在增大以及異構(gòu)算力融合組網(wǎng)對(duì)網(wǎng)絡(luò)有新的挑戰(zhàn)某運(yùn)營(yíng)商智算廣域網(wǎng)絡(luò)傳輸面智算廣域網(wǎng)絡(luò)傳輸面智算中心(訓(xùn)/AI推理中心+調(diào)度器高清視覺(jué)攝像頭/智算中心(訓(xùn)/AI推理中心+調(diào)度器訓(xùn)練數(shù)據(jù)上傳模型推送模型推送?AI在2B的應(yīng)用,特別是CV大模型的視頻樣本實(shí)時(shí)性、推理時(shí)延等對(duì)網(wǎng)絡(luò)時(shí)延、丟包提出高質(zhì)量要求?傳統(tǒng)網(wǎng)絡(luò)管道化,均質(zhì)化服務(wù)無(wú)法滿足大上行、低時(shí)延等差異化業(yè)務(wù)要求,運(yùn)營(yíng)商無(wú)法對(duì)2B業(yè)務(wù)開(kāi)展精細(xì)化運(yùn)營(yíng)服務(wù)?業(yè)務(wù)體驗(yàn)KPI劣化與網(wǎng)絡(luò)故障難映射,無(wú)法實(shí)現(xiàn)AI等關(guān)鍵應(yīng)用的保障,關(guān)鍵價(jià)值點(diǎn)無(wú)法變現(xiàn)?租戶擔(dān)心稀缺、高價(jià)值的訓(xùn)練語(yǔ)料泄露,2B客戶私有敏感數(shù)據(jù)的安全性成為重要關(guān)切點(diǎn)03算網(wǎng)融合應(yīng)對(duì)思路2024CCNISSUMMIT算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會(huì)開(kāi)放、創(chuàng)新、融合、共贏DCN聚焦高效集成和長(zhǎng)穩(wěn)訓(xùn)練,提升單智算集群算力效率 周級(jí)/月級(jí)少出事可出事不出事塞/時(shí)延分析、反壓 周級(jí)/月級(jí)少出事可出事不出事塞/時(shí)延分析、反壓./水線優(yōu)化、算點(diǎn)故障、架構(gòu)優(yōu)訓(xùn)前健康檢查單智算集群網(wǎng)絡(luò)內(nèi)單智算集群網(wǎng)絡(luò)內(nèi)連纖效率、準(zhǔn)確性及光模塊故障率問(wèn)題仍是工程階段需AI訓(xùn)練頻繁中斷,模型越大續(xù)訓(xùn)回滾代價(jià)越高,長(zhǎng)穩(wěn)訓(xùn)整體MTBF為19小時(shí)。推算萬(wàn)卡訓(xùn)練時(shí)MTBF將劣化為DCI感知優(yōu)化,整合分散智算資源,保障廣域長(zhǎng)距算力效率長(zhǎng)距負(fù)載均衡精準(zhǔn)流控IP+光層協(xié)同設(shè)計(jì)長(zhǎng)距負(fù)載均衡精準(zhǔn)流控IP+光層協(xié)同設(shè)計(jì)〈〈拉遠(yuǎn)訓(xùn)練,引入的〉跨域帶寬資源,收〈〈拉遠(yuǎn)訓(xùn)練,引入的〉跨域帶寬資源,收外更難掩蓋的通信?光路故障:施工、環(huán)境導(dǎo)致的光纜中斷,閃斷,光路劣化,設(shè)備異常等推理提升AI應(yīng)用體驗(yàn),構(gòu)筑運(yùn)力網(wǎng)絡(luò)優(yōu)營(yíng)服務(wù)能力算力智能網(wǎng)關(guān)CPE推理分片辦公分片算力智能網(wǎng)關(guān)CPE推理分片辦公分片算力AI單板4推理側(cè)?參考視訊品質(zhì)專(zhuān)線模型,完成AI應(yīng)用質(zhì)量建模和CEI指標(biāo)體系;質(zhì)差模型與網(wǎng)絡(luò)分段模型映射,實(shí)現(xiàn)質(zhì)差的分段定界;?終端級(jí)+業(yè)務(wù)應(yīng)用級(jí)體驗(yàn)可視可管,精準(zhǔn)掌握AI體驗(yàn)分布;精準(zhǔn)定位故障問(wèn)題,提供快速修復(fù)建議和網(wǎng)絡(luò)級(jí)優(yōu)化建議;?網(wǎng)絡(luò)側(cè)進(jìn)行租戶級(jí)隔離,零信任數(shù)據(jù)接入,同時(shí)收斂數(shù)據(jù)傳輸接口,防止非法仿冒接入,確保數(shù)據(jù)傳輸路徑可信。新基建動(dòng)網(wǎng)安全保障,以配置變更為切入點(diǎn),加持AI大模型?IP網(wǎng)絡(luò)規(guī)劃涉及多廠家、多域、海量業(yè)務(wù)流,復(fù)雜度超有大量工作依賴(lài)工程師個(gè)人能力和經(jīng)驗(yàn),作業(yè)能耗高,同時(shí)難以保障質(zhì)量?利用大模型的意圖理解、知識(shí)沉淀、信息抽取、工具調(diào)用等能力,在配置生成、腳本核查、規(guī)則生成和文檔生成等場(chǎng)景支撐交付質(zhì)量和效率提升事前核查

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論