版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
算力網絡原創(chuàng)技術與NICC新型智算中心技術體系中國移動段曉東2023.9中國移動算力網絡發(fā)展歷程回顧算力網絡發(fā)展主線主線一面向算網基礎設施構建物理空間、邏輯空間、異構空間、多主體算力融通“4+N+31+X”布局,1100邊緣節(jié)點打造20ms、5ms、1ms三級時延圈SRv6/G-SRv6打造統(tǒng)一算網底座
主線二面向業(yè)務融合創(chuàng)新實現(xiàn)算網高效協(xié)同,支持CHBN務融合發(fā)展,打造算網全新生態(tài)產品算力化和算力產品化發(fā)布算網服務1.0構筑算網大腦
主線三面向創(chuàng)新技術引領實現(xiàn)創(chuàng)新技術引領,打造原創(chuàng)技術策源地三橫兩縱體系架構提出十大三十二個繼往開來,成功邁入算力網絡新階段跨越:一體內生一體服務,模式創(chuàng)新智慧內生算網一體起步:泛在協(xié)同一站服務、協(xié)同運營協(xié)同編排網隨算動發(fā)展:融合統(tǒng)一智慧內生算網一體起步:泛在協(xié)同一站服務、協(xié)同運營協(xié)同編排網隨算動發(fā)展:融合統(tǒng)一算網融合智能編排 十四五階段 十五五階段及更長期構筑算力網絡發(fā)展源動力,開創(chuàng)算網一體原創(chuàng)技術體系總線互聯(lián)算力路由突破互聯(lián)網架構協(xié)議廣域RDMA突破廣域傳輸性能瓶頸全調度以太突破無損以太性能瓶頸新一代SD-WANUnder與Overlay協(xié)同算力并網實現(xiàn)算力供給側改革算力智能內生移動算力5G、6G新增計算面算力原生實現(xiàn)應用跨架構遷移存算一體算力度量打破單維算力指標在網計算打破算網邊界隱私計算總線互聯(lián)算力路由突破互聯(lián)網架構協(xié)議廣域RDMA突破廣域傳輸性能瓶頸全調度以太突破無損以太性能瓶頸新一代SD-WANUnder與Overlay協(xié)同算力并網實現(xiàn)算力供給側改革算力智能內生移動算力5G、6G新增計算面算力原生實現(xiàn)應用跨架構遷移存算一體算力度量打破單維算力指標在網計算打破算網邊界隱私計算安全數(shù)據(jù)分析計算算力卸載多算力形態(tài)統(tǒng)一底座400G/800G超高速大容量全光網絡G-SRv6空芯光纖新型光纖介質與系統(tǒng)算力解構應用模塊化解構部署50GPON+FTTR新型接入網架構云原生敏捷高效體系OTN光電聯(lián)動新型全光網架構全光接入應用感知空天地一體原創(chuàng)技術“5顆珍珠”:算力原生、算力路由、全調度以太、在網計算、G-SRv6提升高度拓展提升高度拓展廣度挖掘深度多要素融合③開創(chuàng)一體化服務④模式網為根基②實現(xiàn)深度融合統(tǒng)一算為中心①打造算力供給高峰以算為中心①、網為根基②,網、云、數(shù)、智、安、邊、端、鏈等深度融合③、提供一體化服務④的新型信息基礎設施打造智能算力新高峰——NICC新型智算中心新型智算中心以高性能GPU、AI加速卡為中心,以高速互聯(lián)智算集群為目標,形成集約化建設的E級超大規(guī)模算力基礎設施,具備軟硬件AI全棧環(huán)境,支撐AI大模型的高效訓練和推理新互聯(lián)
新算效
新存儲 新平臺 新節(jié)能1、新型智算中心是對傳統(tǒng)云數(shù)據(jù)中心的飛躍中大模型(百億-千億)中大模型(百億-千億)超級池化時期(2025~)大模型(千億-萬億)傳統(tǒng)云數(shù)據(jù)中心互聯(lián)單機8卡高速互聯(lián)高性能無損網絡百卡高速總線互聯(lián)GSE異構時期(~2021)中小模型算效扣卡模組DPU存算一體存儲海量非結構化數(shù)據(jù),融合存儲內存池化PCIe25G傳統(tǒng)以太平臺算力池化,分布式訓練算力原生獨立存儲風冷節(jié)能單機柜40KW,冷板式液冷冷板/浸沒式液冷裸機/虛機/容器智算運維運維管理模塊開發(fā)管理 交付管理智算運維運維管理模塊開發(fā)管理 交付管理IaaS管理模塊虛機 容器 裸機存儲 網絡應用使能TesnsorFlowPyTorch應用使能TesnsorFlowPyTorchAI開發(fā)框架PaddlePaddleDeepSpeed...智算運營運營管理模塊智算運營運營管理模塊算力原生編排調度計量計費跨架構編譯器 算力抽象運行時算力交易用戶界面智算平臺ROCmCUDACANN...平臺跨節(jié)點分布式訓練調度裸金屬實例Hypervisor+虛擬機實例容器實例算效互聯(lián)計算基礎設施CPUGPUDPUCIM網絡RoCE存儲 存儲文件 對象 塊 內存池節(jié)能液冷GSE融合存儲全局統(tǒng)一存儲機房配套高效供電冷卻水系統(tǒng)模型參數(shù)從千億邁向萬億,模型參數(shù)從千億邁向萬億,互聯(lián)高需求從8卡擴展到百卡間千億模型:高通信需求(張量并行)集中8卡之間04152637...04152637Sever1SeverNSuperSever(S2)架構萬億模型:高通信需求(MoE并行)集中在百卡之間…012…0123012345674567基于高速計算總線的S2的架構總線Switch總線Switch計算總線總線Switch總線Switch0 1 2 3 4 5 ...N一組有N張GPU/AI卡更低延遲的內部通信更高效的數(shù)據(jù)讀寫更靈活的拓撲連接3-1、NICC新互聯(lián)——高性能新以太互聯(lián)網絡傳統(tǒng):網絡性能和成本無法兼得 未來:突破以太技術、升級高速互聯(lián)InfiniBand專用網絡、超高性能、成本昂貴傳統(tǒng)無損以太InfiniBand專用網絡、超高性能、成本昂貴傳統(tǒng)無損以太生態(tài)開放、性能有限、性價比高流級ECMP被動擁塞控制獨立轉發(fā)決策基礎轉發(fā)機制導致AI場景性能受限創(chuàng)新全調度以太網(GSE),革新以太網底層轉發(fā)機制,AS-ISTO-BE分發(fā)粒度逐流分發(fā)逐“報文容器”分發(fā)發(fā)流模式盲發(fā)+被動擁塞控制感知+主動流量控制轉發(fā)策略“局部”決策轉發(fā)“全局”最優(yōu)調度3-1、全調度以太網組網場景GSE協(xié)議可根據(jù)網絡設備和網卡能力,將方案各組件功能在網絡組件中重新分工,支持多種組網場景,為后續(xù)網絡建設和設備選型提供靈活的選擇方案SpineGSFLeafGSP…SpineGSFLeafGSP……GSFGSF網卡網卡網卡網卡GSP GSPGSP計算卡 計算卡 計算卡計算卡 計算卡 計算卡Leaf
GSF GSP 網卡 網卡 網卡
GSFGSP網卡 網卡 網卡計算卡 計算卡 計算
計算卡
計算卡 計算卡GSP和GSF角色均由網絡設備擔任,執(zhí)行GSE路徑分發(fā)、端到端授權應答及報文排序傳統(tǒng)RoCE網卡,對網卡無額外要求
源GSP、GSF由網絡設備擔任,執(zhí)行GSE分發(fā)等功能網卡承擔部分GSP角色,負責授權應答及報文排序、GSE原型機系統(tǒng)特性產品規(guī)格:當前32*100G(),盒式設備、1U采用P4+FPGA芯片實現(xiàn)GSP和GSF硬件設備,軟件功能特性:支持基于報文容器的全路徑“噴灑”支持端到端DGSQ請求及授權支持報文亂序重排報文容器長度支持16KB性能特性:場景JCT時間可縮短2-3倍3-1、全調度以太網(GSE)工作進展及計劃2023.52023.52023.62023.82023.9聯(lián)合產業(yè)發(fā)布《全調度以太網(GSE)技術架構》白皮書
在CCSA成功立項《全調度以太網總體技術要求》
中國算力大會正式啟動全調度以太網(GSE)推進計劃
中國網絡大會發(fā)布業(yè)界首款GSE原型系統(tǒng) 期待更多產學研合作伙伴加入GSE推進計劃,攜手共建新型智算中心網絡產業(yè)生態(tài)!3-2、NICC新存儲——內存池化傳統(tǒng):HBM和DDR分立 未來:HBM和DDR池化數(shù)據(jù)多次復制,延遲高,影響模型訓練效率CPUDDRAI模型開發(fā)復雜,需要手動管理數(shù)據(jù)搬移CPUDDR
數(shù)據(jù)無需多次搬運,GPU可快速訪問巨量共享內存CPUCPUCPU統(tǒng)一內存池DDRDDRHBMHBMGPUHBMGPUGPUGPUGPUGPUGPUGPUHBMGPUGPUGPUGPUGPUGPU3-3、NICC新算效——升級計算架構下一代GPU芯片設計
GPU、CPU、DPU三大芯片協(xié)同
存算一體,突破傳統(tǒng)計算范式性能瓶頸數(shù)據(jù)搬移的功耗激增演進路線① 存儲一體化設計性能瓶頸數(shù)據(jù)搬移的功耗激增演進路線① 存儲一體化設計② 稀疏化設計③ 算法和芯片協(xié)同設計④ 低時延推理架構設計三大芯片協(xié)同提升算效迎接更加爆炸式的數(shù)據(jù)處理需求CPUGPUDPUGPU+DPU,參數(shù)面網卡升級,進一步滿足可編程擁塞控制及大QP數(shù)量等前沿需求GPU+DPU+CPU,智算資源并池,大幅優(yōu)化智算集群管理效率,實現(xiàn)文件存儲卸載,加速訓推過程突破馮·諾依曼架構達到能效比數(shù)量級提升面向大模型推理場景基于SRAM,中大算力,100Tops+無限擦寫,數(shù)?;旌?,精度拼接3-4、NICC新平臺——引入算力原生CANNoneAPICUDAROCmNeuWare應用層框架層Pytorch……應用層框架層Pytorch……跨架構流轉的原生程序原生運行時程序加載動態(tài)鏈接工具鏈硬件層……編程模型轉換、編譯、優(yōu)化算力原生層
跨架構綜合編譯器√實現(xiàn)圖算融合的跨架構綜合編譯、多級IR互轉優(yōu)化,生成中間元語格式的算力原生程序√原生程序格式規(guī)范√全系統(tǒng)共識的“中間元語”。Host側、Device側指令元語及執(zhí)行策略的一體承載√原生運行時√實現(xiàn)“中間元語”跨廠商的再裝配,智算應用跨架構、可變粒度映射執(zhí)行√3-5、NICC新節(jié)能——標準化大規(guī)模液冷技術挑戰(zhàn)1:單一AI服務器功耗超過10kWTDP(W)挑戰(zhàn)1:單一AI服務器功耗超過10kWTDP(W)700GPU500400CPU300W 300-400 250150-2502016~2019250-3002020~20212022~挑戰(zhàn)2:單機柜功耗超過40kWkW/架30-60kW/架單機架功率15kw/架5-10kW/架通用服務器AI服務器舉措:制定五大統(tǒng)一標準,實現(xiàn)三“極”目標舉措:制定五大統(tǒng)一標準,實現(xiàn)三“極”目標①②③④⑤五大統(tǒng)一機柜尺寸標準液冷接口標準液冷工質要求供電系統(tǒng)標準監(jiān)控管理要求冷卻塔5液冷機柜三“極”目標CDU冷水機組1???極致能效極高密度極簡運維PUE≤1.15單機柜功耗>40kW兼容傳統(tǒng)機房一次側回水342一次側供水 二次側供
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 海外房產銷售培訓總結
- 金屬材絲拉拔工創(chuàng)新方法能力考核試卷含答案
- 氯甲烷生產工安全實踐模擬考核試卷含答案
- 鍋爐除灰、脫硫、脫硝設備檢修工班組考核評優(yōu)考核試卷含答案
- 上海天德建設(集團)有限公司“1028”起重傷害死亡事故調查報告
- 酒店員工培訓與業(yè)務技能培養(yǎng)制度
- 酒店客房預訂與分配制度
- 酒店餐飲食品安全管理制度
- 桑蠶種養(yǎng)培訓課件
- 財務報告編制與審查制度
- 2025年廣東省中考物理試題卷(含答案)
- 金華東陽市國有企業(yè)招聘A類工作人員筆試真題2024
- 2025年6月29日貴州省政府辦公廳遴選筆試真題及答案解析
- 2025年湖南省中考數(shù)學真題試卷及答案解析
- DB32/T 3518-2019西蘭花速凍技術規(guī)程
- 急救中心工作匯報
- 裝修敲打搬運合同協(xié)議書
- 2025年公共管理改革的熱點問題試題及答案
- 《世界經濟史學》課件
- 四川省綿陽市2024屆中考數(shù)學試卷(含答案)
- 2025年官方標準工程款房屋抵償協(xié)議范本
評論
0/150
提交評論