版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
3 7 7 8 11 2.2傳輸層:復(fù)雜功能的協(xié)議設(shè)計(jì)與 38 1.智算中心發(fā)展與光電協(xié)同交換網(wǎng)絡(luò)興起1.1國家政策發(fā)展 計(jì)劃》[2]協(xié)力推進(jìn)全球人工智能發(fā)展與治理。該計(jì)劃指出應(yīng)“加快數(shù)字基礎(chǔ)設(shè)施建設(shè)”,即加快全球清潔電力、新一代網(wǎng)絡(luò)、智能算力、這些政策舉措充分體現(xiàn)了我國在人工智能基礎(chǔ)設(shè)施建設(shè)方面的1.2智算中心發(fā)展環(huán)節(jié),顯著提升了醫(yī)療服務(wù)質(zhì)量和效率。在人工智能+汽車領(lǐng)域,大在訓(xùn)練的過程中需要進(jìn)行頻繁且復(fù)雜的通信。這就要求構(gòu)建GPU之間的全互聯(lián)高速數(shù)據(jù)通道,以確保數(shù)據(jù)的高效傳輸,最大限度減少智算中心網(wǎng)絡(luò)如圖1-1所示,可按通信范圍分為機(jī)內(nèi)互聯(lián)機(jī)內(nèi)互聯(lián):主要用于單服務(wù)器或單節(jié)點(diǎn)內(nèi)的多GPU連接。典型機(jī)外互聯(lián):用于跨服務(wù)器或跨機(jī)柜的GPU通信,需依賴高速網(wǎng)1.3光電協(xié)同交換網(wǎng)絡(luò)的興起在交換技術(shù)方面,電交換技術(shù)具有成熟性、協(xié)議兼容性和靈活的頸的最佳技術(shù)路線,適用于超大規(guī)模AI訓(xùn)練集群。光電協(xié)同架構(gòu)[6] 提供TB級帶寬,充分發(fā)揮光與電兩者優(yōu)勢。盡管近年來電交換芯片在制程工藝、轉(zhuǎn)發(fā)架構(gòu)與緩存設(shè)計(jì)方面不程的25.6Tbps交換容量,瓶頸效應(yīng)更加嚴(yán)重。然而在實(shí)際部署中,與此同時(shí),隨著大模型參數(shù)規(guī)模和訓(xùn)練復(fù)雜度的持續(xù)增長,智算其完整訓(xùn)練任務(wù)需部署約25,000張H100GPU卡。假設(shè)每臺服務(wù)器Leaf層與Spine層交換節(jié)點(diǎn)之間形成全互聯(lián)結(jié)構(gòu),則光是Leaf層匯多堆疊與橫向擴(kuò)展鏈路,從而加重布線密度與網(wǎng)絡(luò)信效率的影響。GPU間需進(jìn)行頻繁的梯度同步、參數(shù)更新、狀態(tài)同步等集合通信操作,這些數(shù)據(jù)傳遞操作在服務(wù)器機(jī)內(nèi)和機(jī)間均存在,AllReduce集合通信數(shù)據(jù)量可達(dá)數(shù)百GB級別,如此龐大的數(shù)據(jù)量在下表展示了不同模型規(guī)模單次梯度同步數(shù)據(jù)量的大高電交換機(jī)的交換性能依賴其內(nèi)部交換芯片,交換芯片大模型訓(xùn)練需要多機(jī)多卡完成該輪所有集合通信操作后才可進(jìn)行傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)普遍采用多層電交換架構(gòu),通過網(wǎng)卡與交換機(jī)功耗約為21.5MW;當(dāng)擴(kuò)展至GPT-5(估計(jì)有17.5萬億參數(shù)、),負(fù)載運(yùn)行,且當(dāng)前利用率僅32%-36%,故障率較高,進(jìn)一步延長訓(xùn)為滿足極端高速率轉(zhuǎn)發(fā)需求,電交換芯片必須在高功率狀態(tài)下運(yùn)行,其高速I/O與大型轉(zhuǎn)發(fā)能力意味著持續(xù)的高能耗(例如CMOS方面疊加——單芯片高功率加上大規(guī)模設(shè)備自下而上擴(kuò)展——使整光交換技術(shù)是智算中心網(wǎng)絡(luò)架構(gòu)的重大革新,其核心在于繞過了根據(jù)切換光路的執(zhí)行方不同,主流光交換機(jī)可分為主動(dòng)和被動(dòng)兩借助交換機(jī)內(nèi)部元件的運(yùn)動(dòng)或物化性質(zhì)改變等來改變光的出射方向。主動(dòng)光交換機(jī)的重配置時(shí)間一般較長(數(shù)毫秒級成本較徑選擇依賴于輸入波長。系統(tǒng)級的路徑切換可通過使用可調(diào)諧激其通常無活動(dòng)元件,所以其成本也較低,也無需電源;但端口數(shù)盡管光交換技術(shù)具有高帶寬、低延遲、可擴(kuò)展等一系列優(yōu)點(diǎn),但在傳統(tǒng)的電交換數(shù)據(jù)中心網(wǎng)絡(luò)中,常使用三層交換的網(wǎng)絡(luò)拓?fù)洌饨粨Q機(jī)制和光電協(xié)同網(wǎng)絡(luò)相較于傳統(tǒng)電交換網(wǎng)絡(luò),在多個(gè)關(guān)鍵超高端口密度與擴(kuò)展性:光交換技術(shù)通過創(chuàng)新設(shè)計(jì)突破交換在端口密度上的瓶頸。例如,基于AWGR相控陣干涉技術(shù),可將數(shù)十至數(shù)百個(gè)波長解復(fù)用到單根輸出光纖,而MEMS光交換機(jī)通高端口密度可支持?jǐn)?shù)千GPU/算力節(jié)點(diǎn)互聯(lián),避免因端口不足導(dǎo)致的這意味著數(shù)據(jù)在光域內(nèi)直接傳遞,無需存儲-轉(zhuǎn)發(fā),也避免了電交換其整體延遲大約在30μs量級。大模型訓(xùn)練中進(jìn)行All-reduce操作低能耗與可持續(xù)發(fā)展:光交換設(shè)備的能耗需求遠(yuǎn)低交換技術(shù)減少了光-電-光轉(zhuǎn)換的需求,進(jìn)2.智算中心光電協(xié)同交換網(wǎng)絡(luò)面臨挑戰(zhàn)在網(wǎng)絡(luò)協(xié)議方面,智算中心網(wǎng)絡(luò)通常遵循分層設(shè)計(jì),與經(jīng)典的l應(yīng)用層:面向大模型訓(xùn)練的集合通信操作(如All-Reduce、);然而,隨著光電協(xié)同網(wǎng)絡(luò)作為新一代數(shù)據(jù)中心架構(gòu)的引入,傳統(tǒng)這一挑戰(zhàn)異貫穿協(xié)議棧各層,促使現(xiàn)有的設(shè)計(jì)理念與機(jī)制需要重2.1應(yīng)用層:集合通信與網(wǎng)絡(luò)拓?fù)涞氖涮魬?zhàn)智算應(yīng)用中的集合通信操作(如All-Reduce)通常抽象為特定的當(dāng)光電協(xié)同網(wǎng)絡(luò)的物理拓?fù)渑渲门c應(yīng)用需求的邏2.2傳輸層:復(fù)雜功能的協(xié)議設(shè)計(jì)與流量調(diào)度挑戰(zhàn)不同于普通數(shù)據(jù)中心,智算中心的任務(wù)流量具有極強(qiáng)的潮汐性。2.3網(wǎng)絡(luò)層:路由收斂滯后挑戰(zhàn)在傳統(tǒng)數(shù)據(jù)中心環(huán)境中,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)相對穩(wěn)定,邊界網(wǎng)關(guān)協(xié)議(BGP)憑借其成熟的路由收斂機(jī)制能夠有效應(yīng)對偶發(fā)的拓?fù)渥兓?,?shù)然而,光電協(xié)同交換網(wǎng)絡(luò)的出現(xiàn)徹底改變了這一局面。光交換技較傳統(tǒng)網(wǎng)絡(luò)提升了數(shù)個(gè)數(shù)量級。在這種高頻動(dòng)態(tài)變化的網(wǎng)絡(luò)環(huán)境中,依賴數(shù)秒間隔的Keepalive消息的傳統(tǒng)BGP協(xié)議的收斂速度嚴(yán)重滯后控制平面的擴(kuò)展性挑戰(zhàn)進(jìn)一步加劇了路由控制的復(fù)雜性。傳統(tǒng)BGP協(xié)議的收斂時(shí)間隨著節(jié)點(diǎn)數(shù)量擴(kuò)大而擴(kuò)大,這與光電協(xié)同網(wǎng)絡(luò)要求單位時(shí)間內(nèi)BGP收斂的次數(shù)便越高,給終端帶來了遠(yuǎn)超傳統(tǒng)數(shù)),2.4鏈路層:非對稱資源動(dòng)態(tài)分配挑戰(zhàn)2.5物理層:信號衰減挑戰(zhàn)與時(shí)延約束挑戰(zhàn)在智算中心網(wǎng)絡(luò)中,物理層不僅承擔(dān)著數(shù)據(jù)的信號傳輸職責(zé),更首先,光互連需要在高端口密度和長距離傳輸之間取得平衡。相其次,光交換的動(dòng)態(tài)性帶來了更高的控制復(fù)雜度。與固定電交換于多個(gè)GPU節(jié)點(diǎn)時(shí),其控制信號同步、狀再者,物理層還需應(yīng)對能效和散熱問題。高速光模塊和大規(guī)模硅集成至GPU互連模塊或板卡,這對光器件的功率預(yù)算、熱管理提出3.智算中心光電協(xié)同交換網(wǎng)絡(luò)協(xié)議棧技術(shù)在第2章中,本文已對智算中心網(wǎng)絡(luò)在采用光電3.1應(yīng)用層:面向光電網(wǎng)絡(luò)的集合通信重構(gòu)協(xié)議行組織。典型的集合通信操作包括AllReduce、All-to-All、等,這些操作在實(shí)際訓(xùn)練過程中的通信開銷可占據(jù)整法在光電協(xié)同環(huán)境中經(jīng)常出現(xiàn)拓?fù)洳黄ヅ洮F(xiàn)象。例如,標(biāo)準(zhǔn)的Ring型并行的特點(diǎn),使用不同的AllReduce實(shí)現(xiàn)。1/3,網(wǎng)絡(luò)時(shí)延也因?yàn)樵谥虚g節(jié)點(diǎn)的服務(wù)器上排隊(duì)而大幅增加。如果講Allreduce的通信順序與當(dāng)前光網(wǎng)絡(luò)拓?fù)淦ヅ洌瑒t每個(gè)節(jié)點(diǎn)都標(biāo)準(zhǔn)與可交互性:實(shí)現(xiàn)通信模式動(dòng)態(tài)重構(gòu)需要對底層通信庫進(jìn)行通過上述技術(shù)方案的系統(tǒng)性實(shí)施,通信模式動(dòng)態(tài)重構(gòu)技術(shù)能夠顯3.2傳輸層:面向光電網(wǎng)絡(luò)的高性能傳輸協(xié)議高性能傳輸層協(xié)議作為現(xiàn)代數(shù)據(jù)中心的核心通信技術(shù),通過繞過在光電協(xié)同網(wǎng)絡(luò)中,光鏈路與電鏈路在帶寬容量、傳輸延遲以及在傳統(tǒng)的電交換智算中心網(wǎng)絡(luò)中,多路徑機(jī)制已相對成熟。這些為適應(yīng)光電協(xié)同網(wǎng)絡(luò)的動(dòng)態(tài)特性,需要構(gòu)建具備實(shí)時(shí)路徑感知與光路與電路在傳輸延遲上的差異,還會(huì)導(dǎo)致一種典型現(xiàn)象:先經(jīng)吐,但需要接收端具備更高的硬件能力,尤其是在DRAM容量與數(shù)在傳統(tǒng)的電交換網(wǎng)絡(luò)中,傳輸層的擁塞控制協(xié)議通常采用單態(tài)設(shè)電鏈路在性能特征上存在數(shù)量級的差異:光鏈路往往具備數(shù)百Gbps這種顯著的性能異構(gòu)性,使得單態(tài)擁塞控制在光電鏈路切換過程雙態(tài)機(jī)制的核心挑戰(zhàn)在于如何實(shí)現(xiàn)擁塞控制狀態(tài)與鏈路物理狀態(tài)主動(dòng)探測機(jī)制:由發(fā)送端通過定期探測流判斷鏈路狀態(tài)變化此外,在傳統(tǒng)網(wǎng)絡(luò)環(huán)境中,多流競爭常采用公平帶寬分配策略,是將每個(gè)訓(xùn)練任務(wù)的生命周期視作交替出現(xiàn)的“計(jì)算階段—通信階段”占/授權(quán)”機(jī)制、任務(wù)優(yōu)先級隊(duì)列與短期資源預(yù)占,以及必要的回退該策略帶來的直接收益包括:顯著縮短單個(gè)訓(xùn)練任務(wù)的通信關(guān)鍵3.3網(wǎng)絡(luò)層:面向光電網(wǎng)絡(luò)的智能路由控制網(wǎng)絡(luò)層作為網(wǎng)絡(luò)協(xié)議棧的核心組成部分,包含控制平面和數(shù)據(jù)平狀態(tài)等多種信息源,BGP協(xié)議可以更早地探測到鏈路變化,降低甚握手機(jī)制,且復(fù)雜的擁塞控制和重傳機(jī)制也對TCP引入了額外的開銷,不僅增加了通信延遲,而且對頻繁的BGP協(xié)商不利。通過換用UDP協(xié)議或RDMA協(xié)議,可以實(shí)現(xiàn)更低延遲的傳輸。在指定輪轉(zhuǎn)規(guī)則前,可以針對數(shù)種典型拓?fù)淠J剑A(yù)先計(jì)算其可對于部分光電協(xié)同網(wǎng)絡(luò)拓?fù)漕愋?,在特定時(shí)間可能同時(shí)存在電鏈通過上述技術(shù)方案的系統(tǒng)性實(shí)施,智能路由控制體系能夠顯著提3.4鏈路層:面向光電網(wǎng)絡(luò)的智能雙工重構(gòu)智算中心普遍存在帶寬資源配置失衡的核心問題。在智算訓(xùn)練場這種剛性配置導(dǎo)致網(wǎng)絡(luò)資源配置與實(shí)際使用需求嚴(yán)重脫節(jié)——當(dāng)某光交換技術(shù)為解決此類問題提供了新的可能性。其核心優(yōu)勢在于智算中心的典型應(yīng)用負(fù)載呈現(xiàn)出顯著的流量方向性特征。如數(shù)據(jù)并行的AllReduce通信,流水線并行的點(diǎn)對點(diǎn)Send/Recv通信,這些集合通信的部分方向存在顯著的大流量,而反方向只需要返回確認(rèn)在聯(lián)邦學(xué)習(xí)場景中,邊緣節(jié)點(diǎn)向中央聚合器上傳本地模型更新,基于以上的發(fā)現(xiàn),根據(jù)實(shí)時(shí)流量需求的方向性特征,利用可靈活在具備預(yù)測能力的基礎(chǔ)上,鏈路池化策略成為提升帶寬利用率的寬分配。例如,當(dāng)預(yù)測到A→B的數(shù)據(jù)流量在下一個(gè)調(diào)度窗口要做到不對等的帶寬分配,鏈路層需要對現(xiàn)有協(xié)議和機(jī)制進(jìn)行擴(kuò)路”抽象,允許將多個(gè)物理通道聚合為一個(gè)邏輯帶寬池,并通過鏈路鏈路層需支持根據(jù)調(diào)度器下發(fā)的帶寬分配策略,對發(fā)送速率進(jìn)行自適應(yīng)控制。例如,在A→B分配3條通道、B→A分配1條通道的場景中,節(jié)點(diǎn)A的NIC必須限制反向發(fā)送速率,同時(shí)節(jié)點(diǎn)B鏈路層需要向上層暴露動(dòng)態(tài)帶寬變化事件,以觸發(fā)流量調(diào)度或路通過上述技術(shù)方案的系統(tǒng)性實(shí)施,智能雙工重構(gòu)技術(shù)能夠有效解3.5物理層:分布式光交換與物理層優(yōu)化業(yè)界正在探索多種物理層優(yōu)化技術(shù),以推動(dòng)光電協(xié)同網(wǎng)絡(luò)加速落地。其中,分布式光交換(dOCS)架構(gòu)作為一種代表性技術(shù)方案,受到了廣泛關(guān)注。該架構(gòu)的核心思路是將光交著提升網(wǎng)絡(luò)的靈活性與可靠性。曦智科技的LightSphereX超節(jié)點(diǎn)[13]在器件設(shè)計(jì)層面,硅光技術(shù)是另一個(gè)重要發(fā)展方向。該技術(shù)將調(diào)制器、開關(guān)陣列與光電轉(zhuǎn)換功能集成至Chiplet模塊,并可結(jié)合先進(jìn)的物理層優(yōu)化方向還包括采用CPO(Co-PackagedOptics)實(shí)現(xiàn)光模塊與交換芯片的深度集成,以及探索液晶可調(diào)開關(guān)、MEMS等新型4.總結(jié)與展望4.1光電協(xié)同交換網(wǎng)絡(luò)的標(biāo)準(zhǔn)化路徑光電協(xié)同網(wǎng)絡(luò)作為下一代數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的重要發(fā)展方向,其在這一階段中,需要制定物理層的光交換設(shè)備接口標(biāo)準(zhǔn),同時(shí)為光交換設(shè)備的接口標(biāo)準(zhǔn)中,最重要的是控制接口規(guī)范,如重配置光電性能基準(zhǔn)與測試標(biāo)準(zhǔn)中,應(yīng)包括吞吐量、延遲、抖動(dòng)等關(guān)鍵SDN控制平面與光交換設(shè)備交互的接口標(biāo)準(zhǔn),支持拓?fù)涓潞吐酚稍谶@一階段,需要為通用的智能通信庫制定標(biāo)準(zhǔn),如多種集合通在安全與可靠性方面,需要建立訪問控制標(biāo)準(zhǔn)、網(wǎng)絡(luò)可靠性評估4.2面向未來的研究與產(chǎn)業(yè)發(fā)展方向未來,光電協(xié)同網(wǎng)絡(luò)將在技術(shù)演進(jìn)、應(yīng)用拓展、產(chǎn)業(yè)生態(tài)等方面規(guī)模的機(jī)器學(xué)習(xí)訓(xùn)練任務(wù)。對于超萬卡規(guī)模的超大型AI模型訓(xùn)練,單次訓(xùn)練任務(wù)的數(shù)據(jù)交換量將達(dá)到PB級別。光電協(xié)同網(wǎng)絡(luò)將提供Tbps級的聚合帶寬和微秒級的通信延遲,使得萬億參數(shù)規(guī)模的大模產(chǎn)業(yè)生態(tài)方面,光電網(wǎng)絡(luò)的發(fā)展將推動(dòng)芯片與設(shè)備等上游產(chǎn)業(yè)升光電協(xié)同網(wǎng)絡(luò)技術(shù)正站在歷史性的發(fā)展機(jī)遇期,其未來發(fā)展將深面對激烈的國際技術(shù)競爭,我國應(yīng)該抓住光電協(xié)同網(wǎng)絡(luò)發(fā)展的戰(zhàn)參考文獻(xiàn)[1]中國政府網(wǎng).《國家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)指引》印發(fā)lianbo/bumen/202501/content_699[2]中國政府網(wǎng).人工智能全球治理行動(dòng)計(jì)劃[EB/OL].(2025-07-26)[2025-08-01]./yaowen/liebiao/202507/content_70339況統(tǒng)計(jì)報(bào)告[R/OL].(2025)[2025-07-21].[4]NVIDIA.云與數(shù)據(jù)中心[EB/OL].com/zh-tw/data-center[6]任雄飛.面向數(shù)據(jù)中心的光交換網(wǎng)絡(luò)資源調(diào)度技術(shù)研究[D].北京:[8]段曉東,李婕妤,程偉強(qiáng),等.面向智算中心的新型以太網(wǎng)需求與關(guān)[9]武漢市互聯(lián)網(wǎng)信息辦公室.人工智能為何如此耗電[EB/OL].(2024-09-27)[2025-08-12]./wlcb/wwtj/202409/t2024[10]Lumentum.Energ
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 平房出租合同協(xié)議
- 工程量合同范本
- 建筑出租合同范本
- 征拆協(xié)助協(xié)議書
- 蕪湖光伏協(xié)議書
- 2025廣東工業(yè)大學(xué)物理與光電工程學(xué)院高層次人才招聘備考核心試題附答案解析
- 學(xué)生自殺協(xié)議書
- 莊稼管護(hù)協(xié)議書
- 贈(zèng)與小孩協(xié)議書
- 裝修補(bǔ)充協(xié)議書
- 10Kv電力變壓器試驗(yàn)報(bào)告
- 市政工程試驗(yàn)檢測培訓(xùn)教程
- 寧夏調(diào)味料項(xiàng)目可行性研究報(bào)告
- GRR計(jì)算表格模板
- 長沙市長郡雙語實(shí)驗(yàn)學(xué)校人教版七年級上冊期中生物期中試卷及答案
- 馬克思主義經(jīng)典著作選讀智慧樹知到課后章節(jié)答案2023年下四川大學(xué)
- GB/T 19867.1-2005電弧焊焊接工藝規(guī)程
- GB/T 16102-1995車間空氣中硝基苯的鹽酸萘乙二胺分光光度測定方法
- GB/T 15171-1994軟包裝件密封性能試驗(yàn)方法
- 醫(yī)院轉(zhuǎn)院證明樣本圖片(范文四篇)
- 外科護(hù)理學(xué)期末試卷3套18p
評論
0/150
提交評論