版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
智能算網(wǎng)(AIFabric2.0)2025年9月編制說(shuō)明01 02 02數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展趨勢(shì)與挑戰(zhàn)032.1數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)業(yè)發(fā)展趨勢(shì) 032.2通算數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展趨勢(shì)與挑戰(zhàn) 052.3智算數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展趨勢(shì)與挑戰(zhàn) 06 03數(shù)據(jù)中心網(wǎng)絡(luò)代際演進(jìn)09 04AIFabric2.0關(guān)鍵技術(shù)114.1AI網(wǎng)元 114.1.1綠色超寬 114.1.2高速光互聯(lián) 124.1.3內(nèi)生安全 154.1.4智能遙測(cè) 164.1.5AI交換機(jī) 174.2AI聯(lián)接 184.2.1新型網(wǎng)絡(luò)架構(gòu) 184.2.1.1多平面組網(wǎng)技術(shù) 184.2.1.2對(duì)等組網(wǎng)技術(shù) 204.2.2網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù) 234.2.2.1流級(jí)負(fù)載均衡技術(shù) 234.2.2.2逐包負(fù)載均衡技術(shù) 24 4.2.3擁塞控制技術(shù)264.2.3.1端網(wǎng)協(xié)同擁塞控制技術(shù) 264.2.3.2FlexBuffer擁塞控制技術(shù) 284.2.3.3拉遠(yuǎn)訓(xùn)練精準(zhǔn)流控技術(shù) 294.2.3.4AIECN2.0技術(shù) 304.2.4在網(wǎng)計(jì)算技術(shù) 314.2.5在網(wǎng)存儲(chǔ)技術(shù) 314.2.6高穩(wěn)韌性技術(shù) 334.2.6.1故障恢復(fù)技術(shù) 334.2.6.2閃啟技術(shù) 364.2.6.3光鏈路檢測(cè)技術(shù) 374.2.6.3網(wǎng)絡(luò)互聯(lián)冗余 394.3AI大腦 414.3.1仿真驗(yàn)證/孿生仿真 414.3.2自動(dòng)化Agent 424.3.3故障Agent 424.3.4網(wǎng)維Copilot 4305總結(jié)和展望451本研究報(bào)告在撰寫過(guò)程中得到了多家單位的大力支持,在此特別感謝以下顧問(wèn)專家、參編單位和參編人員:顧問(wèn)專家(排名不分先后):中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所所長(zhǎng)何寶宏華為數(shù)據(jù)通信產(chǎn)品線數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域總裁王武偉參編單位(排名不分先后):華為技術(shù)有限公司、中國(guó)信息通信研究院(云大所)參編人員(排名不分先后):2產(chǎn)業(yè)數(shù)字化的快速發(fā)展推動(dòng)了數(shù)據(jù)中心的演進(jìn),數(shù)據(jù)中心網(wǎng)絡(luò)的發(fā)展經(jīng)歷了三個(gè)主要階段:虛擬化階段、云化應(yīng)用階段和算力服務(wù)化階段。在虛擬化階段和云化應(yīng)用階段,數(shù)據(jù)中心為辦公和生產(chǎn)系統(tǒng)提供虛擬化和云化基礎(chǔ)設(shè)施,數(shù)據(jù)中心網(wǎng)絡(luò)采用傳統(tǒng)以太網(wǎng)技術(shù)用于支撐數(shù)據(jù)的集中管理以及計(jì)算和存儲(chǔ)資源的池化應(yīng)用。發(fā)展到算力服務(wù)化階段,隨著高性能存儲(chǔ)、超算中心高性能互聯(lián)和AI算網(wǎng)的引入,數(shù)據(jù)中心網(wǎng)絡(luò)需要提供更高帶寬、更低時(shí)延以及更高可靠性。然而,傳統(tǒng)以太網(wǎng)技術(shù)無(wú)法滿足要求,導(dǎo)致數(shù)據(jù)中心高性能存儲(chǔ)選擇FC專網(wǎng)承載,超算中心高性能互聯(lián)則通過(guò)IB專網(wǎng)承載,而AI算網(wǎng)則通過(guò)增強(qiáng)的以太網(wǎng)技術(shù)承載。這種三種網(wǎng)絡(luò)技術(shù)并存大大增加了數(shù)據(jù)中心網(wǎng)絡(luò)的管理運(yùn)維復(fù)雜度和成本。與此同時(shí),計(jì)算技術(shù)的廣泛應(yīng)用和數(shù)據(jù)中心對(duì)以太網(wǎng)交換需求的顯著增長(zhǎng),推動(dòng)了以太技術(shù)的快速發(fā)展。隨著400GE以太技術(shù)的商用和800GE以太標(biāo)準(zhǔn)的發(fā)布,以太網(wǎng)技術(shù)不僅在帶寬上超越了IB網(wǎng)絡(luò),無(wú)損以太網(wǎng)技術(shù)也逐漸成熟,為高性能網(wǎng)絡(luò)向無(wú)損以太演進(jìn)奠定了基礎(chǔ)。超融合以太以實(shí)現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)融合為目標(biāo),將通用計(jì)算、存儲(chǔ)、高性能計(jì)算統(tǒng)一承載在0丟包以太網(wǎng)技術(shù)棧上,實(shí)現(xiàn)從三張網(wǎng)到一張網(wǎng)的融合部署,統(tǒng)一網(wǎng)絡(luò)架在當(dāng)前數(shù)字化浪潮席卷全球、AI應(yīng)用呈指數(shù)級(jí)快速增長(zhǎng)的時(shí)代背景下,數(shù)據(jù)中心網(wǎng)絡(luò)作為算力承載與數(shù)據(jù)流通的關(guān)鍵樞紐,其性能優(yōu)劣直接決定了企業(yè)數(shù)字化轉(zhuǎn)型與智能化創(chuàng)新的成敗?;趯?duì)這一行業(yè)痛點(diǎn)的深刻洞察,以及推動(dòng)AI產(chǎn)業(yè)生態(tài)良性發(fā)展的使命感,我們精心籌備并推出這份《智能算網(wǎng)(AIFabric2.0)研究報(bào)告》(下面簡(jiǎn)稱AIFabric2.0)。相對(duì)于傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò),AIFabric2.0不僅是技術(shù)上的迭代升級(jí),更是從理念到架構(gòu)、從技術(shù)到應(yīng)用的全面革新,是對(duì)重新定義了AI時(shí)代數(shù)據(jù)中心網(wǎng)絡(luò)的價(jià)值范式。32數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展趨勢(shì)與挑戰(zhàn)隨著數(shù)字經(jīng)濟(jì)的加速發(fā)展,人工智能、大數(shù)據(jù)、云計(jì)算、區(qū)塊鏈等新一代信息技術(shù)已成為社會(huì)生產(chǎn)力的關(guān)鍵支撐,尤其是以GPT-4、Llama和DeepSeek為代表的大語(yǔ)言模型(LargeLanguageModels,LLMs)在人工智能領(lǐng)域取得突破性進(jìn)展,引發(fā)了對(duì)算力資源前所未有的需求。在數(shù)字經(jīng)濟(jì)加速發(fā)展的背景下,算力已成為新型基礎(chǔ)設(shè)施的重要支撐,是推動(dòng)經(jīng)濟(jì)社會(huì)高質(zhì)量發(fā)展的核心驅(qū)動(dòng)力。作為數(shù)字經(jīng)濟(jì)的關(guān)新質(zhì)生產(chǎn)力、賦能產(chǎn)業(yè)升級(jí)的重要引擎。全球范圍內(nèi),各國(guó)圍繞算力展開(kāi)了激烈競(jìng)爭(zhēng),紛紛通過(guò)政策強(qiáng)化算力產(chǎn)業(yè)的引導(dǎo),以搶占數(shù)字經(jīng)濟(jì)發(fā)展的制高點(diǎn)。例如,美國(guó)、歐盟等均已將算力網(wǎng)絡(luò)納入國(guó)家數(shù)字基礎(chǔ)設(shè)施建設(shè)規(guī)劃。2019年1美國(guó)發(fā)布《國(guó)家戰(zhàn)略性計(jì)算計(jì)劃》,提出開(kāi)發(fā)、拓展并提升國(guó)家的計(jì)算基礎(chǔ)設(shè)2020年9月,歐盟對(duì)“歐洲高性能計(jì)算共同計(jì)劃”進(jìn)行了升級(jí),重點(diǎn)發(fā)展下一代超級(jí)計(jì)算,強(qiáng)化歐洲數(shù)字主權(quán)。2023年,歐盟在《2030年數(shù)字十年政策方案》也提出"加強(qiáng)歐盟范圍內(nèi)傳輸、計(jì)算和數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)”,以實(shí)現(xiàn)歐盟2030年數(shù)字化轉(zhuǎn)型的共同目標(biāo)。此外,沙特制定了《沙特愿景2030》戰(zhàn)略,旨在發(fā)展高性能計(jì)算和人工智能技術(shù),提高在全球競(jìng)爭(zhēng)力。我國(guó)也在持續(xù)強(qiáng)化算力產(chǎn)業(yè)政策引導(dǎo),統(tǒng)籌通用算力、智能算力和超級(jí)算力,為網(wǎng)絡(luò)強(qiáng)國(guó)和數(shù)字中國(guó)建設(shè)筑牢數(shù)字基座。2021年3月,“十四五”規(guī)劃首次提出“全國(guó)一體化大數(shù)據(jù)中心體系”,建設(shè)E級(jí)與10E級(jí)超算中心;同年5月,國(guó)家發(fā)改委等四部委聯(lián)合發(fā)布《全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》,明確提出布局全國(guó)算力網(wǎng)絡(luò)樞紐節(jié)點(diǎn),啟動(dòng)實(shí)施“東數(shù)西算”工程。2021年7月,工業(yè)和信息化部發(fā)布《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023)》,提出構(gòu)建以新型數(shù)據(jù)中心為核心的智能算力生態(tài)體系,構(gòu)建具備高技術(shù)、高算力、高能效、高安全特征的新型算部委印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》(工信部聯(lián)通信〔2023〕180號(hào)),提出2025年算力規(guī)模超過(guò)300EFLOPS(每秒浮點(diǎn)運(yùn)算次數(shù)智能算力占比35%的目標(biāo),4并闡述了算力內(nèi)網(wǎng)絡(luò)高性能傳輸調(diào)度要求,以及無(wú)損網(wǎng)絡(luò)技術(shù)應(yīng)用要求。數(shù)據(jù)中心網(wǎng)絡(luò)連接算力,其性能直接決定了整個(gè)數(shù)據(jù)中心的實(shí)際算力水平。以大模型訓(xùn)練為例,需要同時(shí)協(xié)調(diào)數(shù)千張甚至數(shù)萬(wàn)張算力卡資源,數(shù)據(jù)吞吐量成為AI計(jì)算的關(guān)鍵瓶頸,需要高效的數(shù)據(jù)流水線支持,對(duì)網(wǎng)絡(luò)的帶寬、時(shí)延和可靠性都提出了極高要求。因此,要提升數(shù)據(jù)中心算力服務(wù)能力,就必須進(jìn)一步提升數(shù)據(jù)中心網(wǎng)絡(luò)性能。根據(jù)《中國(guó)綜合算力指數(shù)(2024年)》報(bào)告,計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)是算力最重要的組成 部分,在數(shù)字經(jīng)濟(jì)發(fā)展新時(shí)期,需要更加關(guān)注構(gòu)建集群算力、存力和運(yùn)力于一體的數(shù)據(jù)中心。5根據(jù)中國(guó)人民銀行發(fā)布的金融行業(yè)標(biāo)準(zhǔn)《金融數(shù)據(jù)中心容災(zāi)建設(shè)指引》(JR/T0264—2024通用計(jì)算網(wǎng)絡(luò)容災(zāi)正在從“備份可用”向“智能韌性”升級(jí)。這一指引不僅提升了對(duì)災(zāi)難恢復(fù)能力,更是金融等行業(yè)在通用計(jì)算核心業(yè)務(wù)與數(shù)據(jù)中心發(fā)展理念上的重大轉(zhuǎn)折。在央行《指引》的推動(dòng)下,金融行業(yè)的容災(zāi)體系正在加速變革,而政務(wù)、泛互聯(lián)網(wǎng)等領(lǐng)域的通算核心業(yè)務(wù)也在共同推動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)進(jìn)入顛覆性重構(gòu)期。未來(lái)十年,數(shù)據(jù)中心的核心將發(fā)生根本性變化,從“異地容災(zāi)預(yù)防災(zāi)難”向“極端容災(zāi)預(yù)防戰(zhàn)爭(zhēng)”演進(jìn)。以國(guó)內(nèi)某大型銀行為例,其業(yè)務(wù)架構(gòu)從“業(yè)務(wù)主備、數(shù)據(jù)災(zāi)備”向“業(yè)務(wù)多活、數(shù)據(jù)多活”持續(xù)演進(jìn),這將推動(dòng)通算數(shù)據(jù)中心服務(wù)器數(shù)量增長(zhǎng)10倍,單個(gè)數(shù)據(jù)中心向“十萬(wàn)級(jí)”集約化建設(shè)邁進(jìn)。預(yù)計(jì)在未來(lái)10年內(nèi),國(guó)內(nèi)大行將率先在內(nèi)蒙古、西安、成渝等地分階段建設(shè)大型數(shù)據(jù)中心,最終建成50萬(wàn)甚至百萬(wàn)服務(wù)器級(jí)別的“多地多中心”數(shù)據(jù)中心架構(gòu),這一趨勢(shì)將給數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)和運(yùn)維帶來(lái)新的變化和挑戰(zhàn)。1)核心演變:從“孤島保障”走向全局智慧傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)是維系單一計(jì)算資源池運(yùn)作的靜態(tài)管道,其主要功能是保障計(jì)算與存儲(chǔ)之間的基本連接與穩(wěn)定運(yùn)行。然而,伴隨業(yè)務(wù)多活、數(shù)據(jù)多活(雙活/多活)架構(gòu)的深入應(yīng)用,網(wǎng)絡(luò)角色正重構(gòu)為連接全國(guó)乃至全球分布式計(jì)算資源的“神經(jīng)中樞”。這一中樞需實(shí)時(shí)掌握所有業(yè)務(wù)組件的分布狀態(tài),并依據(jù)負(fù)載、災(zāi)害風(fēng)險(xiǎn)與延遲感知自主調(diào)整流量路徑。它不再僅僅是通用計(jì)算資源的連接者,而是智能調(diào)度各資源池承載能力的核心大腦,確??蛻舾黝惡诵臉I(yè)務(wù)在任意位置發(fā)生,都能由最優(yōu)計(jì)算節(jié)點(diǎn)響應(yīng)處理。這就要求異地?cái)?shù)據(jù)中心間具備全局流量調(diào)度能力,可根據(jù)鏈路延遲變化動(dòng)態(tài)切換支付結(jié)算類關(guān)鍵業(yè)務(wù)路徑,實(shí)現(xiàn)用戶“零2)超大規(guī)模與智能韌性協(xié)同演進(jìn)挑戰(zhàn)加劇伴隨通用計(jì)算服務(wù)器邁向50萬(wàn)乃至百萬(wàn)級(jí)規(guī)模,單數(shù)據(jù)中心網(wǎng)絡(luò)的物理規(guī)模與邏輯復(fù)雜性激增。傳統(tǒng)依賴人工策略管理的模式已無(wú)法滿足需求。帶寬對(duì)等化、毫秒級(jí)切換等硬性要6行風(fēng)險(xiǎn)預(yù)測(cè)和優(yōu)化。運(yùn)維系統(tǒng)將基于對(duì)業(yè)務(wù)意圖的理解(如“支付交易必須在50毫秒內(nèi)返性能極限與新協(xié)議普及:多活架構(gòu)下,數(shù)據(jù)中心間海量數(shù)據(jù)同步是關(guān)鍵性能瓶頸。低延遲、高帶寬的RDMA(如RoCEv2)將普遍應(yīng)用于金融核心交易與關(guān)鍵數(shù)據(jù)庫(kù)同步環(huán)境,對(duì)無(wú)損以太網(wǎng)能力提出嚴(yán)峻挑戰(zhàn)。此外,傳統(tǒng)Spine-Leaf的CLOS架構(gòu)是否適用超大規(guī)模的數(shù)據(jù)中心,如何應(yīng)對(duì)多POD間的大規(guī)模流量靈活調(diào)度,也將面臨新的挑戰(zhàn)。“戰(zhàn)爭(zhēng)級(jí)”韌性催生容災(zāi)與加密升級(jí):為應(yīng)對(duì)地質(zhì)災(zāi)害及沖突破壞,如何支撐數(shù)據(jù)中心網(wǎng)絡(luò)“中樞”在極端環(huán)境下的通信能力成為關(guān)鍵瓶頸。網(wǎng)絡(luò)需要基于智能故障感知恢復(fù),助力網(wǎng)絡(luò)常穩(wěn)業(yè)務(wù)永續(xù)。同時(shí),為保障跨樓宇、跨DC此類高速鏈路互聯(lián)場(chǎng)景的傳輸安全,通信安全等相關(guān)技術(shù)也將加速在高韌性DC架構(gòu)中落地。未來(lái)十年數(shù)據(jù)中心網(wǎng)絡(luò)將徹底超越傳統(tǒng)連接的定位,真正成為驅(qū)動(dòng)金融、政府等業(yè)務(wù)韌性、智能與效能變革的根基性力量。其成功演進(jìn)絕非單純的技術(shù)升級(jí),更將成為行業(yè)在數(shù)字經(jīng)濟(jì)時(shí)代制勝的關(guān)鍵能力基石。誰(shuí)能率先完成網(wǎng)絡(luò)從“業(yè)務(wù)保障通道”向“智能韌AI產(chǎn)業(yè)正迎來(lái)前所未有的快速發(fā)展期,呈現(xiàn)出幾大顯著趨勢(shì)變化。1)大模型規(guī)模指數(shù)級(jí)增長(zhǎng),頭部OTT大模型持續(xù)摸高,大模型訓(xùn)練帶動(dòng)網(wǎng)絡(luò)發(fā)展模型性能競(jìng)賽白熱化:2025年上半年,OpenAI的GPT-4.5、Google的Gemini2.5Pro、Anthropic的Claude4等模型在復(fù)雜推斷能力上持續(xù)突破。例如,Gemini2.5Pro在數(shù)學(xué)推理(2025高考數(shù)學(xué)卷得分140分)和多模態(tài)理解(支持100萬(wàn)令牌上下文窗口)上達(dá)到新高度,而Claude4Opus通過(guò)混合推斷模式實(shí)現(xiàn)“快速響應(yīng)”與“深度反思”的動(dòng)態(tài)平衡。模型摸高驅(qū)動(dòng)集群規(guī)模走向10萬(wàn)卡,代際快速演進(jìn):北美頭部互聯(lián)網(wǎng)客戶在智算領(lǐng)域的投資保持60%增速,例如Meta在2025年持續(xù)擴(kuò)大英偉達(dá)H100GPU集群,規(guī)模超35萬(wàn)卡,網(wǎng)絡(luò)代際向800GE快速演進(jìn);“星際之門”總投資超1150億美元,2025年底建設(shè)超730萬(wàn)卡GB200集群。國(guó)內(nèi)客戶也在積極跟進(jìn),例如字節(jié)2025年在智算領(lǐng)域投資1600億元人民幣,持續(xù)AGI(通用人工智能)研發(fā);阿里發(fā)布Qwen2.5-Max,未來(lái)3年投資3800億投入AI和云基礎(chǔ)設(shè)施。模型尺寸從最初的數(shù)十億參數(shù)發(fā)展到如今的萬(wàn)億參數(shù)級(jí)別,帶動(dòng)算力規(guī)模呈現(xiàn)爆炸式增長(zhǎng),相應(yīng)的網(wǎng)絡(luò)規(guī)模和帶寬需求也隨之急劇增長(zhǎng)。這直接推動(dòng)了網(wǎng)絡(luò)速率從Gb級(jí)別邁向400GE/800GE/1.6TE高速時(shí)代,對(duì)網(wǎng)絡(luò)延遲、吞吐量和可擴(kuò)展性帶來(lái)了嚴(yán)峻挑戰(zhàn)。為了應(yīng)對(duì)這些挑戰(zhàn),網(wǎng)絡(luò)架構(gòu)必須進(jìn)行根本性變革,傳統(tǒng)的多層網(wǎng)絡(luò)結(jié)構(gòu)由于轉(zhuǎn)發(fā)延遲高、配置復(fù)雜等問(wèn)題已難以滿足AI流量的需求,扁平化的網(wǎng)絡(luò)架構(gòu)成為必然選擇。這一趨勢(shì)由兩大核心驅(qū)動(dòng)力:算力結(jié)構(gòu)重構(gòu):2025年中國(guó)智能算力規(guī)模預(yù)計(jì)達(dá)1037.3EFLOPS(是通用算力的12倍隨著模型的成熟以及生成式人工智能應(yīng)用的不斷拓展,推理場(chǎng)景的需求日益增加,推理服務(wù)器的占比將顯著提高。IDC數(shù)據(jù)顯示,預(yù)計(jì)到2028年,推理工作負(fù)載占比將達(dá)到73%。應(yīng)用場(chǎng)景爆發(fā)式增長(zhǎng):智算業(yè)務(wù)的應(yīng)用場(chǎng)景正從互聯(lián)網(wǎng)行業(yè)向金融、醫(yī)療、制造、交通等傳統(tǒng)行業(yè)全面延伸,推動(dòng)各行業(yè)的智能化轉(zhuǎn)型。例如在金融領(lǐng)域,智算技術(shù)被廣泛應(yīng)用于風(fēng)險(xiǎn)控制、智能投顧、欺詐檢測(cè)等場(chǎng)景。通過(guò)對(duì)海量金融數(shù)據(jù)的分析和建模,智算中為金融機(jī)構(gòu)提供更精準(zhǔn)的風(fēng)險(xiǎn)評(píng)估和投資建議,提高金融服務(wù)的效率和安全性。AI的應(yīng)用場(chǎng)景從單一的訓(xùn)練模式擴(kuò)展到豐富的推理服務(wù),包括實(shí)時(shí)推理、批量推理、邊緣推理等多種形態(tài),業(yè)務(wù)流量從規(guī)律化轉(zhuǎn)向復(fù)雜化和多樣化。與訓(xùn)練場(chǎng)景相對(duì)單一的流量模式不同,推理業(yè)務(wù)呈現(xiàn)出顯著的異構(gòu)性和動(dòng)態(tài)性特征。業(yè)務(wù)調(diào)度流量、集合通信流量、KVCache訪問(wèn)流量、存儲(chǔ)訪問(wèn)流量等多種流量類型在同一網(wǎng)絡(luò)中并存,且流量模式具有明顯的突發(fā)性和不可預(yù)測(cè)性。同時(shí),推理部署形態(tài)也發(fā)生革新,PD分離,Attn-FFN分離等新架構(gòu)模式相繼涌現(xiàn),有效優(yōu)化資源利用效率,進(jìn)一步推動(dòng)推理集群化部署。AI技術(shù)正從“奢侈品”變?yōu)椤盎A(chǔ)設(shè)施”,帶動(dòng)產(chǎn)業(yè)AI升級(jí),并深度融入終端設(shè)備。產(chǎn)業(yè)AI升級(jí),對(duì)性能要求更高:以金融為例,風(fēng)控策略從之前的靜態(tài)模型+動(dòng)態(tài)策略升級(jí)為基于AI模型的實(shí)時(shí)主動(dòng)防護(hù),要求在交易的同時(shí)快速做出判斷。以某國(guó)內(nèi)領(lǐng)先的銀行為8AI應(yīng)用升級(jí),對(duì)時(shí)延更加敏感:AI應(yīng)用從當(dāng)前的對(duì)話類/推薦類業(yè)務(wù),將向AI助手/智能體/云服務(wù)演進(jìn),隨著應(yīng)用的升級(jí),例如遠(yuǎn)來(lái)網(wǎng)絡(luò)時(shí)延降低200倍的訴求。智算行業(yè)正經(jīng)歷從“算力堆砌”到“效率革命”的質(zhì)變:訓(xùn)練向推理的演進(jìn)重構(gòu)了商業(yè)價(jià)值鏈條,頭部模型的技術(shù)突破定義了行業(yè)標(biāo)桿,普惠AI與終端革命則打開(kāi)了萬(wàn)億級(jí)市場(chǎng)空間。未來(lái),技術(shù)融合、生態(tài)協(xié)同與綠色轉(zhuǎn)型將成為競(jìng)爭(zhēng)焦點(diǎn),企業(yè)需在“技術(shù)領(lǐng)先性”與“場(chǎng)景落地性”之間找到平衡點(diǎn),方能在這場(chǎng)算力革命中頭部企業(yè)通過(guò)參數(shù)規(guī)模擴(kuò)張和網(wǎng)絡(luò)架構(gòu)革新保持技術(shù)領(lǐng)先,同時(shí)探索標(biāo)準(zhǔn)化網(wǎng)絡(luò)方案以應(yīng)對(duì)算力碎片化挑戰(zhàn)??蛻籼剿魍ㄖ呛弦?,統(tǒng)一網(wǎng)絡(luò)架構(gòu)的路線:快手在2025年互聯(lián)網(wǎng)大會(huì),提出“一盒打天下”的理念,不同業(yè)務(wù)通過(guò)歸一化網(wǎng)絡(luò)承載最優(yōu)性價(jià)比(可降低30%建網(wǎng)成本)隨著AgenticAI的發(fā)展,通用計(jì)算和AI計(jì)算將混合部署,傳統(tǒng)的計(jì)算網(wǎng)絡(luò)、存儲(chǔ)網(wǎng)絡(luò)和智能網(wǎng)絡(luò)正在加速融合,形成統(tǒng)一的智算網(wǎng)絡(luò)基礎(chǔ)設(shè)施。在這一融合進(jìn)程中,以太網(wǎng)憑借其開(kāi)放生態(tài)、成本優(yōu)勢(shì)和持續(xù)的技術(shù)演進(jìn)能力,正成為業(yè)界的主流選擇。相比之下,InfiniBand雖然在智算內(nèi)部高帶寬互聯(lián)方面具有優(yōu)勢(shì),但其封閉生態(tài)和高昂成本限制了廣泛應(yīng)用,面對(duì)推理集群中多種流量混合場(chǎng)景以及未來(lái)推理異構(gòu)卡部署需求顯得力不從心?,F(xiàn)如今,業(yè)界產(chǎn)生了諸如UEC、SUE、ETHLink等多種基于以太網(wǎng)設(shè)計(jì)的協(xié)議范式,展現(xiàn)出更好的開(kāi)放性和適應(yīng)性,這預(yù)示著以太網(wǎng)在AI產(chǎn)業(yè)中的重要地位將進(jìn)一步提升。93數(shù)據(jù)中心網(wǎng)絡(luò)代際演進(jìn)在數(shù)字經(jīng)濟(jì)向智能世界加速邁進(jìn)的進(jìn)程中,算力已成為核心生產(chǎn)力引擎,而網(wǎng)絡(luò)作為算力流通的“血管”,其效率與韌性直接決定數(shù)字價(jià)值釋放架構(gòu)的不斷升級(jí),數(shù)據(jù)中心網(wǎng)絡(luò)正站在變革的前沿。AIFabric2.0以“算力滿載、業(yè)務(wù)永續(xù)”為價(jià)值目標(biāo),構(gòu)建“AI網(wǎng)元-AI聯(lián)接-AI大腦”圖1AIFabric2.0三層架構(gòu)AI網(wǎng)元:硬件級(jí)算力傳輸?shù)摹皥?jiān)實(shí)底座”作為AIFabric2.0的硬件基石,由交換機(jī)和光模塊構(gòu)成,以四大核心能力為AI業(yè)務(wù)異化需求,它通過(guò)FLB均衡、Token均衡算法實(shí)現(xiàn)95%以上吞吐效率,400ns級(jí)低時(shí)延(遠(yuǎn)優(yōu)于業(yè)界750ns水平)精準(zhǔn)匹配AI實(shí)時(shí)性訴求;在安全層面,構(gòu)建“態(tài)勢(shì)感知和多級(jí)加密”防護(hù)體系,保障高價(jià)值訓(xùn)練數(shù)據(jù)與模型參數(shù)0泄露;同時(shí)內(nèi)置AI芯片,具備ns級(jí)高精度統(tǒng)計(jì)與故障可視化能力,讓網(wǎng)絡(luò)異常可感知、故障可追溯,從物理層確保AI聯(lián)接:協(xié)同級(jí)算力調(diào)度的“高效樞紐”AI聯(lián)接打破傳統(tǒng)網(wǎng)絡(luò)被動(dòng)傳輸?shù)木窒?,以“端網(wǎng)協(xié)同、全網(wǎng)可靠、智能調(diào)度”重塑算力流轉(zhuǎn)路徑,成為打通算力供需的關(guān)鍵中樞。通過(guò)端網(wǎng)協(xié)同與在網(wǎng)計(jì)算技術(shù),實(shí)現(xiàn)端側(cè)與網(wǎng)絡(luò)的深度聯(lián)動(dòng);依托磐石高可靠架構(gòu)的iReliable技術(shù),結(jié)合光模塊AI能力,可實(shí)現(xiàn)毫秒級(jí)故障切換,網(wǎng)絡(luò)可靠性提升10倍以上,確保業(yè)務(wù)7×24小時(shí)不中斷;同時(shí),通過(guò)訓(xùn)練和推理性能整體提升10%以上,讓算力從“靜態(tài)分布”轉(zhuǎn)向“動(dòng)態(tài)高效流動(dòng)”。AI大腦:智能級(jí)網(wǎng)絡(luò)管理的“指揮核心”作為AIFabric2.0的頂層管控中樞,AI大腦以“網(wǎng)絡(luò)、業(yè)務(wù)、運(yùn)維”三級(jí)自動(dòng)化,徹底重構(gòu)網(wǎng)絡(luò)管理模式。在網(wǎng)絡(luò)層面,通過(guò)網(wǎng)安一體架構(gòu)與AI策略算法,實(shí)現(xiàn)網(wǎng)絡(luò)與安全配置的統(tǒng)一分析、自動(dòng)生成,變更準(zhǔn)確率達(dá)100%,杜絕人工配置錯(cuò)誤;在業(yè)務(wù)層面,憑借Rubook拖拽式編排工具與10+預(yù)置場(chǎng)景API,無(wú)需代碼開(kāi)發(fā)即可完成流程對(duì)接,將業(yè)務(wù)上線周期從數(shù)月壓縮至周級(jí);在運(yùn)維層面,構(gòu)建應(yīng)網(wǎng)一體體系,不僅能主動(dòng)感知應(yīng)用質(zhì)量、一鍵定位端到端路徑故障,實(shí)現(xiàn)分鐘級(jí)排障,還能結(jié)合知識(shí)圖譜與AI算法,提前發(fā)現(xiàn)5大類40多種高頻風(fēng)險(xiǎn)隱患,覆蓋70%場(chǎng)景,讓網(wǎng)絡(luò)管理從“被動(dòng)應(yīng)對(duì)”轉(zhuǎn)向“主動(dòng)預(yù)判”。AIFabric2.0為數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展指明了方向,也成為應(yīng)對(duì)未來(lái)超大規(guī)模算力集群高性能算力需求的重要解決方案。以實(shí)現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)融合充分釋放算力為目標(biāo),實(shí)現(xiàn)算力網(wǎng)絡(luò)融合。4AIFabric2.0關(guān)鍵技術(shù)4.1.1綠色超寬隨著AI、機(jī)器學(xué)習(xí)、5G、物聯(lián)網(wǎng)等新興技術(shù)的發(fā)展,數(shù)據(jù)中心內(nèi)部和之間的數(shù)據(jù)流量呈爆炸式增長(zhǎng),對(duì)網(wǎng)絡(luò)帶寬提出了更高的要求。為了滿足這一需求,數(shù)據(jù)中心網(wǎng)絡(luò)服務(wù)器的帶寬升級(jí)(端口速率從10GE升級(jí)到400GE,Serdes從10G到112G)。與此同通算網(wǎng)絡(luò)市場(chǎng),又分為EDC市場(chǎng)和OTT市場(chǎng)。EDC市場(chǎng)主要包括金融、政企、運(yùn)營(yíng)商等市場(chǎng),對(duì)帶寬演進(jìn)的訴求相對(duì)來(lái)說(shuō)慢于OTT市場(chǎng),一般5年左右更新代際,當(dāng)前處在從10GE接入到25GE接入演進(jìn)的節(jié)奏周期中。接入設(shè)備存在框盒架構(gòu)和盒盒架構(gòu)兩種,一般采用10GE/25GE接入、40GE/100GE匯聚設(shè)備,近幾年10GE和40GE的需求量在逐步下降,25GE/100GE逐步上升。圖2EDC市場(chǎng)對(duì)帶寬演進(jìn)訴求對(duì)于OTT市場(chǎng),帶寬演進(jìn)訴求比較強(qiáng)烈,當(dāng)前處于從100GE服務(wù)器向200GE服務(wù)器過(guò)渡的階段,預(yù)計(jì)26年開(kāi)始200GE服務(wù)器代際部署,采用24*400GE+8*800GE或48*200GE+8*800GE作為接入,128*400GE或128*800GE作為匯聚。智算網(wǎng)絡(luò)市場(chǎng)當(dāng)前則以400GE接入為主,采用盒盒組網(wǎng)或框盒組網(wǎng),采用比如32*400GE盒式、128*400GE盒式、36*400GE框式等款型;后續(xù)會(huì)向800GE演進(jìn),比如采用128*800GE等設(shè)備進(jìn)行組網(wǎng)部署。兩層盒盒的扁平化組網(wǎng)仍是最優(yōu)的選擇,兩層盒式51.2TE的盒子通過(guò)光shuffle或者多芯片拼接盒子即可構(gòu)建多平面的10萬(wàn)卡的集群,滿足大規(guī)模的訓(xùn)練組網(wǎng)的訴求。隨著設(shè)備帶寬進(jìn)一步增大,設(shè)備本身的散熱和機(jī)房散熱也成為客戶關(guān)注的焦點(diǎn)。盒式設(shè)備功耗從2KW~3KW上升到5KW~6KW,框式設(shè)備功耗增加到40~50KW,已經(jīng)逐漸逼近風(fēng)冷散熱的極限,客戶機(jī)房部署也需要更多的空調(diào)來(lái)解決散熱問(wèn)題,機(jī)架利用率下降,同時(shí)擔(dān)心出現(xiàn)局部熱點(diǎn)。因此,液冷設(shè)備逐步進(jìn)入到行業(yè)視野范圍,部分客戶已經(jīng)開(kāi)始計(jì)劃部署液冷交換機(jī),降低PUE,提升機(jī)架利用率,解決高功耗設(shè)備部署問(wèn)題。圖3國(guó)家多PUE指標(biāo)要求4.1.2高速光互聯(lián)隨著AI網(wǎng)元朝著高速、高密、大集群的方向演進(jìn),傳統(tǒng)電互連受限于高頻損耗成倍提升,傳輸距離隨速率提升受限,無(wú)法滿足集群發(fā)展斷凸顯。另一方面,超高速率光模塊對(duì)網(wǎng)元設(shè)備的功耗壓力不斷提升,諸如LRO和NPO的新型降功耗互聯(lián)方案,也是未來(lái)光電技術(shù)演進(jìn)的重要方向。Serdes代際DAC電互連傳輸距離Optical光互連傳輸距離56G3m10m到2km/10km112G2m10m到2km/10km224G10m到2km/10km參考IEEE802.3系列以太網(wǎng)物理層標(biāo)準(zhǔn),隨著Serdes速率提升,無(wú)源銅纜的傳輸距離從56G代際的3m下降為224G代際的1m,除此之外為了實(shí)現(xiàn)多通道高速率,并行無(wú)源銅纜也帶來(lái)了不易彎折不易部署的困難。與電互聯(lián)相比,光互聯(lián)的傳輸距離得益于光纖的低損耗特性,傳輸距離不隨基帶信號(hào)的提升而衰減。從56G到224G代際均可通過(guò)PAM4光信號(hào)調(diào)制、直接探測(cè)方案和光數(shù)字信號(hào)處理(oDSP)技術(shù)的可插拔光模塊,可以輕松實(shí)現(xiàn)AI數(shù)據(jù)中心所需的100m內(nèi)短距服務(wù)器接入和2-10km交換設(shè)備互聯(lián)。依賴并行光纖、波分復(fù)用技術(shù)等光學(xué)技術(shù),可以輕松地通過(guò)輕質(zhì)化易部署光纜實(shí)現(xiàn)單端口400GE/800GE和1.6TE的數(shù)據(jù)傳輸。因此,綜合傳輸距離、可演進(jìn)性和可部署型多方面因素,光互聯(lián)解決方案會(huì)逐漸替代電互聯(lián)下沉入柜。圖4400GQSFP-DDFR4和800GOSFPSR8可插拔光模塊和DLC光纜新架構(gòu)光互聯(lián)方案隨著端口速率的提升,傳統(tǒng)光模塊的單體功耗不斷增大,與此同時(shí)單交換機(jī)端口數(shù)量也在不斷提升,兩者疊加對(duì)整機(jī)散熱和功耗帶來(lái)了巨大的挑戰(zhàn)。近些年,一些新架構(gòu)光互聯(lián)方案不斷被提出。基于現(xiàn)有的可插拔形態(tài),在當(dāng)前主流的收發(fā)端均有DSP的可插拔光模塊基礎(chǔ)上,分別衍生出了僅具備發(fā)端DSP,收端算法集成在主芯片上的LRO(LinearReceiveOptics)方案和收發(fā)端DSP均集成在主芯片上的LPO(LinearPluggableOptics)方案。更進(jìn)一步的,在犧牲了可插拔方式的易維護(hù)性,將光器件/光引擎從模塊內(nèi)部轉(zhuǎn)移到PCB板或主芯片基板上的過(guò)渡形態(tài)。被稱之為NPO(Near-PackagedOptics)和CPO(Co-PackagedOptics),其獲得了因電互聯(lián)距離降低帶來(lái)的功耗收益和相比于長(zhǎng)鏈路的LPO稍強(qiáng)的可互通性。而被稱之為光互聯(lián)的“終極形態(tài)”的方案是OIO(OpticalInput-Output)芯片出光架構(gòu),該架構(gòu)完全去除了當(dāng)前電Serdes的串并轉(zhuǎn)換,交換芯片IO直接驅(qū)動(dòng)高密光引擎,變成真正意義上的光電混合芯片。以下表2從功耗、可演進(jìn)性、可維護(hù)性和可互通性幾個(gè)維度評(píng)估了幾種新架構(gòu)的光互聯(lián)方案。從對(duì)比中可以發(fā)現(xiàn),可插拔光模塊創(chuàng)新架構(gòu)中,LRO具備更好的綜合優(yōu)勢(shì),非可插拔架構(gòu)中,NPO-OIO的技術(shù)路線可能是未來(lái)AI網(wǎng)元光互聯(lián)演進(jìn)的可行路徑??刹灏喂饽KOIODSP模塊LPO模塊功耗18pj/bit10pj/bit12pj/bit9pj/bit6pj/bit4pj/bit可演進(jìn)性高,448G低,224G存疑可維護(hù)性維運(yùn)維運(yùn)維運(yùn)維運(yùn)維運(yùn)維可互通性高低中中中低4.1.3內(nèi)生安全數(shù)據(jù)中心一般承載高價(jià)值的業(yè)務(wù),容易成為黑客攻擊的目標(biāo);隨著業(yè)務(wù)的上云會(huì)增加網(wǎng)絡(luò)的邊界,對(duì)加密傳輸?shù)脑V求在增加;網(wǎng)絡(luò)設(shè)備安全容易被忽視,成為薄弱環(huán)節(jié),攻擊的跳板。數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備需要有更高的安全防護(hù)。應(yīng)對(duì)日益增加的安全攻擊,需要設(shè)備具備原生的安全能力:1.出廠可信:開(kāi)放透明、安全無(wú)后門;2.開(kāi)局安全:客戶證書+華為簽名確保安全入網(wǎng);3.管理安全:國(guó)密加密,保證了數(shù)據(jù)的安全傳輸,日志獨(dú)4.協(xié)議安全:OSPF、BGP等動(dòng)態(tài)路由協(xié)議支持國(guó)密SM3算法,路由鄰居可信;5.鏈路安全:光模塊PhySec和鏈路MACsec國(guó)密加密;6.主動(dòng)感知:安全配置主動(dòng)核查審計(jì);7.安全底座:硬件可信根防止軟件、文件被篡改,完善的安全算法防止運(yùn)行性代碼注入。通過(guò)下列的措施可以提供全生命周期的安全保護(hù),避免出現(xiàn)安全事件,受到監(jiān)處罰。鑰在CPU中保護(hù),難破解;2.關(guān)鍵應(yīng)用國(guó)密加密:SSH、路由協(xié)議、MACsec全面支持國(guó)密算法;3.代碼級(jí)安全防護(hù):完善的安全函數(shù)、安全編譯技術(shù),防止運(yùn)行性代碼注入漏洞。4.1.4智能遙測(cè)隨著人工智能邁入大規(guī)模時(shí)代,其賴以生存的“神經(jīng)網(wǎng)絡(luò)”——AI智算網(wǎng)絡(luò),正以前所未有的速度和復(fù)雜度急劇膨脹。數(shù)以萬(wàn)計(jì)的GPU/NPU集群通過(guò)高速互聯(lián)構(gòu)成龐大的計(jì)算實(shí)體,處理著PB級(jí)的數(shù)據(jù)洪流。然而,這種規(guī)模的擴(kuò)張也帶來(lái)了前所未有的“黑盒”挑戰(zhàn):錯(cuò)難以用傳統(tǒng)工具洞悉。因此,對(duì)網(wǎng)絡(luò)可視化的訴求已從“錦上添花”演變?yōu)椤安豢尚缘娜翱梢暬?。隨著DCN的規(guī)模的擴(kuò)大,網(wǎng)絡(luò)設(shè)備需要提供快速的故障感知和運(yùn)維的能力。白盒上報(bào):PacketEvent,針對(duì)丟包的報(bào)文進(jìn)行聚合上報(bào)。業(yè)務(wù)可視:ServiceTelemetry,實(shí)現(xiàn)RDMA業(yè)務(wù)的網(wǎng)絡(luò)時(shí)延測(cè)量和IO可視。智能流量分析:實(shí)現(xiàn)對(duì)指定的業(yè)務(wù)流進(jìn)行深度分析,得到指定業(yè)務(wù)流的丟包率,時(shí)延(納秒級(jí))等高精度性能指標(biāo)數(shù)據(jù),并支持將分析結(jié)果輸出至分析器進(jìn)一步展示和分析,從而監(jiān)控網(wǎng)絡(luò)運(yùn)行情況和快速定位網(wǎng)絡(luò)故障。另外網(wǎng)絡(luò)設(shè)備的可靠性和運(yùn)維的能力不能解決端側(cè)故障的場(chǎng)景,通過(guò)E2E的能力,比如華為數(shù)據(jù)面故障穿越技術(shù)和iFIT的端網(wǎng)協(xié)同就可以實(shí)現(xiàn)整個(gè)數(shù)據(jù)中心網(wǎng)絡(luò)的故障越過(guò)和隨流檢測(cè)的能力。全流分析:一種網(wǎng)絡(luò)流量監(jiān)控和分析技術(shù),針對(duì)TCP/UDP/VXLAN/RoCEv2流量有效。全面監(jiān)控整網(wǎng)流量,以便及時(shí)檢測(cè)和分析異常,對(duì)網(wǎng)絡(luò)運(yùn)維至NetStream:是一種基于接口的統(tǒng)計(jì)流量,鑒于CPU壓力,很難實(shí)現(xiàn)1:1采樣,不能精確反映流量狀態(tài)?;贏CL的流量統(tǒng)計(jì):可以精確統(tǒng)計(jì)流信息,但需要提前配置ACL。一般用于故障發(fā)面報(bào)文的檢測(cè)(如TCP的SYN/FIN報(bào)文)。鏡像占用ACL資源,如果進(jìn)行全流鏡像,又會(huì)造成分析器壓力過(guò)大。并能上報(bào)流表信息進(jìn)而完成網(wǎng)絡(luò)質(zhì)量分析。全流分析技術(shù)可以實(shí)現(xiàn)對(duì)全網(wǎng)流量的分析,它借助于設(shè)備內(nèi)置芯片,支持1:1采樣,不影響轉(zhuǎn)發(fā)性能。同時(shí)提供關(guān)鍵事件上報(bào)能力,減輕上層分析軟件的處理負(fù)擔(dān)。另外網(wǎng)絡(luò)設(shè)備的可靠性和運(yùn)維的能力不能解決端側(cè)故障的場(chǎng)景,通過(guò)端網(wǎng)協(xié)同可以實(shí)現(xiàn)E2E的能力,比如華為數(shù)據(jù)面故障穿越技術(shù)和iFIT的端網(wǎng)協(xié)同就可以實(shí)現(xiàn)整個(gè)數(shù)據(jù)中心網(wǎng)絡(luò)的故障越過(guò)和隨流檢測(cè)的能力。全流分析:一種網(wǎng)絡(luò)流量監(jiān)控和分析技術(shù),針對(duì)TCP/UDP/VXLAN/RoCEv2流量有效。全面監(jiān)控整網(wǎng)流量,以便及時(shí)檢測(cè)和分析異常,對(duì)網(wǎng)絡(luò)運(yùn)NetStream:是一種基于接口的統(tǒng)計(jì)流量,鑒于CPU壓力,很難實(shí)現(xiàn)1:1采樣,不能精確反映流量狀態(tài)?;贏CL的流量統(tǒng)計(jì):可以精確統(tǒng)計(jì)流信息,但需要提前配置ACL。一般用于故障發(fā)鏡像:可以將報(bào)文鏡像到分析器集中處理,但面報(bào)文的檢測(cè)(如TCP的SYN/FIN報(bào)文)。鏡像占用ACL資源,如果進(jìn)行全流鏡像,又會(huì)造成分析器壓力過(guò)大。全流分析對(duì)進(jìn)入到設(shè)備的流量根據(jù)五元組字段建并能上報(bào)流表信息進(jìn)而完成網(wǎng)絡(luò)質(zhì)量分析。全流分析技術(shù)可以實(shí)現(xiàn)對(duì)全網(wǎng)流量的分析,它借助于設(shè)備內(nèi)置芯片,支持1:1采樣,不影響轉(zhuǎn)發(fā)性能。同時(shí)提供關(guān)鍵事件上報(bào)能力,層分析軟件的處理負(fù)擔(dān)。4.1.5AI交換機(jī)AI交換機(jī)通過(guò)內(nèi)置AI引擎和AI芯片,將AI能力融入軟件架構(gòu)和操作系統(tǒng),形成智能主控板、智能轉(zhuǎn)發(fā)芯片和智能光模塊等核心AI部件。與傳統(tǒng)交換機(jī)相比,AI交換機(jī)將AI能力嵌入設(shè)備的軟硬件和操作系統(tǒng),設(shè)備通過(guò)集成AI芯片增加設(shè)備智能面,通過(guò)設(shè)備控制面、管理面、智能面的相互協(xié)同,實(shí)現(xiàn)AI流量識(shí)別、AI加速、AI查表轉(zhuǎn)發(fā)、AI節(jié)能、AI安全AI芯片是AI交換機(jī)的最核心的智能處理單元,采用深度學(xué)習(xí)識(shí)別大小流、感知時(shí)延和吞吐、預(yù)測(cè)趨勢(shì),可支持流量精準(zhǔn)控制和精細(xì)化調(diào)度。AI主控板是AI交換機(jī)的“通過(guò)集成通用算力、智能算力和AI算法,將AI嵌入軟件架構(gòu)和操作系統(tǒng),構(gòu)建交換機(jī)的高性能計(jì)算平臺(tái),為網(wǎng)絡(luò)數(shù)據(jù)傳輸和控制提供智能化的支撐。智能光模塊可以實(shí)時(shí)4.2.1新型網(wǎng)絡(luò)架構(gòu)4.2.1.1多平面組網(wǎng)技術(shù)網(wǎng)絡(luò)層級(jí)增多將顯著提升建網(wǎng)成本和降低網(wǎng)絡(luò)設(shè)備綜合效率,層級(jí)越高將有更多的端口資源用于網(wǎng)絡(luò)間互聯(lián)而非直連算力,因此降低算力集群的組網(wǎng)層級(jí)是未來(lái)創(chuàng)新技術(shù)方向之圖7特定交換芯片容量模型下算力規(guī)模與組網(wǎng)架構(gòu)的關(guān)系如上圖所示,不同層次組網(wǎng)中網(wǎng)絡(luò)端口數(shù)與算力兩層組網(wǎng),Leaf無(wú)收斂情況下,網(wǎng)絡(luò)端口數(shù)同算力卡端口數(shù)是3:1。三層組網(wǎng),Leaf/Spine無(wú)收斂情況下,網(wǎng)絡(luò)端口數(shù)同算力卡端口數(shù)是5:1。多平面組網(wǎng)技術(shù)是指在算力集群規(guī)模不變的情況下,將一組完全互聯(lián)的Clos多級(jí)組網(wǎng),拆分成多個(gè)彼此平行獨(dú)立的低層級(jí)Clos組網(wǎng),以實(shí)現(xiàn)扁平化網(wǎng)絡(luò)架構(gòu)。當(dāng)前51.2T高性能網(wǎng)絡(luò)成為主流。51.2T交換容量的設(shè)備普遍為112GSerdes設(shè)計(jì),可以通過(guò)512*100GERadix扇出對(duì)外提供更多的連接端口。使用100GE端口形態(tài)的兩層Clos架構(gòu)可以構(gòu)建128K(512*256)個(gè)100GE接入帶寬的網(wǎng)絡(luò)。當(dāng)算力卡支持將400GE帶寬性能拆分為4*100GE端口,分別接入4個(gè)100GE接入帶寬Clos網(wǎng)絡(luò)。通過(guò)多平面扁平化組網(wǎng)技術(shù)可以實(shí)現(xiàn)兩層Clos建超萬(wàn)卡規(guī)模集群。如下圖所示以512*100GE扇出為例,多平面兩層組網(wǎng)可以將口卡比為3:1的集群規(guī)模由8K大幅提升16倍到128K區(qū)間。4.2.1.2對(duì)等組網(wǎng)技術(shù)2020年12月國(guó)家發(fā)改委高技司發(fā)布《關(guān)于加快構(gòu)建全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系的指導(dǎo)意見(jiàn)》為契機(jī),牽引全國(guó)大體量數(shù)據(jù)中心向八大樞紐布局。圍繞國(guó)家重大區(qū)域發(fā)布局建設(shè)全國(guó)一體化算力網(wǎng)絡(luò)國(guó)家樞紐節(jié)點(diǎn),發(fā)展數(shù)據(jù)中心集群,引導(dǎo)數(shù)據(jù)中心集約化、規(guī)?;?、綠色化發(fā)展。關(guān)系國(guó)計(jì)民生行業(yè)如金融銀行,運(yùn)營(yíng)商等,響應(yīng)國(guó)家一體化大數(shù)據(jù)中心規(guī)劃,紛紛在中西部布局其下一代數(shù)據(jù)中心。企業(yè)依據(jù)過(guò)往20年數(shù)據(jù)中心發(fā)展,結(jié)合當(dāng)前及未來(lái)自身業(yè)務(wù)發(fā)展規(guī)劃,均考慮建設(shè)數(shù)十萬(wàn)服務(wù)器體量的大園區(qū)數(shù)據(jù)中心,園區(qū)由4~20不等的單元樓構(gòu)成。以金融大型銀行為例,當(dāng)前運(yùn)行的數(shù)據(jù)中心通常部署在1~3單元樓內(nèi),每棟樓總服務(wù)器在2~3W量級(jí),因此使用延續(xù)了很多年的集中式Clos組網(wǎng)架構(gòu)。集中式Clos架構(gòu)在一定規(guī)模&樓宇布局的背景下具備簡(jiǎn)單、穩(wěn)定、易部署易擴(kuò)容的屬性。核心層一般為框式可插卡交換機(jī)設(shè)備,框式設(shè)備隨CloudRegion建設(shè)節(jié)奏擴(kuò)容核心層單板即可滿足擴(kuò)容訴求,且網(wǎng)絡(luò)設(shè)施和算力設(shè)施在同一L0故障域范圍,只需考慮供電,機(jī)房故障場(chǎng)景即可提供高可用組網(wǎng)。未來(lái)隨著大型多樓宇數(shù)據(jù)中心建設(shè),集中式縱向增長(zhǎng)的網(wǎng)絡(luò)架構(gòu)不能很好適應(yīng)業(yè)務(wù)發(fā)展,主要問(wèn)題在于故障半徑增加,端到端網(wǎng)絡(luò)跳數(shù)和轉(zhuǎn)發(fā)時(shí)延增加,數(shù)據(jù)中心網(wǎng)絡(luò)需要架構(gòu)性變革適應(yīng)業(yè)務(wù)變化。半徑為單樓棟3~5W服務(wù)器體量。使用集中式縱向擴(kuò)容方式建設(shè)數(shù)十萬(wàn)服務(wù)器體量的園區(qū)數(shù)據(jù)中心,涉及增加多樓宇間區(qū)域核心(基于規(guī)??蛇x多區(qū)域間再匯聚到園區(qū)核心,多層匯聚后端到端7跳增加到11跳,時(shí)延由18us增加到34us增幅88%,頂層核心故障的影響半徑涉及全園區(qū)范圍,劣化數(shù)倍。針對(duì)上述挑戰(zhàn),金融大規(guī)模園區(qū)數(shù)據(jù)中心去中心化架構(gòu)勢(shì)在必行,網(wǎng)絡(luò)由縱向擴(kuò)展向橫向擴(kuò)展變化。分布式去中心化業(yè)務(wù)單元間對(duì)等架構(gòu)更適用于未來(lái)發(fā)展。分布式去中心化業(yè)務(wù)單元間對(duì)等架構(gòu),也叫做對(duì)等組網(wǎng)架構(gòu),主體設(shè)計(jì)思路是減少縱向匯聚層級(jí),在某一層面業(yè)務(wù)單元間橫向互聯(lián),業(yè)務(wù)單元可以是云為單位,也可以以機(jī)房為單位或者以樓宇單位設(shè)計(jì),下面我們以樓宇為單位展開(kāi)討論。如上圖12所示,6個(gè)業(yè)務(wù)單元間的對(duì)等架構(gòu)考量,數(shù)據(jù)中心整體去中心化結(jié)構(gòu),每個(gè)業(yè)務(wù)單元彼此對(duì)等?;跀?shù)據(jù)中心整體業(yè)務(wù)容量及可用性規(guī)劃,業(yè)務(wù)單元之間建議使用多平多通道組網(wǎng)技術(shù)滿足訴求。在對(duì)等架構(gòu)下任意業(yè)務(wù)單元失能,僅影響該業(yè)務(wù)單元本身,對(duì)存量其他單元無(wú)影響,故障爆炸半徑縮小為集中式的1/n。任意兩個(gè)業(yè)務(wù)單元間E2E跳數(shù)增加1跳,可支撐的組網(wǎng)規(guī)模擴(kuò)大十余倍滿足未來(lái)中長(zhǎng)期業(yè)務(wù)擴(kuò)容演進(jìn),時(shí)延由18us增加到22us,較集中式組網(wǎng)優(yōu)化40%~60%。除組網(wǎng)架構(gòu)本身帶來(lái)的比較優(yōu)勢(shì)外,業(yè)務(wù)單元間流量控制也有很多創(chuàng)新工作待開(kāi)展。例如單元間直連最短路徑和非最短路徑的選路控制問(wèn)題,上圖任意業(yè)務(wù)單元間最短路徑容量為p*t,非最短路徑容量為p*t*(n-1),兩類容量均為多業(yè)務(wù)單元間所有互訪流量共大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)的關(guān)鍵技術(shù)之一。4.2.2網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù)AI集群訓(xùn)練過(guò)程中,參數(shù)通過(guò)高速互聯(lián)網(wǎng)絡(luò)在不同的服務(wù)器間進(jìn)行同步交互,流量具有共同的特征:流量大且成周期性、流數(shù)量少,且并行任務(wù)間有強(qiáng)實(shí)時(shí)同步性要求,通信效率取決于最慢的節(jié)點(diǎn)。上述的流量特征導(dǎo)致網(wǎng)絡(luò)較易出現(xiàn)負(fù)載分擔(dān)不均、整網(wǎng)吞吐下降的問(wèn)題,從而影響AI集群訓(xùn)練的性能。當(dāng)前網(wǎng)絡(luò)均衡的主流技術(shù)有兩種:流級(jí)負(fù)載均衡和逐包負(fù)載均衡(有些文獻(xiàn)中也叫包噴灑,Packetspray)。4.2.2.1流級(jí)負(fù)載均衡技術(shù)基于ECMP的流級(jí)負(fù)載均衡是當(dāng)前DCN默認(rèn)采用的算法,該算法通過(guò)流的五元組進(jìn)行哈希選路,在流數(shù)量較多的場(chǎng)景下,基本能實(shí)現(xiàn)整網(wǎng)均衡;但ECMP在流數(shù)量較少時(shí)存在哈希沖突問(wèn)題,導(dǎo)致算力損失。現(xiàn)在業(yè)界多廠家持續(xù)在流級(jí)負(fù)載均衡做技術(shù)創(chuàng)新,引入全局視野,整體規(guī)劃所有業(yè)務(wù)流量,從擁塞后調(diào)整到事前整網(wǎng)調(diào)度流量,實(shí)現(xiàn)整網(wǎng)無(wú)沖突,成為業(yè)界主流。例如華為提出網(wǎng)絡(luò)級(jí)負(fù)載均衡,通過(guò)算網(wǎng)協(xié)同,網(wǎng)絡(luò)集中控制器從計(jì)算側(cè)獲得整網(wǎng)的流量矩陣,將全局流量劃分到獨(dú)立通信域,為每個(gè)通信域類的業(yè)務(wù)流計(jì)算全局最優(yōu)路徑,確保整網(wǎng)流量無(wú)沖突,在訓(xùn)練場(chǎng)景中效果如下:華為網(wǎng)絡(luò)級(jí)負(fù)載均衡提升HCCLallreduce38.5GB/s24GB/s60%Bloom模型(樣本數(shù)/s)59.550.713,99811,39423%22.532%表3華為網(wǎng)絡(luò)級(jí)負(fù)載均衡與傳統(tǒng)ECMP對(duì)比除訓(xùn)練業(yè)務(wù)外,AI推理業(yè)務(wù)同樣面臨流量沖突問(wèn)題。與訓(xùn)練場(chǎng)景相比,推理業(yè)務(wù)的流量具有更高的動(dòng)態(tài)性和突發(fā)性,傳統(tǒng)的全局調(diào)度技術(shù)難以有效適應(yīng)其變化特征。針對(duì)這一挑戰(zhàn),華為基于推理業(yè)務(wù)的實(shí)際特點(diǎn),自主研發(fā)了AI推理調(diào)度算法。該算法有效提升了系統(tǒng)的調(diào)度效率,實(shí)現(xiàn)了首token時(shí)延降低37%、推理并發(fā)度提升12.5%,顯著增強(qiáng)了推理系統(tǒng)的整體性能與響應(yīng)能力。圖14推理算法與傳統(tǒng)ECMP對(duì)比4.2.2.2逐包負(fù)載均衡技術(shù)逐包負(fù)載均衡(Per-PacketLoadBalancing)的核心機(jī)制在于:基于數(shù)據(jù)包粒度動(dòng)態(tài)分配流量,交換機(jī)依據(jù)報(bào)文到達(dá)順序,將流量均勻調(diào)度至所有可用鏈路。該機(jī)制在理想條件下可實(shí)現(xiàn)鏈路帶寬的100%利用率,保障網(wǎng)絡(luò)整體吞吐性能最大化。包噴灑然而,在無(wú)損RoCE網(wǎng)絡(luò)場(chǎng)景中,逐包負(fù)載均衡面臨兩大關(guān)鍵性技術(shù)挑戰(zhàn):PFC擴(kuò)散風(fēng)險(xiǎn)和包流混合干擾,這使得傳統(tǒng)逐包均衡技術(shù)難以直接應(yīng)用于高性能無(wú)損網(wǎng)絡(luò)。逐包負(fù)載均衡需解決如下兩個(gè)問(wèn)題:?jiǎn)栴}1:網(wǎng)絡(luò)中PFC反壓擴(kuò)散PFC(Priority-basedFlowControl,優(yōu)先級(jí)流量控制)作為保障RDMA網(wǎng)絡(luò)無(wú)損傳輸?shù)暮诵臋C(jī)制,已在大規(guī)模RDMA網(wǎng)絡(luò)中廣泛部署。在智算集群場(chǎng)景中,慢節(jié)點(diǎn)(例如受CPU、內(nèi)存、PCIe或網(wǎng)卡性能瓶頸影響的節(jié)點(diǎn))會(huì)觸發(fā)PFC反壓并向網(wǎng)絡(luò)擴(kuò)散。尤其在逐包負(fù)載均衡模式下,由于數(shù)據(jù)包被均勻分散至所有路徑,PFC反壓幀也將發(fā)送至全網(wǎng)鏈路導(dǎo)致全網(wǎng)級(jí)死鎖。圖16PFC反壓擴(kuò)散為解決此問(wèn)題,需將PFC反壓嚴(yán)格約束于第一跳接入交換機(jī)(即目的Top-of-Rack交換機(jī),DTOR阻斷其向核心網(wǎng)絡(luò)的擴(kuò)散,從而徹底消除對(duì)非相關(guān)發(fā)送端的性能干擾,顯著提升網(wǎng)絡(luò)整體吞吐效率與可靠性。問(wèn)題2:包級(jí)均衡和流級(jí)均衡業(yè)務(wù)混合部署包級(jí)流量與流級(jí)流量并存。包級(jí)流量天然均勻分布于所有路徑,維持整體均衡;而流級(jí)流量則集中于特定路徑(或部分端口)。由于承載流級(jí)流量的路徑帶寬需求顯著高于其他路徑,極易引發(fā)而破壞包級(jí)均衡的全局性。為解決此問(wèn)題,需引入增強(qiáng)型包流混合負(fù)載均衡技術(shù)。其核心思路在于動(dòng)態(tài)感知擁塞:當(dāng)檢測(cè)到擁塞路徑時(shí),主動(dòng)降低包級(jí)流量在該路徑上的轉(zhuǎn)發(fā)比例。實(shí)測(cè)表明,相較于傳統(tǒng)包級(jí)負(fù)載均衡基線方案,本技術(shù)可實(shí)現(xiàn)整網(wǎng)吞吐量提升47%。4.2.3擁塞控制技術(shù)4.2.3.1端網(wǎng)協(xié)同擁塞控制技術(shù)端網(wǎng)協(xié)同擁塞控制技術(shù)采用“端(智能網(wǎng)卡)網(wǎng)(交換機(jī))”配合的方式達(dá)到交換機(jī)早期端到端擁塞控制方案都屬于被動(dòng)控制,即源端在擁塞發(fā)生前總是盲目地提高發(fā)送速率,而發(fā)送速率的提高又可能導(dǎo)致網(wǎng)絡(luò)中排隊(duì)的產(chǎn)生,形成擁塞。擁塞情況反饋到源端后,源端才會(huì)被動(dòng)地降低發(fā)送速率。但是,由于反饋總是存在一定的時(shí)延,并且不能準(zhǔn)確反映網(wǎng)絡(luò)的擁塞程度,因此被動(dòng)擁塞控制總是會(huì)導(dǎo)致網(wǎng)絡(luò)在擁塞和非擁塞狀態(tài)之間震蕩,使網(wǎng)絡(luò)帶寬無(wú)法得到充分利用,同時(shí)較深的隊(duì)列排隊(duì)造成了較大的長(zhǎng)尾時(shí)延,對(duì)時(shí)延敏感的I/O影響很大。端網(wǎng)協(xié)同主要根據(jù)網(wǎng)絡(luò)可用帶寬,準(zhǔn)確調(diào)整端側(cè)發(fā)送速率,這種源端與交換機(jī)之間的密切配合使網(wǎng)絡(luò)中的隊(duì)列近乎為空,同時(shí)能保持接近100%的帶寬利用率。在RDMA傳輸場(chǎng)景,根據(jù)實(shí)驗(yàn)室測(cè)試,采用典型擁塞場(chǎng)景啞鈴狀拓?fù)?,與當(dāng)前業(yè)界主主流的協(xié)同算法相比,端網(wǎng)協(xié)同算法能夠把排隊(duì)時(shí)延控制接近于0。N=200端網(wǎng)協(xié)同HPCCDCQCN50%-ile0.1553.023116.61290%-ile0.2386.662121.8299%-ile0.3218.204125.4899.9%-ile0.4019.094127.131表4不同擁塞算法排隊(duì)時(shí)延對(duì)比在TCP傳輸場(chǎng)景,根據(jù)實(shí)驗(yàn)室測(cè)試,端網(wǎng)協(xié)同算法相對(duì)于傳統(tǒng)的TCPcubic算法、bbr算法,可以做到0丟包,避免了現(xiàn)網(wǎng)因?yàn)門CP慢啟動(dòng)機(jī)制造成的流量突發(fā)丟包,保證了端側(cè)APP的性能;同時(shí),由于CAQM控制了隊(duì)列的深度,有效降低了TCP所在隊(duì)列的時(shí)延,避免了長(zhǎng)尾時(shí)延對(duì)端側(cè)業(yè)務(wù)性能影響。實(shí)驗(yàn)室實(shí)測(cè)數(shù)據(jù)表明,相對(duì)于傳統(tǒng)TCPcubic擁塞控制算法,端網(wǎng)協(xié)同算法可以減少90%左右的長(zhǎng)尾時(shí)延。4.2.3.2FlexBuffer擁塞控制技術(shù)DCN的流量調(diào)度策略需充分考慮流大小和數(shù)量的差異性。在大量小流少數(shù)大流的場(chǎng)景中,采用“小流優(yōu)先、大流后傳”的調(diào)度機(jī)制可顯著降低平均FCT。其核心原理在于:若大流優(yōu)先傳輸,將阻塞其后到達(dá)的大量小流,導(dǎo)致整體等待時(shí)間增加;而若優(yōu)先調(diào)度小流,雖可能略微延長(zhǎng)少數(shù)大流的傳輸延遲,但由于小流數(shù)量遠(yuǎn)多于大流,整體平均FCT得以有并將其分配至相應(yīng)的優(yōu)先級(jí)隊(duì)列:小流進(jìn)入高優(yōu)先級(jí)隊(duì)列,大流則進(jìn)入低優(yōu)先級(jí)隊(duì)列。調(diào)度器采用嚴(yán)格優(yōu)先級(jí)調(diào)度策略,即高優(yōu)先級(jí)隊(duì)列中的所有流必須完全轉(zhuǎn)發(fā)后,才開(kāi)始處理低優(yōu)先級(jí)隊(duì)列中的流量。該機(jī)制顯著縮短了小流在網(wǎng)絡(luò)中的排隊(duì)與傳輸延遲,避免其被大在實(shí)現(xiàn)大小流差異化優(yōu)先級(jí)調(diào)度的基礎(chǔ)上,可進(jìn)一步對(duì)高、低優(yōu)先級(jí)隊(duì)列采緩存管理策略,以更好地匹配不同類型流量的傳輸特性與服務(wù)質(zhì)量需求。小流通常具有突發(fā)性強(qiáng)、完成時(shí)間敏感的特點(diǎn),其性能高度依賴端到端時(shí)延。為保障小流快速完成,應(yīng)為其分配相對(duì)充足的緩存資源,避免因隊(duì)列擁塞導(dǎo)致排隊(duì)延續(xù)時(shí)間長(zhǎng)、數(shù)據(jù)量大,更關(guān)注整體吞吐穩(wěn)定性而非單個(gè)報(bào)文時(shí)延。因此,大流對(duì)緩存資源的需求相對(duì)較低,可配置較小的緩沖區(qū)配額。結(jié)合擁塞控制機(jī)制,通過(guò)及時(shí)的擁塞信號(hào)反饋與4.2.3.3拉遠(yuǎn)訓(xùn)練精準(zhǔn)流控技術(shù)在萬(wàn)卡乃至十萬(wàn)卡級(jí)大模型訓(xùn)練場(chǎng)景中,受限于機(jī)房空間、電力與散熱瓶頸,集群不得不跨多個(gè)機(jī)房甚至地理局點(diǎn)部署。同時(shí),模型迭代加速,算力需求激增,單一數(shù)據(jù)中心難以承載,多DC協(xié)同成為支撐更大模型訓(xùn)練的必然選擇。此外,租戶算力本地化需求及部署不均導(dǎo)致資源碎片化,如何整合分散算力、實(shí)現(xiàn)跨集群高效協(xié)同,成為提升整體算力利用率的關(guān)鍵。相比本地部署,拉遠(yuǎn)訓(xùn)練面臨顯著的網(wǎng)絡(luò)挑戰(zhàn):一是時(shí)延增加,每10km帶來(lái)20-30msRTT增長(zhǎng),影響集合通信效率;二是長(zhǎng)距鏈路易丟包,千分之一丟包即導(dǎo)致RDMA吞吐下降1/3。尤其在光模塊閃斷、鏈路誤碼或服務(wù)器擁塞等異常下,跨DC鏈路緩存不足,具體來(lái)說(shuō),多DC訓(xùn)練的擁塞發(fā)生的位置不同,帶來(lái)的結(jié)果也不同。如果擁塞發(fā)生在數(shù)據(jù)中心內(nèi)部,則無(wú)論是流控還是擁塞控制,都可以很快生效在跨長(zhǎng)距鏈路上,因?yàn)榉答仌r(shí)間長(zhǎng),設(shè)備緩存不足以接納鏈路在途數(shù)據(jù)包,從而發(fā)生丟包。網(wǎng)絡(luò)交換機(jī)可以通過(guò)精準(zhǔn)流控技術(shù)有效解決這個(gè)問(wèn)題。圖20拉遠(yuǎn)訓(xùn)練精準(zhǔn)流控在擁塞發(fā)生前,將長(zhǎng)距鏈路上的潛在擁塞“前移”至源端Leaf交換機(jī)進(jìn)行限速。通過(guò)全網(wǎng)狀態(tài)監(jiān)測(cè),擁塞點(diǎn)向上游通告,源端依據(jù)算法動(dòng)態(tài)調(diào)節(jié)流量,并通過(guò)PFC/CNP等機(jī)制實(shí)現(xiàn)精準(zhǔn)控速。遠(yuǎn)訓(xùn)練的穩(wěn)定與高效。4.2.3.4AIECN2.0技術(shù)由于稀疏模型的興起,網(wǎng)絡(luò)擁塞成為影響模型訓(xùn)練的重要因素。引起擁塞的原因有:ALLTOALL類集合通信的接收端多打一;MOE多種并行類型并發(fā)時(shí)對(duì)網(wǎng)絡(luò)通信帶寬的爭(zhēng)搶;多任務(wù)混跑共交換設(shè)備上下行鏈路。DCQCN是當(dāng)前主流網(wǎng)絡(luò)設(shè)備都支持的擁塞控制技術(shù),華為在DCQCN基礎(chǔ)上研發(fā)了AIECN技術(shù),動(dòng)態(tài)調(diào)節(jié)ECN參數(shù)來(lái)實(shí)現(xiàn)動(dòng)態(tài)無(wú)阻塞,被廣泛應(yīng)用在數(shù)據(jù)中心場(chǎng)景。隨著交換機(jī)代際演進(jìn),緩存增長(zhǎng)速度落后于交換容量和端口速率的增長(zhǎng)速度,導(dǎo)致傳統(tǒng)ECN先觸發(fā)降速,PFC兜底無(wú)丟包的擁塞機(jī)制失效。因此,更加智能的的ECN參數(shù)調(diào)節(jié)方式成為解決AI網(wǎng)絡(luò)擁塞的技術(shù)途徑之一。4.2.4在網(wǎng)計(jì)算技術(shù)統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)被視為“透明管道”,僅負(fù)責(zé)數(shù)據(jù)的轉(zhuǎn)發(fā)與路由,所有計(jì)算任務(wù)均由服務(wù)器端完成。而在大模型訓(xùn)練、分布式推理等高性能場(chǎng)景中,頻繁的集合通信(如AllReduce、AllGather)會(huì)產(chǎn)生大量中間數(shù)據(jù)傳輸,造成網(wǎng)絡(luò)擁塞和端側(cè)處理瓶頸。在網(wǎng)計(jì)算通過(guò)在交換機(jī)或網(wǎng)卡中嵌入可編程處理單元,在數(shù)據(jù)流經(jīng)網(wǎng)絡(luò)設(shè)備時(shí)實(shí)時(shí)執(zhí)行特定計(jì)算任務(wù)。例如,在分布式訓(xùn)練中,多個(gè)GPU需將梯度數(shù)據(jù)匯總并平均,傳統(tǒng)方式是將所有梯度傳至某節(jié)點(diǎn)集中計(jì)算,而在網(wǎng)計(jì)算可在交換機(jī)中逐跳或分層完成梯度聚合,僅將最終結(jié)果傳回終端。在網(wǎng)計(jì)算技術(shù)不僅可以減少傳輸數(shù)據(jù)量,而且可減少通信次數(shù),從而提高集合通信效率并加速應(yīng)用性能。在網(wǎng)計(jì)算是典型的端網(wǎng)協(xié)同技術(shù)應(yīng)用場(chǎng)景,該技術(shù)的使能需要端側(cè)和網(wǎng)絡(luò)測(cè)的密切協(xié)同以及硬件與軟件的緊密配合;在執(zhí)行在網(wǎng)計(jì)算的過(guò)程中不僅需要網(wǎng)絡(luò)設(shè)備的聚合卸載處理能力,也需要端側(cè)軟件棧感知和協(xié)同在網(wǎng)計(jì)算任務(wù),以保證計(jì)算過(guò)程的正確性、完整性和可靠性。端側(cè)節(jié)點(diǎn)和交換機(jī)節(jié)點(diǎn)通過(guò)一個(gè)統(tǒng)一的控制面管理器實(shí)現(xiàn)整個(gè)在網(wǎng)計(jì)算流程的管理和控4.2.5在網(wǎng)存儲(chǔ)技術(shù)在大模型推理場(chǎng)景中,海量且多樣的用戶請(qǐng)求導(dǎo)致Prefill和Decode階段生成的KVCache數(shù)據(jù)量巨大,超出DRAM存儲(chǔ)容量,同時(shí)頻繁的KVCache傳輸引發(fā)RDMA網(wǎng)絡(luò)流量競(jìng)爭(zhēng),影響推理性能?,F(xiàn)有Prefill-Decode分離架構(gòu)忽視了KVCache跨實(shí)例傳輸帶來(lái)為優(yōu)化這一問(wèn)題,可在交換機(jī)或?qū)S梅?wù)器中部署智能KVCache管理機(jī)制。通過(guò)監(jiān)控報(bào)文交互和內(nèi)存擴(kuò)展情況,可識(shí)別系統(tǒng)是否利用外掛內(nèi)存進(jìn)行KVCache調(diào)度?;凇耙源娲恪焙汀耙圆榇恪奔夹g(shù),系統(tǒng)利用流計(jì)數(shù)器統(tǒng)計(jì)每個(gè)KVCache塊的訪問(wèn)頻率,包括源實(shí)例、目的實(shí)例及傳輸內(nèi)容,進(jìn)而識(shí)別熱點(diǎn)KVCache并分級(jí)管理:第一級(jí)為低頻熱點(diǎn),被少于5%實(shí)例訪問(wèn)多次,仍存于本地資源池;第二級(jí)為中頻熱點(diǎn),被超過(guò)5%實(shí)例偶爾訪問(wèn),由交換機(jī)或?qū)S梅?wù)器緩存,按需下放;第三級(jí)為高頻熱點(diǎn),被廣泛頻繁訪問(wèn),系統(tǒng)通過(guò)組播方式將其分發(fā)至所有實(shí)現(xiàn)全集群共享。圖22在網(wǎng)存儲(chǔ)技術(shù)當(dāng)KVCache流經(jīng)定制化交換機(jī)或服務(wù)器時(shí),系統(tǒng)實(shí)時(shí)提取塊信息,一旦判定達(dá)到第二或第三級(jí)熱點(diǎn)標(biāo)準(zhǔn),即截取并卸載至中間節(jié)點(diǎn)4.2.6高穩(wěn)韌性技術(shù)4.2.6.1故障恢復(fù)技術(shù)當(dāng)鏈路故障發(fā)生時(shí),傳統(tǒng)路由收斂技術(shù)依賴控制面的動(dòng)態(tài)路由協(xié)議(如OSPF、BGP)的信息交互和重新算路,即使結(jié)合了BFD探測(cè)技術(shù)也只是加快了故障感知速度,路由收斂時(shí)間仍在百毫秒級(jí),大規(guī)模DCN網(wǎng)絡(luò)中的路由收斂時(shí)間甚至達(dá)到秒級(jí)。對(duì)于在線交易類型的應(yīng)用,比如高性能存儲(chǔ)業(yè)務(wù)或高性能數(shù)據(jù)庫(kù)訪問(wèn)業(yè)務(wù),都需要極致的性能和高可靠性保障。針對(duì)此類業(yè)務(wù),一旦鏈路故障發(fā)生,傳統(tǒng)收斂技術(shù)在百毫秒內(nèi)無(wú)法恢復(fù)正常業(yè)務(wù)傳輸,持續(xù)圖23組網(wǎng)中故障鏈路切換在典型的clos組網(wǎng)中,交換機(jī)之間都有多條路徑,當(dāng)一條知端口狀態(tài)、路由收斂、轉(zhuǎn)發(fā)路徑切換等操作,完成流量從故障鏈路到備用鏈路的收斂。但是這個(gè)時(shí)間一般在秒級(jí)。然而在AI場(chǎng)景里面,每次通信時(shí)間在毫秒級(jí)別,況下已完成了多輪通信。如果依靠傳統(tǒng)的路由收斂方式,將極大的影響AI計(jì)算效率。數(shù)據(jù)面快速恢復(fù)技術(shù)知和快速收斂能力,提升設(shè)備級(jí)可靠性。特性包含故障快速感知,故障本地快速收斂,故障通告生成、接收和中繼處理,故障遠(yuǎn)程快速收斂和表項(xiàng)老化處理。針對(duì)在線交易類關(guān)鍵應(yīng)用場(chǎng)景,盡量做到應(yīng)用無(wú)感知的故障快速收斂效下面通過(guò)以下兩個(gè)典型場(chǎng)景介紹數(shù)據(jù)面快速恢復(fù)技術(shù)的功能特性:圖24場(chǎng)景1本地快速收斂此場(chǎng)景的特征是有多個(gè)下一跳。比如上圖中的GPU3訪問(wèn)GPU1的流量,到達(dá)leaf2以后,leaf2的下一跳可以選擇spine1或者spine2。當(dāng)leaf2->spine2的路徑發(fā)生故障時(shí),可以在本地快速切換到leaf2->spine1路徑。圖25場(chǎng)景2遠(yuǎn)端快速收斂此場(chǎng)景的特征是有一個(gè)下一跳。比如上圖中的GPU1要訪問(wèn)GPU3,路徑是leaf1->spine2->leaf2。當(dāng)報(bào)文到達(dá)spine2以后,實(shí)際只有一條鏈路可以到leaf2。在此情況下,如果spine2->leaf2路徑出現(xiàn)了故障,spine2會(huì)通過(guò)發(fā)送通知報(bào)文給leaf1,leaf1在本地完成路徑切換,切換到leaf1->spine1->leaf2路徑。數(shù)據(jù)面故障穿越技術(shù)異常、端口物理狀態(tài)是UP但無(wú)法轉(zhuǎn)發(fā)流量、配置錯(cuò)誤等,往往無(wú)法快速識(shí)別。當(dāng)前業(yè)界主到數(shù)小時(shí)不等,嚴(yán)重影響業(yè)務(wù)。在這種情況下,華為進(jìn)一步推出數(shù)據(jù)面故障穿越技術(shù),提供無(wú)需分析器和人工參與,自動(dòng)感知網(wǎng)絡(luò)故障,涵蓋路由黑洞、ARP表項(xiàng)異常等業(yè)界無(wú)法自關(guān)鍵場(chǎng)景,自動(dòng)恢復(fù)故障,保障業(yè)務(wù)秒級(jí)恢復(fù)。如下圖所示,TCP流量傳輸過(guò)程中,發(fā)送端發(fā)送數(shù)據(jù)報(bào)文給接收端,接收端成功接收到數(shù)據(jù)報(bào)文后,會(huì)回復(fù)給發(fā)送端一個(gè)ACK報(bào)文,表示確認(rèn)接收到ACK確認(rèn)號(hào)前面的所有數(shù)據(jù)。如果超過(guò)一定時(shí)間未收到ACK報(bào)文,發(fā)送端設(shè)備會(huì)重傳數(shù)據(jù)報(bào)文。設(shè)備針對(duì)ACL規(guī)則匹配的TCP流量建立流表,如果設(shè)備重傳數(shù)據(jù)報(bào)文的時(shí)間間隔超過(guò)用戶設(shè)定的故障檢測(cè)時(shí)間,圖26TCP的確認(rèn)機(jī)制如下圖所示的傳統(tǒng)L3組網(wǎng),服務(wù)器采用獨(dú)立IP接入,Leaf交換機(jī)部署為獨(dú)立的L3網(wǎng)關(guān),承擔(dān)二、三層流量轉(zhuǎn)發(fā),Spine層部署為獨(dú)立的L3設(shè)備,與Leaf之間形成ECMP,實(shí)現(xiàn)流中斷時(shí)間長(zhǎng),對(duì)上層業(yè)務(wù)影響嚴(yán)重。比如對(duì)于在線交易類型應(yīng)用交易失敗,甚至可能引發(fā)對(duì)端協(xié)議棧連接超時(shí),應(yīng)用性能會(huì)出現(xiàn)明顯大幅下降。部署該功能后,當(dāng)業(yè)務(wù)流轉(zhuǎn)發(fā)異常時(shí),設(shè)備能夠自動(dòng)感知故障,同時(shí)快速切換到其他ECMP成員,保障業(yè)務(wù)秒級(jí)恢復(fù)。圖27傳統(tǒng)L3組網(wǎng)4.2.6.2閃啟技術(shù)萬(wàn)卡集群?jiǎn)卧O(shè)備部署,組網(wǎng)中l(wèi)eaf和NPU間無(wú)備份鏈路。同時(shí)集群斷訓(xùn)代價(jià)大,無(wú)升級(jí)和維護(hù)窗口。業(yè)界leaf故障或升級(jí)導(dǎo)致的重啟斷鏈時(shí)間>120s。而當(dāng)前昇騰NPU建鏈超時(shí)時(shí)間是30s。即,一旦設(shè)備異常重啟,就會(huì)導(dǎo)致訓(xùn)練任務(wù)中斷。接入交換機(jī)故障,影響所有直連NPU卡,需回退到checkpoint點(diǎn),重新訓(xùn)練。中斷一次重新拉齊,平均浪費(fèi)2小時(shí)訓(xùn)練圖28閃啟與業(yè)界實(shí)現(xiàn)對(duì)比華為提供閃啟功能,提升單點(diǎn)設(shè)備可靠性。在故障重啟和升級(jí)重啟場(chǎng)景下,實(shí)現(xiàn)流量中流量正常轉(zhuǎn)發(fā)。控制面重啟后,DB等機(jī)制側(cè)數(shù)據(jù)恢復(fù),把數(shù)據(jù)從持久化存儲(chǔ)設(shè)備中導(dǎo)入到內(nèi)存。系統(tǒng)各組件啟動(dòng)、恢復(fù),在全平滑過(guò)程中,控制面數(shù)據(jù)刷新到shadow表中。系統(tǒng)重啟后,短暫中斷硬件轉(zhuǎn)發(fā),將全量shadow數(shù)據(jù)搬遷至硬件轉(zhuǎn)發(fā)層面,通過(guò)閃啟功能,可減少異常場(chǎng)景導(dǎo)致的業(yè)務(wù)中斷,也提供了升級(jí)不斷訓(xùn)的維護(hù)手段??商嵘蛻艟W(wǎng)絡(luò)的單設(shè)備可靠性和可維護(hù)性。4.2.6.3光鏈路檢測(cè)技術(shù)光模塊通道抗損在AI訓(xùn)練中,成千上萬(wàn)張算卡協(xié)同完成一項(xiàng)任務(wù)。一旦出現(xiàn)單點(diǎn)故障,整個(gè)訓(xùn)練任務(wù)都會(huì)被迫中斷,而光模塊是保證AI訓(xùn)練穩(wěn)定性的關(guān)鍵一環(huán)。傳統(tǒng)光模塊的年失效率高達(dá)4‰,這導(dǎo)致萬(wàn)卡集群每年因光模塊失效中斷訓(xùn)練約60次。其中,單通道故障約占90%。頻繁的訓(xùn)練中斷不僅嚴(yán)重影響訓(xùn)練效率,還增加了維護(hù)和時(shí)間成本。對(duì)此,光模塊通道抗損技術(shù)可顯著降低光模塊故障率,確保訓(xùn)練任務(wù)的連續(xù)性,從而保障系統(tǒng)的高效運(yùn)行,提升網(wǎng)絡(luò)的整體可靠性和穩(wěn)定性。通過(guò)自適應(yīng)通道抗損技術(shù),可以有效解決傳統(tǒng)光模塊因單通道故障導(dǎo)致的訓(xùn)練中斷問(wèn)題。當(dāng)單個(gè)通道故障時(shí),通過(guò)交換機(jī)和NPU協(xié)商探測(cè),精確識(shí)別出故障通道信息。僅對(duì)故障所在通道組停止工作,其他通道組仍可正常進(jìn)行數(shù)據(jù)轉(zhuǎn)發(fā)。通過(guò)單lane隔離,光鏈路降失效導(dǎo)致的訓(xùn)練中斷由原來(lái)的60次減少至6次,網(wǎng)絡(luò)穩(wěn)定性提升10倍。圖30華為光模塊與業(yè)界對(duì)比對(duì)于光模塊故障問(wèn)題,傳統(tǒng)運(yùn)維無(wú)法感知光鏈路臟污/松動(dòng),只能在光模塊徹底故障、所承載的業(yè)務(wù)完全不可用時(shí),才能感知到故障。屬于故障事后感知,發(fā)現(xiàn)時(shí)已經(jīng)造成業(yè)務(wù)中斷。尤其在智算場(chǎng)景中,智算集群中斷1小時(shí),客戶經(jīng)濟(jì)損失嚴(yán)重。同時(shí)由于光模塊長(zhǎng)期運(yùn)行,光器件性能逐漸衰減,在光模塊的生命周期中有一段時(shí)間處于亞健康狀態(tài)。亞健康狀態(tài)的鏈路不穩(wěn)定,容易出現(xiàn)光模塊閃斷引起訓(xùn)練頻繁中斷。為此,需要提供光模塊的故障主動(dòng)檢測(cè)能力?;诓杉降墓饽K收/發(fā)光功率及門限閾值、偏置電流、電壓、溫度,并結(jié)合端口管理態(tài)、運(yùn)行態(tài)、端口錯(cuò)包等指標(biāo),持續(xù)分析光鏈路指標(biāo)數(shù)據(jù),對(duì)比標(biāo)準(zhǔn)值,實(shí)時(shí)檢測(cè)光鏈路亞健康異常。在出現(xiàn)光鏈路臟污/松動(dòng)時(shí),1分鐘定位出故障點(diǎn),先于業(yè)務(wù)受影響前定位到異常光模塊。通過(guò)分析光模塊污問(wèn)題及光模塊風(fēng)險(xiǎn)隱患,便于工程師提前規(guī)劃,替換掉亞健康狀態(tài)的光模塊,減少訓(xùn)練任光模塊故障預(yù)測(cè)結(jié)合大數(shù)據(jù)以及機(jī)器學(xué)習(xí)算法對(duì)光模塊進(jìn)行故障檢測(cè)以及故障概率預(yù)測(cè),先于業(yè)務(wù)受影響前識(shí)別出異常光模塊。基于采集到的光模塊收/發(fā)光功率及門限閾值、偏置電流、電壓、溫度,并結(jié)合端口管理態(tài)、運(yùn)行態(tài)、端口錯(cuò)包等指標(biāo)進(jìn)行數(shù)據(jù)訓(xùn)練,借助特定的故障模型以及線性回歸、邏輯回歸等AI算法識(shí)別已經(jīng)發(fā)生的故障光模塊,以及正在發(fā)生指標(biāo)劣化但尚未發(fā)生故障的光模塊。這樣用戶就可以在業(yè)務(wù)受影響之前,替換掉將會(huì)發(fā)生故障的光模塊。4.2.6.4網(wǎng)絡(luò)互聯(lián)冗余隨著AI集群向高密、大集群的方向演進(jìn),在同一個(gè)POD池內(nèi)采用兩層CLOS無(wú)收斂組網(wǎng),該組網(wǎng)在接入和互聯(lián)側(cè)帶寬是一致的,在hash不均勻,鏈路或者SPINE設(shè)備故障時(shí),ToR的上行互聯(lián)帶寬<接入帶寬,在ToR上行導(dǎo)致?lián)砣?,從而影響整個(gè)集群的性能。40互聯(lián)側(cè)網(wǎng)絡(luò)的降速風(fēng)險(xiǎn):隨著交換機(jī)Radix的不斷增加,集群規(guī)模越來(lái)越大,故障側(cè)降速運(yùn)行的比例會(huì)增加。序號(hào)集群大小效率MTBF(H)光鏈路修復(fù)降速運(yùn)行1萬(wàn)卡42十萬(wàn)卡4表5不同集群規(guī)模下,鏈路失效導(dǎo)致的降速運(yùn)行比例網(wǎng)絡(luò)互聯(lián)的冗余方案:通過(guò)N+K的組網(wǎng)方式,在互聯(lián)側(cè)提供K條鏈路的帶寬冗余,鏈路/設(shè)備故障點(diǎn)不多于K時(shí),互聯(lián)帶寬≥接入帶寬,可以保障互聯(lián)故障后集群性能不降速。圖33N+K冗余組網(wǎng)故障后TOR上行不擁塞41AI大腦依托AI模型訓(xùn)練與多智能體協(xié)同,提供智能化運(yùn)維。網(wǎng)絡(luò)智能體包括變更Agent、故障Agent、自動(dòng)化Agent、網(wǎng)維Copilot等。網(wǎng)絡(luò)數(shù)字地圖采集網(wǎng)絡(luò)、流量、設(shè)備、服務(wù)器、應(yīng)用等信息還原全網(wǎng)拓?fù)?,可以?shí)時(shí)障率降低90%。同時(shí),通過(guò)業(yè)務(wù)仿真校驗(yàn)功能,預(yù)先評(píng)估實(shí)施方案的風(fēng)險(xiǎn),確保網(wǎng)絡(luò)配置變更100%正確。網(wǎng)絡(luò)智能體大幅降低運(yùn)維人員的技術(shù)門檻同時(shí)提升運(yùn)營(yíng)決策效率。4.3.1仿真驗(yàn)證/孿生仿真應(yīng)用上線或變更,通常涉及大量網(wǎng)絡(luò)變更,成為網(wǎng)絡(luò)故障發(fā)生的主要根因。以中大型金融數(shù)據(jù)中心為例,年均網(wǎng)絡(luò)變更3000次以上,網(wǎng)絡(luò)團(tuán)隊(duì)大量人力投入到變更設(shè)計(jì)和評(píng)估風(fēng)險(xiǎn)排查與故障演練,通常涉及網(wǎng)絡(luò)故障的覆蓋,人工無(wú)法做到全覆蓋。隨著網(wǎng)絡(luò)規(guī)模越來(lái)越大,靠人工難以完成所有節(jié)點(diǎn)和鏈路故障的分析,動(dòng)輒需要十幾人投入一兩周甚至一個(gè)月;另一方面,故障演練雖然定期執(zhí)行,全部故障點(diǎn)遍歷耗時(shí)久周期長(zhǎng),通常每次僅覆蓋有限的幾個(gè)故障點(diǎn)的演練,導(dǎo)致可能有潛在的風(fēng)險(xiǎn)沒(méi)有被識(shí)別。如何有效解決網(wǎng)絡(luò)變更、風(fēng)險(xiǎn)排查、故障演練等場(chǎng)景評(píng)估難、耗時(shí)久的問(wèn)題,網(wǎng)絡(luò)仿真驗(yàn)證技術(shù)得到了學(xué)術(shù)界和工業(yè)界普遍的關(guān)注和實(shí)踐。網(wǎng)絡(luò)仿真驗(yàn)證技術(shù)通常來(lái)說(shuō)有兩大類,Emulation方式和Simulation方式。Emulation方式:基于虛擬化技術(shù)驅(qū)動(dòng)設(shè)備鏡像包實(shí)現(xiàn),相當(dāng)于在模擬器平臺(tái)上搭建一套虛擬的網(wǎng)絡(luò)環(huán)境,進(jìn)行網(wǎng)絡(luò)行為驗(yàn)證。其缺點(diǎn)是需消耗海量服務(wù)器資源:一臺(tái)網(wǎng)元對(duì)應(yīng)一個(gè)設(shè)備模擬器,數(shù)據(jù)中心一個(gè)中等規(guī)模分區(qū)200臺(tái)網(wǎng)元,實(shí)現(xiàn)仿真推算需要20個(gè)VM。通常3節(jié)點(diǎn)的服務(wù)器
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026 年中職進(jìn)化心理學(xué)(進(jìn)化心理基礎(chǔ))試題及答案
- 基于AHP與Schwartz-moon模型的長(zhǎng)城汽車數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估研究
- 辦公場(chǎng)所租賃補(bǔ)充條款合同協(xié)議2025年
- 城市運(yùn)力匹配分析
- 2025 八年級(jí)數(shù)學(xué)上冊(cè)三角形角平分線與角度計(jì)算課件
- 本溪高中化學(xué)試卷及答案
- 2025年英式口語(yǔ)測(cè)試題目及答案
- 工程采購(gòu)維修合同范本
- 國(guó)際項(xiàng)目建設(shè)合同范本
- 委托代招聘合同范本
- 居間服務(wù)費(fèi)合同(標(biāo)準(zhǔn)版)
- 消防愛(ài)裝管裝教育課件
- 腦梗死診療指南
- 設(shè)備工程師年終工作總結(jié)
- 《油氣儲(chǔ)存企業(yè)安全風(fēng)險(xiǎn)評(píng)估細(xì)則(2025年修訂)》解讀
- 四旋翼無(wú)人機(jī)飛行原理
- GB/T 45966.1-2025石油天然氣工業(yè)井完整性第1部分:生命周期管理
- 流動(dòng)車接種活動(dòng)方案
- 高風(fēng)險(xiǎn)行業(yè)安全管理措施與環(huán)保體系評(píng)估
- 2025年長(zhǎng)護(hù)險(xiǎn)考試試題及答案
- 監(jiān)理廉潔自律培訓(xùn)
評(píng)論
0/150
提交評(píng)論