面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書_第1頁
面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書_第2頁
面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書_第3頁
面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書_第4頁
面向AI大模型的智算中心網(wǎng)絡(luò)演進(jìn)白皮書_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

面向AI前 AI業(yè)務(wù)發(fā)展趨 AI大模型對(duì)網(wǎng)絡(luò)的需 DPU硬件卸 4.5自動(dòng)化關(guān)鍵技 人工智能是數(shù)字經(jīng)濟(jì)的核心驅(qū)動(dòng)力,AI大模型是人工智能的新引擎。AI大模型指通過近年來ChatGPT等生成式人工智能(AIGC)的突飛猛進(jìn),全球范圍內(nèi)的經(jīng)濟(jì)價(jià)值預(yù)計(jì)將達(dá)到數(shù)萬億美AI20252000億元。這一巨大的潛力不僅吸引著業(yè)內(nèi)領(lǐng)軍企業(yè)競(jìng)相推出萬億、10萬億參數(shù)量級(jí)別的大模GPU以GPT3.5為例,其訓(xùn)練過程依賴于微軟專門建AI超算系統(tǒng)1V100GPU組3640PF-days。在這種情況下,尋求提供極致高性AI業(yè)務(wù)發(fā)展的歷程出發(fā),深入研究大模型對(duì)網(wǎng)絡(luò)能力的需求,分析當(dāng)前AI大模型的智能計(jì)算中心網(wǎng)絡(luò)發(fā)展提供有益的參考和啟示。人工智能(AI)是一種使計(jì)算機(jī)和機(jī)器能夠表現(xiàn)出智能和類似人類思維的能力的技術(shù)自從20世紀(jì)50年代,人工智能的研究開始以來,AI已經(jīng)走了一個(gè)漫長(zhǎng)的歷程,經(jīng)歷了許1-1符號(hào)主義與專家系統(tǒng)(1956年-1980年),AI領(lǐng)域的創(chuàng)始人之一約翰·麥1956年提出了“人工智能”這一術(shù)語后,AI的符號(hào)推理階段就正式開始了。符號(hào)推理階段的主聯(lián)接主義與機(jī)器學(xué)習(xí)(1980年-2012年),AI開始了一些深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)方面的深度學(xué)習(xí)(2012年-2017年),2050年代,人們開始嘗試模擬人腦的神經(jīng)網(wǎng)絡(luò),等問題,經(jīng)歷了長(zhǎng)時(shí)間的2012年,Hinton等人提出了深度學(xué)習(xí)中一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)--卷積神經(jīng)網(wǎng)絡(luò)ImageNet圖像識(shí)別競(jìng)賽中獲得了顯著的成果。卷積神經(jīng)網(wǎng)Need》,Transformer模型引入了一種新的機(jī)制——注意力機(jī)制(Attention),用于學(xué)習(xí)不同位置的詞匯之間的關(guān)聯(lián)關(guān)系,從而更好地表征大型語言文本中的語義和詞法關(guān)系。在Transformer中,可以使用多頭注意力機(jī)制來學(xué)習(xí)輸入序列中不同的信息,并根據(jù)這些信息Transformer架構(gòu)由多個(gè)堆疊的自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層組成,這種設(shè)計(jì)使得它在賴關(guān)系Transformer可以處理極長(zhǎng)的文度消失或爆炸問題。同時(shí),Transformer架構(gòu)具有并行計(jì)算的能力,可以同時(shí)處理輸入序列的不同部分。這樣可以更快地訓(xùn)練和推理大型深度神經(jīng)網(wǎng)絡(luò),尤其是在使用分布式計(jì)算GPU并行計(jì)算的情況下。由于它的特殊結(jié)構(gòu)和設(shè)計(jì),Transformer架構(gòu)適合構(gòu)造大型神經(jīng)網(wǎng)絡(luò),由此開啟了深度學(xué)習(xí)大模型時(shí)代。大模型也被稱為基礎(chǔ)模型(FoundationModel),其通常定義為:參數(shù)規(guī)模較大(億級(jí))并Transformer結(jié)構(gòu),在大規(guī)模無標(biāo)注語料進(jìn)行自監(jiān)督訓(xùn)練后,可以賦BERTGPT是兩種最知名的基Transformers的自然語言處理模型。雖然都是基于TransformersGPT只使用Transformer的解碼器部分BERT使用了雙Transformer的編碼器部分;GPT是從左到右建模文本,確保下一個(gè)預(yù)測(cè)是來自上下文的正BERT201810月,Google團(tuán)隊(duì)發(fā)布BERT模型。20197月,華盛頓大學(xué)研究團(tuán)隊(duì)在長(zhǎng)的訓(xùn)練時(shí)間,并且修改了模Mask機(jī)制,取得了更好的效果。20202月,Google2018年,OpenAI團(tuán)隊(duì)發(fā)布GPT-1,它使用Transformer架構(gòu),采用了無監(jiān)督學(xué)習(xí)碼器層12Transformer解碼器層,參數(shù)數(shù)量達(dá)到1.5億個(gè)。2020年,OpenAI團(tuán)隊(duì)提ChatGPT是OpenAI202211月底上線的一款具有跨時(shí)代意義的大規(guī)模智能語OpenAI實(shí)驗(yàn)室開GPT-3.5GPT-4系列大型語言模型,并采用了監(jiān)用于生成從給定的提示列表所需的輸出。標(biāo)注者們會(huì)SFT模型輸出結(jié)果進(jìn)行打分,這樣ChatGPT生成輸出時(shí)的ChatGPT展現(xiàn)的語言能力令人印象深刻,由于大模型巨大的參數(shù)量,需要分布式計(jì)算、GPU/CPU等異構(gòu)技術(shù)及多種并行模式等方式進(jìn)行訓(xùn)練與推理。而智算中心CPU、GPU、內(nèi)存等池化異構(gòu)算力資源,語音識(shí)別和自然語言處理等領(lǐng)域。AIAI產(chǎn)品已在部ChatGPTAI進(jìn)一步對(duì)產(chǎn)業(yè)賦能。涌現(xiàn)出了人工智能即服務(wù)(AIaaS)和模型即服務(wù)(MaaS)。IT行業(yè)的一個(gè)關(guān)鍵詞。AIaaS為企業(yè)和機(jī)構(gòu)提供了AIaaS的應(yīng)用領(lǐng)域也不斷拓展AI讓傳統(tǒng)的企業(yè)也能夠通過數(shù)字化的方式創(chuàng)管理和發(fā)現(xiàn)消費(fèi)者需求等。隨AIaaS市場(chǎng)的規(guī)模不斷擴(kuò)張,越來越多的企業(yè)也紛紛開辟模型即服務(wù)(MaaS)是基于云端提供預(yù)先訓(xùn)練好的機(jī)器學(xué)習(xí)模型,無需自己從頭構(gòu)建和維護(hù)模型。換句話說,MaaS是為那些需要支持應(yīng)用程序或工作流程的開發(fā)人員、數(shù)據(jù)科學(xué)家和企業(yè)提供預(yù)先構(gòu)建好的模型的方式MaaSL0層的基礎(chǔ)大模型,再結(jié)合行業(yè)數(shù)據(jù)訓(xùn)L1層的行業(yè)模型,用戶通API或模型壓縮的方式獲L2層的垂直MaaS提供商通常提供經(jīng)過大量數(shù)據(jù)集訓(xùn)練和優(yōu)化的模型,以支持特定的用例,例如圖型所需資源或?qū)I(yè)知識(shí)的組織的門檻。此外,MaaS提供商通常通過提供按需付費(fèi)的定價(jià)模型,使擴(kuò)展變得更加容易。一些MaaS提供商包括AmazonSageMaker、MicrosoftAzureMachineLearningModelArts等。2017《促(2018-2020年》20177月國(guó)務(wù)院全新公布了政策性文件《新一代人工智能發(fā)展規(guī)劃》,文件中明確20208月,國(guó)家五大部門聯(lián)合發(fā)布了新一代人工智能的建設(shè)指引文件《國(guó)家新一代2023年的兩會(huì)報(bào)告中,ChatGPT(大模型)的人工智能詞匯多次被提及,并且模型的效果越來越好Scalinglaw規(guī)律,且當(dāng)模型的參數(shù)規(guī)模超過數(shù)百億后,AI大模型的語言理解能力、邏輯推理能力以及問題分析能力迅速提升。同時(shí),隨著模進(jìn)行訓(xùn)練的下一輪迭代或計(jì)算。AI大模型的大規(guī)模訓(xùn)練集群中,如何設(shè)計(jì)高效的GPU有效計(jì)算時(shí)間占比(GPU計(jì)算時(shí)間/整體訓(xùn)練時(shí)間)AI分布式訓(xùn)練集群的效率提升至關(guān)重要。以下將從規(guī)模、帶寬、時(shí)延、穩(wěn)定性及網(wǎng)絡(luò)部署角度AI大模型對(duì)AI應(yīng)用計(jì)算量呈幾何級(jí)數(shù)增長(zhǎng),算法模型向巨量化發(fā)展,人工智能模型參數(shù)在過去十年增長(zhǎng)了十萬倍AI超大模型的參數(shù)目前已經(jīng)達(dá)到了千億~萬億的級(jí)別。訓(xùn)練這樣的可是,僅僅有了大量GPU,仍然無法訓(xùn)練出有效的大模型。合適的并行方式才是提升GPU組成的集群。表面上看,這和云數(shù)據(jù)中心當(dāng)前已經(jīng)達(dá)到數(shù)萬服務(wù)器的互聯(lián)規(guī)模相比,還處于下風(fēng)。但實(shí)際上,幾千節(jié)點(diǎn)GPU互聯(lián),比數(shù)萬服務(wù)器的互聯(lián)更具有挑戰(zhàn),因?yàn)榫W(wǎng)絡(luò)能力和計(jì)算能力需要高度匹配。云數(shù)據(jù)中心使用CPU計(jì)算,網(wǎng)絡(luò)需求一般在網(wǎng)絡(luò)拓?fù)溥x擇,是傳統(tǒng)FatTree結(jié)構(gòu)更好,還是可以參考高性能計(jì)算的Torus,Dragonfly數(shù)據(jù)量將達(dá)到GB級(jí)別,因此機(jī)GPU間的通信帶寬及方式對(duì)于流完成時(shí)間十分重要。存數(shù)據(jù)的多次拷貝操作。從機(jī)GPU通信角度看,流水線并行、數(shù)據(jù)并行及張量并行模式互聯(lián),PCIe總線的通信帶寬決定網(wǎng)卡單端口帶寬能否完全發(fā)PCIe3.0總線(16laneGPU有效計(jì)算時(shí)間占比13%,當(dāng)網(wǎng)絡(luò)丟包率達(dá)1%時(shí),GPU有效計(jì)算時(shí)間占比將5%AI大模型智算中心能夠充分釋放算力的集合通信過程一般可以拆解成多個(gè)節(jié)點(diǎn)間并行P2P通信,例N個(gè)節(jié)點(diǎn)間RingAllReduce2*(N-1)次的數(shù)據(jù)通信子流程,每個(gè)子流程中所有節(jié)點(diǎn)均完P(guān)2P通信(并行執(zhí)行)才可結(jié)束這個(gè)子流程。當(dāng)網(wǎng)絡(luò)出現(xiàn)波動(dòng)時(shí)P2P的流完AI大模型的訓(xùn)練效率。Transformer誕生以后,開啟了大模型快速演進(jìn)的序章。過5年時(shí)間,模型61M,增長(zhǎng)540B,翻1萬倍!集群算力決定AI模型訓(xùn)練速度的快慢V100訓(xùn)練GTP-3335年,10000V10012天左右時(shí)間。智能無損網(wǎng)絡(luò)的構(gòu)建往RDMA協(xié)議及擁塞控制機(jī)制,但與之相伴隨的是一系列些許不符合預(yù)期的問題。據(jù)統(tǒng)計(jì),超過90%的高性能網(wǎng)絡(luò)故障是由配置錯(cuò)誤導(dǎo)致的問題,根據(jù)前面的分析可知,AI大模型對(duì)網(wǎng)絡(luò)的需求主要體現(xiàn)在規(guī)模、帶寬、穩(wěn)定性、時(shí)延/AI大模型分布式機(jī)器學(xué)習(xí)場(chǎng)景的10K級(jí)別以上,且要求在規(guī)模組網(wǎng)環(huán)可以勝任CLOS架構(gòu)下避免擁塞并維持穩(wěn)定的時(shí)延、抖動(dòng)以及吞吐性能保障卻是少數(shù)大象流、同步效應(yīng)等),傳統(tǒng)數(shù)據(jù)中心所采用的負(fù)載均衡技術(shù)(通常ECMP或者AIAI集群的規(guī)模。。RDMA技術(shù)可以大幅提升通信節(jié)點(diǎn)之間的數(shù)據(jù)訪問性能并降低CPUAI/HPC議中通常采用可靠面向連接的傳輸方式,RDMA網(wǎng)卡需要為每一個(gè)連接維護(hù)大量的協(xié)議狀QP部署的主要因素控制DCQCN算法,該算10K+節(jié)點(diǎn)AI大模型網(wǎng)絡(luò)中存在明顯的性能不3點(diǎn): 15+ECN/PFC水線、QoS網(wǎng)絡(luò)中,流控調(diào)參工作往往需要專業(yè)人士持續(xù)投入數(shù)周的時(shí)間其高昂的精調(diào)成本和經(jīng)AI大模型網(wǎng)絡(luò)中顯然不具備可復(fù)制性。 PFCPFC作為擁塞控制失效場(chǎng)景下的限。首先,在高度冗余的網(wǎng)絡(luò)拓?fù)渲校–LOS網(wǎng)絡(luò))PFC協(xié)議容易出PFC協(xié)議僅支持接口隊(duì)列級(jí)流控,這種粗顆粒度的PFC以及報(bào)文排隊(duì)現(xiàn)象的發(fā)生,這對(duì)當(dāng)前擁塞控制算法的能力提出了更高的要 ECN、PFC等AI大模型網(wǎng)絡(luò)規(guī)?;ㄔO(shè)和運(yùn)維的需求,AI智能水線能力的建設(shè)和積累。在帶寬需求方面,一AI大模型對(duì)網(wǎng)絡(luò)的互聯(lián)帶寬有明確的要求,另一方面需要在標(biāo)的劣化。有測(cè)試數(shù)據(jù)表明,在不產(chǎn)生擁塞的情況下,ECMP流級(jí)負(fù)載均衡導(dǎo)致約分布式高性能應(yīng)用的特征是多對(duì)一通信Incast流量模型,對(duì)于以太網(wǎng)的設(shè)備,IncastDCQCNRDMA網(wǎng)絡(luò)應(yīng)用最廣泛的擁塞控制算法,也是典型的被動(dòng)擁塞控制算遍采用單100GE/200GE的高性能網(wǎng)卡,高端網(wǎng)卡已400G接口,對(duì)于網(wǎng)絡(luò)接入層800G交換機(jī),這對(duì)交換機(jī)設(shè)備容量的需求提出了挑戰(zhàn)。AI集群規(guī)模達(dá)到一定量級(jí)后,如何保障集群系統(tǒng)的穩(wěn)定性,是除了性能外必須面對(duì)GPU故障只影響集群算力的千分之幾,網(wǎng)絡(luò)故障會(huì)影響數(shù)十GPU的連通性,只有網(wǎng)絡(luò)穩(wěn)定才能維持系統(tǒng)算力的完整性。GPU或服務(wù)器容易被隔離,網(wǎng)絡(luò)作為集群共享AI大模型場(chǎng)景下,網(wǎng)絡(luò)故障收斂時(shí)間越長(zhǎng),算力損失越大,性能敏感業(yè)務(wù)體驗(yàn)也越件的增加(典型云數(shù)據(jù)中心交換機(jī)的硬件故障率通常0.15左右)。當(dāng)鏈路故障發(fā)生時(shí),其故障收斂性能仍然在幾十毫秒以上,其收斂時(shí)長(zhǎng)AIRTT時(shí)延。網(wǎng)復(fù),對(duì)于丟包、時(shí)延不敏感的業(yè)務(wù)流量而言已經(jīng)足夠。在傳統(tǒng)的無損網(wǎng)絡(luò)中,ECN/PFC等粗顆粒度端網(wǎng)協(xié)同機(jī)制也可AI高性能網(wǎng)絡(luò)中,業(yè)務(wù)對(duì)丟包、動(dòng)以及吞吐性能下降則是必然的結(jié)果。由此可見AI網(wǎng)絡(luò)穩(wěn)定AI大模型應(yīng)用對(duì)端到端通信時(shí)延和抖動(dòng)性能提出了較高的要求,通常要求平均時(shí)延需us10us及以下。對(duì)比當(dāng)前的網(wǎng)絡(luò)能力,存在如下差距:節(jié)點(diǎn)端到端通信時(shí)延(通常都在幾十甚至上ms)中的占比較小,而由擁塞導(dǎo)致的排隊(duì)時(shí)AI業(yè)務(wù)低時(shí)延的基本需求。AI場(chǎng)景中常用的集合通信具有明顯的流同步效應(yīng),這種同步效應(yīng)要求網(wǎng)絡(luò)不僅要做到的同時(shí),應(yīng)JCT指標(biāo)可以獲40%的性能增益。由此可見,對(duì)時(shí)延抖動(dòng)的有效控制當(dāng)前機(jī)內(nèi)節(jié)點(diǎn)間通信通PCIE、NVLink、UPI、CXL等高速互聯(lián)總線技術(shù)為主,機(jī)SDN已經(jīng)誕生10年時(shí)間,相關(guān)的自動(dòng)化技術(shù)也相對(duì)成熟。但SDN自動(dòng)化主IP可達(dá)的隧道,自動(dòng)化管理能力簡(jiǎn)單、高效。AI大模型訓(xùn)練場(chǎng)景下,當(dāng)大規(guī)AI網(wǎng)絡(luò)或者對(duì)安全隔離有獨(dú)特的需求時(shí),網(wǎng)絡(luò)建網(wǎng)絡(luò)是一個(gè)封閉的專用網(wǎng)絡(luò)?;谟?xùn)練效率考慮,一種典型的網(wǎng)絡(luò)架Underlay直接承載AI訓(xùn)練任務(wù),不Overlay平面。同時(shí)為了充分利用設(shè)備轉(zhuǎn)發(fā)能力,設(shè)備組間AI大模型協(xié)同的新型拓?fù)鋬?yōu)化時(shí)延和成本方案。同時(shí)在組建大規(guī)模網(wǎng)絡(luò)過程需要強(qiáng)大的擁網(wǎng)絡(luò)設(shè)備應(yīng)從提升自身能力出發(fā),聯(lián)合端網(wǎng)協(xié)同機(jī)制,為應(yīng)AI大模型對(duì)智算中心網(wǎng)基于RC的通訊是為每一對(duì)需要通訊的QP建立、維護(hù)一組連接,此方式導(dǎo)致連接數(shù)fat-tree組網(wǎng)存在充分的等價(jià)路徑前提下,任意一個(gè)單點(diǎn)故障僅影響部分RoCE傳輸?shù)男阅?。AWS已經(jīng)將多路徑技術(shù)應(yīng)用到其自研的協(xié)SRD中,其在流量收斂性能上得到了顯著的優(yōu)化。QP建立、維護(hù)一組連接,導(dǎo)致了連接數(shù)的規(guī)模巨大,進(jìn)而限制了組網(wǎng)規(guī)模。針對(duì)該問SRDMellanoxDC技術(shù)分別為這兩種方案的代表。gobackN往選擇性重傳演進(jìn)。gobackN重傳是一種簡(jiǎn)單的重傳方式,所以在早期芯鏈路故障的情況下才會(huì)發(fā)生丟包)gobackN重傳不失為一種合理的選擇。RoCEPFC風(fēng)暴整網(wǎng)流量驟停的擔(dān)憂,同時(shí)半導(dǎo)體工藝的提升在幫助網(wǎng)卡硬件芯片中能實(shí)現(xiàn)更為復(fù)雜的協(xié)議,RoCE的重傳方式將會(huì)逐漸gobackN的全量重傳演進(jìn)到選擇性重傳。DMADMADMA機(jī)制或者擁塞控制機(jī)制被提出的時(shí)候,RDMA智能網(wǎng)卡能夠及時(shí)通過可編程能力更新對(duì)應(yīng)的25.6Tbps25.6Tbps容量200G400G。25.6Tbps容量芯片的成熟穩(wěn)定部署,200G/400G光模塊放量速度加快,生態(tài)拉齊,價(jià)格已經(jīng)平坦化。同時(shí),51.2Tbps容量51.2Tbps400G接口的密度,16K32K典型配置下,減少設(shè)備數(shù)量,并提供未來更大規(guī)模的可能性。38432KCPU的部署。模擬常用高性能計(jì)算通信庫的典型流量模型(NCCLbroadcast,reduce,all-reduce等典型操作)的能M:N通信場(chǎng)景,流量大小,持續(xù)時(shí)間,突發(fā)設(shè)置,RoCE測(cè)試儀表(RDMA協(xié)議狀態(tài)),同樣在指定測(cè)試端口數(shù)jobRDMA操作(ibread/writeqp數(shù)量以及消以精準(zhǔn)測(cè)試網(wǎng)絡(luò)中的帶寬占用情況,報(bào)文時(shí)延,job的完成時(shí)延等信息。當(dāng)前智算中心網(wǎng)絡(luò)通常采用LOS算場(chǎng)景下低時(shí)延和低成本訴求,業(yè)界針對(duì)該問題開展了多樣的架構(gòu)研究和新拓?fù)涞脑O(shè)計(jì)。直連拓?fù)湓诔笠?guī)模組網(wǎng)場(chǎng)景下,因?yàn)榫W(wǎng)絡(luò)直徑短,具備低成本、端到端通信跳數(shù)少64口盒式交換Dragonfly最大組網(wǎng)規(guī)27w節(jié)點(diǎn),43CLOS全盒組網(wǎng)。以構(gòu)10萬個(gè)節(jié)點(diǎn)超大規(guī)模集群為例,傳統(tǒng)CLOS架構(gòu)需4CLOS組網(wǎng),端到端通信最大需要跨7跳交換機(jī)。使用Dragonfly直連拓?fù)浣M網(wǎng),端到端交換機(jī)轉(zhuǎn)發(fā)跳數(shù)最少3跳,交換機(jī)臺(tái)數(shù)下40%。同時(shí),通過自適應(yīng)路由技術(shù)實(shí)時(shí)感知網(wǎng)絡(luò)流量負(fù)當(dāng)前主流擁塞控制算法的優(yōu)化思路仍然在端側(cè)實(shí)現(xiàn),需要至少1個(gè)T的響應(yīng)時(shí)長(zhǎng),同時(shí)針對(duì)網(wǎng)絡(luò)中存在的多擁塞點(diǎn)問題,仍然需要多個(gè)周期才能收斂。因此需要一種新型的端網(wǎng)配合的擁塞控制算法,越來越多的無損網(wǎng)絡(luò)設(shè)計(jì)者意識(shí)到,網(wǎng)絡(luò)遙測(cè)信息對(duì)擁塞控制帶寬,最終避免擁塞提高帶寬利用率的效果,保障大規(guī)模分布式AI任務(wù)的高效完成。網(wǎng)絡(luò)帶寬的增長(zhǎng)主要依賴網(wǎng)卡/交換機(jī)轉(zhuǎn)發(fā)芯片的發(fā)展,遵10G->25G->100G->200G->400G->800G的路線。近幾年隨著摩爾定律的逐步失效,芯片演隨著聚合算力的規(guī)模不斷增長(zhǎng)、計(jì)算復(fù)雜度的增加,集合通信中數(shù)據(jù)交互的次數(shù)也會(huì)有明顯的增長(zhǎng),隨之網(wǎng)絡(luò)通信效率對(duì)AI應(yīng)用完成時(shí)間的制約作用也越來越明顯。以目前較流行的集合通信操作MPIringall-reduce為例,需要2(N-1)次的數(shù)據(jù)交互才能完成,其中N為參與的節(jié)點(diǎn)數(shù)量。深度學(xué)習(xí)同樣需要調(diào)用AllReduce操作進(jìn)行梯度聚合,且每個(gè)節(jié)點(diǎn)的傳輸數(shù)據(jù)量是深度學(xué)習(xí)模型尺寸的2(N-1)/N倍。當(dāng)N值較大時(shí),傳輸量接近原始模型尺寸的2倍,相當(dāng)于額外增添了網(wǎng)絡(luò)帶寬的負(fù)擔(dān)。近年來,隨著可編程交換機(jī)的興起和部署,可通過在網(wǎng)計(jì)算壓縮數(shù)據(jù)流量,實(shí)現(xiàn)計(jì)算傳輸效率的提升,該方式成為一個(gè)有效提升分布式系統(tǒng)的方法。在集合通信原語中,Reduce和AllReduce含有計(jì)算的語義,因此可以使用在網(wǎng)計(jì)算進(jìn)行加速,減少數(shù)據(jù)交互次數(shù)和入網(wǎng)數(shù)據(jù)量。組播是分布式計(jì)算系統(tǒng)中最常使用的通信模式之一。由于數(shù)據(jù)被重復(fù)發(fā)送,應(yīng)用層組播任務(wù)完成時(shí)間大于數(shù)據(jù)量與通信帶寬之比。交換機(jī)可完成組播報(bào)文的復(fù)制分發(fā),以網(wǎng)絡(luò)層組播替代應(yīng)用層組播,避免相同數(shù)據(jù)的重復(fù)發(fā)送,實(shí)現(xiàn)組播任務(wù)完成時(shí)間逼近理論最優(yōu)值(即數(shù)據(jù)量與帶寬之比)的效果,相比于應(yīng)用層組播任務(wù)完成時(shí)間減少約50%?,F(xiàn)有基于流的負(fù)載分擔(dān)技術(shù)為:網(wǎng)絡(luò)設(shè)備接收到一條流進(jìn)行轉(zhuǎn)發(fā)時(shí),此流經(jīng)過計(jì)算確定一個(gè)轉(zhuǎn)發(fā)路徑,若不發(fā)生網(wǎng)絡(luò)路徑的變化,此流所有的報(bào)文都將持續(xù)在確定的徑上轉(zhuǎn)AI/ML的應(yīng)用中,GPU或其他類AI/ML計(jì)算單元之間有著非常簡(jiǎn)單的通訊關(guān)分擔(dān)不均衡,而且這種不均衡一旦引發(fā)網(wǎng)絡(luò)丟包,就會(huì)對(duì)整體AI/ML的任務(wù)完成時(shí)間帶來顯著的負(fù)面影響。因此業(yè)界越來越重SpineLeaf點(diǎn)之間鏈路的負(fù)載均衡算法優(yōu)在鏈路負(fù)載均衡的優(yōu)化算已經(jīng)成熟部署的案例有動(dòng)態(tài)負(fù)載平衡(DLB)DLB是DLBflowlet顆粒度的調(diào)度,和基于流的負(fù)載均衡完美兼容。近期新興的感知路由(Cognitiverouting)已經(jīng)普遍被行業(yè)認(rèn)為是負(fù)載均衡算法的最佳徑選擇,并支DLB方式動(dòng)態(tài)平衡流量負(fù)載。迭代GLB功能允許上游交換機(jī)避開下游擁塞熱點(diǎn)并選擇更好的端到端路徑。GLB保留了DLB的所有優(yōu)質(zhì)屬性,例如當(dāng)鏈同時(shí),另一個(gè)路徑也開始逐漸萌芽和發(fā)展——基于信元交換實(shí)現(xiàn)均衡負(fù)載分擔(dān)。信元送的調(diào)度信令選擇空閑的鏈路進(jìn)行轉(zhuǎn)發(fā);到的目的后,信元被重新拼裝成報(bào)文發(fā)出設(shè)備。在這樣的機(jī)制下,不同于包轉(zhuǎn)發(fā)(一個(gè)固定的流僅能利用單個(gè)路徑兩個(gè)交換機(jī)之間的元交換本身并不是一項(xiàng)嶄新的技術(shù)。在目前廣泛應(yīng)用的框式設(shè)備中,線卡芯片與網(wǎng)板芯片之間的流量交換普遍都采用了信元交換的技術(shù),以實(shí)現(xiàn)機(jī)框內(nèi)無阻塞交換?,F(xiàn)在業(yè)界已經(jīng)DDC網(wǎng)絡(luò)架構(gòu)--在整個(gè)網(wǎng)絡(luò)設(shè)備之間采用信元交換。DDC網(wǎng)絡(luò)架構(gòu)證實(shí)了此項(xiàng)技術(shù)確實(shí)可以有效解決鏈路負(fù)載均衡的難題。將此項(xiàng)技術(shù)進(jìn)一步擴(kuò)展,應(yīng)用到整個(gè)網(wǎng)絡(luò)上,會(huì)是AI/ML等專有網(wǎng)絡(luò)未來解決負(fù)載均衡問題的方向之一。Serdes技術(shù)推動(dòng)數(shù)據(jù)中心進(jìn)400G,800G的時(shí)代,端口功耗成為了業(yè)界普遍關(guān)注的熱點(diǎn)。低功400G/800G互聯(lián)解決方案相繼推出,引起業(yè)界廣泛關(guān)注,也被普遍認(rèn)AI和機(jī)器學(xué)習(xí)等智算數(shù)據(jù)中心的關(guān)鍵技術(shù)。CPO速數(shù)據(jù)增長(zhǎng)和高帶寬應(yīng)用至關(guān)重要。共封裝光學(xué)(CPO)是把交換ASIC和光/電引擎(光收發(fā)器)共同封裝在同一基板上,光引擎盡量靠ASIC,以最大程度地減少高速電通道損耗和阻抗不連續(xù)性,從而可以使用速度更快、功耗更低的片I/O驅(qū)動(dòng)器。通過使用CPO不僅可以實(shí)現(xiàn)聯(lián)網(wǎng),還可以實(shí)現(xiàn)GPU到GPU的互連、資源池和內(nèi)存的分解。其可以滿足AI/ML訓(xùn)練集群的需求,且具備高帶寬和基數(shù)連接、最低的每比在400G、800G時(shí)代,除了可插拔光模塊和PO解決方案外,在今年3月OC,inearDirectDriv(可插拔400G/800G光模塊成為了研究熱點(diǎn)。該光模塊方案最大的優(yōu)勢(shì)在于光模塊可以省掉DSP芯片,極大程度降低在模塊層面的信號(hào)處理的功耗和延遲。服務(wù)AI和機(jī)器學(xué)習(xí)等GPU服務(wù)器在提供出色算力的基礎(chǔ)上服務(wù)器功耗也會(huì)相應(yīng)的增加。400G/800G的高速互聯(lián)使得光模塊以及網(wǎng)絡(luò)設(shè)備的功耗也會(huì)相應(yīng)的增長(zhǎng)。無論CPO還是線性直驅(qū)可插拔模塊可能都是未來智算中心的互聯(lián)解決方案,通過從互連AI大模型下的智算中心網(wǎng)絡(luò)作為業(yè)務(wù)流量的調(diào)度中樞,其穩(wěn)定性決定著AI集群AI大模型網(wǎng)絡(luò)通常要求網(wǎng)絡(luò)實(shí)ms級(jí)的故障恢復(fù)時(shí)間。故障快速感知作為故障恢復(fù)的前提,其感知性能通常在數(shù)十us級(jí)以下。當(dāng)前大部分基于報(bào)文探測(cè)?;顧C(jī)制的感知技術(shù)僅能保障50ms級(jí)的故障感知性能。因此通過設(shè)備硬件提供更高性能的故障感知能力光、FEC錯(cuò)包統(tǒng)計(jì)等)提供快速的故障感知及預(yù)測(cè)的功能,實(shí)現(xiàn)為上層系ms級(jí)在以性能為導(dǎo)向的大規(guī)模網(wǎng)絡(luò)中,面向各種網(wǎng)絡(luò)故障場(chǎng)景下的自愈能力是保障業(yè)務(wù)可其主要宗旨是最大限度降低業(yè)務(wù)性能的影響,核心技術(shù)在于提升各類網(wǎng)絡(luò)故障事件響應(yīng)的以最快的速度實(shí)現(xiàn)流量轉(zhuǎn)發(fā)路徑的切換保護(hù);在設(shè)備層面,通過利用節(jié)點(diǎn)級(jí)保護(hù)技術(shù),實(shí)現(xiàn)流量的快速重路由;在網(wǎng)絡(luò)層面,借助自動(dòng)化和智能化的手段對(duì)常見的網(wǎng)絡(luò)級(jí)故障開展根因分析和問題關(guān)聯(lián),通過快速響應(yīng)預(yù)案的積累形成網(wǎng)絡(luò)自動(dòng)止血的能力,確保網(wǎng)絡(luò)故障恢復(fù)指標(biāo)在可預(yù)期的范圍內(nèi)。為了滿足AI大模型對(duì)超低時(shí)延的需求,智算中心網(wǎng)絡(luò)需要從集合通訊與網(wǎng)絡(luò)拓?fù)鋮f(xié)AI訓(xùn)練系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)并并行以及混合并行的的NVIDIA公司開源的NCCLPCIe,NVLink,EthernetInfiniband網(wǎng)絡(luò)上實(shí)現(xiàn)較高帶寬、低延遲GPU通信。集合通信的性能和網(wǎng)絡(luò)拓?fù)涿芮邢嚓P(guān)。NCCL能夠針對(duì)拓?fù)涮谿PU特征進(jìn)行定制優(yōu)化,具有比傳統(tǒng)集合通信MPI更高的性能。比PXN方法將不同服務(wù)器上位于相同位置的網(wǎng)卡,都?xì)w屬于同ToRswitch;不同位置的網(wǎng)卡,歸屬于ToRswitch。該方式下host上相同位置GPU仍然走機(jī)間網(wǎng)絡(luò)通信,一跳可達(dá);不host上不GPU,則先通過機(jī)內(nèi)網(wǎng)絡(luò)轉(zhuǎn)發(fā)到對(duì)應(yīng)GPU代理上,然后通過GPU代理走機(jī)間網(wǎng)絡(luò)來完成通信。該方法可以有效地減少host集合通信過程的網(wǎng)絡(luò)跳數(shù),從而提在當(dāng)GPU的算力能力下,100Gbps或更大的數(shù)據(jù)量才能夠充分發(fā)揮GPU的算力。在這樣的發(fā)展趨勢(shì)下RDMAGPUDirectRDMADPUGPU通信的過程中可繞過主機(jī)內(nèi)存,直接實(shí)現(xiàn)GPU內(nèi)存的讀寫能力。而且,DPU上全硬件實(shí)現(xiàn)RDMA能夠支持單流G以上的數(shù)據(jù)收發(fā)能力進(jìn)而GPU算力聚合且最大GPU集群算力。GPUDirectRDMA技術(shù)已經(jīng)成為當(dāng)前算力資源總線級(jí)互聯(lián)高性GPUDirectGPUDirectStorageGDS。GDSGPU從Storage獲取數(shù)據(jù)的延時(shí)和效率問題,可實(shí)現(xiàn)GPUStorage的直接訪問GPU使用GDS訪問遠(yuǎn)端存儲(chǔ)時(shí),通過網(wǎng)卡NVMe-oF的卸載和加速就變得異常重要。NVMe-oF的實(shí)現(xiàn)是在NVMe操作上進(jìn)行了網(wǎng)絡(luò)部分的封裝。NVMe實(shí)現(xiàn)的各種隊(duì)列操作,包括MQ,SQ,CQ等,可以清晰的通過硬件邏輯實(shí)現(xiàn)。同時(shí),根據(jù)NVMe-oF所支持的網(wǎng)絡(luò)協(xié)議,進(jìn)一步判斷哪種協(xié)議適合硬件卸載,或者其使用硬件卸載方式付出的代價(jià)最小RDMA的支持,再疊加NVMe的實(shí)現(xiàn)邏輯,網(wǎng)卡可以完整實(shí)NVMeoverRDMA的硬件卸載,進(jìn)而GDSNVMe-oF卸載及加速方案。靜態(tài)轉(zhuǎn)發(fā)時(shí)延主要是由轉(zhuǎn)發(fā)芯片引轉(zhuǎn)發(fā)芯片主要PHY/MAC包處(PP)包處理(P)模塊:為了降低包處理模塊的時(shí)延,可通過簡(jiǎn)化業(yè)務(wù)部署的方式,如關(guān)AL功能AL時(shí))VAN(AC表IB)4.5AI大模型場(chǎng)景下網(wǎng)絡(luò)的特殊性,AI網(wǎng)絡(luò)需要實(shí)現(xiàn)多維度自動(dòng)化能力的支持,包AI大模型網(wǎng)絡(luò)典型的特征是規(guī)模較大,且必須支撐業(yè)務(wù)集群的按需擴(kuò)容。然而,網(wǎng)絡(luò)中涉及擁塞控制RDMA無損等復(fù)雜特性的配置且配置工作涵蓋網(wǎng)卡和網(wǎng)絡(luò)交換機(jī)。AI網(wǎng)絡(luò)特殊性和復(fù)雜性,通過充分識(shí)別并AI場(chǎng)景網(wǎng)絡(luò)特征及變更特點(diǎn),從而設(shè)計(jì)符AI場(chǎng)景的網(wǎng)絡(luò)模型,支撐自動(dòng)化能力,盡力實(shí)現(xiàn)“即插即用式開局”。等開展一系列自動(dòng)化測(cè)試和驗(yàn)收的活動(dòng)。通過自動(dòng)化測(cè)試建立驗(yàn)收基準(zhǔn),而非依靠人工驗(yàn),是確AI集群高品質(zhì)交付的基對(duì)于一些突發(fā)的網(wǎng)絡(luò)故障或者性能事件,利用轉(zhuǎn)發(fā)芯片的原生能力,對(duì)網(wǎng)絡(luò)的狀態(tài)、數(shù)據(jù)進(jìn)行高性能可視化監(jiān)控。例如通過呈現(xiàn)網(wǎng)絡(luò)的擁塞狀態(tài)、負(fù)載不均狀態(tài)等,為自動(dòng)化調(diào)度調(diào)優(yōu)提供數(shù)據(jù)支持,可實(shí)現(xiàn)端到端可視化、自動(dòng)化運(yùn)維等,實(shí)現(xiàn)故障的快速定位和一鍵修復(fù)的能力。在AI網(wǎng)絡(luò)中,業(yè)務(wù)需求的變化、新技術(shù)的引入、網(wǎng)絡(luò)故障的修復(fù)、網(wǎng)絡(luò)配置的優(yōu)化隨著ChatGPT、Copil

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論