版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
新一代智算中心網(wǎng)絡(luò)技術(shù)白皮書(2022年)中國移動(dòng)2022年11月發(fā)布目錄前言31.智算中心發(fā)展情況41.1.政策形勢41.2.產(chǎn)業(yè)趨勢41.3.技術(shù)趨勢52.智算中心網(wǎng)絡(luò)發(fā)展趨勢63.智算中心網(wǎng)絡(luò)關(guān)鍵技術(shù)93.1.超大規(guī)模網(wǎng)絡(luò)關(guān)鍵技術(shù)93.1.1.新型拓?fù)?3.1.2.高效能IPV6演進(jìn)103.1.3.智算中心間網(wǎng)絡(luò)連接113.2.超高性能網(wǎng)絡(luò)關(guān)鍵技術(shù)123.2.1.自適應(yīng)路由123.2.2.靜態(tài)轉(zhuǎn)發(fā)時(shí)延優(yōu)化133.2.3.端網(wǎng)協(xié)同143.2.4.在網(wǎng)計(jì)算173.2.5.DPU卸載193.2.6.智能ECN203.2.7.基于信元交換的網(wǎng)絡(luò)級負(fù)載均衡223.3.網(wǎng)絡(luò)可靠性及智能運(yùn)維關(guān)鍵技術(shù)233.3.1.數(shù)據(jù)面故障感知與恢復(fù)233.3.2.基于意圖的網(wǎng)絡(luò)仿真校驗(yàn)233.3.3.智能運(yùn)維閉環(huán)網(wǎng)絡(luò)244.總結(jié)和展望25術(shù)語與縮略詞表26前言2022年2月18日,國家正式啟動(dòng)“東數(shù)西算”工程,突顯了數(shù)字經(jīng)濟(jì)在國家發(fā)展中的戰(zhàn)略地位。IDC預(yù)測,數(shù)字經(jīng)濟(jì)的占比將持續(xù)增加,到2022年,全球65%的GDP將由數(shù)字化推動(dòng);在中國,到2025年,在新基建等戰(zhàn)略驅(qū)動(dòng)下,數(shù)字經(jīng)濟(jì)占GDP的比例將超過70%。數(shù)據(jù)在未來企業(yè)的成長過程中扮演越來越重要的角色,對數(shù)據(jù)價(jià)值利用的深度將決定企業(yè)數(shù)字化轉(zhuǎn)型高度。而算力是數(shù)字經(jīng)濟(jì)發(fā)展的基礎(chǔ)設(shè)施和核心生產(chǎn)力,是國家經(jīng)濟(jì)發(fā)展的重要基礎(chǔ)設(shè)施。據(jù)《2021-2022全球計(jì)算力指數(shù)評估報(bào)告》顯示,計(jì)算力指數(shù)平均每提高1個(gè)百分點(diǎn),數(shù)字經(jīng)濟(jì)和GDP將分別增長3.5‰和1.8‰。算力網(wǎng)絡(luò)是聯(lián)接算力供給端和需求端的重要橋梁,也是未來經(jīng)濟(jì)發(fā)展的重要衡量指標(biāo)之一?!八懔橹行模W(wǎng)絡(luò)為根基”,網(wǎng)絡(luò)貫穿算力的生產(chǎn),傳輸和消費(fèi)全流程,一張具有超大帶寬、超低時(shí)延、海量聯(lián)接、多業(yè)務(wù)承載的高品質(zhì)網(wǎng)絡(luò)是關(guān)鍵。本白皮書主要研究智算中心發(fā)展情況、智算中心網(wǎng)絡(luò)發(fā)展趨勢以及滿足智算中心發(fā)展需求的智算中心網(wǎng)絡(luò)關(guān)鍵技術(shù),希望通過在超大規(guī)模網(wǎng)絡(luò)關(guān)鍵技術(shù)、超高性能網(wǎng)絡(luò)關(guān)鍵技術(shù)、超高可靠網(wǎng)絡(luò)關(guān)鍵技術(shù)以及網(wǎng)絡(luò)智能化關(guān)鍵技術(shù)等方面的探索,為未來面向智算中心的新型網(wǎng)絡(luò)架構(gòu)提供參考。本白皮書由中國移動(dòng)通信研究院牽頭編制,聯(lián)合編制單位:華為技術(shù)有限公司、上海云脈芯聯(lián)科技有限公司、中科馭數(shù)(北京)科技有限公司、中興通訊股份有限公司等。本白皮書的版權(quán)歸中國移動(dòng)通信研究院所有,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本白皮書文字或者觀點(diǎn)的,應(yīng)注明來源。智算中心發(fā)展情況1.1.政策形勢當(dāng)下,新一輪科技革命方興未艾,各行各業(yè)開啟全面數(shù)字化。大數(shù)據(jù)、云計(jì)算、人工智能、區(qū)塊鏈等數(shù)字化技術(shù)落地應(yīng)用,對計(jì)算能力提出更高要求。算力,與經(jīng)濟(jì)社會(huì)發(fā)展的聯(lián)系愈發(fā)密切,成為驅(qū)動(dòng)產(chǎn)業(yè)變革的新興動(dòng)力。信息技術(shù)浪潮推動(dòng)人類社會(huì)由“電力時(shí)代”邁向“算力時(shí)代”,以算力為根基的智能化數(shù)字經(jīng)濟(jì)世界即將來臨。為打造經(jīng)濟(jì)發(fā)展新高地、應(yīng)對國際激烈競爭、搶抓戰(zhàn)略制高點(diǎn),近年來,黨中央、國務(wù)院高度重視數(shù)字經(jīng)濟(jì)發(fā)展,推動(dòng)算力相關(guān)技術(shù)研發(fā),加快部署各類算力中心。2020年4月20日,國家發(fā)展改革委首次明確新型基礎(chǔ)設(shè)施范圍,將智能計(jì)算中心作為算力基礎(chǔ)設(shè)施的重要代表納入信息基礎(chǔ)設(shè)施范疇。隨著AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的深入發(fā)展,智算中心受到越來越多地方政府的高度關(guān)注并開展前瞻布局,已成為支撐和引領(lǐng)數(shù)字經(jīng)濟(jì)、智能產(chǎn)業(yè)、智慧城市、智慧社會(huì)發(fā)展的關(guān)鍵性信息基礎(chǔ)設(shè)施。中國智能算力占全國總算力的比重也由2016年的3%提升至2020年41%,預(yù)計(jì)到2023年智能算力的占比將提升至70%。2021年5月24日,國家發(fā)改委等四部門聯(lián)合發(fā)布了《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》,明確提出布局全國算力網(wǎng)絡(luò)樞紐節(jié)點(diǎn),啟動(dòng)實(shí)施“東數(shù)西算”工程。今年2月,“東數(shù)西算”上升為國家戰(zhàn)略,國家發(fā)改委等部門確定了8個(gè)國家算力樞紐節(jié)點(diǎn),并規(guī)劃了10個(gè)國家數(shù)據(jù)中心集群。政策方面的扶持和激勵(lì),特別是東數(shù)西算工程的全面啟動(dòng),給智算中心的快速發(fā)展注入了強(qiáng)大的助推劑。智算中心承載以模型訓(xùn)練為代表的非實(shí)時(shí)性算力需求尤為適合實(shí)施"東數(shù)西算",以智算中心為算力底座,在我國東西部地區(qū)開展人工智能領(lǐng)域的算力協(xié)同合作,“東數(shù)西訓(xùn)”將是我國推動(dòng)"東數(shù)西算"工程落地的重要場景之一。1.2.產(chǎn)業(yè)趨勢近年來,自動(dòng)駕駛、生命醫(yī)學(xué)、智能制造等領(lǐng)域發(fā)展迅速,隨之而來的是超大規(guī)模人工智能模型和海量數(shù)據(jù)對算力需求的不斷提高,智算中心建設(shè)正當(dāng)其時(shí)。工信部數(shù)據(jù)表示,截至2021年底,我國在用數(shù)據(jù)中心機(jī)架總規(guī)模達(dá)520萬標(biāo)準(zhǔn)機(jī)架,在用數(shù)據(jù)中心服務(wù)器規(guī)模1900萬臺(tái),算力總規(guī)模超過140EFLOPS。全國在用超大型和大型數(shù)據(jù)中心超過450個(gè),智算中心超過20個(gè)。據(jù)不完全統(tǒng)計(jì),從2021年1月1日到2022年2月15日,全國共有至少26個(gè)城市在推動(dòng)或剛剛完成當(dāng)?shù)刂撬阒行牡慕ㄔO(shè),其中投入使用的有8個(gè),包括南京、合肥等地的智算中心。除了這些投入使用的,全國至少還有18個(gè)城市簽約、開工、招標(biāo)、計(jì)劃建設(shè)智算中心項(xiàng)目,包括深圳、長沙的項(xiàng)目都已經(jīng)開工建設(shè)。其中幾個(gè)典型的智算中心規(guī)模如下:8月30日,阿里云宣布正式啟動(dòng)張北超級智算中心。該智算中心總建設(shè)規(guī)模為12EFLOPS(每秒1200億億次浮點(diǎn)運(yùn)算)AI算力,將超過谷歌的9EFLOPS和特斯拉的1.8EFLOPS,成為全球最大的智算中心,可為AI大模型訓(xùn)練、自動(dòng)駕駛、空間地理等人工智能探索應(yīng)用提供強(qiáng)大的智能算力服務(wù)。在WAIC2020大會(huì)期間,商湯科技宣布,上海“新一代人工智能計(jì)算與賦能平臺(tái)”臨港超算中心啟動(dòng)動(dòng)工。該算力中心占地面積近80畝,總投資金額超過50億元人民幣,一期將安置5000個(gè)等效8000W的機(jī)柜。算力中心建成并投入使用后,總算力規(guī)模將超過3700PFLOPS,可同時(shí)接入850萬路視頻,1天即可完成23600年時(shí)長的視頻處理工作。南京智算中心采用浪潮AI服務(wù)器算力機(jī)組,搭載寒武紀(jì)思元270和思元290智能芯片及加速卡。目前已運(yùn)營系統(tǒng)的AI計(jì)算能力達(dá)每秒80億億次(AI算力遠(yuǎn)超傳統(tǒng)數(shù)據(jù)中心提供的基礎(chǔ)算力供給),1小時(shí)可完成100億張圖像識別、300萬小時(shí)語音翻譯或1萬公里的自動(dòng)駕駛AI數(shù)據(jù)處理任務(wù)。1.3.技術(shù)趨勢隨著算力經(jīng)濟(jì)的發(fā)展,以及人工智能產(chǎn)業(yè)越來越成熟,各種專用算力芯片在市場上也是呈爆發(fā)式發(fā)展趨勢,對應(yīng)的智能算力在總算力中的占比也在逐漸提高,傳統(tǒng)的通用算力占比在下降。在新一代智能算力集群中,由各種算力協(xié)同一起完成一個(gè)大規(guī)模復(fù)雜的計(jì)算任務(wù),各種類型的資源首先需要池化,如存儲(chǔ)資源池、GPU資源池等。服務(wù)器作為算力的主要載體,開始踏入了更高速的車道。以AI為核心的算力需求激增,多元異構(gòu)算力增速超過通用算力成為主流。越來越多的行業(yè)使用人工智能技術(shù)分析、挖掘日常海量數(shù)據(jù),以圖像、語音、視頻為主的非結(jié)構(gòu)化數(shù)據(jù)導(dǎo)致深度學(xué)習(xí)模型的規(guī)模和復(fù)雜性不斷增加。到2030年,以GPU、NPU等為代表的智能算力增長近500倍,遠(yuǎn)超10倍增速的通用算力,成為全球算力主流。隨著摩爾定律逼近極限,以CPU為主的通用計(jì)算性能提升放緩,為保證數(shù)據(jù)處理效率,GPU、DPU、FPGA等異構(gòu)加速芯片將有望取代CPU成為智算中心的主算力。存儲(chǔ)系統(tǒng)實(shí)現(xiàn)應(yīng)用數(shù)據(jù)的持久化,向應(yīng)用提供數(shù)據(jù)訪問服務(wù)。隨著社會(huì)智慧程度的提高,海量數(shù)據(jù)收集、分析、處理帶來的挑戰(zhàn)越來越大,智算中心必須解決好數(shù)據(jù)“存得下、讀得出、用得好”的問題。需要多方面的提升存儲(chǔ)能力,首先,存儲(chǔ)介質(zhì)由單一的HDD向SSD、SCM、HDD等異構(gòu)存儲(chǔ)介質(zhì)演進(jìn),采用高速存儲(chǔ)協(xié)議NVMe,滿足上層多樣化的數(shù)據(jù)存儲(chǔ)需求;其次,需要提升數(shù)據(jù)存取效率,重點(diǎn)解決處理器內(nèi)部、處理器和內(nèi)存、內(nèi)存和外存以及服務(wù)器之間等不同層級數(shù)據(jù)存取的效率問題,包括提升L1、L2、3的Cache緩存能力、構(gòu)建大規(guī)模持久內(nèi)存池、引入RDMA/DMA協(xié)議等,實(shí)現(xiàn)端到端數(shù)據(jù)存取加速,最終實(shí)現(xiàn)降低訪問時(shí)延、大幅提升傳輸效率的目的;最后,傳統(tǒng)集中式存儲(chǔ)在彈性擴(kuò)展能力等方面存在力不從心,基于通用硬件構(gòu)建的分布式存儲(chǔ)快速發(fā)展。智算中心網(wǎng)絡(luò)發(fā)展趨勢在過去十年,數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)經(jīng)歷了兩個(gè)發(fā)展階段:(1)虛擬化時(shí)代(~2020),以應(yīng)用為中心,提供遠(yuǎn)程服務(wù):各類敏捷智能的微服務(wù)應(yīng)用的發(fā)展,推進(jìn)了企業(yè)的數(shù)字化轉(zhuǎn)型。在這一階段,分布式和虛擬化技術(shù)替代了大型機(jī)、小型機(jī),滿足了當(dāng)時(shí)企業(yè)業(yè)務(wù)擴(kuò)展帶來的彈性需求,通過ESXI/OPS/Docker等虛擬化技術(shù),實(shí)現(xiàn)生產(chǎn)系統(tǒng)上云,推動(dòng)數(shù)據(jù)中心高速發(fā)展。(2)云化時(shí)代(~NOW),以多云為中心,提供云化服務(wù):多云之間算力無損調(diào)度需求,推進(jìn)了云化計(jì)算和算力網(wǎng)絡(luò)發(fā)展。在這一階段,出現(xiàn)了資源池化技術(shù),把計(jì)算和存儲(chǔ)資源分離,再規(guī)模化編排和調(diào)度,提供了超大規(guī)模的計(jì)算和存儲(chǔ)資源池。GPU高速發(fā)展、算力普惠,帶來算力中心集約化建設(shè),數(shù)據(jù)中心正從“云化時(shí)代”轉(zhuǎn)向“算力時(shí)代”。傳統(tǒng)數(shù)據(jù)中心,面向傳統(tǒng)的計(jì)算處理任務(wù),或離線大數(shù)據(jù)計(jì)算,以服務(wù)器/VM為池化對象,網(wǎng)絡(luò)提供VM/服務(wù)器之間連接,聚焦業(yè)務(wù)部署效率及網(wǎng)絡(luò)自動(dòng)化能力。智算中心是服務(wù)于人工智能的數(shù)據(jù)計(jì)算中心,包括人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等需求,以GPU等AI訓(xùn)練芯片為主,為AI計(jì)算提供更大的計(jì)算規(guī)模和更快的計(jì)算速度,以提升單位時(shí)間單位能耗下的運(yùn)算能力及質(zhì)量為核心訴求。智算中心將算力資源全面解耦,以追求計(jì)算、存儲(chǔ)資源極致的彈性供給和利用,以算力資源為池化對象,網(wǎng)絡(luò)提供CPU、GPU、存儲(chǔ)之間總線級的高速連接,如圖2-1所示。智算中心網(wǎng)絡(luò)作為連接CPU、xPU、內(nèi)存、存儲(chǔ)等資源重要基礎(chǔ)設(shè)施,貫穿數(shù)據(jù)計(jì)算、存儲(chǔ)全流程,算力水平作為三者綜合衡量指標(biāo),網(wǎng)絡(luò)性能成為提升智算中心算力的關(guān)鍵要素,智算中心網(wǎng)絡(luò)向超大規(guī)模、超高帶寬,超低時(shí)延、超高可靠等方向發(fā)展。圖2-1池化總線級智算中心網(wǎng)絡(luò)系統(tǒng)級端網(wǎng)協(xié)同體系創(chuàng)新是智算中心高性能網(wǎng)絡(luò)性能提升關(guān)鍵,端側(cè)通過智能網(wǎng)卡硬件卸載網(wǎng)絡(luò)協(xié)議棧,提升網(wǎng)絡(luò)規(guī)模及處理性能,網(wǎng)側(cè)構(gòu)建低時(shí)延、高吞吐的高速通道。如圖2-2所示,智能網(wǎng)卡與網(wǎng)絡(luò)設(shè)備協(xié)同工作,優(yōu)化擁塞控制算法、網(wǎng)絡(luò)態(tài)勢感知、動(dòng)態(tài)路徑切換、端到端帶內(nèi)遙測等能力,打造極致的網(wǎng)絡(luò)性能與運(yùn)營能力。圖2-2端網(wǎng)協(xié)同的下一代高性能網(wǎng)絡(luò)體系新一代智算中心將從數(shù)據(jù)中心的內(nèi)部做體系化創(chuàng)新,從以往的以云為中心,進(jìn)入以AI為中心的體系架構(gòu)。元宇宙、生命科學(xué)等超大算力需求呈現(xiàn)爆發(fā)式增長,超大算力中心、異構(gòu)算力協(xié)同應(yīng)運(yùn)而生。但新一代智算中心網(wǎng)絡(luò)當(dāng)前還面臨四大關(guān)鍵挑戰(zhàn):1、超大規(guī)模網(wǎng)絡(luò)隨著AI、5G、IoT等技術(shù)的爆炸式發(fā)展,海量數(shù)據(jù)流的產(chǎn)生和多元化的應(yīng)用場景為智能計(jì)算產(chǎn)業(yè)帶來發(fā)展機(jī)遇。在這一過程中,基于CPU架構(gòu)和工藝提升的創(chuàng)新日益趨緩,已無法滿足新場景下多樣化算力快速增長的需求,算力提升的核心動(dòng)力正從CPU擴(kuò)展到以NPU(Neural-NetworkProcessingUnit,嵌入式神經(jīng)網(wǎng)絡(luò)處理器)、VPU(VectorProcessingUnit,矢量處理器)、GPU(Graphicsprocessingunit,圖形處理器)等為代表的計(jì)算單元。XPU直出以太等技術(shù)持續(xù)發(fā)展使得計(jì)算/存儲(chǔ)資源實(shí)現(xiàn)解構(gòu)。未來會(huì)出現(xiàn)融合以太、總線、信元技術(shù)的超融合網(wǎng)絡(luò),滿足計(jì)算/存儲(chǔ)/內(nèi)存池化需求。智算中心內(nèi)節(jié)點(diǎn)的數(shù)量將增長10倍,從現(xiàn)在的十萬臺(tái)服務(wù)器增長到百萬臺(tái)XPU互聯(lián)。2、超高性能網(wǎng)絡(luò)當(dāng)前AI應(yīng)用已采用GPU甚至專用AI芯片,計(jì)算速度相比傳統(tǒng)CPU提升100~1000倍之多。同時(shí)AI應(yīng)用計(jì)算量也呈幾何級數(shù)增長,算法模型向巨量化發(fā)展,人工智能模型參數(shù)在過去十年增長了十萬倍,2025年向百萬億參數(shù)模型演進(jìn),訓(xùn)練數(shù)據(jù)集規(guī)模百倍增長。同時(shí),存儲(chǔ)介質(zhì)SSD訪問性能較傳統(tǒng)HDD已提升100倍,而采用NVMe接口協(xié)議的SSD(簡NVM介質(zhì)),訪問性能相比HDD甚至可以提升10000倍,在存儲(chǔ)介質(zhì)大幅降低的情況下,網(wǎng)絡(luò)時(shí)延占比從原來小于5%上升到65%左右,這意味著存儲(chǔ)介質(zhì)有一半以上的時(shí)間是空閑通信等待。如何降低計(jì)算通信時(shí)延、提升網(wǎng)絡(luò)吞吐是新一代智算中心能夠充分釋放算力的核心問題。3、超高可靠網(wǎng)絡(luò)算力資源邊緣部署逐漸成為產(chǎn)業(yè)趨勢,自動(dòng)駕駛、智能工廠、機(jī)器協(xié)作、遠(yuǎn)程醫(yī)療等2B行業(yè)蓬勃發(fā)展,對業(yè)務(wù)高速切換數(shù)據(jù)不中斷等提出新的可靠性要求。百毫秒乃至秒級網(wǎng)絡(luò)故障對集中式存儲(chǔ)、分布式數(shù)據(jù)庫等業(yè)務(wù)會(huì)造成影響,如OLTP在線交易類業(yè)務(wù),網(wǎng)絡(luò)故障時(shí)交易都失敗,甚至?xí)绊懝?jié)點(diǎn)狀態(tài),降低系統(tǒng)可靠性,出現(xiàn)分鐘級的業(yè)務(wù)中斷。業(yè)務(wù)中斷會(huì)給企業(yè)及社會(huì)帶來重大損失,新一代智算中心超高可靠能力不可或缺,故障收斂性能需提升至亞毫秒級。4、智能化網(wǎng)絡(luò)LinkedIn最新數(shù)據(jù)顯示,網(wǎng)絡(luò)故障持續(xù)增加:人機(jī)接口變?yōu)闄C(jī)器與機(jī)器間的接口,網(wǎng)絡(luò)不可視;網(wǎng)絡(luò)、計(jì)算和存儲(chǔ)邊界模糊,定界困難;數(shù)據(jù)海量,網(wǎng)絡(luò)故障難以快速定位和隔離。同時(shí),由于應(yīng)用策略及互訪關(guān)系日益復(fù)雜,傳統(tǒng)的網(wǎng)絡(luò)運(yùn)營和運(yùn)維手段已無法適應(yīng)智算中心網(wǎng)絡(luò)的發(fā)展,需要引入新的智能引擎,依托大數(shù)據(jù)算法,對應(yīng)用流量與網(wǎng)絡(luò)狀態(tài)進(jìn)行關(guān)聯(lián)分析,及時(shí)準(zhǔn)確地預(yù)測、發(fā)現(xiàn)、隔離網(wǎng)絡(luò)故障,形成網(wǎng)絡(luò)采集、分析、控制三位一體的閉環(huán)系統(tǒng)。同時(shí),依托Telemetry以及邊緣智能等技術(shù),網(wǎng)絡(luò)設(shè)備數(shù)據(jù)可實(shí)現(xiàn)信息的高速采集和預(yù)處理,主動(dòng)上報(bào)智能引擎,為業(yè)務(wù)網(wǎng)絡(luò)提供自愈能力,實(shí)現(xiàn)新一代智算中心網(wǎng)絡(luò)智能化。智算中心網(wǎng)絡(luò)關(guān)鍵技術(shù)3.1.超大規(guī)模網(wǎng)絡(luò)關(guān)鍵技術(shù)3.1.1. 新型拓?fù)?G、萬物互聯(lián)的智能時(shí)代產(chǎn)生海量數(shù)據(jù),算力要求快速增長,算力擴(kuò)容成本高昂,需要支持超大規(guī)模組網(wǎng)實(shí)現(xiàn)集群高速互聯(lián)。當(dāng)前智算中心網(wǎng)絡(luò)通常采用CLOS網(wǎng)絡(luò)架構(gòu),主要關(guān)注通用性,無法滿足超大規(guī)模超算場景下低時(shí)延和低成本訴求,業(yè)界針對該問題開展了多樣的架構(gòu)研究和新拓?fù)涞脑O(shè)計(jì)。如圖3-1所示,直連拓?fù)湓诔笠?guī)模組網(wǎng)場景下,因?yàn)榫W(wǎng)絡(luò)直徑短,具備低成本、端到端通信跳數(shù)少的特點(diǎn)。64口盒式交換機(jī)Dragonfly最大組網(wǎng)規(guī)模27w節(jié)點(diǎn),4倍于3級CLOS全盒組網(wǎng)。以構(gòu)建10萬個(gè)節(jié)點(diǎn)超大規(guī)模集群為例,傳統(tǒng)的CLOS架構(gòu)需要部署4級CLOS組網(wǎng),端到端通信最大需要跨7跳交換機(jī)。使用Dragonfly直連拓?fù)浣M網(wǎng),端到端交換機(jī)轉(zhuǎn)發(fā)跳數(shù)最少減少至3跳,交換機(jī)臺(tái)數(shù)下降40%。同時(shí),通過自適應(yīng)路由技術(shù)實(shí)時(shí)感知網(wǎng)絡(luò)流量負(fù)載,動(dòng)態(tài)進(jìn)行路由決策,充分利用網(wǎng)絡(luò)鏈路帶寬,提升網(wǎng)絡(luò)整體吞吐和性能。圖3-1CLOS和直連拓?fù)浣M網(wǎng)架構(gòu)圖3.1.2. 高效能IPv6演進(jìn)隨著機(jī)器學(xué)習(xí)、人工智能大模型的快速發(fā)展,AI訓(xùn)練集群內(nèi)的節(jié)點(diǎn)數(shù)量及所需的IP地址越來越多。同時(shí)業(yè)務(wù)應(yīng)用逐步采用容器、Serverless等部署方式大大提升了智算中心內(nèi)計(jì)算資源的虛擬化比例,導(dǎo)致智算中心內(nèi)需要的IP地址數(shù)量呈指數(shù)級上升。但是全球可供分配的IPv4協(xié)議地址已經(jīng)枯竭,所有的運(yùn)營商不能再申請到公網(wǎng)的IPv4地址池。這將促使為移動(dòng)終端和固定終端申請IPv6地址,以支撐各種業(yè)務(wù)的開展,實(shí)現(xiàn)萬物互聯(lián)和智能連接。傳統(tǒng)數(shù)據(jù)中心通常采用VxLAN技術(shù)提供多租戶及跨TOR的子網(wǎng)內(nèi)IP地址互通能力,若智算中心網(wǎng)絡(luò)采用IPv6OverIPv6的VxLAN隧道將會(huì)在原始IPv6報(bào)文基礎(chǔ)上增加70~74字節(jié)的封裝。雙層IPv6報(bào)文頭導(dǎo)致報(bào)文封裝成本上升、轉(zhuǎn)發(fā)能效下降,假設(shè)原始IPv6報(bào)文(僅包含IPv6基本頭)轉(zhuǎn)發(fā)能效為1,如圖3-2所示,對于Payload長度小于等于256字節(jié)的報(bào)文,IPv6VxLAN封裝的轉(zhuǎn)發(fā)能效出現(xiàn)明顯下降。3-2IPv6和IPv6VxLAN轉(zhuǎn)發(fā)能效對比圖智算中心IPv6網(wǎng)絡(luò)中,報(bào)文無需添加UnderlayIPv6頭部封裝,僅需增加一個(gè)IPv6擴(kuò)展頭(12字節(jié))的封裝成本,網(wǎng)絡(luò)轉(zhuǎn)發(fā)能效遠(yuǎn)超IPv6VxLAN封裝、接近原始IPv6報(bào)文,如圖3-3所示:圖3-3高能效IPv6轉(zhuǎn)發(fā)能效對比圖智算中心網(wǎng)絡(luò)存在業(yè)務(wù)多租戶及安全等要求,不同業(yè)務(wù)、不同安全級別、不同租戶間的業(yè)務(wù)根據(jù)需要進(jìn)行隔離/互通控制。智算中心IPv6網(wǎng)絡(luò)中,通過IPv6擴(kuò)展頭攜帶租戶標(biāo)識、安全組標(biāo)識及業(yè)務(wù)信息,可以支持智算中心內(nèi)及跨智算中心的租戶隔離/互通、微分段及業(yè)務(wù)鏈能力。3.1.3. 智算中心間網(wǎng)絡(luò)連接隨著國家東數(shù)西算戰(zhàn)略的推進(jìn)以及越來越多的分布式算力協(xié)同場景的出現(xiàn),AI算力已經(jīng)不再局限于單一的智算中心內(nèi)部,更多的新型計(jì)算任務(wù)需要依賴“橫向互聯(lián)”和“縱向延伸”的多智算中心協(xié)同完成,通過跨智算中心網(wǎng)絡(luò)連接在邏輯上形成算力層面的超級虛擬智算中心。智算中心之間的長距連接成為影響業(yè)務(wù)性能的關(guān)鍵。為了支撐高效的數(shù)據(jù)搬移,相較于普通廣域網(wǎng),互聯(lián)網(wǎng)絡(luò)提出了更高的要求:1、超高的帶寬利用率。大管道是算力時(shí)代的標(biāo)配。核心算力中心間幾百G甚至上T的鏈路將帶來超高的成本。充分利用帶寬,減緩擴(kuò)容節(jié)奏,將成為超長距連接的首要目標(biāo)。2、超低的丟包率。極少丟包甚至零丟包將極大減少丟包重傳帶來的帶寬資源消耗,在高帶寬利用率的同時(shí),保證有效吞吐,提升數(shù)據(jù)搬移效率。然而,現(xiàn)有網(wǎng)絡(luò)技術(shù)面臨多方面的挑戰(zhàn),無法滿足算力網(wǎng)絡(luò)需求:(1)上千公里的長距,帶來超長的鏈路傳輸時(shí)延,網(wǎng)絡(luò)狀態(tài)反饋滯后,現(xiàn)有的傳輸層協(xié)議擁塞控制算法存在不足:基于丟包的Cubic算法在長距傳輸表現(xiàn)出低的帶寬利用率、同時(shí)丟包較多;TCPBBR(BottleneckBandwidthandRound-trippropagationtime)算法雖然能獲得較高的帶寬利用率,但丟包率較高。(2)超長距傳輸連接數(shù)少時(shí),容易損失吞吐。(3)超長距光纖傳輸無法避免錯(cuò)包。(4)超大的帶寬時(shí)延積BDP(BandwidthDelayProduct)容易發(fā)生擁塞丟包。要想實(shí)現(xiàn)無損流控,設(shè)備接收端緩存需要大于BDP,這也對網(wǎng)絡(luò)設(shè)備提出了更高要求。此外,接收端的緩存也會(huì)由于丟包導(dǎo)致接收數(shù)據(jù)塊不連續(xù),無法提交給應(yīng)用,而快速消耗,進(jìn)而影響吞吐。為了應(yīng)對超長距傳輸?shù)奶魬?zhàn),滿足高性能算力互連要求,新一代智算中心內(nèi)部網(wǎng)絡(luò)應(yīng)具備如下的典型能力:(1)傳輸層協(xié)議可硬件卸載,支持超長距的RDMA。(2)吞吐能力接近瓶頸鏈路帶寬。(3)支持加密傳輸。同時(shí),考慮到智算中心間網(wǎng)絡(luò)引入了大延時(shí)和大抖動(dòng),智算中心內(nèi)的無損網(wǎng)絡(luò)方案無法做到及時(shí)的擁塞控制和流量調(diào)整,需要新的技術(shù)方案解決。智算中心之間的互聯(lián)網(wǎng)絡(luò)可以看作是智算中心內(nèi)部無損網(wǎng)絡(luò)的延伸,DCI網(wǎng)絡(luò)引入了大延時(shí)和大抖動(dòng),僅靠智算中心內(nèi)部的網(wǎng)絡(luò)方案無法做到及時(shí)的擁塞控制和流量調(diào)整,需要承載網(wǎng)提供長距無損或者一定的確定性能力,目前業(yè)界的研究方向有全光網(wǎng)絡(luò)直連、廣域確定性承載網(wǎng)絡(luò)、智算中心與承載網(wǎng)智能協(xié)同,空心光纖等。引入空芯光纖,不僅可以實(shí)現(xiàn)容量距離積的大幅提升,更可大幅降低約1/3的傳輸物理時(shí)延、并提高時(shí)間確定性,為構(gòu)建低時(shí)延時(shí)間保證光互聯(lián)網(wǎng)絡(luò)提供基礎(chǔ)支撐能力。3.2.超高性能網(wǎng)絡(luò)關(guān)鍵技術(shù)3.2.1. 自適應(yīng)路由傳統(tǒng)數(shù)據(jù)中心網(wǎng)絡(luò)通常采用最短路徑算法指導(dǎo)流量轉(zhuǎn)發(fā)。對于均勻隨機(jī)流量,吞吐率和延遲均可達(dá)到最優(yōu),如遇到持續(xù)大象流,最短路徑會(huì)非常重載,而非最短路徑處于空閑狀態(tài)。圖3-4自適應(yīng)路由轉(zhuǎn)發(fā)示意圖如圖3-4所示,自適應(yīng)路由的目標(biāo)是提升整網(wǎng)的有效吞吐以及網(wǎng)絡(luò)韌性,能夠快速感知網(wǎng)絡(luò)鏈路負(fù)載狀態(tài)變化,識別出關(guān)鍵擁塞路徑,快速調(diào)整網(wǎng)絡(luò)轉(zhuǎn)發(fā)路徑,做到毫秒/亞毫秒級別的鏈路快速切換,動(dòng)態(tài)選擇輕載鏈路進(jìn)行轉(zhuǎn)發(fā),滿足超高性能網(wǎng)絡(luò)的可靠性要求。3.2.2. 靜態(tài)轉(zhuǎn)發(fā)時(shí)延優(yōu)化應(yīng)用時(shí)延=計(jì)算操作的步數(shù)*每步時(shí)延,過大的網(wǎng)絡(luò)延時(shí)則直接影響系統(tǒng)性能,嚴(yán)重浪費(fèi)系統(tǒng)算力。從引起時(shí)延的性質(zhì)來看,網(wǎng)絡(luò)設(shè)備轉(zhuǎn)發(fā)時(shí)延主要有兩部分構(gòu)成:靜態(tài)時(shí)延、動(dòng)態(tài)時(shí)延。靜態(tài)時(shí)延是指網(wǎng)絡(luò)設(shè)備硬件轉(zhuǎn)發(fā)固有的時(shí)延,目前隨著轉(zhuǎn)發(fā)設(shè)備的硬件能力提升,靜態(tài)時(shí)延已下降到微秒級,一般都小于1us。動(dòng)態(tài)時(shí)延是指多打一流量造成網(wǎng)絡(luò)設(shè)備的端口隊(duì)列擁塞,隊(duì)列深度增大帶來的隊(duì)列時(shí)延,也包括因隊(duì)列緩存溢出丟包,導(dǎo)致業(yè)務(wù)報(bào)文重傳帶來的延遲。如圖3-5所示,轉(zhuǎn)發(fā)芯片主要有如下模塊構(gòu)成,Serdes、PHY/MAC、上行包處理(PP)、緩存管理(BM)、下行包處理(PP)等,報(bào)文轉(zhuǎn)發(fā)必須經(jīng)過這些模塊。各模塊時(shí)延分布大致為:Serdes~30ns,PHY/MAG~300ns(含F(xiàn)EC),PP~400ns,BM~100ns(直通轉(zhuǎn)發(fā)),各轉(zhuǎn)發(fā)芯片模塊劃分和實(shí)現(xiàn)存在差異,該時(shí)延分布僅供參考。為進(jìn)一步降低報(bào)文靜態(tài)轉(zhuǎn)發(fā)時(shí)延,可以針對各模塊進(jìn)行低時(shí)延設(shè)計(jì)優(yōu)化。圖3-5數(shù)據(jù)中心交換機(jī)轉(zhuǎn)發(fā)芯片模塊構(gòu)成PHY/MAC模塊高速接口物理鏈路誤碼率高,需要通過FEC(前向糾錯(cuò))技術(shù)實(shí)現(xiàn)糾錯(cuò)。FEC糾錯(cuò)技術(shù)需要收齊一定長度的bit流(碼字)后才能開始糾錯(cuò)處理,這個(gè)會(huì)帶來時(shí)延的增加,RS(544,514)FEC應(yīng)用在50G單lane接口時(shí)的解碼延時(shí)為148ns,時(shí)延相當(dāng)大。為了降低FEC糾錯(cuò)時(shí)延,業(yè)界引入了更短的碼字,如RS272-FEC相對RS544-FEC只需要收齊一半的bit流就可以開始糾錯(cuò)處理,解碼時(shí)延可以減低一半,RS272-FEC相對RS544-FEC糾錯(cuò)能力下降,只能在鏈路誤碼率較低的場景使用。為了支持更廣泛的場景應(yīng)用,在保證接口可靠性的同時(shí)追求更低的時(shí)延,新的接口形態(tài)和編碼算法有待進(jìn)一步探索。包處理(PP)模塊不同業(yè)務(wù)(L2/L3/VxLAN)包處理模塊內(nèi)處理流程差異較大,VxLAN出入隧道轉(zhuǎn)發(fā)相對基本L2/L3轉(zhuǎn)發(fā)會(huì)多查一些轉(zhuǎn)發(fā)表,如隧道終結(jié)表、隧道封裝表,這些額外的處理會(huì)帶來報(bào)文處理模塊時(shí)延的增加。要降低包處理模塊的時(shí)延需要簡化業(yè)務(wù)部署,關(guān)閉報(bào)文轉(zhuǎn)發(fā)路徑上不需要的子模塊,避免部署VxLAN業(yè)務(wù),設(shè)備上未部署下行ACL時(shí),可以考慮關(guān)閉下ACL功能。包處理模塊內(nèi)存在較多的查表(MAC表/FIB表)過程,主要表項(xiàng)因?yàn)槿萘枯^大普遍采用算法查找,查表深度也會(huì)影響轉(zhuǎn)發(fā)時(shí)延。為了追求更低的時(shí)延,需要探索更好的并行查表設(shè)計(jì),高效的查表算法。3.2.3. 端網(wǎng)協(xié)同.端網(wǎng)協(xié)同流控由于網(wǎng)絡(luò)中流量的隨機(jī)性以及路徑的多樣性,擁塞的出現(xiàn)不可避免。網(wǎng)絡(luò)出現(xiàn)擁塞后,會(huì)造成排隊(duì)時(shí)延增大(排隊(duì)長/丟包高/觸發(fā)PFC等)、網(wǎng)絡(luò)利用率低(欠吞吐)等影響,導(dǎo)致應(yīng)用性能出現(xiàn)惡化。現(xiàn)在有很多擁塞控制手段,通過不斷調(diào)整端側(cè)發(fā)送的速率,最終達(dá)到進(jìn)入的網(wǎng)絡(luò)的容量盡量逼近網(wǎng)絡(luò)的承載量,來解決網(wǎng)絡(luò)中的擁塞問題。當(dāng)前,主要從帶寬、時(shí)延、收斂速度、公平性等角度評價(jià)不同算法。傳統(tǒng)的擁塞控制以被動(dòng)擁塞控制為主,即收到擁塞信號后被動(dòng)探測式地調(diào)整速率,典型的如DCQCN算法,發(fā)送端根據(jù)接收到的ECN標(biāo)記報(bào)文,利用AI/MD機(jī)制(additive-increase/multiplicative-decrease,線性增速乘性降速)調(diào)整發(fā)送速率。由于1個(gè)比特的ECN信號無法定量地表示擁塞程度,發(fā)送端設(shè)備只能探測式地調(diào)整發(fā)送速率,導(dǎo)致收斂速度慢,性能較差。目前,業(yè)界典型的優(yōu)化思路分為兩類:一類是更加精細(xì)化的被動(dòng)控制,HPCC(HighPrecisionCongestionControl,高精度擁塞控制),利用相比ECN更精細(xì)的信息,提高調(diào)速的準(zhǔn)確率,避免長時(shí)試探;第二類是提前預(yù)留/主動(dòng)分配式的主動(dòng)控制,如HOMA(一種接收端擁塞控制算法)等,主動(dòng)為后面的包做資源預(yù)留以及分配,避免擁塞的發(fā)生。但是當(dāng)前主流的優(yōu)化思路仍然在端側(cè)實(shí)現(xiàn),仍然需要至少1個(gè)RTT的響應(yīng)時(shí)長,同時(shí)針對網(wǎng)絡(luò)中存在的多擁塞點(diǎn)問題,仍然需要多個(gè)周期才能收斂。因此需要一種新型的端網(wǎng)協(xié)同的擁塞控制算法,網(wǎng)絡(luò)提供的更精細(xì)信息以及更主動(dòng)的控制,端側(cè)更精準(zhǔn)的調(diào)控速率,實(shí)現(xiàn)滿帶寬、低時(shí)延、快速收斂、公平性優(yōu)等目標(biāo),有效提升網(wǎng)絡(luò)的傳輸效率,保障大規(guī)模分布式AI任務(wù)的高效完成。200打1場景下,不同網(wǎng)絡(luò)擁塞控制算法對應(yīng)的緩存排隊(duì)時(shí)延如表3-1所示??梢姸司W(wǎng)協(xié)同時(shí)的擁塞控制效果最好。時(shí)延(us)端網(wǎng)協(xié)同CCHPCCDCQCN50%-ile0.1553.023116.61290%-ile0.2386.662121.8299%-ile0.3218.204125.4899.9%-ile0.4019.094127.131表3-1端網(wǎng)協(xié)同擁塞控制算法與業(yè)界擁塞控制算法仿真實(shí)驗(yàn)數(shù)據(jù)對比目前業(yè)界為滿足不同業(yè)務(wù)場景需求,會(huì)開發(fā)一些定制化的擁塞控制算法,通過與數(shù)據(jù)中心交換機(jī)協(xié)同工作,滿足精細(xì)化的流量擁塞控制需求,這就對網(wǎng)卡的可編程能力提出新的要求。DPU具備靈活的網(wǎng)絡(luò)業(yè)務(wù)配置能力和可編程的擁塞控制算法開發(fā)能力,是實(shí)現(xiàn)端網(wǎng)協(xié)同,網(wǎng)絡(luò)流量細(xì)粒度調(diào)度管理的首選。.RoCE協(xié)議改進(jìn)RoCEv2協(xié)議作為業(yè)界主流遠(yuǎn)程直接內(nèi)存訪問(RDMA)協(xié)議,存在三大限制,對網(wǎng)絡(luò)傳輸性能有比較明顯的影響:(1)每連接單路徑的限制。RoCEv2協(xié)議每個(gè)RC都映射到唯一的一對五元組。故障情況下,會(huì)導(dǎo)致流量跌落多、流量中斷時(shí)間長;整網(wǎng)負(fù)載均衡性差,導(dǎo)致網(wǎng)絡(luò)帶寬利用率降低;更容易產(chǎn)生擁塞,不能調(diào)路,造成時(shí)延性能劣化。(2)硬件RC連接數(shù)的限制。RoCEv2將協(xié)議棧卸載到網(wǎng)卡中,其中也包括應(yīng)用通訊的連接關(guān)系數(shù)據(jù)庫,但受限于網(wǎng)卡芯片內(nèi)的表項(xiàng)空間限制,芯片內(nèi)的連接數(shù)有限,當(dāng)連接數(shù)超過某個(gè)數(shù)量的情況下,就會(huì)發(fā)生網(wǎng)卡芯片與主機(jī)內(nèi)存的連接表交換,從而導(dǎo)致網(wǎng)絡(luò)傳輸性能下降。(3)GoBackN重傳能力的限制。RoCEv2協(xié)議為保障可靠傳輸,協(xié)議棧實(shí)現(xiàn)了重傳機(jī)制,目前典型的重傳機(jī)制是GoBackN重傳,即發(fā)生丟包后,從上一次確認(rèn)接收的位置之后進(jìn)行全量重傳,而不是僅針對丟棄的報(bào)文進(jìn)行有限重傳。這也是當(dāng)前RoCEv2依賴開啟PFC反壓的主要原因,由于丟包后重傳的代價(jià)巨大,需要依賴PFC反壓盡量杜絕網(wǎng)絡(luò)上的丟包。(4)大QP規(guī)格下流控機(jī)制限制。在QP數(shù)量較多的場景下,基于公平輪詢原則,單QP調(diào)度時(shí)間周期比較長,造成QP的CPN反饋、QP升速和降速不及時(shí),從而造成流量控制不精準(zhǔn)。RoCEv2的這些限制已經(jīng)越來越廣泛的被業(yè)界所認(rèn)知,同時(shí)業(yè)界也在針對以上限制進(jìn)行不斷的改進(jìn),與上述限制相對應(yīng),RoCE協(xié)議需在以下方面進(jìn)行優(yōu)化改進(jìn):改進(jìn)1,支持每連接多路徑的能力優(yōu)化。所謂的每連接多路徑是指,可以基于多個(gè)五元組的會(huì)話進(jìn)行數(shù)據(jù)包的傳輸,連接上的數(shù)據(jù)可以分擔(dān)到多個(gè)不同的五元組。這樣的好處,首先是可靠性的提升,在智算中心fat-tree組網(wǎng)存在充分的等價(jià)路徑的前提下,任意一個(gè)單點(diǎn)故障只會(huì)影響部分路徑的轉(zhuǎn)發(fā),但不會(huì)導(dǎo)致整個(gè)連接都中斷,從而可靠性得到提升。同時(shí)網(wǎng)絡(luò)均衡性會(huì)提高,可以使得網(wǎng)絡(luò)的利用率得到改善和提高,從而提高RoCE傳輸?shù)男阅堋WS已經(jīng)將多路徑技術(shù)應(yīng)用到其自研的協(xié)議SRD中,并在流量收斂性能上得到了顯著的優(yōu)化。改進(jìn)2,從RC模式往連接數(shù)依賴更小的模式演進(jìn)。目前基于RC的通訊是為每一對需要通訊的QP建立、維護(hù)一組連接,因此導(dǎo)致了連接數(shù)的規(guī)模巨大,限制了組網(wǎng)規(guī)模,影響了性能。針對這塊有兩種思路:思路1,不提供更粗粒度的傳輸服務(wù),這方面AWS的SRD就是基于此思路的嘗試,協(xié)議棧不提供面向連接的保序傳輸可靠傳輸能力,硬件協(xié)議棧僅負(fù)責(zé)可靠報(bào)文傳遞,保序這類復(fù)雜的服務(wù)由驅(qū)動(dòng)軟件完成;思路2,進(jìn)行連接的層次拆分優(yōu)化,構(gòu)建連接池,實(shí)現(xiàn)連接的動(dòng)態(tài)共享,Mellanox的DC技術(shù)就是此思路的代表。改進(jìn)3,從GoBackN往選擇性重傳優(yōu)化。GoBackN重傳是一種簡單的重傳方式,所以在早期芯片資源受限的情況下硬件卸載的協(xié)議棧選擇此方式來實(shí)現(xiàn)重傳,加上有PFC加持,一般來說丟包概率非常低(在PFC參數(shù)配置合理的情況下,一般只會(huì)在出現(xiàn)鏈路錯(cuò)包,鏈路故障的情況下才會(huì)發(fā)生丟包),芯片實(shí)現(xiàn)GoBackN重傳不失為一種合理的選擇。但隨RoCE組網(wǎng)規(guī)模不斷增加,引發(fā)對PFC風(fēng)暴整網(wǎng)流量驟停的擔(dān)憂,同時(shí)半導(dǎo)體工藝的提升幫助網(wǎng)卡硬件芯片能夠?qū)崿F(xiàn)更為復(fù)雜的協(xié)議,RoCE的重傳方式將會(huì)逐漸從GoBackN的全量重傳演進(jìn)到選擇性重傳。改進(jìn)4,基于大QP組的擁塞控制。將兩個(gè)節(jié)點(diǎn)間共享同一轉(zhuǎn)發(fā)路徑QP資源歸為一個(gè)QP組,如圖3-6所示,可以通過五元組或引入帶內(nèi)遙測機(jī)制進(jìn)行識別。一個(gè)大QP組內(nèi)所有的信息可以實(shí)現(xiàn)共享,如CNP反饋信息、速率信息、令牌信息等,在大QP組內(nèi),實(shí)現(xiàn)各個(gè)QP的速率快速精準(zhǔn)控制。當(dāng)網(wǎng)絡(luò)出現(xiàn)擁塞或恢復(fù)時(shí),QP組根據(jù)自身策略進(jìn)行速率調(diào)整,策略包括:(1)每個(gè)小QP單獨(dú)計(jì)算自己的速率,匯總到大QP組。QP組計(jì)算一個(gè)調(diào)整比例系數(shù),告知各個(gè)小QP。(2)QP組計(jì)算出來組速率,分解到各個(gè)小QP,然后告知各個(gè)小QP具體的速率值。3-6QP與QP組映射關(guān)系RoCEv2協(xié)議延伸到更復(fù)雜的超長距互聯(lián)網(wǎng)絡(luò)時(shí),問題將變得更為復(fù)雜。當(dāng)單一的技術(shù)手段無法滿足需求的時(shí)候,嘗試將AI、PFC、ECN、TDM等多種技術(shù)手段進(jìn)行融合將是一種必然的選擇,采用智能化多維度分析調(diào)度的手段才能達(dá)到最佳的效果。3.2.4. 在網(wǎng)計(jì)算近年來,隨著深度學(xué)習(xí)、高性能計(jì)算等一批新型應(yīng)用負(fù)載的需求量大增長,導(dǎo)致分布式系統(tǒng)規(guī)模越來越大,例如我國的超級計(jì)算機(jī)太湖之光已達(dá)到千萬核級別。在計(jì)算機(jī)科學(xué)領(lǐng)域,有一條著名的經(jīng)驗(yàn)法則,叫做阿姆達(dá)爾定律,代表了并行計(jì)算之后效率提升的能力。根據(jù)阿姆達(dá)爾定律,并行系統(tǒng)的加速比受限于串行部分(即無法通過并行加速的部分)的性能。系統(tǒng)規(guī)模增大,系統(tǒng)內(nèi)各節(jié)點(diǎn)之間的協(xié)同開銷也隨之增大,加劇了無法通過并行計(jì)算加速的串行計(jì)算部分的占比。算力需求的爆炸式增長促進(jìn)了計(jì)算產(chǎn)業(yè)的繁榮,例如,過去8年,英偉達(dá)GPU算力增長了317倍并持續(xù)提升。與算力指數(shù)級增長不匹配的是,決定并行計(jì)算中串行部分的網(wǎng)絡(luò)帶寬增長卻是線性的。數(shù)據(jù)中心網(wǎng)絡(luò)帶寬從過去的10Gbps/25Gbps發(fā)展到現(xiàn)如今主流的40Gbps/100Gbps,增長速度遠(yuǎn)遠(yuǎn)落后于算力增長。因此,兩者之間的差距鴻溝,需要系統(tǒng)級的網(wǎng)絡(luò)-應(yīng)用協(xié)同設(shè)計(jì)才能跨越。典型的網(wǎng)絡(luò)-應(yīng)用協(xié)同設(shè)計(jì)涵蓋了高性能計(jì)算與深度學(xué)習(xí)領(lǐng)域廣泛使用的集合通信操作,包括AllReduce全規(guī)約和Broadcast廣播。高性能計(jì)算(HighPerformanceComputing,HPC)是指利用聚合的算力來解決復(fù)雜的、大規(guī)模的科學(xué)計(jì)算問題,如天氣預(yù)測、數(shù)學(xué)建模、物理分析等,其中涉及到多個(gè)算力節(jié)點(diǎn)之間的小規(guī)模數(shù)據(jù)集合通信操作(mpiincast現(xiàn)象)。對于小規(guī)模數(shù)據(jù)來說,網(wǎng)絡(luò)的轉(zhuǎn)發(fā)時(shí)延是其集合通信時(shí)間的主要組成部分,因此網(wǎng)絡(luò)通信效率將會(huì)影響HPC應(yīng)用的完成時(shí)間。但是隨著聚合算力的規(guī)模不斷增長、計(jì)算復(fù)雜度的增加,集合通信中數(shù)據(jù)交互的次數(shù)也會(huì)有明顯的增長,網(wǎng)絡(luò)通信效率對HPC應(yīng)用完成時(shí)間的制約作用也越來越明顯。如圖3-7所示,以目前較流行的集合通信操作mpiringall-reduce為例,需要2(N-1)次的數(shù)據(jù)交互才能完成,其中N為參與的節(jié)點(diǎn)數(shù)量。深度學(xué)習(xí)同樣需要調(diào)用AllReduce操作進(jìn)行梯度聚合,且每個(gè)節(jié)點(diǎn)的傳輸數(shù)據(jù)量是深度學(xué)習(xí)模型尺寸的2(N-1)/N倍,當(dāng)N比較大時(shí),傳輸量接近原始模型尺寸的2倍,相當(dāng)于額外增添了網(wǎng)絡(luò)帶寬的負(fù)擔(dān)。3-7集合通信操作AllReduce示意圖近年來,隨著可編程交換機(jī)的興起和部署,利用在網(wǎng)計(jì)算壓縮數(shù)據(jù)流量,提升計(jì)算傳輸效率成為一個(gè)有效的提升分布式系統(tǒng)的方法。在集合通信原語中,Reduce和AllReduce含有計(jì)算的語義,因此可以使用在網(wǎng)計(jì)算進(jìn)行加速,減少了數(shù)據(jù)交互次數(shù)和入網(wǎng)數(shù)據(jù)量。組播是分布式計(jì)算系統(tǒng)中最常使用的通信模式之一。例如,超算系統(tǒng)Mira中,MPI_Bcast原語的執(zhí)行時(shí)間占MPI通信總時(shí)間的14%,時(shí)間占比在MPI集合通信原語中僅次于MPI_AllReduce。當(dāng)前MPI_Bcast普遍采用應(yīng)用層組播的方式實(shí)現(xiàn)組播通信,即在應(yīng)用層多次調(diào)用下層單播,將數(shù)據(jù)重復(fù)發(fā)送多次,從而使得多個(gè)目的節(jié)點(diǎn)都能獲得源節(jié)點(diǎn)的數(shù)據(jù)。由于數(shù)據(jù)被重復(fù)發(fā)送,應(yīng)用層組播任務(wù)完成時(shí)間大于數(shù)據(jù)量與通信帶寬之比??煽拷M播技術(shù)利用交換機(jī)完成組播報(bào)文的復(fù)制分發(fā),以網(wǎng)絡(luò)層組播替代應(yīng)用層組播,避免了相同數(shù)據(jù)的重復(fù)發(fā)送,使得組播任務(wù)完成時(shí)間逼近理論最優(yōu)值(即數(shù)據(jù)量與帶寬之比),相比于應(yīng)用層組播任務(wù)完成時(shí)間有約50%的減少。3.2.5. DPU卸載DPU作為一種新型可編程異構(gòu)計(jì)算處理器,為高帶寬、低延遲和數(shù)據(jù)密集型新型智算場景提供計(jì)算引擎,與CPU和GPU一起成為智算中心的三大支柱。DPU作為智算中心內(nèi)部資源互聯(lián)的網(wǎng)絡(luò)端點(diǎn),是連接異構(gòu)算力資源,加速數(shù)據(jù)在CPU和存儲(chǔ)及網(wǎng)絡(luò)之間的移動(dòng),實(shí)現(xiàn)異構(gòu)算力間數(shù)據(jù)高速互聯(lián)互通的關(guān)鍵設(shè)備。為了更好的支持智算中心網(wǎng)絡(luò),聚合智能算力,提供高性能彈性可伸縮的智能計(jì)算能力,DPU在可以從以下幾個(gè)方面提升端網(wǎng)協(xié)同的網(wǎng)絡(luò)加速能力。NVMe-oF卸載基于NVMe原生提出的NVMe-oF(NVMeoverFabric)可以使NVMe從支持本地存儲(chǔ)(DAS)發(fā)展為支持網(wǎng)絡(luò)存儲(chǔ)(NAS)且無需轉(zhuǎn)換其他存儲(chǔ)協(xié)議,在網(wǎng)絡(luò)存儲(chǔ)中延續(xù)保持NVMe存儲(chǔ)訪問低時(shí)延、高吞吐的特點(diǎn)。隨著存儲(chǔ)介質(zhì)從機(jī)械硬盤逐漸向固態(tài)硬盤轉(zhuǎn)變,存儲(chǔ)介質(zhì)的訪問延時(shí)從毫秒量級縮短到幾十甚至幾微秒,使得存儲(chǔ)性能瓶頸從存儲(chǔ)介質(zhì)、網(wǎng)絡(luò)傳輸逐漸轉(zhuǎn)移到主機(jī)側(cè)對存儲(chǔ)網(wǎng)絡(luò)協(xié)議棧的處理。傳統(tǒng)方式下,主機(jī)側(cè)CPU至少需要運(yùn)行三層協(xié)議棧才能將報(bào)文從網(wǎng)卡轉(zhuǎn)發(fā)出去。通過DPU對NVMe-oFInitiator和NVMe-oFTarget端進(jìn)行卸載加速,能夠有效解決存儲(chǔ)性能遇到的瓶頸,在基于DPU的存儲(chǔ)架構(gòu)中主機(jī)側(cè)只負(fù)責(zé)發(fā)出存儲(chǔ)命令,即只需要運(yùn)行一層存儲(chǔ)協(xié)議棧。其他協(xié)議棧將卸載到DPU中執(zhí)行,降低主機(jī)端CPU的占用率,是在分布式高性能存儲(chǔ)高速發(fā)展的趨勢下的必然。根據(jù)實(shí)現(xiàn)方式不同,NVMe-oF的加速方案可分為分為半卸載與全卸載兩種。半卸載指將原運(yùn)行在主機(jī)端的存儲(chǔ)協(xié)議棧卸載到DPU中的CPU核心中處理,結(jié)合DPU的專用加速單元如加解密、壓縮解壓縮實(shí)現(xiàn)存儲(chǔ)的加速。DPU存儲(chǔ)全卸載仍然將運(yùn)行在主機(jī)端的存儲(chǔ)協(xié)議棧轉(zhuǎn)移到DPU中執(zhí)行,但DPU中的CPU核心負(fù)責(zé)配置存儲(chǔ)控制器的參數(shù),例如,IO隊(duì)列數(shù)、隊(duì)列深度、可并發(fā)命令數(shù)等。在DPU存儲(chǔ)全卸載的模式下,主機(jī)發(fā)起的存儲(chǔ)命令將直接通過DPU,經(jīng)由網(wǎng)絡(luò)卸載引擎直接轉(zhuǎn)發(fā)出去。類似的,接收網(wǎng)絡(luò)傳來的數(shù)據(jù)直接經(jīng)過后端DPU的存儲(chǔ)加速單元寫入主機(jī)內(nèi)存,進(jìn)一步降低存儲(chǔ)訪問延時(shí)同時(shí)提高存儲(chǔ)訪問的并行度。NVMe-oF在DPU上實(shí)現(xiàn)卸載加速的基礎(chǔ)是實(shí)現(xiàn)NVMe設(shè)備虛擬化和RoCEv2的大規(guī)模連接能力,考慮NVMe-oF的性能最大化,需要在NVMe-oFInitiator和Target同時(shí)實(shí)現(xiàn)卸載加速。同時(shí),NVMe-oF的存儲(chǔ)服務(wù)能力也是必不可少的,如存儲(chǔ)數(shù)據(jù)壓縮/解壓縮、加密/解密、RAID和糾刪碼(ErasureCode,EC)等。GPUDirectRDMA能力在當(dāng)前GPU的算力能力下,100Gbps或更大的數(shù)據(jù)量才能夠充分發(fā)揮單個(gè)GPU的算力。在這樣的發(fā)展趨勢下,基于RDMA協(xié)議的GPUDirectRDMA技術(shù),在DPU與GPU通信的過程中,可繞過主機(jī)內(nèi)存,直接實(shí)現(xiàn)對GPU內(nèi)存的讀寫能力,并且DPU上全硬件實(shí)現(xiàn)的RDMA能夠支持單流百G以上的數(shù)據(jù)收發(fā)能力,進(jìn)而實(shí)現(xiàn)了GPU算力聚合并且最大化提升GPU集群算力。GPUDirectRDMA技術(shù)已經(jīng)是當(dāng)前算力資源總線級互聯(lián)高性能網(wǎng)絡(luò)的主流技術(shù)。3.2.6. 智能ECN智算中心網(wǎng)絡(luò)同時(shí)承載計(jì)算、存儲(chǔ)和管理等多種業(yè)務(wù)流量。不同業(yè)務(wù)追求目標(biāo)不同,對網(wǎng)絡(luò)的訴求不同。傳統(tǒng)方式的ECN門限值是通過手工配置的,存在一定的缺陷。首先,靜態(tài)的ECN取值無法兼顧網(wǎng)絡(luò)中同時(shí)存在的時(shí)延敏感老鼠流和吞吐敏感大象流。ECN門限設(shè)置偏低時(shí),可以盡快觸發(fā)ECN擁塞標(biāo)記,通知源端服務(wù)器降速,從而維持較低的緩存深度(即較低的隊(duì)列時(shí)延),對時(shí)延敏感的老鼠流有益。但是,過低的ECN門限會(huì)影響吞吐敏感的大象流,限制了大象流的流量帶寬,無法滿足大象流的高吞吐。結(jié)合了AI算法的無損隊(duì)列智能ECN功能可以根據(jù)現(xiàn)網(wǎng)流量模型進(jìn)行AI訓(xùn)練,對網(wǎng)絡(luò)流量的變化進(jìn)行預(yù)測,并且可以根據(jù)隊(duì)列長度等流量特征調(diào)整ECN門限,進(jìn)行隊(duì)列的精確調(diào)度,保障整網(wǎng)的最優(yōu)性能。如圖3-8所示,支持智能ECN的設(shè)備會(huì)對現(xiàn)網(wǎng)的流量特征進(jìn)行采集并上送至AI業(yè)務(wù)組件,AI業(yè)務(wù)組件將根據(jù)預(yù)加載的流量模型文件智能的為無損隊(duì)列設(shè)置最佳的ECN門限,保障無損隊(duì)列的低時(shí)延和高吞吐,從而讓不同流量場景下的無損業(yè)務(wù)性能都能達(dá)到最佳。3-8數(shù)據(jù)中心交換機(jī)轉(zhuǎn)發(fā)芯片模塊構(gòu)成Device設(shè)備內(nèi)的轉(zhuǎn)發(fā)芯片會(huì)對當(dāng)前流量的特征進(jìn)行采集,比如隊(duì)列緩存占用率、帶寬吞吐、當(dāng)前的ECN門限配置等,然后通過Telemetry技術(shù)將網(wǎng)絡(luò)流量實(shí)時(shí)狀態(tài)信息推送給AI業(yè)務(wù)組件。AI業(yè)務(wù)組件收到推送的流量狀態(tài)信息后,將根據(jù)預(yù)加載的流量模型文件對當(dāng)前的流量進(jìn)行場景識別,判斷當(dāng)前的網(wǎng)絡(luò)流量狀態(tài)是否是已知場景。如果是已知場景,AI業(yè)務(wù)組件將從積累了大量的ECN門限配置記憶樣本的流量模型文件中,推理出與當(dāng)前網(wǎng)絡(luò)狀態(tài)匹配的ECN門限配置。如果是未知的流量場景,AI業(yè)務(wù)組件將結(jié)合AI算法,在保障高帶寬、低時(shí)延的前提下,對當(dāng)前的ECN門限不斷進(jìn)行實(shí)時(shí)修正,最終計(jì)算出最優(yōu)的ECN門限配置。最后,AI業(yè)務(wù)組件將符合安全策略的最優(yōu)ECN門限下發(fā)到設(shè)備中,調(diào)整無損隊(duì)列的ECN門限。對于獲得的新的流量狀態(tài),設(shè)備將重復(fù)進(jìn)行上述操作,從而保障無損業(yè)務(wù)的最佳性能。無損隊(duì)列的智能ECN功能可以根據(jù)現(xiàn)網(wǎng)流量模型進(jìn)行AI訓(xùn)練,對網(wǎng)絡(luò)流量的變化進(jìn)行預(yù)測,并且可以根據(jù)隊(duì)列長度等流量特征調(diào)整ECN門限,進(jìn)行隊(duì)列的精確調(diào)度,保障無損業(yè)務(wù)的最優(yōu)性能。3.2.7. 基于信元交換的網(wǎng)絡(luò)級負(fù)載均衡基于流的轉(zhuǎn)發(fā)負(fù)載分擔(dān)衍生出很多擴(kuò)展的負(fù)載分擔(dān)方法,比如ECMP(equalcostmultipath)、UCMP(unequalcostmultipath),前者不同的路徑之間在進(jìn)行負(fù)載均衡選擇時(shí)完全等價(jià),后者不同的路徑在進(jìn)行負(fù)載均衡時(shí)會(huì)有差異化的權(quán)重,至于權(quán)重的設(shè)定則是可以由控制面邏輯計(jì)算而設(shè)定。但是不論是何種衍生擴(kuò)展,他們都存在共同的限制。網(wǎng)絡(luò)設(shè)備在接收到一條流進(jìn)行轉(zhuǎn)發(fā)時(shí),此流經(jīng)過hash計(jì)算確定一個(gè)轉(zhuǎn)發(fā)路徑,若不發(fā)生網(wǎng)絡(luò)路徑的變化,此流所有的報(bào)文都將持續(xù)在確定的路徑上轉(zhuǎn)發(fā)。由于Hash計(jì)算本身就是一個(gè)范圍收斂的計(jì)算,會(huì)導(dǎo)致不同的流選擇的路徑會(huì)有重疊,一般來說網(wǎng)絡(luò)中流的數(shù)量要遠(yuǎn)遠(yuǎn)大于路徑的數(shù)量,通過大量流的疊加,一般來說可以保障網(wǎng)絡(luò)上各個(gè)路徑使用相對均衡;但若在網(wǎng)絡(luò)中流大小極其不均衡、流的數(shù)量有限的情況下(一般流的數(shù)量規(guī)模低于路徑數(shù)*103就認(rèn)為流的數(shù)量少),不同路徑疊加后的流量壓力就容易產(chǎn)生較大偏差,這就是大家經(jīng)常說的負(fù)載分擔(dān)不均衡。針對小規(guī)模、大小不均衡流的負(fù)載均衡問題,一直是困擾網(wǎng)絡(luò)數(shù)據(jù)面轉(zhuǎn)發(fā)的難題。AI/ML的應(yīng)用中,GPU或其他類型的AI/ML計(jì)算單元之間他們有著非常簡單的通訊關(guān)系(流的數(shù)量非常少);并且由于他們有著極高的計(jì)算能力,導(dǎo)致一對通訊單元間的數(shù)據(jù)吞吐極高(單個(gè)流很大,所需的網(wǎng)絡(luò)帶寬極大),這就導(dǎo)致在這樣的應(yīng)用中存在極端的負(fù)載分擔(dān)不均衡,而且這種不均衡一旦引發(fā)網(wǎng)絡(luò)丟包,就會(huì)對整體AI/ML的任務(wù)完成時(shí)間帶來顯著的負(fù)面影響。圖3-9信元轉(zhuǎn)發(fā)負(fù)載分擔(dān)示意圖如圖3-9所示,在基于信元交換的網(wǎng)絡(luò)級負(fù)載均衡機(jī)制下,接收端設(shè)備接收到報(bào)文后,會(huì)將報(bào)文拆分成的若干信元,信元會(huì)基于目的端發(fā)送的調(diào)度信令選擇空閑的鏈路進(jìn)行轉(zhuǎn)發(fā),到的目的后,信元被重新拼裝成報(bào)文發(fā)出設(shè)備。在這樣的機(jī)制下,不同于流轉(zhuǎn)發(fā),一個(gè)固定的流僅能利用單條路徑,交換機(jī)A和交換機(jī)C之間的所有鏈路都可以利用,而且是動(dòng)態(tài)的基于微觀負(fù)載實(shí)時(shí)調(diào)整的均衡利用。信元交換本身并不是一項(xiàng)嶄新的技術(shù),在目前廣泛應(yīng)用的框式設(shè)備中,線卡芯片與網(wǎng)板芯片之間的流量交換普遍都采用了信元交換的技術(shù),以實(shí)現(xiàn)機(jī)框內(nèi)無阻塞交換。不過信元交換以前主要應(yīng)用在框式設(shè)備系統(tǒng)內(nèi)部,往往都是各個(gè)交換機(jī)設(shè)備廠商自定義的信元格式和調(diào)度機(jī)制,不具備跨廠商互通的能力。此項(xiàng)技術(shù)可以進(jìn)一步擴(kuò)展,應(yīng)用到整個(gè)網(wǎng)絡(luò)上,是解決智算中心網(wǎng)絡(luò)負(fù)載均衡問題的方向之一。3.3.網(wǎng)絡(luò)可靠性及智能運(yùn)維關(guān)鍵技術(shù)3.3.1. 數(shù)據(jù)面故障感知與恢復(fù)故障收斂是網(wǎng)絡(luò)保障連通性的重要手段,整個(gè)流程依次為:故障感知,即網(wǎng)絡(luò)設(shè)備檢測故障是否發(fā)生;故障傳遞,即網(wǎng)絡(luò)設(shè)備間互相通告故障信息;故障恢復(fù),即網(wǎng)絡(luò)設(shè)備重新計(jì)算流量路徑并引流至新路徑。早期網(wǎng)絡(luò)故障收斂過程全部依賴控制面,即通過輪詢或中斷感知物理故障,通過協(xié)議?;顧C(jī)制感知鏈路層以上故障,再由控制面路由協(xié)議完成故障傳遞與處理,所有流程均需要軟件參與,典型場景收斂性能為秒級。后來為提升故障收斂性能,業(yè)界引入BFD(雙向轉(zhuǎn)發(fā)檢測)等檢測技術(shù)來提升故障感知性能,采用FRR(快速重路由)來提升故障處理性能,其共同特征是將部分故障收斂過程由數(shù)據(jù)面硬件卸載,降低網(wǎng)絡(luò)故障場景控制面參與并獲得顯著的收益,典型場景的故障收斂性能提升至百毫秒量級。然而隨著網(wǎng)絡(luò)基礎(chǔ)帶寬的持續(xù)提升,以及AI計(jì)算、高性能存儲(chǔ)業(yè)務(wù)對可靠性的更高要求,百毫秒量級的收斂性能已無法滿足業(yè)務(wù)發(fā)展的需求,需進(jìn)一步降低故障收斂控制面參與度,將故障收斂流程硬件卸載,完全由數(shù)據(jù)面感知、傳遞、處理故障,提升故障收斂性能至亞毫秒級。3.3.2. 基于意圖的網(wǎng)絡(luò)仿真校驗(yàn)基于意圖的網(wǎng)絡(luò),本質(zhì)是圍繞用戶的意圖,借助AI和大數(shù)據(jù)技術(shù),將用戶意圖轉(zhuǎn)換為網(wǎng)絡(luò)系統(tǒng)可理解、可配置、可度量、可優(yōu)化的對象及屬性,實(shí)現(xiàn)網(wǎng)絡(luò)設(shè)計(jì)和運(yùn)維操作。由意圖生成的網(wǎng)絡(luò),在下發(fā)到物理網(wǎng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026河北省定向長安大學(xué)選調(diào)生招錄備考考試試題及答案解析
- 2025山東日照市五蓮縣教體系統(tǒng)招聘博士研究生2人備考筆試題庫及答案解析
- 深度解析(2026)《GBT 26034-2010片狀銅粉》(2026年)深度解析
- 2025山東青島海建投資有限公司及全資子公司招聘25人參考考試試題及答案解析
- 2025臨滄市臨翔區(qū)自然資源局面向社會(huì)公開招聘編外工作人員(2人)備考考試試題及答案解析
- 深度解析(2026)《GBT 25892.3-2010信息技術(shù) 維吾爾文、哈薩克文、柯爾克孜文編碼字符集 32點(diǎn)陣字型 第3部分:庫非白體》
- 深度解析(2026)《GBT 25725-2010帶電作業(yè)工具專用車》(2026年)深度解析
- 西昌市教育系統(tǒng)2025年下半年考核引進(jìn)教師(98人)備考筆試試題及答案解析
- 2026年威海乳山市民兵訓(xùn)練基地公開招聘事業(yè)單位工作人員(1名)備考考試試題及答案解析
- 江蘇徐州市新沂市面向2026年畢業(yè)生招聘教師88人參考考試試題及答案解析
- 藥店冷鏈藥品知識培訓(xùn)課件
- T-CBJ 2307-2024 醬香型白酒核心產(chǎn)區(qū)(仁懷)
- 農(nóng)村扶貧建房申請書
- 2025年政府采購評審專家考試真題庫(附帶答案)
- 垃圾壓縮站運(yùn)營維護(hù)管理標(biāo)準(zhǔn)方案
- 《常見抗凝劑分類》課件
- 2025運(yùn)輸與配送期末考試題庫及答案
- 婦科TCT培訓(xùn)課件
- 婦科急癥培訓(xùn)課件
- 2025年灌溉與排水工程考試試題及答案
- 抵押權(quán)概述課件
評論
0/150
提交評論