版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ICS35.040SAIASTestmethodforintelligentcomputingcapabilityclusterbasedoI 1范圍 52規(guī)范性引用文件 53術(shù)語和定義 54縮略語 65測試模式 65.1測試類型 75.2測試場景 76光直連集群測試 76.1測試環(huán)境 76.2基礎性能測試 86.3通信算法適配測試 6.4模型訓練測試 6.5模型推理測試 7光互連電交換集群測試 7.1測試環(huán)境 7.2基礎性能測試 7.3通信算法適配測試 7.4電交換機測試 7.5模型訓練測試 7.6推理模型測試 8光互連光交換集群測試 8.1測試環(huán)境 8.2基礎性能測試 8.3通信算法適配測試 318.4拓撲切換測試 8.5訓練模型測試 8.6推理模型測試 9測試報告 錯誤!未定義書簽。附錄A(資料性)建議硬件環(huán)境清單 40附錄B(資料性)智能算力集群加速卡技術(shù)規(guī)格模板 42附錄C(資料性)建議模型及模型參數(shù)要求 附錄D(規(guī)范性)測試報告模板 附錄E(參考性資料)存檔材料列表 T/SAIAS038—2025參考文獻........................................................................52T/SAIAS038—2025本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別這些專利的責任。本文件由上海市人工智能行業(yè)協(xié)會提出并歸口。本文件由上海市人工智能行業(yè)協(xié)會提出并歸口。本文件起草單位:上海儀電(集團)有限公司、上海智能算力科技有限公司、上海曦智科技股份有限公司、上海人工智能創(chuàng)新中心、上海市人工智能行業(yè)協(xié)會、上海埃迪??萍挤沼邢薰?、上海埃迪西基礎設施配套建設有限公司、上海壁仞科技股份有限公司、沐曦集成電路(上海)有限公司、上海天數(shù)智芯半導體有限公司、中興通訊股份有限公司、新華三技術(shù)有限公司、浪潮電子信息產(chǎn)業(yè)股份有限公司、上海基流科技有限公司、阿里云計算有限公司、上海云脈芯聯(lián)科技有限公司、上海燧原科技股份有限公司、上海華東電信研究院、超聚變數(shù)字技術(shù)有限公司、聯(lián)通(上海)產(chǎn)業(yè)互聯(lián)網(wǎng)有限公司、上??萍季W(wǎng)絡通信有限公司本文件主要起草人:孫躍、牛紅星、辛帥、孫兆群、羅棕太、秦甘堯、劉俊豪、孟懷宇、于山山、朱劍、鄧永潮、楊毅、尤其輝、劉照德、熊軍、裴芝林、鐘普、趙春昊、王琳、彭莉、付軒、王磊、徐俊杰、丁云帆、黃青青、石加圣、鄒翾、趙安璞、李超、秦春華、左羅、馮曉磊、張國平、陶鈺、薛思旋、吳竟成、胡海云、張政、張廉奇、王興隆、鄒翔、孫偉、董鑫、梅敬青、華德宏、王思善、鄧志輝、陳香、顧劍峰、錢濤、黃雷本標準首次制定。首期執(zhí)行單位:沐曦集成電路(上海)有限公司、上海天數(shù)智芯半導體有限公司、上海壁仞科技股份有限公司、新華三技術(shù)有限公司、浪潮電子信息產(chǎn)業(yè)股份有限公司、中興通訊股份有限公司。本文件版權(quán)歸上海市人工智能行業(yè)協(xié)會所有。未經(jīng)許可,不得擅自復制、轉(zhuǎn)載、抄襲、改編、匯編、翻譯或?qū)⒈緲藴视糜谄渌魏紊虡I(yè)目的T/SAIAS038—2025隨著大規(guī)模預訓練模型、生成式人工智能等技術(shù)的快速發(fā)展,算力需求呈現(xiàn)指數(shù)級增長。通過高效連接人工智能加速卡(本文件簡稱加速卡)構(gòu)建高性能算力集群顯得至關(guān)重要。傳統(tǒng)基于電互連的加速卡間通信在帶寬、時延和擴展性等方面逐漸面臨瓶頸,難以滿足超大規(guī)模集群訓練與推理場景下的高效協(xié)同需求。光互連技術(shù)憑借其高帶寬、低時延、抗電磁干擾及長距離傳輸?shù)忍匦?,在超?jié)點內(nèi)部組網(wǎng)中展現(xiàn)出顯著優(yōu)勢。然而,由于光互連技術(shù)在超節(jié)點卡間互連領(lǐng)域尚屬新興技術(shù)路線,其在連接與交換架構(gòu)上存在多種實現(xiàn)形態(tài),不同GPU的通信協(xié)議呈現(xiàn)碎片化分布,以及訓練推理場景對通信拓撲的動態(tài)需求差異,亟需建立統(tǒng)一的測試評估體系,以規(guī)范設備選型、優(yōu)化系統(tǒng)設計并量化性能提升效果。為了推動光互連技術(shù)在智算中心的規(guī)?;渴鹋c應用創(chuàng)新,本文件提出了基于光直連、光互連電交換和光互連光交換三種測試模式的標準化測試方法。這三種模式覆蓋了光互連技術(shù)的全技術(shù)鏈路,旨在通過基礎性能測試、通信算法適配測試、模型訓練測試及模型推理測試四層評估維度,系統(tǒng)性地驗證光互連系統(tǒng)的物理層傳輸能力、集合通信優(yōu)化空間以及業(yè)務層應用效能。5基于光互連的智能算力集群測試方法僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本GB/T42018-2022信息技術(shù)人工智能平臺計算資源規(guī)范由通用中央處理器(CPU)和專用于智能計算的加速卡提供計算能力的算力。它可以是一個單詞、一個漢字、一個標點符號,也可以是由多個連續(xù)字符組成的子詞等。將加速卡用于Scale-up的端口信號,轉(zhuǎn)換成光信號傳輸一種用于電信號轉(zhuǎn)發(fā)的網(wǎng)絡技術(shù),可以為接入交換機的任意兩個設備節(jié)點提供獨享的電信號通路。光交換opticalcircu人工智能加速卡artificialintel6T/SAIAS038—2025專為人工智能計算設計、符合人工智能服務器硬件接口的擴展加速設備。[來源:GB/T42018-2022]數(shù)據(jù)集dataset用于測試最終機器學習模型功能的數(shù)據(jù)。超節(jié)點superpod一臺或多臺包含人工智能加速卡在內(nèi)的計算節(jié)點,通過高速網(wǎng)絡將人工智能加速卡的Scale-up口連接在一起,形成一個單位節(jié)點,可提供更大規(guī)模的人工智能加速卡的卡間互連帶寬??v向擴展scale-up提升單個計算節(jié)點內(nèi)部或少數(shù)幾個緊密耦合的節(jié)點之間性能和資源利用率的網(wǎng)絡架構(gòu)和技術(shù)。核心目標是通過優(yōu)化節(jié)點內(nèi)部及節(jié)點間通信,使得每個計算單元能夠更高效地利用自身的計算資源,實現(xiàn)更強的計算能力和更高的處理效率。模型訓練過程中,一組樣本數(shù)據(jù)通過模型得出的預測值跟期望值之間的差值稱作損失,損失意味著模型因未能產(chǎn)生預期結(jié)果而受到的懲罰。4縮略語下列縮略語適用于本文件。BER誤碼率(BitErrorRatio)BF1616位腦浮點數(shù)(BrainFloatingpoint16bits)FP1616位浮點數(shù)(Floating-point16bits)GPU圖形處理器(GraphicProcessingUnit)HBM高帶寬內(nèi)存(HighBandwidthMemory)H2D主機到設備(HosttoDevice)PCIe外圍組件互連快速總線(PeripheralComponentInterconnectExpress)P2P點對點傳輸(Peer-to-Peer)OCS光交換(OpticalCircuitSwitch)RoCE基于融合以太網(wǎng)的遠程直接內(nèi)存存?。≧DMAoverConvergedEthernet)TGS每張GPU每秒鐘處理的Token數(shù)量(TokensperGPUperSecond)TPOT單個Token生成時間(TimePerOutputToken)TPS每秒輸出Token的數(shù)量(OutputTokenPerSecond)TS每秒鐘生成的Token總數(shù)量(TokensperSecond)TTFT自推理開始到生成首個Token輸出所需要的時間(TimetoFirstToken)75測試模式5.1.1光直連集群測試將配備光互連接口的加速卡通過光互連技術(shù)直接連接,構(gòu)建超節(jié)點,并對由一個或多個超節(jié)點組成的集群進行性能測試。5.1.2光互連電交換集群測試將配備光互連接口的加速卡通過光互連技術(shù)連接至電交換機,構(gòu)建超節(jié)點,并對由一個或多個超節(jié)點組成的集群進行性能測試。5.1.3光互連光交換集群測試將配備光互連接口的加速卡通過分布式OCS模組實現(xiàn)互連,構(gòu)建超節(jié)點,并對由一個或多個超節(jié)點組成的集群進行性能測試。5.2測試場景5.2.1測試模型為滿足不同測試場景下的要求,可測試模型如下附錄C所示,根據(jù)大模型類型(包含語言類、文生圖、文生視頻)、大語言模型的類別(包含稠密和混合專家系統(tǒng))、參數(shù)規(guī)模以及集群規(guī)模選擇待測模型。為滿足不同測試場景下的要求,應根據(jù)測試模型的類型限定相關(guān)訓練參數(shù),具體要求見附錄C。5.2.3數(shù)據(jù)集要求為滿足不同測試場景的要求,測試模型所使用數(shù)據(jù)集如表1所示。表1測試模型數(shù)據(jù)集一個包含一萬億個標記的開源數(shù)據(jù)集,用于訓練大型語言模型文生圖目前已知且開源的最大規(guī)模的多模態(tài)數(shù)據(jù)集,100+其他語言以及12.7億的未知語vidgen-1M利用了來自HD-VILA客戶私有模型6光直連集群測試a)測試環(huán)境應部署于專用的測試場所(如機房或獨立的專用房間)。測試環(huán)境包括被測方測試集群的AI計算接入?yún)^(qū)(必選)、業(yè)務管理區(qū)(可選)和帶外管理接入?yún)^(qū)(可選),如圖1所示,其中:AI計算接入?yún)^(qū)包含1個或多個超節(jié)點,每個超節(jié)點包含至少2臺服務器(通常每臺服務8器配備8張加速卡或16張加速卡,本文件中以配備8張加速卡為例)以及1臺北向RoCE交換機(多個超節(jié)點可以共享1臺北向RoCE交換機),加速卡之間采用光直連技術(shù)實現(xiàn)互連,該光互連連接支持“連接”或“斷開”兩種工作狀態(tài)配置,當光互連連接配置為“斷開”狀態(tài)時,系統(tǒng)則處于純北向環(huán)境;b)業(yè)務管理區(qū)包含1臺業(yè)務管理交換機,連接服務器上的帶內(nèi)網(wǎng)卡;c)帶外管理區(qū)包含1臺帶外管理交換機,連接服務器上的帶外網(wǎng)卡。業(yè)務管理區(qū)帶外管理區(qū)(可選)(示意)大GPUGPUGPUGPnGPUGPUGPUG業(yè)務管理區(qū)帶外管理區(qū)(可選)(示意)大GPUGPUGPUGPnGPUGPUGPUGGGGGnPnPUPnPUPGPUGPUGPUGPUGPUGPUGPUGPnGPUGGGGGGGGGnPUPUPnPUPnPnPnPUP品GPU服務器18GPU服務器1NicNiG直連拓撲直連拓撲圖1光直連集群測試環(huán)境0業(yè)務管理區(qū)0業(yè)務管理區(qū)(可選)GPU服務器1帶外管理區(qū)X直連拓撲超節(jié)點1超節(jié)點NGPU服務器1帶外管理直連拓撲GP門GP門XXXX少PP門P門GPUGPUGPUGPUGPUGPU5PUGPGPP圖2純北向環(huán)境6.2基礎性能測試6.2.1指標及測試方法算力算力指標及測試方法,應符合表2所示:9T/SAIAS038—2025表2算力指標及測試方法每秒內(nèi)能夠執(zhí)行的半),每秒內(nèi)能夠執(zhí)行的腦),每秒內(nèi)能夠執(zhí)行的8位),H2D帶寬H2D帶寬指標及測試方法,應符合表3所示:表3H2D帶寬指標及測試方法Device(加速卡)之間),HBM帶寬HBM帶寬指標及測試方法,應符合表4所示:表4HBM帶寬指標及測試方法加速卡中芯片與HBM之),功耗功耗指標及測試方法,應符合表5所示:表5功耗指標及測試方法集群執(zhí)行任務時系統(tǒng)的總功耗,值越低越);溫度溫度指標及測試方法,應符合表6所示:T/SAIAS038—2025表6溫度指標及測試方法集群執(zhí)行任務時加速卡的溫度,值越低越6.2.2測試流程測試流程如下:a)通過軟件設置測試環(huán)境為光直連集群測試環(huán)境;b)依據(jù)各個單項指標的測試方法,分別執(zhí)行基本性能測試。通信算法適配測試6.3.1指標及測試方法時延和帶寬時延和帶寬指標及測試方法,應符合表7所示:表7時延和帶寬指標及測試方法要的時間,值越低越單位時間內(nèi)可以傳輸b)計算各messagesize下所理論相對誤差理論相對誤差指標及測試方法,應符合表8所示:表8理論相對誤差指標及測試方法時延理論推導值和實 ——時延理論值; T/SAIAS038—2025帶寬理論推導值和實 ——帶寬理論值;——帶寬實測值。6.3.2測試流程a)測試工具與配置1)測試工具:使用加速卡性能測試工具(如nccl-test等)2)使用算子:[all-reduce,all-gather,reduce-scatter,all-to-all]3)測試group的卡的數(shù)量:[4,8,16,]b)光直連超節(jié)點測試1)測試對象:每個光直連超節(jié)點(光直連的16張或16張以上加速卡構(gòu)成的超節(jié)點)2)輸出:Latency:xusBusbandwidth:yGB/s依次運行10次分別取時延和帶寬的平均值4)計算結(jié)果:計算各messagesize下所有結(jié)果的時延和帶寬的平均值模型訓練測試6.4.1指標及測試方法精度精度指標及測試方法,應符合表9所示:表9精度指標及測試方法測試模型訓練損失環(huán)境和純北向環(huán)境下a)測試模型訓練Loss在光直連集群環(huán)境和純北向環(huán)境下是否正常d)比較L和LN,從第10步開始,每一步的相對誤差在±1%以內(nèi);需 性能T/SAIAS038—2025模型訓練性能指標及測試方法,應符合表10所示:表10模型訓練性能指標及測試方法模型訓練時每張加速卡每秒能處理的Tokenseq_length——模型訓練時實際batchsize,并非每個DP中的batchsiz——第10到第500step的平均sb)計算TGS:(全局性能提升模型訓練性能提升指標及測試方法,應符合表11所示:表11模型訓練性能提升指標及測試方法光直連環(huán)境下模型訓練的性能對比純北向環(huán)境下模型訓練的性a)根據(jù)計算光直連集群測試b)根據(jù)計算純北向環(huán)境下的性能TGSN;穩(wěn)定性模型訓練穩(wěn)定性指標及測試方法,應符合表12所示:表12模型訓練穩(wěn)定性指標及測試方法模型訓練過程中不中),6.4.2測試流程a)測試模型及訓練相關(guān)參數(shù)符合5.2要求;b)通過軟件設置測試環(huán)境,本測試環(huán)境為光直連集群測試環(huán)境;c)執(zhí)行模型訓練腳本,啟動模型訓練過程;d)若在24小時內(nèi)出現(xiàn)訓練中斷,允許重新進行一次模型訓練,并以最后一次模型訓練結(jié)果為最終結(jié)果;若在24小時內(nèi)未發(fā)生中斷但在72小時內(nèi)出現(xiàn)中斷,則記錄中斷時間為模型穩(wěn)定性時間;若在72小時后訓練未發(fā)生中斷,則手動終止模型訓練,并記錄中斷時間,記錄模型穩(wěn)符合訓練有有無有無有無斷時間圖3訓練模型測試流程示意圖T/SAIAS038—2025針對指定的大模型進行推理測試,建議采用官方標準數(shù)據(jù)集,可采用不同精度(如BF16、FP8和INT8等)進行大模型推理測試。推理測試結(jié)果,參照官方標準數(shù)據(jù)集,達到官方CUDA測試數(shù)據(jù)準確率的±5%以內(nèi)。性能模型推理性能指標及測試方法,應符合表13所示:表13模型推理性能指標及測試方法從發(fā)送請求到系統(tǒng)生成第一個輸出token的時間。衡量系統(tǒng)對單個b)每一輪測試配置不同的并發(fā)數(shù)、Inputtokens及Outputtokens,測試不同組合下的模型推理的發(fā)數(shù)、Inputtokens及Outputtokens的組合后,系統(tǒng)生成每個輸出token所需的時系統(tǒng)每秒能夠生成的輸出token數(shù)系統(tǒng)在同一時間正在處理的請求性能提升模型推理性能提升指標及測試方法,應符合表14所示:表14模型推理性能提升指標及測試方法光直連環(huán)境下模型推理的性能對比純北向環(huán)境下模型推理的性能的提a)按照6.5.1測試方法,記錄在光直連集群測試環(huán)境下,每一輪模型推所得到的TTFT、TPOT和TPS的取值b)按照6.5.1測試方法,記錄在純北向環(huán)境下,每一輪模型推理測試所得到的,,——第i輪模型推理性能的TTFT性能提升;,——純北向環(huán)境下,第i輪模型推理性能TTb)若完成n輪模型推理測試,整體TTFT性能提=1——整體TTFT性能提升;T/SAIAS038—2025表14模型推理性能提升指標及測試方法(續(xù)),——第i輪模型推理性能的TPOT性能提升;,——純北向環(huán)境下,第i輪模型推理性能TPb)若完成n輪模型推理測試,整體TPOT性=1,——第i輪模型推理性能的TPS性能提升;,——純北向環(huán)境下,第i輪模型推理性能TPS。b)若完成n輪模型推理測試,整體TPS性能=16.5.2測試流程測試流程如下圖所示:a)測試模型及推理相關(guān)參數(shù)符合5.2要求;b)通過軟件設置測試環(huán)境為光直連集群測試環(huán)境;c)采用不同精度進行測試;d)按照測試方法要求,分別配置模型推理腳本的并發(fā)數(shù)、Inputtokens及Outputtokens等參數(shù);e)執(zhí)行模型推理腳本,啟動模型推理過程;f)記錄光直連環(huán)境下的TTFT、TPOT及TPS等各項測試指標,每一輪測試多次取平均值;g)在其它測試條件相同的純北向環(huán)境下,配置相同推理腳本輸入?yún)?shù),進行推理測試,記錄TTFT、TPOT及TPS等各項測試指標,每一輪測試多次取平均值;h)按照測試方法要求,分別計算本輪TTFT、TPOT及TPS性能提升數(shù)據(jù),并進行記錄;i)繼續(xù)執(zhí)行下一輪測試,重復執(zhí)行本測試流程的步驟c至步驟h;j)如果測試過程中出現(xiàn)超出芯片顯存的錯誤時,調(diào)整并發(fā)數(shù)、Inputtokens及Outputtokens參數(shù)的組合繼續(xù)測試;k)所有組合測試完畢,測試完成。Inputtokens及Output否是7光互連電交換集群測試7.1測試環(huán)境測試環(huán)境應部署于專門的測試場所(如機房或?qū)S玫莫毩⒎块g)。測試環(huán)境包括被測方測試集群的AI計算接入?yún)^(qū)(必選)、業(yè)務管理區(qū)(可選)、帶外管理接入?yún)^(qū)(可選),如下圖所示。其中:a)AI計算接入?yún)^(qū)包含1個或多個超節(jié)點,每個超節(jié)點包含至少4臺服務器(通常每臺服務器配備8張加速卡)、若干臺南向電交換機和1臺北向RoCE交換機(多個超節(jié)點可以共享1臺北向RoCE交換機)。在一個超節(jié)點內(nèi)加速卡之間采用光互連技術(shù)連接到電交換機上,該光互連連接支持“連接”或“斷開”兩種工作狀態(tài)配置,當光互連連接配置為“斷開”狀態(tài)時,系統(tǒng)則處于純北向環(huán)境;由于加速卡可能支持不同的接口協(xié)議(如PCIe或Ethernet),本章節(jié)中的測試指標及測試流程均適用于PCIe交換機和Ethernet交換機;b)業(yè)務管理區(qū)包含1臺業(yè)務管理交換機,連接服務器上的帶內(nèi)網(wǎng)卡;c)帶外管理去包含1臺帶外管理交換機,連接服務器上的帶外網(wǎng)卡??贑0業(yè)務管理區(qū)口C0業(yè)務管理區(qū)P超節(jié)點N帶外管理交換機(可選)AI計算接入?yún)^(qū)超節(jié)點1GPnGPnGPnGPUGPnGPnGPnGPUGPnGPUPUPNPUPUPUPUPUUUUUUUUUGGGGGGGGGGGGGGGGCnnnPPPPPPPPPPP圖5光互連電交換集群測試環(huán)境G業(yè)務管理區(qū)G業(yè)務管理區(qū)超節(jié)點1P超節(jié)點N帶外管理區(qū)(可選)AI計算接入?yún)^(qū)GP門GP門GP門GP門GPnGPnGPnGPnGPnGPUGPUGPUGPUGPUGPUGPUGPUGPUGPUPUP1T/SAIAS038—2025圖6純北向環(huán)境基礎性能測試7.2.1指標及測試方法算力算力指標及測試方法,應符合表15所示:表15算力指標及測試方法每秒內(nèi)能夠執(zhí)行的半),每秒內(nèi)能夠執(zhí)行的腦),每秒內(nèi)能夠執(zhí)行的8位),H2D帶寬H2D帶寬指標及測試方法,應符合表16所示:表16H2D帶寬指標及測試方法Host(CPU)與Device),HBM帶寬HBM帶寬指標及測試方法,應符合表17所示:表17HBM帶寬指標及測試方法加速卡中芯片與HBM之a(chǎn))環(huán)境中安裝對應工具(如bandwidth功耗功耗指標及測試方法,應符合表18所示:表18功耗指標及測試方法T/SAIAS038—2025集群執(zhí)行任務時系統(tǒng)的總功耗,值越低越);溫度溫度指標及測試方法,應符合表19所示:表19溫度指標及測試方法集群執(zhí)行任務時加速卡的溫度,值越低越7.2.2測試流程測試流程如下:a)通過軟件設置測試環(huán)境,設置為光互連電交換集群測試環(huán)境;b)依據(jù)各單項指標的測試方法,分別執(zhí)行基本性能測試。通信算法適配測試7.3.1指標及測試方法時延和帶寬時延和帶寬指標及測試方法,應符合表20所示:表20時延和帶寬指標及測試方法從一個加速卡發(fā)送數(shù)據(jù)到另一個加速卡所需的時間,值越低越單位時間內(nèi)可以傳輸b)計算各messagesize下所理論相對誤差理論相對誤差指標及測試測試方法,應符合表21所示:表21理論相對誤差指標及測試方法T/SAIAS038—2025表21理論相對誤差指標及測試方法(續(xù))時延推導值和實測值 ——時延理論值;帶寬推導值和實測值 ——帶寬理論值;——帶寬實測值。7.3.2測試流程a)測試工具與配置:1)測試工具:使用加速卡性能測試工具(如nccl-test等)2)測試算子:[all-reduce,all-gather,reduce-scatter,all-to-all]3)測試組的加速卡的數(shù)量:[4,8,16,32,64](若為32卡規(guī)模集群測試,則無需測試64張加速卡)b)光互連超節(jié)點測試1)測試對象:在不同的卡的數(shù)量條件下(4,8,16,32,64),每個光互連電交換超節(jié)點(32或32張以上加速卡通過光互連及南向電交換機連接構(gòu)成的超節(jié)點)2)輸出指標:Latency:xusBusbandwidth:yGB/s3)測試方法:按messagesize=[1KB,2KB,4KB,….,1GB]依次運行10次,分別取時延和帶寬的平均值4)計算結(jié)果:計算各messagesize下所有結(jié)果的時延和帶寬的平均值電交換機測試7.4.1指標及測試方法最大轉(zhuǎn)發(fā)帶寬最大轉(zhuǎn)發(fā)帶寬指標及測試方法,應符合表22所示:表22最大轉(zhuǎn)發(fā)帶寬指標及測試方法T/SAIAS038—2025寬單臺電交換機所有端口能同時轉(zhuǎn)發(fā)的最大b)計算當前交換機的最大的轉(zhuǎn)發(fā)帶寬:單臺交換機的端口數(shù)為n,理論相對誤差理論相對誤差指標及測試方法,應符合表23所示:表23理論相對誤差指標及測試方法差最大轉(zhuǎn)發(fā)帶寬推導值 ——最大轉(zhuǎn)發(fā)帶寬理論值;——最大轉(zhuǎn)發(fā)帶寬實測值。不同包長下帶寬和時延不同包長下帶寬和時延指標及測試方法,應符合表24所示:表24不同包長下帶寬和時延指標及測試方法在不同的包長條件下通過a)每個包長分別運行10次,包長覆蓋[1KB,2KB,4KB,...,在不同的包長條件下通過電交換機所需要的端到端a)每個包長分別運行10次,包長覆蓋[1KB,2KB,4KB,...,滿負載穩(wěn)定性滿負載穩(wěn)定性指標及測試方法,應符合表25所示:表25滿載穩(wěn)定性指標及測試方法表21理論相對誤差指標及測試方法(續(xù))說明在電交換機所有端口發(fā)時帶寬是否能持續(xù)穩(wěn)定,值越高越優(yōu)。a)根據(jù)7.4.2運行12小時;b)計算運行時間內(nèi)的實際轉(zhuǎn)發(fā)帶寬B;c)推導運行時間內(nèi)的理論轉(zhuǎn)發(fā)帶寬B;d)計算滿載帶寬的穩(wěn)定性指標η:在電交換機所有端口越低越優(yōu)。a)根據(jù)7.4.2運行12小時;b)根據(jù)總誤碼比特數(shù)Ne和發(fā)送數(shù)據(jù)總量N計算誤碼率BER:a)將加速卡的南向接口按照交換機端口數(shù)量進行連接,并將加速卡等分為兩組。每組內(nèi)編號相同的加速卡構(gòu)成通信對,同時發(fā)起P2P測試。以16端口PCle交換機為例,將16張加速卡連接至交換機并均分為兩組,每組包含8張加速卡。每組中編號相同的加速卡組成一個通信對,共8個通信對。使用P2P測試工具,由第一組的8塊加速卡分別向第二組對應編號的8塊加速卡同時發(fā)起P2P通信,即A1→B1,A2→B2,A3→B3,A4→B4,A5→B5,A6→B6,A7b)使用P2P測試工具,8個通信對使用不同的Messagesize并發(fā)進行P2P測試,記錄對應的帶寬和時延測試結(jié)果,每組測試依次運行10次,分別取時延和帶寬的平均值;c)Messagesize的范圍為:[1KB,2KBd)對8個P2P通信對進行并發(fā)最大帶寬壓力測試(滿載帶寬穩(wěn)定性測試),Messagesize設置為1GB,持續(xù)循環(huán)發(fā)包,測試時間12小時;e)通過日志記錄輸出每個P2P通信對的帶寬,以及測試過程中的BER等信息。A1A2A3A4A5A6A7A8T/SAIAS038—2025圖7交換機打流連接示意圖模型訓練測試7.5.1指標及測試方法精度精度指標及測試測試方法,應符合表26所示:表26精度指標及測試方法測試模型訓練電交換集群環(huán)境和純北向環(huán)a)測試模型訓練Loss在光互連電交換集群環(huán)境和純北向環(huán)境下是否正b)測試光互連電交換集群環(huán)境下的模型訓練Loss值 性能性能指標及測試方法,應符合表27所示:表27性能指標及測試方法模型訓練時每張加速卡每秒能處理的Tokenseq_length——模型訓練時實際batchsize,并非每個DP中的batchsiz——第10到第500step的平均的sb)計算性能TGS:性能提升性能提升指標及測試方法,應符合表28所示:表28性能提升指標及測試方法T/SAIAS038—2025光互連電交換環(huán)境下模型訓練的性能對比純北向環(huán)境下模型訓a)根據(jù)計算光互連電交換集群測試環(huán)境下的性能b)根據(jù)計算純北向環(huán)境下的性能TGSN;穩(wěn)定性穩(wěn)定性指標及測試方法,應符合表29所示:表29穩(wěn)定性指標及測試方法模型訓練過程中不中斷持續(xù)運行,值),7.5.2測試流程測試流程如下圖所示:a)測試模型以及訓練相關(guān)參數(shù)應符合5.2要求;b)通過軟件設置測試環(huán)境,本測試環(huán)境為光互連電交換集群測試環(huán)境;c)運行模型訓練腳本,啟動模型訓練;d)若在24小時內(nèi)出現(xiàn)訓練中斷,允許重新進行一次模型訓練,并以最后一次模型訓練結(jié)果為最終結(jié)果;若在24小時內(nèi)未發(fā)生中斷但在72小時內(nèi)出現(xiàn)中斷,則記錄中斷時間為模型穩(wěn)定性時間;若在72小時后訓練未發(fā)生中斷,則手動終止模型訓練,并記錄中斷時間,記錄模型穩(wěn)定性時間為≥72h;e)記錄并計算光互連環(huán)境下的測試指標。測試模型以及訓練相關(guān)有有無有無有無圖8模型訓練測試流程示意圖針對指定的大模型進行推理測試,建議采用官方標準數(shù)據(jù)集,分別采用不同精度(如BF16、FP8和INT8等)進行大模型推理測試。T/SAIAS038—2025表30模型推理性能指標及測試方法從發(fā)送請求到系統(tǒng)生成第一個輸出token的時間。衡量系統(tǒng)對單個請求的響應速a)設置并發(fā)數(shù)列表為[1,8,16,32,64,128],b)每一輪測試配置不同的并發(fā)數(shù)、Input取平均數(shù),測試完成后記錄每一輪測試得d)如果測試過程中出現(xiàn)超出芯片顯存的錯誤,則可以調(diào)整并發(fā)數(shù)、Inputtokens及系統(tǒng)生成每個輸出token所需的時間。系統(tǒng)每秒能夠生成的輸出token數(shù)量,數(shù)性能提升模型推理性能提升指標及測試方法,應符合表31所示:表31模型推理性能提升指標及測試方法光互連電交換環(huán)境下模型推理的性能對比純北向環(huán)境下模型推a)按照測試方法,記錄在光互連電交換集群測試環(huán)境下,每一輪模型推理測試所得到的TTFT、TPOT和TPS的取值;需在b)按照測試方法,記錄在純北向環(huán)境下,每一輪模型推理,——第i輪模型推理性能的TTFT性能提升;,——純北向環(huán)境下,第i輪模型推理性能TTFT。b)若完成n輪模型推理測試,整體TTFT性能提=1——整體TTFT性能提升;T/SAIAS038—2025表31模型推理性能提升指標及測試方法(續(xù)),——第i輪模型推理性能的TPOT性能提升;,——純北向環(huán)境下,第i輪模型推理性能TPOT。b)若完成n輪模型推理測試,整體TPOT性能提=1——整體TPOT性能提升;,——第i輪模型推理性能的TPS性能提升;,——純北向環(huán)境下,第i輪模型推理性能b)若完成n輪模型推理測試,整體TPS性能提升=1——整體TPS性能提升;7.6.2測試流程測試流程如下圖所示:a)測試模型及推理相關(guān)參數(shù)符合5.2要求;b)通過軟件設置測試環(huán)境,本測試環(huán)境為光互連電交換集群測試環(huán)境;c)分別采用不同精度進行測試;d)按照第測試方法,分別配置模型推理腳本的并發(fā)數(shù)、Inputtokens及Outputtokens等參數(shù);e)執(zhí)行模型推理腳本,啟動模型推理過程;f)記錄光互連電交換環(huán)境下的TTFT、TPOT及TPS等各項測試指標,每一輪測試多次取平均值;g)在其它測試條件相同的純北向環(huán)境下,配置相同推理腳本輸入?yún)?shù),進行推理測試,記錄TTFT、TPOT及TPS等各項測試指標,每一輪測試多次取平均值;h)按照測試方法要求,分別計算本輪TTFT、TPOT及TPS性能提升數(shù)據(jù),并進行記錄;i)繼續(xù)執(zhí)行下一輪測試,重復執(zhí)行本測試流程的步驟c至步驟h;j)如果測試過程中出現(xiàn)超出芯片顯存的錯誤時,調(diào)整并發(fā)數(shù)、Inputtokens及Outputtokens參數(shù)的組合繼續(xù)測試;k)所有組合測試完畢,測試完成。配置模型推理腳本的并發(fā)數(shù)、平均值否是圖9模型推理測試流程示意圖T/SAIAS接入?yún)^(qū)(必選)、業(yè)務管理區(qū)(可選)、帶外管理接入?yún)^(qū)(可選),如下圖所示:a)AI計算接入?yún)^(qū)包含1個或多個超節(jié)點,每個超節(jié)點包含至少4臺或服務器(通常每臺服務器配備8張加速卡)、若干個分布式光交換模塊(OCS)和一臺北向RoCE交換機(多個超節(jié)點可以的連接配置,可通過配置OCS實現(xiàn)不同的拓撲。通過配置OCS,b)業(yè)務管理區(qū)包含1臺業(yè)務管理交換機,連接服務器上的帶內(nèi)網(wǎng)卡;c)帶外管理區(qū)包含1臺帶外管理交換機,連接服務器上的帶外網(wǎng)0業(yè)務管理區(qū)0業(yè)務管理區(qū)(可選)交換機NcNG398旎帶外管理交換機帶外管理區(qū)(可選)互連拓撲眾六GPU服務器1GPU服務器nGPUQC5GPUL15GPUoC5GPUOC3GPUC55PUQC3GPU0C5GPn0C5GPUOC5GPU0C5GPUoC5GPU0C5GPnoC53n8)GPUoC5R器×GPU0C5GPU0C5GPncC53GPUQC3GPnoC5GPUoC5GPUGPn0CSCNIGPUNiG(GPU(示意)GPU服務器10hc5GPUoC5GPnoC5GPU0Cs8OC5GPU|8圖10光互連光交換集群測試環(huán)境ttAI計算接入?yún)^(qū)業(yè)務管理區(qū)(可選)北向RoCE交換機S節(jié)點1GPnOC3GPUOC5GPUOCSGPU05GPUGPU0C3GPUOC3GPUGPUoC5GPUOC5GPUoC5GPU0C5GPUPNPUDC5GPnOCsGPnOCsGPnQC3GPUGPUCC5GPUQC5GPUCC3GPnoogGPUPU0C5GPUgC5GdUGPUoC5GPUOC5GPU0C5DC5GPU品隔GPU服務器1NCGPU服務器1交換機帶外管理區(qū)(可選)(示意)大互連拓大會圖11純北向環(huán)境T/SAIAS038—2025基礎性能測試8.2.1指標及測試方法算力算力指標及測試方法,應符合表32所示:表32算力指標及測試方法每秒內(nèi)能夠執(zhí)行的半),每秒內(nèi)能夠執(zhí)行的腦),每秒內(nèi)能夠執(zhí)行的8位),H2D帶寬H2D帶寬指標及測試方法,應符合表33所示:表33H2D帶寬指標及測試方法Device(加速卡)之間),HBM帶寬HBM帶寬指標及測試方法,應符合表34所示:表34HBM帶寬指標及測試方法加速卡中芯片與HBM之),功耗功耗指標及測試測試方法,應符合表35所示:表35功耗指標及測試方法T/SAIAS038—2025集群執(zhí)行任務時系統(tǒng)的總功耗,值越低越);溫度溫度指標及測試方法,應符合表36所示:表36溫度指標及測試方法集群執(zhí)行任務時加速卡的溫度,值越低越8.2.2測試流程測試流程如下:a)通過軟件設置測試環(huán)境為光互連光交換集群測試環(huán)境;b)依據(jù)各個單項指標的測試測試方法,分別執(zhí)行基本性能的測試。通信算法適配測試8.3.1指標及測試方法時延和帶寬時延和帶寬指標及測試方法,應符合表37所示:表37時延和帶寬指標及測試方法從一個加速卡發(fā)送數(shù)據(jù)到另一個加速卡所需的時間,值越低越單位時間內(nèi)可以傳輸b)計算各messagesize下所理論相對誤差理論相對誤差指標及測試方法,應符合表38所示:表38理論相對誤差指標及測試方法T/SAIAS038—2025表38理論相對誤差指標及測試方法(續(xù))差時延理論推導值和實 差帶寬理論推導值和實a)根據(jù)加速卡廠商提供的推導依據(jù)計算理論推導值 ——帶寬理論值;——帶寬實測值。8.3.2測試流程a)測試工具與配置:1)測試工具:使用nccl-test2)測試算子:[all-reduce,all-gather,reduce-scatter,all-to-all]3)測試group的卡的數(shù)目:[4,8,16,32]b)光互連光交換超節(jié)點測試1)測試對象:在不同的卡的數(shù)量條件下(4,8,16,32,64),每個光互連光交換超節(jié)點(通過光互連光交換連接的32或32張以上加速卡構(gòu)成的超節(jié)點)2)輸出指標:Latency:xusBusbandwidth:yGB/s3)測試方法:按messagesize=[1KB,2KB,4KB,….,1GB]依次運行10次,分別取時延和帶寬的平均值4)計算結(jié)果:各messagesize下所有結(jié)果的時延和帶寬的平均值拓撲切換測試8.4.1指標及測試方法拓撲切換靈活度及拓撲切換時延指標和測試方法,應符合表39所示:表39拓撲切換靈活度及拓撲切換時延指標和測試方法從一個拓撲切換到另一個拓撲的支持b)配置系統(tǒng)的加速卡互連拓撲為拓撲二,打印出來該拓撲連接,以此T/SAIAS038—2025延從一個拓撲切換到另一個拓撲所需要8.4.2測試流程測試流程如下:a)通過軟件設置測試環(huán)境為光互連光交換集群測試環(huán)境;b)依據(jù)各個單項指標的測試方法,分別執(zhí)行對應指標項的測試。訓練模型測試8.5.1指標及測試方法精度精度指標及測試方法,應符合表40所示:表40精度指標及測試方法測試模型訓練Loss在光互連光交換集群環(huán)境和純北向環(huán)境下的誤差,值越a)測試模型訓練Loss在光互連光交換集群環(huán)境和純北向環(huán)境下是否正b)測試光互連光交換集群環(huán)境下的模型訓練Loss值LOCd)比較LOCS和LN,從第10步開始,每一步的相對誤差在±1%以內(nèi);需在性能性能指標及測試方法,應符合表41所示:表41性能指標及測試方法T/SAIAS038—2025模型訓練時每張加速卡每秒能處理的seq_length——模型訓練時實際global_batchsize——模型訓練中的global_bat——第10到第500step的平均的ste性能提升性能提升指標及測試方法,應符合表42所示:表42性能提升指標及測試方法光互連光交換環(huán)境下模型訓練的性能對比純北向環(huán)境下模型訓練的性能的提升率,值越高越a)根據(jù)計算光互連光交換集群測試環(huán)境下的性能TGSOb)根據(jù)計算純北向環(huán)境下的性能TGSN;穩(wěn)定性穩(wěn)定性指標及測試方法,應符合表43所示:表43穩(wěn)定性指標及測試方法模型訓練過程中不中斷持續(xù)運行,值),8.5.2測試流程測試流程如下圖所示:a)測試模型以及訓練相關(guān)參數(shù)符合5.2要求;b)通過軟件設置測試環(huán)境,此處為光互連光交換集群測試環(huán)境;c)運行模型訓練腳本,開始模型訓練;d)如果在24小時內(nèi)出現(xiàn)訓練中斷,可重新進行一次模型訓練,結(jié)果以最后一次模型訓練結(jié)果為準;如果24小時內(nèi)無中斷但是72小時內(nèi)有中斷,則記錄中斷時間為最終的模型穩(wěn)定性時間;如果在72小時后訓練無中斷,則手動停止模型訓練,并記錄中斷時間,記錄模型穩(wěn)定性時間有文記錄中斷時間測試模型以及訓練相關(guān)參數(shù)是否符合要求通過軟件設置測試環(huán)境運行模型訓練腳本開始模型訓練有有無24小時之內(nèi)有中斷無72小時之內(nèi)有中斷無手動停止模型訓練,并記錄中斷可以重新進行一次模型訓練24小時之內(nèi)有中斷有記錄中斷時間圖12模型測試流程T/SAIAS038—2025針對指定的大模型進行推理測試,建議采用官方標準數(shù)據(jù)集,分別采用不同精度(如BF16、FP8和INT8等)進行大模型推理測試。推理測試結(jié)果,參照官方標準數(shù)據(jù)集,達到官方CUDA測試數(shù)據(jù)準確率的±5%以內(nèi)。性能模型推理性能指標及測試方法,應符合表44所示:表44模型推理性能指標及測試方法從發(fā)送請求到系統(tǒng)生成第一個輸出a)設置并發(fā)數(shù)列表為[1,8,16,32,64,128],設置b)每一輪測試配置不同的并發(fā)數(shù)、Inputtokens及Outputtokens,來測試不同組合下的模型推理的取平均數(shù),測試完成后記錄每一輪測試得到的TTFT、TPOT、Throughput和TP調(diào)整并發(fā)數(shù)、Inputtokens及Outputtoken性能提升模型推理性能提升指標及測試方法,應符合表45所示:表45模型推理性能提升指標及測試方法光互連光交換環(huán)境下模型推理的性能對比純北向環(huán)境下模型推a)按照測試方法,記錄在光互連光交換集群測試環(huán)境下,b)按照測試方法,記錄在純北向環(huán)境下,每一輪模型推理T/SAIAS038—2025表45模型推理性能提升指標及測試方法(續(xù)),,,——第i輪模型推理性能的TTFT性能提升;,——光互連光交換集群測試環(huán)境下,第i輪模型推理性能,——純北向環(huán)境下,第i輪模型推理性能TTFT。b)若完成n輪模型推理測試,整體TTFT性=1,,,——第i輪模型推理性能的TPOT性能提升;,——光互連光交換集群測試環(huán)境下,第i輪模型推理性能,——純北向環(huán)境下,第i輪模型推理性能TPb)若完成n輪模型推理測試,整體TPOT性=1,,,——第i輪模型推理性能的TPS性能提升;,——純北向環(huán)境下,第i輪模型推理性能TPS。b)若完成n輪模型推理測試,整體TPS性能=18.6.2測試流程測試流程如下圖所示:a)測試模型及推理相關(guān)參數(shù)符合5.2的要求;b)通過軟件設置測試環(huán)境,本測試環(huán)境為光互連光交換集群測試環(huán)境;c)分別采用不同精度進行測試;T/SAIAS038—2025d)按照測試方法,分別配置模型推理腳本的并發(fā)數(shù)、Inputtokens及Outputtokens等參數(shù);e)執(zhí)行模型推理腳本,啟動模型推理過程;f)記錄光互連光交換環(huán)境下的TTFT、TPOT及TPS等各項測試指標,每一輪測試多次取平均值;g)在其它測試條件相同的純北向環(huán)境下,配置相同推理腳本輸入?yún)?shù),進行推理測試,記錄TTFT、TPOT及TPS等各項測試指標,每一輪測試多次取平均值;h)按照測試方法,分別計算本輪TTFT、TPOT及TPS性能提升數(shù)據(jù),并進行記錄;i)繼續(xù)執(zhí)行下一輪測試,重復執(zhí)行本測試流程的步驟c至步驟h;j)如果測試過程中出現(xiàn)超出芯片顯存的錯誤時,調(diào)整并發(fā)數(shù)、Inputtokens及Outputtokens參數(shù)的組合繼續(xù)測試;k)所有組合測試完畢,測試完成。tokens等參數(shù)否是T/SAIAS038—2025(資料性)建議硬件環(huán)境清單表A.1光直連集群機房硬件配置清單12),21支持RoCE網(wǎng)絡,支持200G光口,31支持25Gb光口,41516表A.2光互連電交換集群機房硬件配置清單1光口:GPU計算網(wǎng)口200Gb*2,管21支持RoCE網(wǎng)絡,支持200G光口,31支持25Gb光口,41567T/SAIAS038—2025表A.3光互連光交換集群機房硬件配置清單1光口:GPU計算網(wǎng)口200Gb*2,管21支持RoCE網(wǎng)絡,支持200G光口,31支持25Gb光口,41516T/SAIAS038—2025(資料性)智能算力集群加速卡技術(shù)規(guī)格模板下表給出了NVIDIAH100技術(shù)規(guī)格的示例。表B.1技術(shù)規(guī)格模板示例參數(shù)參數(shù)值型號NVIDIAH100TensorCoreGPU制程工藝TSMC4N晶體管數(shù)量800億核心頻率1590MHz(Base)/1980MHz(Boost)核心數(shù)量16896FP6434teraFLOPSFP64(TensorCore)67teraFLOPSFP3267teraFLOPSTF32(TensorCore)989teraFLOPSBF16(TensorCore)1979teraFLOPSFP16(TensorCore)1979teraFLOPSFP8(Tensor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025山東昌樂北大公學美加學校教師招聘備考筆試題庫及答案解析
- 2025黑龍江哈爾濱啟航勞務派遣有限公司派遣到哈爾濱工業(yè)大學化工與化學學院招聘參考考試試題及答案解析
- 2025湖北武漢市漢口重點初級中學招聘教師3人備考筆試試題及答案解析
- 2026廣西防城港市第二中學春季學期臨聘教師招聘筆試考試備考試題及答案解析
- 2025廣東惠州市第一婦幼保健院招聘第二批員額制衛(wèi)生專業(yè)技術(shù)人員13人模擬筆試試題及答案解析
- 2025廣東深圳市龍崗區(qū)企業(yè)服務中心招聘特聘崗聘員5人參考考試題庫及答案解析
- 雅安市名山區(qū)茗投產(chǎn)業(yè)集團有限公司撤銷“公開招聘合同制員工”備考筆試試題及答案解析
- 2025年哈爾濱南崗區(qū)哈西社區(qū)衛(wèi)生服務中心招聘3人備考考試題庫及答案解析
- 2025山東菏澤曹縣蘇教高級中學教師招聘6人參考考試題庫及答案解析
- 2025湖南長沙博納二附中公開招聘備考筆試題庫及答案解析
- 附表:醫(yī)療美容主診醫(yī)師申請表
- 跌落式熔斷器熔絲故障原因分析
- 2023年全市中職學校學生職業(yè)技能大賽
- 畢節(jié)市織金縣化起鎮(zhèn)污水處理工程環(huán)評報告
- 河流動力學-同濟大學中國大學mooc課后章節(jié)答案期末考試題庫2023年
- 倉庫安全管理檢查表
- 嶺南版美術(shù)科五年級上冊期末素質(zhì)檢測試題附答案
- 以執(zhí)業(yè)醫(yī)師考試為導向的兒科學臨床實習教學改革
- 一年級上冊美術(shù)測試題
- 人口結(jié)構(gòu)演變對人身保險需求的影響分析
- 質(zhì)量檢測見證取樣送檢監(jiān)理實施細則
評論
0/150
提交評論