版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS35.040SAIASEvaluationspecificationforcloudplatformofintelligentcomputingcapabilityIT/SAIAS037—2025 42規(guī)范性引用文件 43術(shù)語(yǔ)和定義 44縮略語(yǔ) 45評(píng)估框架 55.1評(píng)估原則 55.2評(píng)估框架 55.3評(píng)估等級(jí)和評(píng)估方法 55.4評(píng)估流程 56資源調(diào)度及管理功能評(píng)估 66.1多租戶管理 66.2算力管理及分配 66.3鏡像管理 66.4平臺(tái)監(jiān)控 66.5基礎(chǔ)資源調(diào)度 76.6分布式訓(xùn)練調(diào)度 76.7推理服務(wù)調(diào)度 76.8人工智能加速芯片復(fù)合調(diào)用 76.9彈性伸縮 76.10運(yùn)營(yíng)管理 77模型開發(fā)功能評(píng)估 77.1開發(fā)調(diào)試 87.2基礎(chǔ)分布式任務(wù) 87.3模型訓(xùn)練與推理 88模型應(yīng)用功能評(píng)估 88.1預(yù)置大模型 88.2模型體驗(yàn) 88.3模型微調(diào) 88.4非預(yù)置模型管理與部署 98.5用量統(tǒng)計(jì) 99云平臺(tái)性能評(píng)估 99.1芯片算子優(yōu)化性能評(píng)估 99.2分布式訓(xùn)練性能評(píng)估 99.3調(diào)度性能評(píng)估 99.4穩(wěn)定性評(píng)估 910云平臺(tái)安全評(píng)估 10.1數(shù)據(jù)安全 10.2平臺(tái)安全 附錄A(資料性)智能算力云平臺(tái)測(cè)試方法示例 11附錄B(資料性)智能算力云平臺(tái)評(píng)估等級(jí)示例 19附錄C(資料性)智能算力云平臺(tái)等級(jí)自評(píng)報(bào)告模版 20T/SAIAS037—2025參考文獻(xiàn)........................................................................21T/SAIAS037—2025本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別這些專利的責(zé)任。本文件由上海市人工智能行業(yè)協(xié)會(huì)提出并歸口。本文件起草單位:上海智能算力科技有限公司、阿里云計(jì)算有限公司、上海人工智能創(chuàng)新中心、上海無(wú)問芯穹智能科技有限公司、上海儀電(集團(tuán))有限公司、上海市人工智能行業(yè)協(xié)會(huì)、上海埃迪??萍挤?wù)有限公司、上海埃迪西基礎(chǔ)設(shè)施配套建設(shè)有限公司、中興通訊股份有限公司、上海基流科技有限公司、上海壁仞科技股份有限公司、沐曦集成電路(上海)有限公司、上海天數(shù)智芯半導(dǎo)體有限公司、上海燧原科技股份有限公司、上海算豐信息有限公司、上海華東電信研究院、超聚變數(shù)字技術(shù)有限公司、上海科技網(wǎng)絡(luò)通信有限公司本文件主要起草人:孫躍、牛紅星、王琳、辛帥、孫兆群、王翱、秦甘堯、劉俊豪、鄒翔、王任杰、楊婷、王媞、羅高威、邱彭、陸欣、西羽、余健、張振華、曲振斌、裴芝林、鐘普、吳保東、張驍立、趙旭、趙春昊、孟懷宇、于山山、楊毅、秦春華、左羅、馮曉磊、張國(guó)平、陶鈺、夏宇、陳維、丁云帆、黃青青、彭莉、付軒、石加圣、鄒翾、趙安璞、李超、梅敬青、華德宏、王思善、陳達(dá)亮、顧萌、羅捷、鄧志輝、王超、陳香、錢濤、黃雷本標(biāo)準(zhǔn)首次制定。首期執(zhí)行單位:上海無(wú)問芯穹智能科技有限公司、中興通訊股份有限公司、上?;骺萍加邢薰颈疚募鏅?quán)歸上海市人工智能行業(yè)協(xié)會(huì)所有。未經(jīng)許可,不得擅自復(fù)制、轉(zhuǎn)載、抄襲、改編、匯編、翻譯或?qū)⒈緲?biāo)準(zhǔn)用于其他任何商業(yè)目的。4T/SAIAS037—2025智能算力云平臺(tái)評(píng)估規(guī)范本文件規(guī)定了智能算力云平臺(tái)的評(píng)估框架、資源調(diào)度及管理功能評(píng)估、模型開發(fā)功能評(píng)估、模型應(yīng)用功能評(píng)估、云平臺(tái)性能評(píng)估和云平臺(tái)安全評(píng)估的評(píng)估要求。本文件適用于智能算力云平臺(tái)的設(shè)計(jì)、開發(fā)、測(cè)試和運(yùn)維,也可為智能算力平臺(tái)的選型和評(píng)估提供參考依據(jù)。2規(guī)范性引用文件下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T41867-2022信息技術(shù)人工智能術(shù)語(yǔ)3術(shù)語(yǔ)和定義下列術(shù)語(yǔ)和定義適用于本文件。3.1人工智能集群artificialintelligencecluster遵循統(tǒng)一控制的,人工智能計(jì)算功能單元的集合。3.2智能算力云平臺(tái)cloudplatformofintelligentcomputingcapability為智算集群提供資源調(diào)度及管理、模型開發(fā)、模型應(yīng)用以及安全能力的云平臺(tái)。3.3人工智能加速芯片artificialintelligenceacceleratingchip具備適配人工智能算法的運(yùn)算微架構(gòu),能夠完成人工智能應(yīng)用運(yùn)算處理的集成電路元件。3.4預(yù)置大模型presetlargelanguagemodel平臺(tái)預(yù)先集成、部署并優(yōu)化好的生成式大模型服務(wù),使用戶可以直接調(diào)用或基于這些模型進(jìn)行二次開發(fā),避免用戶從零開始訓(xùn)練或自行部署復(fù)雜的模型架構(gòu)。4縮略語(yǔ)下列縮略語(yǔ)適用于本文件。API:應(yīng)用編程接口(ApplicationProgrammingInterface)CPU:中央處理器(CentralProcessingUnit)GPU:圖形處理器(GraphicProcessingUnit)HTTP:超文本傳輸協(xié)議(HyperTextTransferProtocol)HFU:硬件算力利用率(HardwareFLOPsUtilization)MFU:模型算力利用率(ModelFLOPsUtilization)PEFT:參數(shù)高效微調(diào)(Parameter-EfficientFine-Tuning)QPS:每秒查詢率(QueriesPerSecond)RLHF:基于人類反饋的強(qiáng)化學(xué)習(xí)(ReinforcementLearningwithHumanFeedback)SDK:軟件開發(fā)工具包(SoftwareDevelopmentKit)SFT:監(jiān)督微調(diào)(SupervisedFine-Tuning)5SSH:安全外殼(SecureShell)被評(píng)估方應(yīng)如實(shí)提供智能算力云平臺(tái)評(píng)估要求的各項(xiàng)文件,確保文件的完整性、真評(píng)估方、被評(píng)估方應(yīng)基于雙方的保密要求,對(duì)評(píng)估過(guò)程中涉智能算力云平臺(tái)的評(píng)估框架見圖1。智能算力云平臺(tái)為人工智能性能評(píng)估云平臺(tái)性能評(píng)估云平臺(tái)模型開發(fā)功能評(píng)估模型應(yīng)用功能評(píng)估穩(wěn)定穩(wěn)定性調(diào)度性能分布式訓(xùn)練性能芯片算子優(yōu)化性能用量統(tǒng)計(jì)推模蹭翻模型微調(diào)模型體驗(yàn)?zāi)P陀?xùn)練與推理基礎(chǔ)分布式任務(wù)開發(fā)調(diào)試運(yùn)營(yíng)管理彈性伸縮推理服務(wù)調(diào)度分布式訓(xùn)練調(diào)度基礎(chǔ)資源調(diào)度平臺(tái)監(jiān)控鏡像管理算力管理及分配多租戶管理平臺(tái)平臺(tái)安全數(shù)據(jù)安全智能算力云平臺(tái)的評(píng)估等級(jí)分為基礎(chǔ)級(jí)、提升級(jí)和引領(lǐng)級(jí)。基礎(chǔ)級(jí)能力子域要求(“應(yīng)xx”條款);提升級(jí)和引領(lǐng)級(jí)滿足第6章~第10章必選的各能力子域要求(款),且滿足部分或全部可選能力子域要求(“宜xx”條款),引領(lǐng)級(jí)滿足的可選能力子域要求的數(shù)量應(yīng)5.4評(píng)估流程6T/SAIAS037—2025被評(píng)估方按照評(píng)估要求,自愿向評(píng)估管理機(jī)構(gòu)提交申請(qǐng)及支撐性材料,包括智能算力云平臺(tái)等級(jí)自評(píng)報(bào)告及相關(guān)證明材料。智能算力云平臺(tái)等級(jí)自評(píng)報(bào)告模版見附錄C。5.4.2評(píng)估審查評(píng)估管理機(jī)構(gòu)委任評(píng)估專家組或委托第三方評(píng)估機(jī)構(gòu)開展評(píng)估審查,包括:a)依據(jù)5.3的評(píng)估方法,對(duì)自評(píng)報(bào)告及相關(guān)證明材料進(jìn)行技術(shù)審查;b)對(duì)需要現(xiàn)場(chǎng)確認(rèn)的評(píng)估指標(biāo),進(jìn)行實(shí)地檢查和(或)測(cè)試驗(yàn)證;c)依據(jù)5.3的評(píng)估方法,對(duì)各能力子域進(jìn)行符合性評(píng)定,計(jì)算出符合的條款數(shù)量和對(duì)應(yīng)的評(píng)估等級(jí),經(jīng)過(guò)復(fù)核后,形成最終評(píng)估結(jié)果;d)宜明確評(píng)估結(jié)果的有效期。5.4.3評(píng)估報(bào)備評(píng)估專家組或第三方評(píng)估機(jī)構(gòu)向評(píng)估管理機(jī)構(gòu)報(bào)備評(píng)估結(jié)果。5.4.4重新評(píng)估在評(píng)估結(jié)果有效期到期、評(píng)估標(biāo)準(zhǔn)變動(dòng)等條件下,可開展重新評(píng)估,重新評(píng)估流程應(yīng)符合5.4.1、5.4.2和5.4.3的要求。6資源調(diào)度及管理功能評(píng)估6.1多租戶管理多租戶管理的評(píng)估要求如下:a)應(yīng)支持租戶創(chuàng)建與管理、資源隔離、用戶與權(quán)限管理等功能;b)應(yīng)確保各租戶之間的資源和數(shù)據(jù)隔離性;c)應(yīng)支持靈活的資源分配和權(quán)限控制。6.2算力管理及分配算力管理及分配的評(píng)估要求如下:a)應(yīng)支持對(duì)服務(wù)器資源、異構(gòu)算力資源、存儲(chǔ)資源和網(wǎng)絡(luò)資源的管理功能;b)應(yīng)支持對(duì)資源的分配、資源監(jiān)控;c)應(yīng)支持對(duì)用戶算力資源使用的全生命周期管理,包括從算力資源申請(qǐng)、創(chuàng)建、部署運(yùn)行、計(jì)量到釋放關(guān)閉的全生命周期管理;d)應(yīng)支持按實(shí)際算力納管與調(diào)度需求創(chuàng)建智算集群;e)應(yīng)支持不少于5家人工智能加速芯片的資源管理;f)應(yīng)支持高性能文件存儲(chǔ)客戶端集群部署及文件系統(tǒng)掛載;g)應(yīng)支持基于集群和節(jié)點(diǎn)的計(jì)量能力,宜支持GPU、CPU、內(nèi)存等資源的計(jì)量能力。h)宜支持大規(guī)模異構(gòu)算力資源的納管和調(diào)度能力。6.3鏡像管理鏡像管理的評(píng)估要求如下:a)應(yīng)支持對(duì)鏡像上傳、下載、版本管理以及在不同工作場(chǎng)景中的使用;b)應(yīng)確保鏡像管理的可操作性;c)應(yīng)支持鏡像加速能力,以便容器快速拉起;d)宜支持最小化拉取鏡像中依賴的分層功能,提升實(shí)例啟動(dòng)速度。6.4平臺(tái)監(jiān)控平臺(tái)監(jiān)控的評(píng)估要求如下:a)應(yīng)支持租戶監(jiān)控功能,包括每個(gè)租戶的各類人工智能加速芯片資源的可用數(shù)量和已使用數(shù)量等信息;7T/SAIAS037—2025b)應(yīng)支持任務(wù)執(zhí)行過(guò)程中的資源使用情況監(jiān)控,包括任務(wù)執(zhí)行過(guò)程中對(duì)CPU、人工智能加速芯片、內(nèi)存等資源消耗監(jiān)控功能和日志審計(jì)功能;c)應(yīng)支持對(duì)智算集群的故障一鍵診斷;d)宜支持CPU、內(nèi)存、存儲(chǔ)、人工智能加速芯片、網(wǎng)絡(luò)資源等維度的負(fù)載率監(jiān)控;e)宜支持實(shí)時(shí)資源監(jiān)控、任務(wù)資源監(jiān)控、多維度監(jiān)控以及告警功能,確保系統(tǒng)能夠?qū)崟r(shí)發(fā)現(xiàn)并處理資源消耗異常、性能瓶頸。6.5基礎(chǔ)資源調(diào)度基礎(chǔ)資源調(diào)度的評(píng)估要求如下:a)應(yīng)支持至少2種調(diào)度策略,如拓?fù)涓兄{(diào)度、優(yōu)先級(jí)調(diào)度、故障感知調(diào)度等;b)應(yīng)確保任務(wù)能夠在多種調(diào)度策略下高效執(zhí)行,并優(yōu)化資源利用率;c)應(yīng)具備人工智能加速芯片資源的拓?fù)涓兄芰?,平臺(tái)自動(dòng)匹配最優(yōu)的資源組合進(jìn)行調(diào)度;d)宜支持利用統(tǒng)一的負(fù)載均衡或其他技術(shù)跨集群調(diào)用資源;6.6分布式訓(xùn)練調(diào)度分布式訓(xùn)練調(diào)度的評(píng)估要求如下:a)應(yīng)支持在分布式場(chǎng)景下多機(jī)多卡的資源調(diào)度和千卡規(guī)模調(diào)度;b)應(yīng)支持當(dāng)集群空閑節(jié)點(diǎn)未滿足調(diào)度需求時(shí)任務(wù)可以正確被掛起;c)應(yīng)支持彈性訓(xùn)練,支持配置彈性容錯(cuò)區(qū)間,在節(jié)點(diǎn)故障后調(diào)整節(jié)點(diǎn)數(shù)重新拉起任務(wù);d)應(yīng)支持當(dāng)空閑節(jié)點(diǎn)滿足調(diào)度需求時(shí)任務(wù)可以被正常調(diào)度;e)宜支持訓(xùn)練下網(wǎng)卡單網(wǎng)口故障下的高可用性,確保訓(xùn)練不中斷;f)宜支持?jǐn)帱c(diǎn)續(xù)訓(xùn),支持彈性容錯(cuò)配置,配置后支持自動(dòng)加載最近斷點(diǎn)重新拉起訓(xùn)練任務(wù);g)宜支持萬(wàn)卡規(guī)模調(diào)度。6.7推理服務(wù)調(diào)度推理服務(wù)調(diào)度的評(píng)估要求如下:a)應(yīng)支持在推理服務(wù)場(chǎng)景下的資源調(diào)度能力;b)宜支持調(diào)度擴(kuò)展機(jī)制,保障用戶資源配額的同時(shí)支持資源共享,提升集群推理資源利用c)宜支持多種卡的調(diào)度能力,例如1卡、2卡、4卡、8卡、16卡。6.8人工智能加速芯片復(fù)合調(diào)用人工智能加速芯片復(fù)合調(diào)用的評(píng)估要求如下:a)應(yīng)支持在人工智能加速芯片集群中選擇CPU、內(nèi)存資源規(guī)格;b)應(yīng)支持人工智能加速芯片的共享復(fù)用、不同推理服務(wù)共享人工智能加速芯片的調(diào)度和不同實(shí)例被調(diào)度到同一張人工智能加速芯片的能力。6.9彈性伸縮彈性伸縮的評(píng)估要求如下:a)應(yīng)支持智算集群的擴(kuò)縮容,按需增加或減少服務(wù)器數(shù)量;b)應(yīng)支持租戶資源的自動(dòng)伸縮能力,如基于GPU指標(biāo)進(jìn)??動(dòng)擴(kuò)縮容等;c)宜支持人工智能加速芯片的擴(kuò)縮容,按需增加或減少人工智能加速芯片數(shù)量。6.10運(yùn)營(yíng)管理運(yùn)營(yíng)管理的評(píng)估要求如下:a)宜提供向用戶出售算力資源和解決方案的能力;b)宜支持為企業(yè)組織的決策系統(tǒng)提供信息支持,提供資源分析報(bào)告和合理操作建議;c)宜支持對(duì)各類云資源的統(tǒng)一運(yùn)營(yíng)管理,包括帳戶管理、訂單管理、帳單管理、經(jīng)營(yíng)分析等。7模型開發(fā)功能評(píng)估8T/SAIAS037—20257.1開發(fā)調(diào)試開發(fā)調(diào)試的評(píng)估要求如下:a)應(yīng)支持利用開發(fā)機(jī)進(jìn)行開發(fā)調(diào)試(包括網(wǎng)絡(luò)服務(wù)終端、SSH遠(yuǎn)程登錄和主流調(diào)試工具);b)應(yīng)支持在開發(fā)機(jī)內(nèi)使用容器命令自定義環(huán)境;c)應(yīng)支持在開發(fā)機(jī)內(nèi)開放端口進(jìn)行網(wǎng)絡(luò)服務(wù)應(yīng)用調(diào)試;d)應(yīng)支持訓(xùn)練任務(wù)開發(fā)調(diào)試;e)應(yīng)支持推理服務(wù)調(diào)試。7.2基礎(chǔ)分布式任務(wù)基礎(chǔ)分布式任務(wù)的評(píng)估要求如下:a)應(yīng)支持多機(jī)任務(wù)工具能力;b)應(yīng)支持原生運(yùn)行環(huán)境支持能力;c)應(yīng)支持訓(xùn)練工具能力;d)應(yīng)支持任務(wù)的復(fù)制、分配與管理能力;e)應(yīng)支持任務(wù)的監(jiān)控能力,能夠查看任務(wù)運(yùn)行過(guò)程的性能監(jiān)控變化;f)應(yīng)支持任務(wù)的日志能力,能夠在網(wǎng)絡(luò)服務(wù)終端查看任務(wù)輸出的日志信息;g)應(yīng)支持任務(wù)的算力負(fù)載節(jié)點(diǎn)的網(wǎng)絡(luò)服務(wù)終端能力,方便調(diào)試;h)應(yīng)支持使用高性能網(wǎng)絡(luò)進(jìn)行分布式任務(wù);i)應(yīng)支持使用高性能存儲(chǔ)進(jìn)行分布式任務(wù);j)應(yīng)支持使用分布式存儲(chǔ)進(jìn)行分布式任務(wù);k)應(yīng)支持分布式任務(wù)的生命周期管理,包括創(chuàng)建、暫停和繼續(xù)。7.3模型訓(xùn)練與推理模型訓(xùn)練與推理的評(píng)估要求如下:a)應(yīng)支持對(duì)不同參數(shù)規(guī)模,混合專家模型和稠密模型的訓(xùn)練;b)應(yīng)支持模型推理,確保平臺(tái)在訓(xùn)練和多種推理框架下高效執(zhí)行和穩(wěn)定性;c)宜支持訓(xùn)練前的環(huán)境檢測(cè)能力,確保訓(xùn)練任務(wù)啟動(dòng)在正常的計(jì)算資源上;d)宜支持訓(xùn)練容錯(cuò)能力,確保訓(xùn)練任務(wù)在發(fā)生異常時(shí)第一時(shí)間重新恢復(fù)訓(xùn)練,包括測(cè)試訓(xùn)練任務(wù)支持訓(xùn)前檢測(cè),測(cè)試過(guò)程中支持檢查點(diǎn)自動(dòng)備份策略配置,測(cè)試訓(xùn)練任務(wù)異常時(shí)是否進(jìn)行錯(cuò)誤檢查并定位,測(cè)試是否重新調(diào)度算力負(fù)載節(jié)點(diǎn)并且從上一個(gè)檢查點(diǎn)恢復(fù)訓(xùn)練,測(cè)試容錯(cuò)日志是否輸出正常,測(cè)試是否支持最大10次的任務(wù)恢復(fù)次數(shù)。8模型應(yīng)用功能評(píng)估8.1預(yù)置大模型預(yù)置大模型的評(píng)估要求如下:a)應(yīng)預(yù)置多種主流的大語(yǔ)言模型,覆蓋模型介紹以及模型API;b)應(yīng)支持通過(guò)提供模型類型、廠商、模型大小等標(biāo)簽維度對(duì)模型進(jìn)行篩選;c)應(yīng)涵蓋多種主流語(yǔ)言HTTP、SDK的調(diào)用方式;d)應(yīng)正確調(diào)用各類預(yù)置模型并正確返回相應(yīng)結(jié)果;e)宜支持通過(guò)配置模型支持的多種模型采樣參數(shù),并獲得相應(yīng)的響應(yīng)效果。8.2模型體驗(yàn)?zāi)P腕w驗(yàn)的評(píng)估要求如下:a)前端交互模型能力應(yīng)支持以對(duì)話、圖像生成等方式體驗(yàn);b)應(yīng)支持對(duì)模型的參數(shù)配置進(jìn)行修改;c)宜覆蓋多模型在多種芯片上的效果和性能對(duì)比,確保平臺(tái)提供便捷的免腳本的模型驗(yàn)證能力。8.3模型微調(diào)9T/SAIAS037—2025模型微調(diào)的評(píng)估要求如下:a)應(yīng)支持基礎(chǔ)模型的選擇、示例數(shù)據(jù)的查看、數(shù)據(jù)集的配置、訓(xùn)練參數(shù)的配置;b)應(yīng)支持微調(diào)任務(wù)的狀態(tài)查看、生命周期管理能力;c)應(yīng)支持全參微調(diào)、PEFT、RLHF、蒸餾等方法;d)在輸入的數(shù)據(jù)集符合平臺(tái)要求的前提下,平臺(tái)宜支持自動(dòng)完成相應(yīng)的模型微調(diào)任務(wù)。8.4非預(yù)置模型管理與部署非預(yù)置模型管理與部署的評(píng)估要求如下:a)應(yīng)支持用戶自行上傳、導(dǎo)入平臺(tái)支持的大語(yǔ)言模型和多模態(tài)理解模型種類;b)應(yīng)支持用戶導(dǎo)入的模型的基本信息查看和生命周期管理;c)應(yīng)支持基于微調(diào)服務(wù)生產(chǎn)的、或用戶導(dǎo)入的符合平臺(tái)要求的模型的部署服務(wù);d)應(yīng)支持部署基于量化任務(wù)生產(chǎn)的模型;e)應(yīng)支持部署服務(wù)的生命周期管理和服務(wù)調(diào)用能力;f)應(yīng)支持用戶導(dǎo)入的生圖模型被用于用戶導(dǎo)入的圖像工作流使用;g)宜支持用戶部署定制模型,并可用與調(diào)用預(yù)置模型API類似的方式,調(diào)用部署的模型服務(wù)。8.5用量統(tǒng)計(jì)用量統(tǒng)計(jì)的評(píng)估要求如下:a)應(yīng)統(tǒng)計(jì)不同時(shí)間段大語(yǔ)言模型、多模態(tài)模型等調(diào)用的模型范圍和調(diào)用產(chǎn)生的token(詞元)數(shù)量;b)應(yīng)統(tǒng)計(jì)不同時(shí)間段用戶發(fā)起的模型微調(diào)任務(wù)數(shù)量、訓(xùn)練使用的token數(shù)量以及訓(xùn)練時(shí)長(zhǎng);c)應(yīng)統(tǒng)計(jì)不同時(shí)間段用戶調(diào)用的工作流的數(shù)量、任務(wù)次數(shù)、狀態(tài)、運(yùn)行時(shí)長(zhǎng)等關(guān)鍵信息;d)宜支持多維度的功能模塊用量統(tǒng)計(jì)能力。9云平臺(tái)性能評(píng)估9.1芯片算子優(yōu)化性能評(píng)估芯片算子優(yōu)化性能評(píng)估要求如下:a)平臺(tái)應(yīng)支持不同型號(hào)芯片算子,并確保GPU運(yùn)算性能、正確性、穩(wěn)定性;b)平臺(tái)宜支持網(wǎng)絡(luò)通信庫(kù)的優(yōu)化;c)平臺(tái)宜支持對(duì)通信庫(kù)的通信優(yōu)化。9.2分布式訓(xùn)練性能評(píng)估分布式訓(xùn)練性能評(píng)估要求如下:a)應(yīng)支持同構(gòu)同集群訓(xùn)練,在不同訓(xùn)練框架下測(cè)試多種模態(tài)模型(多模態(tài)理解模型/大語(yǔ)言模型)在同構(gòu)同集群環(huán)境下不同型號(hào)芯片上訓(xùn)練的硬件利用率HFU及吞吐率;b)應(yīng)支持在訓(xùn)練過(guò)程中進(jìn)行訓(xùn)練過(guò)程觀測(cè),包含損失值、梯度值等;c)應(yīng)支持訓(xùn)練性能分析,評(píng)估特定模型在分布式訓(xùn)練過(guò)程中產(chǎn)生的性能抖動(dòng),性能指標(biāo)包括訓(xùn)練任務(wù)期間各周期各階段用時(shí)分布與走勢(shì);d)應(yīng)支持訓(xùn)練任務(wù)對(duì)不同型號(hào)芯片的物理拓?fù)涓兄籩)應(yīng)支持分布式訓(xùn)練任務(wù)在網(wǎng)元、網(wǎng)際鏈路、GPU卡等維度的性能可視化分析。9.3調(diào)度性能評(píng)估調(diào)度性能評(píng)估要求如下:a)應(yīng)支持單集群內(nèi)多個(gè)不同算力子任務(wù)并行進(jìn)行,評(píng)估集群性能拓展性;b)應(yīng)支持調(diào)度性能評(píng)估,測(cè)試的調(diào)度性能指標(biāo)包括GPU利用率、多卡集群加速比、單周期吞吐速率、單周期各階段用時(shí)占比。9.4穩(wěn)定性評(píng)估9.4.1算力穩(wěn)定性T/SAIAS037—2025穩(wěn)定性的評(píng)估要求如下:a)云平臺(tái)應(yīng)確保在容器、GPU、操作系統(tǒng)、網(wǎng)絡(luò)等資源層面具備診斷能力;b)云平臺(tái)應(yīng)確保在硬件故障情況下的響應(yīng)能力和恢復(fù)速度;c)云平臺(tái)應(yīng)確保在實(shí)際工作負(fù)載下的可靠性和魯棒性;d)云平臺(tái)宜確保容錯(cuò)功能的自動(dòng)故障檢測(cè)和重新調(diào)度。9.4.2平臺(tái)穩(wěn)定性平臺(tái)穩(wěn)定性的評(píng)估要求如下:a)云平臺(tái)應(yīng)確保容器化Linux實(shí)例的各個(gè)生命周期階段的穩(wěn)定性,包括啟動(dòng)、運(yùn)行和管理;b)云平臺(tái)應(yīng)確保資源分配的準(zhǔn)確性和效率(通過(guò)測(cè)試人工智能加速芯片的掛載和使用情況);c)云平臺(tái)應(yīng)確保訓(xùn)練任務(wù)的資源可用性鏈路的拓?fù)淇梢暬芰?;d)云平臺(tái)應(yīng)確保在大規(guī)模訓(xùn)練場(chǎng)景(千卡以上)下節(jié)點(diǎn)的資源監(jiān)控有效性;e)云平臺(tái)宜確保持續(xù)負(fù)載下的穩(wěn)定性,包括資源管理、負(fù)載均衡和系統(tǒng)響應(yīng)等方面。10云平臺(tái)安全評(píng)估10.1數(shù)據(jù)安全數(shù)據(jù)安全的評(píng)估要求如下:a)云平臺(tái)應(yīng)提供數(shù)據(jù)訪問控制和權(quán)限管理,提供數(shù)據(jù)在存儲(chǔ)和傳輸過(guò)程中的數(shù)據(jù)加密;b)云平臺(tái)應(yīng)具備數(shù)據(jù)備份和恢復(fù)機(jī)制,確保在發(fā)生意外時(shí)能快速恢復(fù)重要數(shù)據(jù);c)云平臺(tái)應(yīng)支持?jǐn)?shù)據(jù)資源接入,數(shù)據(jù)識(shí)別、數(shù)據(jù)脫敏、數(shù)據(jù)審計(jì)、敏感數(shù)據(jù)保護(hù)等功能。10.2平臺(tái)安全平臺(tái)安全的評(píng)估要求如下:a)云平臺(tái)應(yīng)具備安全防護(hù)體系,包括物理設(shè)施安全、操作系統(tǒng)安全、虛擬化安全、應(yīng)用安全、運(yùn)維安全、賬號(hào)安全等;b)云平臺(tái)應(yīng)提供公網(wǎng)訪問接口的安全防護(hù)機(jī)制;c)云平臺(tái)應(yīng)提供平臺(tái)的用戶認(rèn)證和授權(quán)機(jī)制;d)云平臺(tái)應(yīng)提供容器的隔離性,避免存在容器逃逸風(fēng)險(xiǎn);e)云平臺(tái)應(yīng)提供網(wǎng)絡(luò)安全策略和防火墻配置功能,確保有效防御網(wǎng)絡(luò)攻擊,識(shí)別和修復(fù)潛在的安全漏洞;f)云平臺(tái)應(yīng)提供密鑰管理能力,并支持用戶自主創(chuàng)建、管理、使用密鑰;g)云平臺(tái)宜根據(jù)組織架構(gòu)和資源集進(jìn)行權(quán)限、資產(chǎn)的管理控制,支持資產(chǎn)導(dǎo)入、資產(chǎn)管理、資產(chǎn)識(shí)別以及風(fēng)險(xiǎn)分析處置。T/SAIAS037—2025附錄A(資料性)智能算力云平臺(tái)測(cè)試方法示例A.1資源調(diào)度及管理平臺(tái)功能評(píng)估A.1.1多租戶管理理A.1.2平臺(tái)監(jiān)控T/SAIAS037—2025A.1.3鏡像管理A.2模型開發(fā)平臺(tái)功能評(píng)估A.2.1模型訓(xùn)練與推理T/SAIAS037—2025A.3模型應(yīng)用平臺(tái)功能評(píng)估A.3.1預(yù)置大模型大語(yǔ)言模型API調(diào)用:基于平臺(tái)提供的調(diào)用示例,配置有效的API密鑰,輸入請(qǐng)求內(nèi)容大語(yǔ)言模型參數(shù)配置:基于有效的API密鑰,文生圖模型API調(diào)用:基于平臺(tái)提供的調(diào)用示文生圖模型API調(diào)用:基于平臺(tái)提供的調(diào)用示例,配置有效的API密鑰,輸入圖像信息,獲T/SAIAS037—2025生圖大模型參數(shù)配置:基于有效的API密鑰,容配置無(wú)效的API密鑰,輸入調(diào)用內(nèi)容多編程語(yǔ)言API調(diào)用驗(yàn)證:基于平臺(tái)提供的調(diào)用示例,配置環(huán)境,有效的API密鑰,輸入調(diào)用型A.3.2模型體驗(yàn)果成A.3.3模型微調(diào)T/SAIAS037—2025A.3.4非預(yù)置模型管理與部署T/SAIAS037—2025證標(biāo)A.3.5用量統(tǒng)計(jì)通過(guò)API或體驗(yàn)中心使用模型,至少發(fā)生一次完面均顯示為0以上值均為0關(guān)統(tǒng)計(jì)值均顯示為0A.4性能評(píng)估T/SAIAS037—20252.每隔一段時(shí)間,增加或減少一個(gè)工作負(fù)3.持續(xù)監(jiān)控平臺(tái)的CPU使用率、內(nèi)存占用、4.記錄開發(fā)框架的最小單元調(diào)度情況、資源分A.5云平臺(tái)安全評(píng)估使用AcunetixWebVulnerabi使用Xray(網(wǎng)絡(luò)安全掃描工具)對(duì)平臺(tái)進(jìn)行使用Goby(圖形化漏洞掃描工具)對(duì)平臺(tái)進(jìn)可完成API密鑰的創(chuàng)建,名稱保持一致??蓜?chuàng)建多個(gè)API密鑰。API密鑰的管理能力驗(yàn)證:針對(duì)已創(chuàng)建的API密鑰,用戶可點(diǎn)擊啟用、禁用API密鑰API密鑰的使用預(yù)先條件校驗(yàn):新創(chuàng)建的APIAPI密鑰的使用預(yù)先條件校驗(yàn):復(fù)制API密T/SAIAS037—2025入新的API密鑰名稱,點(diǎn)擊提交T/SAIAS037—2025(資料性)智能算力云平臺(tái)評(píng)估等級(jí)示例智能算力云平臺(tái)評(píng)估等級(jí)的基礎(chǔ)級(jí)僅滿足所有必選要求,提升級(jí)和引領(lǐng)級(jí)滿足的可選要求數(shù)量可參考六西格瑪管理統(tǒng)計(jì)學(xué)。其中,提升級(jí)滿足所有必選要求且至少滿足1個(gè)西格瑪,26個(gè)可選要求的30.23%,即8條可選要求;引領(lǐng)級(jí)在提升級(jí)的基礎(chǔ)上,還要至少1個(gè)西格瑪,(26-8)x(1-30.23%),即21條可選要求。依據(jù)上述等級(jí)要求的具體評(píng)估等級(jí)示例見表B.1。表B.1智能算力云平臺(tái)評(píng)估等級(jí)示例能力域能力子域基礎(chǔ)級(jí)提升級(jí)引領(lǐng)級(jí)資源調(diào)度及管理功能多租戶管理算力管理及分配6.2a)~g)6.26.2鏡像管理6.3a)~c)6.36.3平臺(tái)監(jiān)控6.4a)~c)6.46.4基礎(chǔ)資源調(diào)度6.5a)~c)6.5a)~c)6.5分布式訓(xùn)練調(diào)度6.6a)~d)6.6a)~d)6.6推理服務(wù)調(diào)度6
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- (拓展拔高)2025-2026學(xué)年下學(xué)期人教統(tǒng)編版小學(xué)語(yǔ)文五年級(jí)第七單元練習(xí)卷
- 2026福建廈門市集美實(shí)驗(yàn)學(xué)校產(chǎn)假頂崗教師招聘2人筆試模擬試題及答案解析
- 2026年常州紡織服裝職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)筆試模擬試題帶答案解析
- 2026鄂爾多斯應(yīng)用技術(shù)學(xué)院附屬醫(yī)院招聘15名控制數(shù)工作人員筆試備考試題及答案解析
- 2026四川簡(jiǎn)州空港建設(shè)集團(tuán)有限公司招聘勞務(wù)派遣人員1人筆試備考題庫(kù)及答案解析
- 2026浙江紹興市新昌縣教體系統(tǒng)校園招聘教師27人(第1號(hào))筆試模擬試題及答案解析
- 2026廣東深圳市蛇口育才教育集團(tuán)育才三中招聘初中道法、數(shù)學(xué)教師2人筆試備考題庫(kù)及答案解析
- 2026年杭州市蕭山區(qū)面向高校畢業(yè)生提前批招聘教師245人筆試模擬試題及答案解析
- 2026年福建體育職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試參考題庫(kù)帶答案解析
- 2026年昆明冶金高等專科學(xué)校招募職業(yè)教育銀齡教師(9人)筆試模擬試題及答案解析
- GB/T 46075.1-2025電子束焊機(jī)驗(yàn)收檢驗(yàn)第1部分:原則與驗(yàn)收條件
- DB21-T 1844-2022 保溫裝飾板外墻外保溫工程技術(shù)規(guī)程
- 艾梅乙安全助產(chǎn)培訓(xùn)課件
- (2025年標(biāo)準(zhǔn))sm調(diào)教協(xié)議書
- TCES 109-2022 舌診儀 第一部分:一般要求
- 2025秋季學(xué)期國(guó)開電大法律事務(wù)專科《民法學(xué)(1)》期末紙質(zhì)考試多項(xiàng)選擇題題庫(kù)珍藏版
- 省外實(shí)習(xí)管理辦法
- 合肥168招聘數(shù)學(xué)試卷
- 車輛無(wú)租金租賃合同范本
- 人力賦能春節(jié)營(yíng)銷
- 建筑地面工程質(zhì)量檢驗(yàn)規(guī)范
評(píng)論
0/150
提交評(píng)論