智能算力云平臺評估規(guī)范_第1頁
智能算力云平臺評估規(guī)范_第2頁
智能算力云平臺評估規(guī)范_第3頁
智能算力云平臺評估規(guī)范_第4頁
智能算力云平臺評估規(guī)范_第5頁
已閱讀5頁,還剩35頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS35.040SAIASEvaluationspecificationforcloudplatformofintelligentcomputingcapabilityIT/SAIAS037—2025 42規(guī)范性引用文件 43術(shù)語和定義 44縮略語 45評估框架 55.1評估原則 55.2評估框架 55.3評估等級和評估方法 55.4評估流程 56資源調(diào)度及管理功能評估 66.1多租戶管理 66.2算力管理及分配 66.3鏡像管理 66.4平臺監(jiān)控 66.5基礎(chǔ)資源調(diào)度 76.6分布式訓(xùn)練調(diào)度 76.7推理服務(wù)調(diào)度 76.8人工智能加速芯片復(fù)合調(diào)用 76.9彈性伸縮 76.10運營管理 77模型開發(fā)功能評估 77.1開發(fā)調(diào)試 87.2基礎(chǔ)分布式任務(wù) 87.3模型訓(xùn)練與推理 88模型應(yīng)用功能評估 88.1預(yù)置大模型 88.2模型體驗 88.3模型微調(diào) 88.4非預(yù)置模型管理與部署 98.5用量統(tǒng)計 99云平臺性能評估 99.1芯片算子優(yōu)化性能評估 99.2分布式訓(xùn)練性能評估 99.3調(diào)度性能評估 99.4穩(wěn)定性評估 910云平臺安全評估 10.1數(shù)據(jù)安全 10.2平臺安全 附錄A(資料性)智能算力云平臺測試方法示例 11附錄B(資料性)智能算力云平臺評估等級示例 19附錄C(資料性)智能算力云平臺等級自評報告模版 20T/SAIAS037—2025參考文獻........................................................................21T/SAIAS037—2025本文件按照GB/T1.1—2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別這些專利的責任。本文件由上海市人工智能行業(yè)協(xié)會提出并歸口。本文件起草單位:上海智能算力科技有限公司、阿里云計算有限公司、上海人工智能創(chuàng)新中心、上海無問芯穹智能科技有限公司、上海儀電(集團)有限公司、上海市人工智能行業(yè)協(xié)會、上海埃迪??萍挤?wù)有限公司、上海埃迪西基礎(chǔ)設(shè)施配套建設(shè)有限公司、中興通訊股份有限公司、上?;骺萍加邢薰尽⑸虾1谪鹂萍脊煞萦邢薰?、沐曦集成電路(上海)有限公司、上海天數(shù)智芯半導(dǎo)體有限公司、上海燧原科技股份有限公司、上海算豐信息有限公司、上海華東電信研究院、超聚變數(shù)字技術(shù)有限公司、上海科技網(wǎng)絡(luò)通信有限公司本文件主要起草人:孫躍、牛紅星、王琳、辛帥、孫兆群、王翱、秦甘堯、劉俊豪、鄒翔、王任杰、楊婷、王媞、羅高威、邱彭、陸欣、西羽、余健、張振華、曲振斌、裴芝林、鐘普、吳保東、張驍立、趙旭、趙春昊、孟懷宇、于山山、楊毅、秦春華、左羅、馮曉磊、張國平、陶鈺、夏宇、陳維、丁云帆、黃青青、彭莉、付軒、石加圣、鄒翾、趙安璞、李超、梅敬青、華德宏、王思善、陳達亮、顧萌、羅捷、鄧志輝、王超、陳香、錢濤、黃雷本標準首次制定。首期執(zhí)行單位:上海無問芯穹智能科技有限公司、中興通訊股份有限公司、上海基流科技有限公司本文件版權(quán)歸上海市人工智能行業(yè)協(xié)會所有。未經(jīng)許可,不得擅自復(fù)制、轉(zhuǎn)載、抄襲、改編、匯編、翻譯或?qū)⒈緲藴视糜谄渌魏紊虡I(yè)目的。4T/SAIAS037—2025智能算力云平臺評估規(guī)范本文件規(guī)定了智能算力云平臺的評估框架、資源調(diào)度及管理功能評估、模型開發(fā)功能評估、模型應(yīng)用功能評估、云平臺性能評估和云平臺安全評估的評估要求。本文件適用于智能算力云平臺的設(shè)計、開發(fā)、測試和運維,也可為智能算力平臺的選型和評估提供參考依據(jù)。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T41867-2022信息技術(shù)人工智能術(shù)語3術(shù)語和定義下列術(shù)語和定義適用于本文件。3.1人工智能集群artificialintelligencecluster遵循統(tǒng)一控制的,人工智能計算功能單元的集合。3.2智能算力云平臺cloudplatformofintelligentcomputingcapability為智算集群提供資源調(diào)度及管理、模型開發(fā)、模型應(yīng)用以及安全能力的云平臺。3.3人工智能加速芯片artificialintelligenceacceleratingchip具備適配人工智能算法的運算微架構(gòu),能夠完成人工智能應(yīng)用運算處理的集成電路元件。3.4預(yù)置大模型presetlargelanguagemodel平臺預(yù)先集成、部署并優(yōu)化好的生成式大模型服務(wù),使用戶可以直接調(diào)用或基于這些模型進行二次開發(fā),避免用戶從零開始訓(xùn)練或自行部署復(fù)雜的模型架構(gòu)。4縮略語下列縮略語適用于本文件。API:應(yīng)用編程接口(ApplicationProgrammingInterface)CPU:中央處理器(CentralProcessingUnit)GPU:圖形處理器(GraphicProcessingUnit)HTTP:超文本傳輸協(xié)議(HyperTextTransferProtocol)HFU:硬件算力利用率(HardwareFLOPsUtilization)MFU:模型算力利用率(ModelFLOPsUtilization)PEFT:參數(shù)高效微調(diào)(Parameter-EfficientFine-Tuning)QPS:每秒查詢率(QueriesPerSecond)RLHF:基于人類反饋的強化學習(ReinforcementLearningwithHumanFeedback)SDK:軟件開發(fā)工具包(SoftwareDevelopmentKit)SFT:監(jiān)督微調(diào)(SupervisedFine-Tuning)5T/SAIAS037—2025SSH:安全外殼(SecureShell)5評估框架5.1評估原則5.1.1客觀性被評估方應(yīng)如實提供智能算力云平臺評估要求的各項文件,確保文件的完整性、真實性和準確性。評估方應(yīng)客觀、準確地對被評估方進行評估,對各項文件、相關(guān)資料進行評審、分析,真實準確地評估智能算力云平臺的等級。5.1.2可追溯性評估過程應(yīng)有完整的文檔記錄。評估方應(yīng)對支撐評估結(jié)果的文件進行歸檔、備案,確保相關(guān)結(jié)果可追溯。5.1.3保密性評估方、被評估方應(yīng)基于雙方的保密要求,對評估過程中涉及的相關(guān)材料進行妥善保管和處理。5.2評估框架智能算力云平臺的評估框架見圖1。智能算力云平臺為人工智能集群提供資源調(diào)度及管理、模型開發(fā)和應(yīng)用以及安全能力,平臺的評估框架主要包括資源調(diào)度及管理功能評估、模型開發(fā)功能評估、模型應(yīng)用功能評估、云平臺性能評估和云平臺安全評估。智能算力云平臺不同能力子域的測試方法示例見附錄A。圖1智能算力云平臺評估框架5.3評估等級和評估方法智能算力云平臺的評估等級分為基礎(chǔ)級、提升級和引領(lǐng)級。基礎(chǔ)級僅滿足第6章~第10章必選的各能力子域要求(“應(yīng)xx”條款);提升級和引領(lǐng)級滿足第6章~第10章必選的各能力子域要求(“應(yīng)xx”條款),且滿足部分或全部可選能力子域要求(“宜xx”條款),引領(lǐng)級滿足的可選能力子域要求的數(shù)量應(yīng)大于提升級。智能算力云平臺的評估等級示例見附錄B。依據(jù)5.1的評估原則和第6章~第10章的評估要求,對各能力子域進行評分,計算出各能力子域的評分加和,由評估機構(gòu)給出對應(yīng)的評估等級。5.4評估流程5.4.1評估申請6T/SAIAS037—2025被評估方按照評估要求,自愿向評估管理機構(gòu)提交申請及支撐性材料,包括智能算力云平臺等級自評報告及相關(guān)證明材料。智能算力云平臺等級自評報告模版見附錄C。5.4.2評估審查評估管理機構(gòu)委任評估專家組或委托第三方評估機構(gòu)開展評估審查,包括:a)依據(jù)5.3的評估方法,對自評報告及相關(guān)證明材料進行技術(shù)審查;b)對需要現(xiàn)場確認的評估指標,進行實地檢查和(或)測試驗證;c)依據(jù)5.3的評估方法,對各能力子域進行符合性評定,計算出符合的條款數(shù)量和對應(yīng)的評估等級,經(jīng)過復(fù)核后,形成最終評估結(jié)果;d)宜明確評估結(jié)果的有效期。5.4.3評估報備評估專家組或第三方評估機構(gòu)向評估管理機構(gòu)報備評估結(jié)果。5.4.4重新評估在評估結(jié)果有效期到期、評估標準變動等條件下,可開展重新評估,重新評估流程應(yīng)符合5.4.1、5.4.2和5.4.3的要求。6資源調(diào)度及管理功能評估6.1多租戶管理多租戶管理的評估要求如下:a)應(yīng)支持租戶創(chuàng)建與管理、資源隔離、用戶與權(quán)限管理等功能;b)應(yīng)確保各租戶之間的資源和數(shù)據(jù)隔離性;c)應(yīng)支持靈活的資源分配和權(quán)限控制。6.2算力管理及分配算力管理及分配的評估要求如下:a)應(yīng)支持對服務(wù)器資源、異構(gòu)算力資源、存儲資源和網(wǎng)絡(luò)資源的管理功能;b)應(yīng)支持對資源的分配、資源監(jiān)控;c)應(yīng)支持對用戶算力資源使用的全生命周期管理,包括從算力資源申請、創(chuàng)建、部署運行、計量到釋放關(guān)閉的全生命周期管理;d)應(yīng)支持按實際算力納管與調(diào)度需求創(chuàng)建智算集群;e)應(yīng)支持不少于5家人工智能加速芯片的資源管理;f)應(yīng)支持高性能文件存儲客戶端集群部署及文件系統(tǒng)掛載;g)應(yīng)支持基于集群和節(jié)點的計量能力,宜支持GPU、CPU、內(nèi)存等資源的計量能力。h)宜支持大規(guī)模異構(gòu)算力資源的納管和調(diào)度能力。6.3鏡像管理鏡像管理的評估要求如下:a)應(yīng)支持對鏡像上傳、下載、版本管理以及在不同工作場景中的使用;b)應(yīng)確保鏡像管理的可操作性;c)應(yīng)支持鏡像加速能力,以便容器快速拉起;d)宜支持最小化拉取鏡像中依賴的分層功能,提升實例啟動速度。6.4平臺監(jiān)控平臺監(jiān)控的評估要求如下:a)應(yīng)支持租戶監(jiān)控功能,包括每個租戶的各類人工智能加速芯片資源的可用數(shù)量和已使用數(shù)量等信息;7T/SAIAS037—2025b)應(yīng)支持任務(wù)執(zhí)行過程中的資源使用情況監(jiān)控,包括任務(wù)執(zhí)行過程中對CPU、人工智能加速芯片、內(nèi)存等資源消耗監(jiān)控功能和日志審計功能;c)應(yīng)支持對智算集群的故障一鍵診斷;d)宜支持CPU、內(nèi)存、存儲、人工智能加速芯片、網(wǎng)絡(luò)資源等維度的負載率監(jiān)控;e)宜支持實時資源監(jiān)控、任務(wù)資源監(jiān)控、多維度監(jiān)控以及告警功能,確保系統(tǒng)能夠?qū)崟r發(fā)現(xiàn)并處理資源消耗異常、性能瓶頸。6.5基礎(chǔ)資源調(diào)度基礎(chǔ)資源調(diào)度的評估要求如下:a)應(yīng)支持至少2種調(diào)度策略,如拓撲感知調(diào)度、優(yōu)先級調(diào)度、故障感知調(diào)度等;b)應(yīng)確保任務(wù)能夠在多種調(diào)度策略下高效執(zhí)行,并優(yōu)化資源利用率;c)應(yīng)具備人工智能加速芯片資源的拓撲感知能力,平臺自動匹配最優(yōu)的資源組合進行調(diào)度;d)宜支持利用統(tǒng)一的負載均衡或其他技術(shù)跨集群調(diào)用資源;6.6分布式訓(xùn)練調(diào)度分布式訓(xùn)練調(diào)度的評估要求如下:a)應(yīng)支持在分布式場景下多機多卡的資源調(diào)度和千卡規(guī)模調(diào)度;b)應(yīng)支持當集群空閑節(jié)點未滿足調(diào)度需求時任務(wù)可以正確被掛起;c)應(yīng)支持彈性訓(xùn)練,支持配置彈性容錯區(qū)間,在節(jié)點故障后調(diào)整節(jié)點數(shù)重新拉起任務(wù);d)應(yīng)支持當空閑節(jié)點滿足調(diào)度需求時任務(wù)可以被正常調(diào)度;e)宜支持訓(xùn)練下網(wǎng)卡單網(wǎng)口故障下的高可用性,確保訓(xùn)練不中斷;f)宜支持斷點續(xù)訓(xùn),支持彈性容錯配置,配置后支持自動加載最近斷點重新拉起訓(xùn)練任務(wù);g)宜支持萬卡規(guī)模調(diào)度。6.7推理服務(wù)調(diào)度推理服務(wù)調(diào)度的評估要求如下:a)應(yīng)支持在推理服務(wù)場景下的資源調(diào)度能力;b)宜支持調(diào)度擴展機制,保障用戶資源配額的同時支持資源共享,提升集群推理資源利用c)宜支持多種卡的調(diào)度能力,例如1卡、2卡、4卡、8卡、16卡。6.8人工智能加速芯片復(fù)合調(diào)用人工智能加速芯片復(fù)合調(diào)用的評估要求如下:a)應(yīng)支持在人工智能加速芯片集群中選擇CPU、內(nèi)存資源規(guī)格;b)應(yīng)支持人工智能加速芯片的共享復(fù)用、不同推理服務(wù)共享人工智能加速芯片的調(diào)度和不同實例被調(diào)度到同一張人工智能加速芯片的能力。6.9彈性伸縮彈性伸縮的評估要求如下:a)應(yīng)支持智算集群的擴縮容,按需增加或減少服務(wù)器數(shù)量;b)應(yīng)支持租戶資源的自動伸縮能力,如基于GPU指標進行自動擴縮容等;c)宜支持人工智能加速芯片的擴縮容,按需增加或減少人工智能加速芯片數(shù)量。6.10運營管理運營管理的評估要求如下:a)宜提供向用戶出售算力資源和解決方案的能力;b)宜支持為企業(yè)組織的決策系統(tǒng)提供信息支持,提供資源分析報告和合理操作建議;c)宜支持對各類云資源的統(tǒng)一運營管理,包括帳戶管理、訂單管理、帳單管理、經(jīng)營分析等。7模型開發(fā)功能評估8T/SAIAS037—20257.1開發(fā)調(diào)試開發(fā)調(diào)試的評估要求如下:a)應(yīng)支持利用開發(fā)機進行開發(fā)調(diào)試(包括網(wǎng)絡(luò)服務(wù)終端、SSH遠程登錄和主流調(diào)試工具);b)應(yīng)支持在開發(fā)機內(nèi)使用容器命令自定義環(huán)境;c)應(yīng)支持在開發(fā)機內(nèi)開放端口進行網(wǎng)絡(luò)服務(wù)應(yīng)用調(diào)試;d)應(yīng)支持訓(xùn)練任務(wù)開發(fā)調(diào)試;e)應(yīng)支持推理服務(wù)調(diào)試。7.2基礎(chǔ)分布式任務(wù)基礎(chǔ)分布式任務(wù)的評估要求如下:a)應(yīng)支持多機任務(wù)工具能力;b)應(yīng)支持原生運行環(huán)境支持能力;c)應(yīng)支持訓(xùn)練工具能力;d)應(yīng)支持任務(wù)的復(fù)制、分配與管理能力;e)應(yīng)支持任務(wù)的監(jiān)控能力,能夠查看任務(wù)運行過程的性能監(jiān)控變化;f)應(yīng)支持任務(wù)的日志能力,能夠在網(wǎng)絡(luò)服務(wù)終端查看任務(wù)輸出的日志信息;g)應(yīng)支持任務(wù)的算力負載節(jié)點的網(wǎng)絡(luò)服務(wù)終端能力,方便調(diào)試;h)應(yīng)支持使用高性能網(wǎng)絡(luò)進行分布式任務(wù);i)應(yīng)支持使用高性能存儲進行分布式任務(wù);j)應(yīng)支持使用分布式存儲進行分布式任務(wù);k)應(yīng)支持分布式任務(wù)的生命周期管理,包括創(chuàng)建、暫停和繼續(xù)。7.3模型訓(xùn)練與推理模型訓(xùn)練與推理的評估要求如下:a)應(yīng)支持對不同參數(shù)規(guī)模,混合專家模型和稠密模型的訓(xùn)練;b)應(yīng)支持模型推理,確保平臺在訓(xùn)練和多種推理框架下高效執(zhí)行和穩(wěn)定性;c)宜支持訓(xùn)練前的環(huán)境檢測能力,確保訓(xùn)練任務(wù)啟動在正常的計算資源上;d)宜支持訓(xùn)練容錯能力,確保訓(xùn)練任務(wù)在發(fā)生異常時第一時間重新恢復(fù)訓(xùn)練,包括測試訓(xùn)練任務(wù)支持訓(xùn)前檢測,測試過程中支持檢查點自動備份策略配置,測試訓(xùn)練任務(wù)異常時是否進行錯誤檢查并定位,測試是否重新調(diào)度算力負載節(jié)點并且從上一個檢查點恢復(fù)訓(xùn)練,測試容錯日志是否輸出正常,測試是否支持最大10次的任務(wù)恢復(fù)次數(shù)。8模型應(yīng)用功能評估8.1預(yù)置大模型預(yù)置大模型的評估要求如下:a)應(yīng)預(yù)置多種主流的大語言模型,覆蓋模型介紹以及模型API;b)應(yīng)支持通過提供模型類型、廠商、模型大小等標簽維度對模型進行篩選;c)應(yīng)涵蓋多種主流語言HTTP、SDK的調(diào)用方式;d)應(yīng)正確調(diào)用各類預(yù)置模型并正確返回相應(yīng)結(jié)果;e)宜支持通過配置模型支持的多種模型采樣參數(shù),并獲得相應(yīng)的響應(yīng)效果。8.2模型體驗?zāi)P腕w驗的評估要求如下:a)前端交互模型能力應(yīng)支持以對話、圖像生成等方式體驗;b)應(yīng)支持對模型的參數(shù)配置進行修改;c)宜覆蓋多模型在多種芯片上的效果和性能對比,確保平臺提供便捷的免腳本的模型驗證能力。8.3模型微調(diào)9T/SAIAS037—2025模型微調(diào)的評估要求如下:a)應(yīng)支持基礎(chǔ)模型的選擇、示例數(shù)據(jù)的查看、數(shù)據(jù)集的配置、訓(xùn)練參數(shù)的配置;b)應(yīng)支持微調(diào)任務(wù)的狀態(tài)查看、生命周期管理能力;c)應(yīng)支持全參微調(diào)、PEFT、RLHF、蒸餾等方法;d)在輸入的數(shù)據(jù)集符合平臺要求的前提下,平臺宜支持自動完成相應(yīng)的模型微調(diào)任務(wù)。8.4非預(yù)置模型管理與部署非預(yù)置模型管理與部署的評估要求如下:a)應(yīng)支持用戶自行上傳、導(dǎo)入平臺支持的大語言模型和多模態(tài)理解模型種類;b)應(yīng)支持用戶導(dǎo)入的模型的基本信息查看和生命周期管理;c)應(yīng)支持基于微調(diào)服務(wù)生產(chǎn)的、或用戶導(dǎo)入的符合平臺要求的模型的部署服務(wù);d)應(yīng)支持部署基于量化任務(wù)生產(chǎn)的模型;e)應(yīng)支持部署服務(wù)的生命周期管理和服務(wù)調(diào)用能力;f)應(yīng)支持用戶導(dǎo)入的生圖模型被用于用戶導(dǎo)入的圖像工作流使用;g)宜支持用戶部署定制模型,并可用與調(diào)用預(yù)置模型API類似的方式,調(diào)用部署的模型服務(wù)。8.5用量統(tǒng)計用量統(tǒng)計的評估要求如下:a)應(yīng)統(tǒng)計不同時間段大語言模型、多模態(tài)模型等調(diào)用的模型范圍和調(diào)用產(chǎn)生的token(詞元)數(shù)量;b)應(yīng)統(tǒng)計不同時間段用戶發(fā)起的模型微調(diào)任務(wù)數(shù)量、訓(xùn)練使用的token數(shù)量以及訓(xùn)練時長;c)應(yīng)統(tǒng)計不同時間段用戶調(diào)用的工作流的數(shù)量、任務(wù)次數(shù)、狀態(tài)、運行時長等關(guān)鍵信息;d)宜支持多維度的功能模塊用量統(tǒng)計能力。9云平臺性能評估9.1芯片算子優(yōu)化性能評估芯片算子優(yōu)化性能評估要求如下:a)平臺應(yīng)支持不同型號芯片算子,并確保GPU運算性能、正確性、穩(wěn)定性;b)平臺宜支持網(wǎng)絡(luò)通信庫的優(yōu)化;c)平臺宜支持對通信庫的通信優(yōu)化。9.2分布式訓(xùn)練性能評估分布式訓(xùn)練性能評估要求如下:a)應(yīng)支持同構(gòu)同集群訓(xùn)練,在不同訓(xùn)練框架下測試多種模態(tài)模型(多模態(tài)理解模型/大語言模型)在同構(gòu)同集群環(huán)境下不同型號芯片上訓(xùn)練的硬件利用率HFU及吞吐率;b)應(yīng)支持在訓(xùn)練過程中進行訓(xùn)練過程觀測,包含損失值、梯度值等;c)應(yīng)支持訓(xùn)練性能分析,評估特定模型在分布式訓(xùn)練過程中產(chǎn)生的性能抖動,性能指標包括訓(xùn)練任務(wù)期間各周期各階段用時分布與走勢;d)應(yīng)支持訓(xùn)練任務(wù)對不同型號芯片的物理拓撲感知;e)應(yīng)支持分布式訓(xùn)練任務(wù)在網(wǎng)元、網(wǎng)際鏈路、GPU卡等維度的性能可視化分析。9.3調(diào)度性能評估調(diào)度性能評估要求如下:a)應(yīng)支持單集群內(nèi)多個不同算力子任務(wù)并行進行,評估集群性能拓展性;b)應(yīng)支持調(diào)度性能評估,測試的調(diào)度性能指標包括GPU利用率、多卡集群加速比、單周期吞吐速率、單周期各階段用時占比。9.4穩(wěn)定性評估9.4.1算力穩(wěn)定性T/SAIAS037—2025穩(wěn)定性的評估要求如下:a)云平臺應(yīng)確保在容器、GPU、操作系統(tǒng)、網(wǎng)絡(luò)等資源層面具備診斷能力;b)云平臺應(yīng)確保在硬件故障情況下的響應(yīng)能力和恢復(fù)速度;c)云平臺應(yīng)確保在實際工作負載下的可靠性和魯棒性;d)云平臺宜確保容錯功能的自動故障檢測和重新調(diào)度。9.4.2平臺穩(wěn)定性平臺穩(wěn)定性的評估要求如下:a)云平臺應(yīng)確保容器化Linux實例的各個生命周期階段的穩(wěn)定性,包括啟動、運行和管理;b)云平臺應(yīng)確保資源分配的準確性和效率(通過測試人工智能加速芯片的掛載和使用情況);c)云平臺應(yīng)確保訓(xùn)練任務(wù)的資源可用性鏈路的拓撲可視化能力;d)云平臺應(yīng)確保在大規(guī)模訓(xùn)練場景(千卡以上)下節(jié)點的資源監(jiān)控有效性;e)云平臺宜確保持續(xù)負載下的穩(wěn)定性,包括資源管理、負載均衡和系統(tǒng)響應(yīng)等方面。10云平臺安全評估10.1數(shù)據(jù)安全數(shù)據(jù)安全的評估要求如下:a)云平臺應(yīng)提供數(shù)據(jù)訪問控制和權(quán)限管理,提供數(shù)據(jù)在存儲和傳輸過程中的數(shù)據(jù)加密;b)云平臺應(yīng)具備數(shù)據(jù)備份和恢復(fù)機制,確保在發(fā)生意外時能快速恢復(fù)重要數(shù)據(jù);c)云平臺應(yīng)支持數(shù)據(jù)資源接入,數(shù)據(jù)識別、數(shù)據(jù)脫敏、數(shù)據(jù)審計、敏感數(shù)據(jù)保護等功能。10.2平臺安全平臺安全的評估要求如下:a)云平臺應(yīng)具備安全防護體系,包括物理設(shè)施安全、操作系統(tǒng)安全、虛擬化安全、應(yīng)用安全、運維安全、賬號安全等;b)云平臺應(yīng)提供公網(wǎng)訪問接口的安全防護機制;c)云平臺應(yīng)提供平臺的用戶認證和授權(quán)機制;d)云平臺應(yīng)提供容器的隔離性,避免存在容器逃逸風險;e)云平臺應(yīng)提供網(wǎng)絡(luò)安全策略和防火墻配置功能,確保有效防御網(wǎng)絡(luò)攻擊,識別和修復(fù)潛在的安全漏洞;f)云平臺應(yīng)提供密鑰管理能力,并支持用戶自主創(chuàng)建、管理、使用密鑰;g)云平臺宜根據(jù)組織架構(gòu)和資源集進行權(quán)限、資產(chǎn)的管理控制,支持資產(chǎn)導(dǎo)入、資產(chǎn)管理、資產(chǎn)識別以及風險分析處置。T/SAIAS037—2025附錄A(資料性)智能算力云平臺測試方法示例A.1資源調(diào)度及管理平臺功能評估A.1.1多租戶管理理A.1.2平臺監(jiān)控T/SAIAS037—2025A.1.3鏡像管理A.2模型開發(fā)平臺功能評估A.2.1模型訓(xùn)練與推理T/SAIAS037—2025A.3模型應(yīng)用平臺功能評估A.3.1預(yù)置大模型大語言模型API調(diào)用:基于平臺提供的調(diào)用示例,配置有效的API密鑰,輸入請求內(nèi)容大語言模型參數(shù)配置:基于有效的API密鑰,文生圖模型API調(diào)用:基于平臺提供的調(diào)用示文生圖模型API調(diào)用:基于平臺提供的調(diào)用示例,配置有效的API密鑰,輸入圖像信息,獲T/SAIAS037—2025生圖大模型參數(shù)配置:基于有效的API密鑰,容配置無效的API密鑰,輸入調(diào)用內(nèi)容多編程語言API調(diào)用驗證:基于平臺提供的調(diào)用示例,配置環(huán)境,有效的API密鑰,輸入調(diào)用型A.3.2模型體驗果成A.3.3模型微調(diào)T/SAIAS037—2025A.3.4非預(yù)置模型管理與部署T/SAIAS037—2025證標A.3.5用量統(tǒng)計通過API或體驗中心使用模型,至少發(fā)生一次完面均顯示為0以上值均為0關(guān)統(tǒng)計值均顯示為0A.4性能評估T/SAIAS037—20252.每隔一段時間,增加或減少一個工作負3.持續(xù)監(jiān)控平臺的CPU使用率、內(nèi)存占用、4.記錄開發(fā)框架的最小單元調(diào)度情況、資源分A.5云平臺安全評估使用AcunetixWebVulnerabi使用Xray(網(wǎng)絡(luò)安全掃描工具)對平臺進行使用Goby(圖形化漏洞掃描工具)對平臺進可完成API密鑰的創(chuàng)建,名稱保持一致??蓜?chuàng)建多個API密鑰。API密鑰的管理能力驗證:針對已創(chuàng)建的API密鑰,用戶可點擊啟用、禁用API密鑰API密鑰的使用預(yù)先條件校驗:新創(chuàng)建的APIAPI密鑰的使用預(yù)先條件校驗:復(fù)制API密T/SAIAS037—2025入新的API密鑰名稱,點擊提交T/SAIAS037—2025(資料性)智能算力云平臺評估等級示例智能算力云平臺評估等級的基礎(chǔ)級僅滿足所有必選要求,提升級和引領(lǐng)級滿足的可選要求數(shù)量可參考六西格瑪管理統(tǒng)計學。其中,提升級滿足所有必選要求且至少滿足1個西格瑪,26個可選要求的30.23%,即8條可選要求;引領(lǐng)級在提升級的基礎(chǔ)上,還要至少1個西格瑪,(26-8)x(1-30.23%),即21條可選要求。依據(jù)上述等級要求的具體評估等級示例見表B.1。表B.1智能算力云平臺評估等級示例能力域能力子域基礎(chǔ)級提升級引領(lǐng)級資源調(diào)度及管理功能多租戶管理算力管理及分配6.2a)~g)6.26.2鏡像管理6.3a)~c)6.36.3平臺監(jiān)控6.4a)~c)6.46.4基礎(chǔ)資源調(diào)度6.5a)~c)6.5a)~c)6.5分布式訓(xùn)練調(diào)度6.6a)~d)6.6a)~d)6.6推理服務(wù)調(diào)度6.7a)6.7a)6

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論