《智算中心算力池化技術(shù)要求和功能測(cè)試方法》_第1頁
《智算中心算力池化技術(shù)要求和功能測(cè)試方法》_第2頁
《智算中心算力池化技術(shù)要求和功能測(cè)試方法》_第3頁
《智算中心算力池化技術(shù)要求和功能測(cè)試方法》_第4頁
《智算中心算力池化技術(shù)要求和功能測(cè)試方法》_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

TAF-WG4AS0001-V1.0.0II智算中心算力池化技術(shù)要求和功能測(cè)試方法1范圍本文件規(guī)定了人工智能算力資源池的總體架構(gòu)、總體要求、功能要求、通信網(wǎng)絡(luò)要求、資源池部署與集成要求、兼容性要求、可靠性要求和安全要求,給出了功能測(cè)試方法。本文件適用于人工智能算力資源池的設(shè)計(jì)、建設(shè)、運(yùn)維和驗(yàn)證。2規(guī)范性引用文件本文件沒有規(guī)范性引用文件。3術(shù)語和定義以及下列術(shù)語和定義適用于本文件。3.1人工智能artificialintelligence<學(xué)科>人工智能系統(tǒng)相關(guān)機(jī)制和應(yīng)用的研究和開發(fā)。[來源:GB/T41867—2022,3.1.2]3.2人工智能加速卡artificialintelligenceacceleratingcard專為人工智能計(jì)算設(shè)計(jì)、符合人工智能服務(wù)器硬件接口的擴(kuò)展加速設(shè)備。[來源:GB/T42018—2022,3.6]3.3物理計(jì)算資源physicalcomputingresource為人工智能應(yīng)用提供信息處理能力(如存儲(chǔ)、計(jì)算等)的實(shí)體設(shè)備。人工智能服務(wù)器、人工智能加速卡和人工智能加速模組等。[來源:GB/T42018—2022,3.3]3.4虛擬計(jì)算資源virtualcomputingresource為人工智能應(yīng)用提供信息處理能力(如存儲(chǔ)、計(jì)算等)的邏輯設(shè)備。邏輯設(shè)備是物理設(shè)備的虛擬化形態(tài),它與物理設(shè)備間存在映射關(guān)系。[來源:GB/T42018—2022,3.4]4縮略語下列縮略語適用于本文件。AI:人工智能(ArtificialIntelligence)API:應(yīng)用程序編程接口(ApplicationProgrammingInterface)ASIC:專用集成電路(ApplicationSpecificIntegratedCircuit)CPU:中央處理器(CentralProcessingUnit)FPGA:現(xiàn)場(chǎng)可編程邏輯門陣列(FieldProgrammableGateArray)GPU:圖形處理單元(GraphicsProcessingUnit)GUI:圖形用戶界面(GraphicalUserInterface)KVM:基于內(nèi)核的虛擬機(jī)(Kernel-basedVirtualMachine)TCP/IP:傳輸控制協(xié)議/網(wǎng)際協(xié)議(TransmissionControlProtocol/InternetProtocol)5總體架構(gòu)人工智能算力資源池化指的是無需關(guān)注實(shí)際物理計(jì)算資源的大小、數(shù)量、型號(hào)以及安插的物理位置,對(duì)物理計(jì)算資源進(jìn)行抽象,軟件化后形成一個(gè)統(tǒng)一的資源池,按需對(duì)計(jì)算資源進(jìn)行有效調(diào)用的過程。人工智能算力資源池總體架構(gòu)見圖1??傮w架構(gòu)其中:人工智能算力資源池:通過軟件定義的方式將多種異構(gòu)算力變成可動(dòng)態(tài)管理的資源池;運(yùn)行時(shí):一套兼容各類計(jì)算資源的API編程環(huán)境的運(yùn)行環(huán)境,模擬API編程的運(yùn)行時(shí)接口,實(shí)現(xiàn)與上層AI框架的對(duì)接和管理;調(diào)度控制服務(wù):資源池的核心管理、調(diào)度模塊,實(shí)現(xiàn)對(duì)節(jié)點(diǎn)IP地址、物理計(jì)算資源信息、虛擬計(jì)算資源信息以及AI應(yīng)用任務(wù)信息等的匯總管理;異構(gòu)算力池化服務(wù):發(fā)現(xiàn)并管理節(jié)點(diǎn)上的物理計(jì)算資源,將物理計(jì)算資源池化,將計(jì)算能力提供給集群中各個(gè)物理節(jié)點(diǎn),以及各個(gè)物理節(jié)點(diǎn)上的虛擬機(jī)、容器;異構(gòu)算力資源:GPU、FPGA、ASIC等多種計(jì)算資源;運(yùn)維管理:提供圖形用戶界面,實(shí)現(xiàn)資源池全方位管理與監(jiān)控;——人工智能應(yīng)用:基于自然語言處理、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等技術(shù)實(shí)現(xiàn)的業(yè)務(wù)應(yīng)用。6總體要求智算中心算力池化技術(shù)總體要求如下:資源池應(yīng)采用分布式架構(gòu)、模塊化設(shè)計(jì),在架構(gòu)及功能方面應(yīng)具備良好的系統(tǒng)可擴(kuò)展能力,使得系統(tǒng)在為用戶提供服務(wù)的過程中能實(shí)現(xiàn)平滑擴(kuò)展、持續(xù)運(yùn)行;資源池應(yīng)支持各類異構(gòu)AI算力資源;AI算力資源包括GPU、FPGA、ASIC等人工智能加速卡設(shè)備資源。資源池采用的軟硬件應(yīng)便于安裝、升級(jí),并具有友好的管理界面;資源池應(yīng)具備人工智能應(yīng)用和計(jì)算資源的解耦能力,在同一集群的任意節(jié)點(diǎn)上運(yùn)行人工智能應(yīng)用均可調(diào)用人工智能算力資源池內(nèi)的資源;資源池應(yīng)具備提供細(xì)粒度算力資源的能力;資源池應(yīng)對(duì)能耗進(jìn)行有效的監(jiān)控和管理,通過遠(yuǎn)程管理提高運(yùn)維管理效率;資源池應(yīng)支持業(yè)務(wù)不停機(jī)的灰度升級(jí)部署;資源池在運(yùn)維管理方面應(yīng)具備計(jì)算資源全局監(jiān)控、告警、日志、數(shù)據(jù)統(tǒng)計(jì)、報(bào)表等能力。7基礎(chǔ)功能要求7.1池化管理智算中心算力池化管理功能要求如下:應(yīng)支持AI應(yīng)用與物理計(jì)算資源解耦合,AI應(yīng)用向資源池化軟件調(diào)取虛擬計(jì)算資源,資源池化軟件再匹配物理計(jì)算資源;應(yīng)支持多臺(tái)物理計(jì)算資源節(jié)點(diǎn)跨機(jī)資源聚合,為單一容器或虛擬機(jī)提供多卡虛擬計(jì)算資源;應(yīng)支持運(yùn)行在普通CPU節(jié)點(diǎn)的人工智能業(yè)務(wù)通過網(wǎng)絡(luò)遠(yuǎn)程調(diào)用物理人工智能加速卡計(jì)算資源節(jié)點(diǎn)上的虛擬計(jì)算資源;應(yīng)支持虛擬計(jì)算資源動(dòng)態(tài)調(diào)整,調(diào)整時(shí)不應(yīng)重新加載、重置、重啟容器或虛擬機(jī)等運(yùn)行環(huán)境。7.2池化調(diào)度智算中心算力池化調(diào)度功能要求如下:應(yīng)支持配置多種算力資源池任意調(diào)度策略,包括本地調(diào)度、本地優(yōu)先、節(jié)點(diǎn)均衡/緊湊、設(shè)備均衡/緊湊等調(diào)度策略;應(yīng)支持計(jì)算資源的全局調(diào)度策略設(shè)置,和面向具體AI任務(wù)的個(gè)性化調(diào)度策略設(shè)置;AI任務(wù)調(diào)度計(jì)算資源時(shí),應(yīng)支持指定物理計(jì)算資源節(jié)點(diǎn)、人工智能加速卡芯片型號(hào);應(yīng)支持指定具體芯片的調(diào)度策略。7.3提供任意規(guī)格算力資源智算中心算力池化技術(shù)應(yīng)能提供任意規(guī)格算力資源,具體要求如下:應(yīng)支持為上層業(yè)務(wù)提供聚合多臺(tái)計(jì)算資源節(jié)點(diǎn)上的物理計(jì)算資源的能力;應(yīng)支持為上層業(yè)務(wù)提供的虛擬計(jì)算資源按照算力1%和顯存1MB兩個(gè)維度進(jìn)行任意切分,提供小算力資源。7.4虛擬算力資源隔離應(yīng)支持同一張人工智能加速卡上多任務(wù)虛擬計(jì)算資源并發(fā)運(yùn)行,虛擬計(jì)算資源多任務(wù)隔離保護(hù),異常虛擬計(jì)算資源任務(wù)不影響其他正常任務(wù)。7.5業(yè)務(wù)熱遷移業(yè)務(wù)熱遷移時(shí)不應(yīng)中斷AI業(yè)務(wù),遷移過程中不影響AI業(yè)務(wù)對(duì)計(jì)算資源的遠(yuǎn)程調(diào)用,能夠有效保證業(yè)務(wù)連續(xù)性,減少上層業(yè)務(wù)宕機(jī)時(shí)間,提升用戶使用體驗(yàn)。7.6橫向擴(kuò)展智算中心算力池化技術(shù)橫向擴(kuò)展功能要求如下:應(yīng)支持資源池平滑擴(kuò)容、縮容,支持添加和刪除計(jì)算資源節(jié)點(diǎn)或者人工智能加速卡;應(yīng)支持不終止任務(wù)的情況下,平滑擴(kuò)容算力資源;應(yīng)支持當(dāng)任務(wù)啟動(dòng)未實(shí)際運(yùn)行時(shí),算力分配但未實(shí)際占用,任務(wù)實(shí)際運(yùn)行時(shí),資源動(dòng)態(tài)掛載。8通信網(wǎng)絡(luò)要求8.1管理網(wǎng)絡(luò)資源池使用基于TCP/IP的管理網(wǎng)絡(luò)來承載整個(gè)系統(tǒng)的管理工作,用于資源池的管理及調(diào)度服務(wù)。通過管理網(wǎng)絡(luò),分布在各個(gè)節(jié)點(diǎn)的功能組件都保持與資源池控制模塊同步。管理網(wǎng)絡(luò)邏輯結(jié)構(gòu)見圖2。管理網(wǎng)絡(luò)邏輯結(jié)構(gòu)分布式部署的各個(gè)功能組件應(yīng)符合如下要求:資源池控制模塊支持多副本、高可用的部署模式;各個(gè)功能組件啟動(dòng)的次序無要求;當(dāng)某一個(gè)功能組件從錯(cuò)誤中恢復(fù)之后,應(yīng)能自動(dòng)同步到正確狀態(tài)。8.2數(shù)據(jù)網(wǎng)絡(luò)資源池可使用TCP/IP以太網(wǎng)絡(luò)、RoCERDMA、InfinibandRDMA、SharedMemory等多種后端數(shù)據(jù)網(wǎng)絡(luò)實(shí)現(xiàn)AI應(yīng)用所在環(huán)境與計(jì)算資源物理節(jié)點(diǎn)之間的數(shù)據(jù)傳輸,用于資源池業(yè)務(wù)運(yùn)算數(shù)據(jù)的交互。數(shù)據(jù)網(wǎng)絡(luò)邏輯結(jié)構(gòu)見圖3。數(shù)據(jù)網(wǎng)絡(luò)邏輯結(jié)構(gòu)數(shù)據(jù)網(wǎng)絡(luò)應(yīng)符合如下要求:高帶寬、低延遲;同時(shí)支持多種網(wǎng)絡(luò)傳輸協(xié)議,優(yōu)先使用高性能的傳輸方式;支持虛擬機(jī)、容器和宿主機(jī)之間的TCP/IP網(wǎng)絡(luò)隔離。9資源池部署與集成要求9.1資源池部署資源池的各個(gè)服務(wù)組件,應(yīng)支持集中式單機(jī)部署或者分布式多機(jī)部署,部署形式包括:安裝操作系統(tǒng)后,直接以二進(jìn)制(Binary)形式部署;以容器鏡像方式部署。9.2資源池集成資源池應(yīng)具備適配多種Linux操作系統(tǒng)和云平臺(tái)的能力,同時(shí)支持基于KVM的虛擬機(jī)云平臺(tái)和基于Docker的容器云平臺(tái)。應(yīng)支持原生容器,如提供完善的虛擬GPU資源調(diào)度插件,以實(shí)現(xiàn)和Kubernetes的平滑對(duì)接。10兼容性要求10.1網(wǎng)絡(luò)兼容性資源池應(yīng)支持?jǐn)?shù)據(jù)中心級(jí)各類網(wǎng)絡(luò)協(xié)議類型。TCP/IP以太網(wǎng)絡(luò)、RDMA網(wǎng)絡(luò)(InfiniBand和RoCE)等。10.2GPU設(shè)備兼容性資源池應(yīng)支持主流人工智能芯片廠家生產(chǎn)的、多種GPU型號(hào)設(shè)備。NVIDIAGPU、寒武紀(jì)MLU、中科海光DCU等。10.3人工智能芯片API版本兼容性資源池應(yīng)支持主流人工智能芯片API。NVIDIACUDA、寒武紀(jì)Neuware、中科海光DTK等。10.4操作系統(tǒng)兼容性資源池應(yīng)支持人工智能應(yīng)用主流操作系統(tǒng)基座。64位CentOS6/7、64位Ubuntu16/18/20、openEuler和KylinOS等。10.5基礎(chǔ)架構(gòu)平臺(tái)兼容性資源池應(yīng)支持多種類型的基礎(chǔ)架構(gòu)平臺(tái)。容器環(huán)境、kubernetes環(huán)境、KVM環(huán)境。10.6深度學(xué)習(xí)框架兼容性資源池應(yīng)支持各類主流深度學(xué)習(xí)框架。TensorFlow、Pytorch、PaddlePaddle、MXNet、NVCaffe、TensorRT等。11可靠性要求智算中心算力池化系統(tǒng)可靠性要求如下:資源池應(yīng)支持組件分布式部署方式,控制臺(tái)組件多副本部署,具備控制組件高可用;資源池應(yīng)具備任務(wù)熱遷移能力,保障服務(wù)不中斷;資源池關(guān)鍵信息應(yīng)具備自動(dòng)或手動(dòng)備份恢復(fù)能力;支持針對(duì)計(jì)算、網(wǎng)絡(luò)的(服務(wù)器、交換機(jī)等)硬件資源故障的發(fā)現(xiàn)、告警。12功能測(cè)試方法12.1資源固定配置資源固定配置測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持對(duì)虛擬計(jì)算資源量的固定配置。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)創(chuàng)建固定配置初始化環(huán)境,分配1個(gè)虛擬計(jì)算資源,指定算力和顯存的資源量(最小顆粒度算力1%和顯存1MB);2)執(zhí)行測(cè)試任務(wù)時(shí),指定虛擬計(jì)算資源的資源量分配有別于初始化環(huán)境的資源量;3)在GUI管理控制臺(tái)查看實(shí)際分配給測(cè)試任務(wù)的虛擬計(jì)算資源量。d)預(yù)期結(jié)果:1)應(yīng)符合6e)、7.1a)、7.3b)要求;2)實(shí)際分配給測(cè)試任務(wù)的仍是初始化環(huán)境的虛擬計(jì)算資源量,并非測(cè)試任務(wù)執(zhí)行時(shí)指定的虛擬計(jì)算資源的資源量。12.2資源動(dòng)態(tài)申請(qǐng)資源動(dòng)態(tài)申請(qǐng)測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持按需動(dòng)態(tài)調(diào)整虛擬計(jì)算資源的資源量。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)啟動(dòng)測(cè)試任務(wù),分配初始虛擬計(jì)算資源的資源量(最小顆粒度算力1%和顯存1MB),觀察任務(wù)執(zhí)行中的資源使用情況;2)動(dòng)態(tài)調(diào)整虛擬計(jì)算資源的資源量,并觀察任務(wù)執(zhí)行中的資源使用情況。d)預(yù)期結(jié)果:1)應(yīng)符合6e)、7.1a)、7.1d)、7.3b)要求;2)平臺(tái)支持虛擬計(jì)算資源動(dòng)態(tài)調(diào)整,不應(yīng)重新加載、重置、重啟容器運(yùn)行環(huán)境。12.3遠(yuǎn)程調(diào)用遠(yuǎn)程調(diào)用測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持業(yè)務(wù)應(yīng)用基于網(wǎng)絡(luò)調(diào)用遠(yuǎn)端服務(wù)器的人工智能加速卡資源執(zhí)行計(jì)算。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)在CPU控制節(jié)點(diǎn)運(yùn)行測(cè)試任務(wù),并指定在遠(yuǎn)程人工智能加速卡計(jì)算節(jié)點(diǎn)執(zhí)行計(jì)算;2)運(yùn)行測(cè)試任務(wù),觀察并記錄任務(wù)執(zhí)行中人工智能加速卡使用情況。d)預(yù)期結(jié)果:1)應(yīng)符合6d)、7.1c)要求;2)平臺(tái)支持運(yùn)行在CPU控制節(jié)點(diǎn)的測(cè)試任務(wù)通過網(wǎng)絡(luò)遠(yuǎn)程調(diào)用其他物理人工智能加速卡計(jì)算節(jié)點(diǎn)上的虛擬計(jì)算資源。12.4跨機(jī)多卡聚合跨機(jī)多卡聚合測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持多臺(tái)物理計(jì)算資源節(jié)點(diǎn)跨機(jī)資源聚合,為單一容器或虛擬機(jī)提供多卡虛擬計(jì)算資源。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用至少2個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)在CPU控制節(jié)點(diǎn)運(yùn)行測(cè)試任務(wù),并指定在多個(gè)物理計(jì)算節(jié)點(diǎn)的各人工智能加速卡上執(zhí)行計(jì)算;2)運(yùn)行測(cè)試任務(wù),觀察并記錄任務(wù)執(zhí)行中各人工智能加速卡的使用情況。d)預(yù)期結(jié)果:1)應(yīng)符合7.1b)、7.3a)要求;2)平臺(tái)支持多個(gè)物理計(jì)算節(jié)點(diǎn)跨機(jī)資源聚合,為單一容器或虛擬機(jī)提供多卡虛擬計(jì)算資源。12.5資源超分資源超分測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持單個(gè)物理人工智能加速卡能夠分配超過物理資源上限的資源量給業(yè)務(wù)應(yīng)用。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)分別為2個(gè)測(cè)試任務(wù)分配算力和顯存資源,且分配給兩個(gè)任務(wù)的資源量總和超過單張人工智能加速卡的物理資源上限;2)指定兩個(gè)任務(wù)運(yùn)行在同一張人工智能加速卡上;3)同時(shí)啟動(dòng)2個(gè)測(cè)試任務(wù),觀察任務(wù)執(zhí)行中人工智能加速卡使用情況。d)預(yù)期結(jié)果:1)應(yīng)符合7.2d)要求;2)兩個(gè)測(cè)試任務(wù)均正常運(yùn)行。平臺(tái)的超分特性允許業(yè)務(wù)應(yīng)用申請(qǐng)的資源量總和超過物理資源。12.6資源配額資源配合測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持限制業(yè)務(wù)環(huán)境虛擬計(jì)算資源申請(qǐng)量上限。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)針對(duì)測(cè)試任務(wù)新建配額實(shí)例,設(shè)置可申請(qǐng)的算力或顯存資源上限;2)啟動(dòng)測(cè)試任務(wù)時(shí),申請(qǐng)超過配額限制的資源,觀察任務(wù)執(zhí)行情況。d)預(yù)期結(jié)果:1)應(yīng)符合7.2b)要求;2)測(cè)試任務(wù)執(zhí)行失敗,并提示申請(qǐng)的資源超過配額限制。12.7指定卡型號(hào)指定卡型號(hào)測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持業(yè)務(wù)應(yīng)用申請(qǐng)指定型號(hào)的人工智能加速卡資源。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用至少1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)為測(cè)試任務(wù)指定資源池中存在的人工智能加速卡型號(hào);2)啟動(dòng)測(cè)試任務(wù),并觀察任務(wù)執(zhí)行情況;3)為測(cè)試任務(wù)指定資源池中不存在的人工智能加速卡型號(hào);4)啟動(dòng)測(cè)試任務(wù),并觀察任務(wù)執(zhí)行情況。d)預(yù)期結(jié)果:1)應(yīng)符合7.2c)要求;2)當(dāng)資源池中存在指定型號(hào)的人工智能加速卡時(shí),測(cè)試任務(wù)可調(diào)用對(duì)應(yīng)型號(hào)的資源并正常運(yùn)行;3)當(dāng)資源池中不存在指定型號(hào)的人工智能加速卡時(shí),測(cè)試任務(wù)執(zhí)行失敗。12.8指定節(jié)點(diǎn)指定節(jié)點(diǎn)測(cè)試方法如下。a)測(cè)試目的:平臺(tái)支持業(yè)務(wù)應(yīng)用申請(qǐng)資源時(shí),可指定虛擬卡資源所屬節(jié)點(diǎn)。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用至少2個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)在CPU控制節(jié)點(diǎn)運(yùn)行測(cè)試任務(wù),并指定執(zhí)行任務(wù)的計(jì)算節(jié)點(diǎn);2)在GUI控制臺(tái)查看測(cè)試任務(wù)調(diào)用的虛擬卡資源所屬計(jì)算節(jié)點(diǎn)。d)預(yù)期結(jié)果:1)應(yīng)符合7.2c)要求;2)測(cè)試任務(wù)調(diào)用的虛擬卡資源所屬節(jié)點(diǎn)為指定的計(jì)算節(jié)點(diǎn)。12.9任務(wù)親和任務(wù)親和測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)通過任務(wù)親和性可將不同AI任務(wù)在超分情況下分配在單張物理卡上。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)第一個(gè)容器中執(zhí)行測(cè)試任務(wù)1,100%算力,開啟超分,并設(shè)置親和性;2)第二個(gè)容器中執(zhí)行測(cè)試任務(wù)2,100%算力,開啟超分,并設(shè)置親和性;3)在GUI控制臺(tái)查看兩個(gè)測(cè)試任務(wù)的資源分配情況;d)預(yù)期結(jié)果:1)應(yīng)符合7.2b)要求;2)超分情況下,兩個(gè)測(cè)試任務(wù)申請(qǐng)的虛擬計(jì)算資源來自同一個(gè)物理人工智能加速卡。12.10任務(wù)隊(duì)列任務(wù)隊(duì)列測(cè)試方法如下。a)測(cè)試目的: 驗(yàn)證平臺(tái)在資源池資源不足時(shí),支持后續(xù)任務(wù)進(jìn)入隊(duì)列等待,并能夠通過優(yōu)先級(jí)設(shè)置控制隊(duì)列中任務(wù)獲取資源的順序。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)執(zhí)行測(cè)試任務(wù)1;2)執(zhí)行測(cè)試任務(wù)2,設(shè)置較低優(yōu)先級(jí);3)執(zhí)行測(cè)試任務(wù)3,設(shè)置優(yōu)先級(jí)高于測(cè)試任務(wù)2;4)觀察以上任務(wù)執(zhí)行情況,以及GUI控制臺(tái)任務(wù)隊(duì)列情況。d)預(yù)期結(jié)果:1)應(yīng)符合7.2b)要求;2)測(cè)試任務(wù)1執(zhí)行過程中,測(cè)試任務(wù)2和3由于資源不足,在隊(duì)列中等待;3)測(cè)試任務(wù)1執(zhí)行完畢,由于測(cè)試任務(wù)3優(yōu)先級(jí)高,會(huì)優(yōu)先獲取資源開始執(zhí)行;4)測(cè)試任務(wù)3結(jié)束后,優(yōu)先級(jí)相對(duì)低的測(cè)試任務(wù)2獲取資源開始執(zhí)行。12.11任務(wù)資源空閑超時(shí)自動(dòng)釋放任務(wù)資源空閑超時(shí)自動(dòng)釋放測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證當(dāng)平臺(tái)檢測(cè)到任務(wù)的資源空閑時(shí),經(jīng)過一定超時(shí)時(shí)間,會(huì)自動(dòng)釋放資源。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)設(shè)置測(cè)試任務(wù)資源空閑超時(shí)時(shí)間為30秒,并執(zhí)行任務(wù);2)執(zhí)行測(cè)試代碼調(diào)用虛擬計(jì)算進(jìn)行簡(jiǎn)單計(jì)算;3)測(cè)試任務(wù)完成后等待約30秒,觀察終端提示。d)預(yù)期結(jié)果: 1)應(yīng)符合7.1d),7.2b)要求;2)等待約30秒后,終端提示虛擬計(jì)算資源被釋放。12.12任務(wù)運(yùn)行超時(shí)資源自動(dòng)釋放任務(wù)超時(shí)資源自動(dòng)釋放測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證當(dāng)平臺(tái)檢測(cè)到任務(wù)運(yùn)行超時(shí),會(huì)自動(dòng)釋放資源。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)設(shè)置測(cè)試任務(wù)運(yùn)行超時(shí)的時(shí)間為30秒,并啟動(dòng)測(cè)試任務(wù);2)等待任務(wù)執(zhí)行30秒后,觀察資源釋放情況。d)預(yù)期結(jié)果:1)應(yīng)符合7.1d),7.2b)要求;2)測(cè)試任務(wù)執(zhí)行30秒后,終端提示運(yùn)行超時(shí)推出并釋放資源。12.13邏輯資源組邏輯資源組測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持邏輯資源組功能,即業(yè)務(wù)需要通過授權(quán)才能使用不同邏輯資源組的資源。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用至少1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)創(chuàng)建一個(gè)邏輯資源組,并為其分配部分設(shè)備資源;2)授權(quán)一個(gè)組織關(guān)聯(lián)邏輯資源組,并配置該組織內(nèi)授權(quán)的客戶端;3)使用授權(quán)客戶端創(chuàng)建測(cè)試任務(wù)1并啟動(dòng),觀察任務(wù)執(zhí)行情況;4)使用非授權(quán)客戶端創(chuàng)建測(cè)試任務(wù)2并啟動(dòng),觀察任務(wù)執(zhí)行情況。d)預(yù)期結(jié)果:1)應(yīng)符合7.1a)要求;2)測(cè)試任務(wù)1執(zhí)行成功;3)測(cè)試任務(wù)2執(zhí)行失敗。12.14自定義資源規(guī)格自定義資源規(guī)格測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持將算力和顯存資源配比規(guī)格化,設(shè)置不同資源配比模版,業(yè)務(wù)應(yīng)用申請(qǐng)資源時(shí),只需指定所需規(guī)格即可。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用至少1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)創(chuàng)建自定義資源規(guī)格;2)啟動(dòng)測(cè)試任務(wù)時(shí)指定自定義資源規(guī)格,并嘗試通過環(huán)境變量改變資源配置;3)在GUI控制臺(tái)查看測(cè)試任務(wù)的實(shí)際資源分配情況。d)預(yù)期結(jié)果:1)應(yīng)符合7.1a),7.3b)要求; 2)給測(cè)試任務(wù)分配的是自定義資源規(guī)格,而非環(huán)境變量申請(qǐng)值。12.15雙類資源池雙類資源池測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持虛擬計(jì)算資源和物理人工智能加速卡雙類資源池管理,可以動(dòng)態(tài)的在物理人工智能加速卡和虛擬計(jì)算資源兩種狀態(tài)下切換。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用至少1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)選擇一個(gè)計(jì)算節(jié)點(diǎn)的人工智能加速卡,關(guān)閉虛擬化,切換至物理人工智能加速卡資源;2)選擇另一張人工智能加速卡,開啟虛擬化;3)分別在以上物理卡和虛擬計(jì)算資源上運(yùn)行測(cè)試任務(wù),并在GUI控制臺(tái)查看卡的使用狀態(tài)。d)預(yù)期結(jié)果:1)應(yīng)符合7.1a)要求;2)人工智能加速卡可正常開啟和關(guān)閉虛擬化;3)GUI控制臺(tái)可看到物理卡和虛擬計(jì)算資源均為已使用狀態(tài)。12.16設(shè)備管理設(shè)備管理測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)可以對(duì)人工智能加速卡進(jìn)行管理。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用至少1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)進(jìn)入GUI控制臺(tái)的設(shè)備管理界面;2)選擇一張人工智能加速卡,開啟/關(guān)閉虛擬化;3)選擇一張人工智能加速卡,啟用/禁用設(shè)備。d)預(yù)期結(jié)果:1)應(yīng)符合7.6a)要求;2)平臺(tái)可以查看并正常進(jìn)行人工智能加速卡虛擬化的開啟/關(guān)閉、人工智能加速卡的啟用/禁用操作。12.17節(jié)點(diǎn)管理節(jié)點(diǎn)管理測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)可以對(duì)人工智能加速卡節(jié)點(diǎn)進(jìn)行管理。b)預(yù)置條件:1)進(jìn)入平臺(tái)GUI節(jié)點(diǎn)管理界面;2)使用至少2個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)進(jìn)入平臺(tái)GUI節(jié)點(diǎn)管理界面;2)選擇一個(gè)節(jié)點(diǎn),進(jìn)行啟用/禁用操作;3)選擇一個(gè)節(jié)點(diǎn),查看節(jié)點(diǎn)詳情。d)預(yù)期結(jié)果:1)應(yīng)符合7.6a)要求;2)平臺(tái)可以正常進(jìn)行節(jié)點(diǎn)的啟用/禁用操作和查看節(jié)點(diǎn)詳情。12.18日志收集日志收集測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持日志收集功能。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)進(jìn)入平臺(tái)GUI的日志管理頁面;2)指定任務(wù)等級(jí)、時(shí)段選擇等查詢條件,篩選或選擇特定日志信息;3)導(dǎo)出日志。d)預(yù)期結(jié)果:1)應(yīng)符合6h)要求;2)可按查詢條件正常篩選日志,并查看特定日志信息;3)可正常導(dǎo)出日志文件。12.19監(jiān)控告警監(jiān)控告警測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持異常監(jiān)控告警功能。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)進(jìn)入平臺(tái)GUI的監(jiān)控中心頁面;2)通過查詢條件篩選告警記錄,查看特定告警記錄詳情;3)進(jìn)行告警規(guī)則啟用/禁用、編輯;4)進(jìn)行告警信息通知配置(站內(nèi)消息/郵件)。d)預(yù)期結(jié)果:1)應(yīng)符合6f)、6h)要求;2)可按查詢條件篩選出告警記錄,可查看特定告警記錄詳情;3)可正常進(jìn)行告警規(guī)則啟用/禁用、編輯;4)可正常進(jìn)行告警信息通知配置(站內(nèi)消息/郵件)。12.20組件管理組建管理測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持對(duì)池化組件的管理功能。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)進(jìn)入平臺(tái)GUI的組件管理頁面;2)查看組件狀態(tài);3)進(jìn)行組件版本單節(jié)點(diǎn)/批量升級(jí)操作;4)進(jìn)行組件單節(jié)點(diǎn)/批量配置。d)預(yù)期結(jié)果:1)應(yīng)符合6c)6g)要求; 1)可正常查看所有池化組件的狀態(tài);2)可正常進(jìn)行組件版本單節(jié)點(diǎn)/批量升級(jí)操作;3)可正常進(jìn)行組件單節(jié)點(diǎn)/批量配置。12.21統(tǒng)計(jì)報(bào)表統(tǒng)計(jì)報(bào)表測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持平臺(tái)資源利用率監(jiān)控統(tǒng)計(jì)功能和報(bào)表功能。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)進(jìn)入平臺(tái)GUI統(tǒng)計(jì)中心頁面;2)查看資源管理、任務(wù)調(diào)度、運(yùn)維監(jiān)控等統(tǒng)計(jì)報(bào)表數(shù)據(jù)。d)預(yù)期結(jié)果:1)應(yīng)符合6f)、6h)要求;2)可正常查看各類統(tǒng)計(jì)報(bào)表數(shù)據(jù)。12.22灰度升級(jí)灰度升級(jí)測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持資源池節(jié)點(diǎn)進(jìn)行組件灰度升級(jí)。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用2個(gè)計(jì)算節(jié)點(diǎn)。c)測(cè)試步驟:1)進(jìn)入平臺(tái)GUI的版本管理界面;2)選擇一個(gè)計(jì)算節(jié)點(diǎn),并進(jìn)行組件升級(jí)操作;3)選擇一個(gè)控制節(jié)點(diǎn)和一個(gè)計(jì)算節(jié)點(diǎn),批量進(jìn)行組件升級(jí)操作。d)預(yù)期結(jié)果:1)應(yīng)符合6c)、6g)要求;2)一個(gè)計(jì)算節(jié)點(diǎn)正常完成組件升級(jí)操作,不影響資源池正常運(yùn)行;3)一個(gè)控制節(jié)點(diǎn)和一個(gè)計(jì)算節(jié)點(diǎn)正常完成批量組件升級(jí)操作,不影響資源池正常運(yùn)行。12.23任務(wù)熱遷移任務(wù)熱遷移測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持在業(yè)務(wù)運(yùn)行過程中將計(jì)算任務(wù)從一個(gè)計(jì)算資源遷移到另一個(gè)計(jì)算資源,無需停服。b)預(yù)置條件:1)使用至少2個(gè)計(jì)算節(jié)點(diǎn);2)熱遷移目標(biāo)節(jié)點(diǎn)的Server版本需要和當(dāng)前節(jié)點(diǎn)一致;3)熱遷移目標(biāo)節(jié)點(diǎn)狀態(tài)不能是熱升級(jí)中、禁用、失效;4)目標(biāo)設(shè)備不能失效,且型號(hào)、Driver版本需要和當(dāng)前設(shè)備一致。c)測(cè)試步驟:1)在節(jié)點(diǎn)1的設(shè)備上啟動(dòng)測(cè)試任務(wù);2)測(cè)試任務(wù)運(yùn)行過程中,進(jìn)入GUI的任務(wù)管理頁面,發(fā)起熱遷移操作并選擇節(jié)點(diǎn)2為目標(biāo)節(jié)點(diǎn);3)觀察遷移情況及測(cè)試任務(wù)運(yùn)行狀態(tài)。d)預(yù)期結(jié)果:1)應(yīng)符合)7.5要求;2)測(cè)試任務(wù)在熱遷移過程中會(huì)暫停,等待遷移完成后恢復(fù);3)測(cè)試任務(wù)從節(jié)點(diǎn)1的設(shè)備順利遷移至節(jié)點(diǎn)2設(shè)備。12.24顯存故障域隔離現(xiàn)存故障域隔離測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持當(dāng)多個(gè)應(yīng)用運(yùn)行在同一個(gè)人工智能加速卡上時(shí),其中一個(gè)應(yīng)用運(yùn)行異常報(bào)錯(cuò)退出時(shí),其他的應(yīng)用不受影響繼續(xù)正常運(yùn)行。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用1個(gè)計(jì)算節(jié)點(diǎn);3)1個(gè)可以產(chǎn)生異常的測(cè)試任務(wù)。c)測(cè)試步驟:1)在同一個(gè)人工智能加速卡上啟動(dòng)兩個(gè)測(cè)試任務(wù);2)讓其中一個(gè)測(cè)試任務(wù)產(chǎn)生OOM異常終止退出;3)觀察另一個(gè)測(cè)試任務(wù)的運(yùn)行情況。d)預(yù)期結(jié)果:1)應(yīng)符合)7.4要求;2)當(dāng)出現(xiàn)異常的測(cè)試任務(wù)終止運(yùn)行后,另一個(gè)測(cè)試任務(wù)仍可繼續(xù)正常運(yùn)行。12.25動(dòng)態(tài)擴(kuò)縮容動(dòng)態(tài)擴(kuò)縮容測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持資源池動(dòng)態(tài)擴(kuò)縮容,支持添加和刪除計(jì)算資源節(jié)點(diǎn)或者人工智能加速卡b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用多個(gè)計(jì)算節(jié)點(diǎn)c)測(cè)試步驟:1)啟動(dòng)一個(gè)AI任務(wù);2)在集群中添加新的計(jì)算資源節(jié)點(diǎn);3)在計(jì)算資源節(jié)點(diǎn)上添加新的人工智能加速卡,并啟動(dòng)一個(gè)調(diào)用該卡的AI任務(wù);4)在計(jì)算資源節(jié)點(diǎn)上刪除人工智能加速卡;5)在集群中刪除計(jì)算資源節(jié)點(diǎn)。d)預(yù)期結(jié)果:1)應(yīng)符合6a)、6c)、)7.6要求;2)新添加的計(jì)算資源節(jié)點(diǎn)自動(dòng)匯報(bào)到資源池,不影響正在運(yùn)行的AI任務(wù);3)新添加的人工智能加速卡自動(dòng)匯報(bào)到資源池,不影響正在運(yùn)行的AI任務(wù);4)人工智能加速卡會(huì)從資源池自動(dòng)刪除(若有卡上正在運(yùn)行的任務(wù),則待任務(wù)運(yùn)行結(jié)束后執(zhí)行刪除操作);5)計(jì)算資源節(jié)點(diǎn)會(huì)從資源池自動(dòng)刪除(若有節(jié)點(diǎn)上正在運(yùn)行的任務(wù),則待任務(wù)運(yùn)行結(jié)束后執(zhí)行刪除操作)。12.26異構(gòu)AI算力支持異構(gòu)AI算力支持測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持統(tǒng)一納管多種異構(gòu)AI算力并進(jìn)行池化應(yīng)用b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用多個(gè)計(jì)算節(jié)點(diǎn);c)測(cè)試步驟:1)進(jìn)入GUI控制臺(tái)的設(shè)備管理界面;2)將各類異構(gòu)的人工智能加速卡均啟動(dòng)虛擬化;3)分別調(diào)用各類異構(gòu)人工智能加速卡對(duì)應(yīng)的虛擬卡資源運(yùn)行AI任務(wù)。d)預(yù)期結(jié)果:1)應(yīng)符合6b)要求;2)可看到各類異構(gòu)人工智能加速卡被統(tǒng)一納管;3)各類異構(gòu)人工智能加速卡的狀態(tài)均從物理卡切換為虛擬卡;4)所有AI任務(wù)均正常運(yùn)行。12.27調(diào)度策略調(diào)度策略測(cè)試方法如下。a)測(cè)試目的:驗(yàn)證平臺(tái)支持多種調(diào)度策略(本地調(diào)度、本地優(yōu)先、節(jié)點(diǎn)均衡/緊湊、設(shè)備均衡/緊湊等),且支持為不同AI任務(wù)提供個(gè)性化的計(jì)算資源調(diào)度策略。b)預(yù)置條件:1)使用1個(gè)控制節(jié)點(diǎn);2)使用多個(gè)計(jì)算節(jié)點(diǎn);c)測(cè)試步驟:1)進(jìn)入GUI控制臺(tái)的調(diào)度策略界面,并進(jìn)行全局策略設(shè)置;2)啟動(dòng)多個(gè)AI任務(wù),觀察計(jì)算資源調(diào)度情況;3)啟動(dòng)多個(gè)AI任務(wù),并為每個(gè)AI任務(wù)設(shè)置個(gè)性化的計(jì)算資源調(diào)度策略。d)預(yù)期結(jié)果:1)應(yīng)符合7.2a)、7.2b)要求;2)可在GUI上進(jìn)行全局計(jì)算資源調(diào)度策略的設(shè)置;3)所有AI任務(wù)均按設(shè)置好的全局策略進(jìn)行計(jì)算資源調(diào)度;4)每個(gè)AI任務(wù)均按設(shè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論