T-STSI 43-2023 人工智能算力資源池技術規(guī)范_第1頁
T-STSI 43-2023 人工智能算力資源池技術規(guī)范_第2頁
T-STSI 43-2023 人工智能算力資源池技術規(guī)范_第3頁
T-STSI 43-2023 人工智能算力資源池技術規(guī)范_第4頁
T-STSI 43-2023 人工智能算力資源池技術規(guī)范_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240CCSL70TechnicalspecificationforartificialintelligencecomputingpoIT/STSI43—2023前言 12規(guī)范性引用文件 13術語、定義和縮略語 13.1術語和定義 13.2縮略語 24總體架構 25總體要求 36功能要求 36.1池化管理 36.2池化調度 36.3提供任意規(guī)格算力資源 36.4虛擬算力資源隔離 36.5業(yè)務熱遷移 46.6橫向擴展 47通信網絡 47.1管理網絡 47.2數(shù)據(jù)網絡 48資源池部署與集成 58.1資源池部署 58.2資源池集成 59兼容性要求 59.1網絡兼容性 59.2GPU設備兼容性 59.3API版本兼容性 69.4操作系統(tǒng)兼容性 69.5基礎架構平臺兼容性 69.6深度學習框架兼容性 610可靠性要求 611安全要求 6 612.1驗證方法 612.2驗證過程 6T/STSI43—2023參考文獻...............................................................................8T/STSI43—2023本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別專利的責任。本文件由北京趨動智能科技有限公司提出。本文件由中關村新興科技服務業(yè)產業(yè)聯(lián)盟歸口。本文件起草單位:北京趨動智能科技有限公司、中關村新興科技服務業(yè)產業(yè)聯(lián)盟、之江實驗室、聯(lián)通(廣東)產業(yè)互聯(lián)網有限公司、貴安新區(qū)大數(shù)據(jù)科創(chuàng)城、長江云通有限公司、中貝通信集團股份有限公司、趨動科技(上海)有限公司、北京青云科技股份有限公司、杭州諧云科技有限公司、麒麟軟件有限公司、達觀數(shù)據(jù)有限公司。本文件主要起草人:王鯤、陳飛、高翔、程偉、雷劍、羅嘉欣、許元锎、任彬、饒有根、龍非、張增金、李凱、劉廣瑜、鐘楚然、許健、趙晨曦、王翱宇、徐運元、鄒宇、萬雨辰、陳運文、紀達麒。T/STSI43—2023目前,人工智能通過數(shù)據(jù)、算力、算法和場景的融合深入到各行各業(yè),促進和賦能數(shù)智化轉型。算力作為數(shù)字經濟時代新的生產力,對推動科技進步、行業(yè)數(shù)字化轉型以及經濟社會發(fā)展發(fā)揮著重要作用。人工智能算力資源存在分配不靈活、利用率低、缺乏整體調度和監(jiān)控等普遍問題,而資源池化作為云計算的核心支撐技術之一可有效解決上述問題。資源池的核心是通過軟件的方法,將各種硬件(CPU、內存、磁盤、網絡等)變成可以動態(tài)管理的資源集合,從而提升資源的利用率,簡化系統(tǒng)管理,實現(xiàn)資源整合,讓IT對業(yè)務的變化更具適應力。AI算力資源池化也是遵循這樣的理念,對物理計算資源進行抽象,軟件化后形成一個統(tǒng)一的資源池,方便用戶按需對計算資源進行有效調用,無需關注實際物理計算資源的大小、數(shù)量、型號以及安插的物理位置。本文件針對人工智能算力資源池技術規(guī)范方面存在的標準空白,對人工智能算力資源池的總體架構、總體要求、功能要求等進行規(guī)范,對于利用算力資源池實現(xiàn)算力資源的虛擬化、整合、調度和高效利用,具有重要的現(xiàn)實意義。T/STSI43—20231人工智能算力資源池技術規(guī)范本文件規(guī)定了人工智能算力資源池的總體架構、總體要求、功能要求、通信網絡、資源池部署與集成、兼容性要求、可靠性要求和安全要求,給出了驗證方法和過程。本文件適用于人工智能算力資源池的設計、建設、運維和驗證。2規(guī)范性引用文件下列文件中的內容通過文中的規(guī)范性引用而構成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T31168信息安全技術云計算服務安全能力要求GB/T35279信息安全技術云計算安全參考架構GB/T41867信息技術人工智能術語GB/T42018信息技術人工智能平臺計算資源規(guī)范YD/T3954云服務用戶數(shù)據(jù)保護能力參考框架3術語、定義和縮略語3.1術語和定義GB/T41867、GB/T42018界定的以及下列術語和定義適用于本文件。3.1.1人工智能artificialintelligence<學科>人工智能系統(tǒng)相關機制和應用的研究和開發(fā)。[來源:GB/T41867—2022,3.1.2]3.1.2人工智能加速卡artificialintelligenceacceleratingcard專為人工智能計算設計、符合人工智能服務器硬件接口的擴展加速設備。[來源:GB/T42018—2022,3.6]3.1.3物理計算資源physicalcomputingresource為人工智能應用提供信息處理能力(如存儲、計算等)的實體設備。[來源:GB/T42018—2022,3.3]3.1.4虛擬計算資源virtualcomputingresource為人工智能應用提供信息處理能力(如存儲、計算等)的邏輯設備。T/STSI43—20232[來源:GB/T42018—2022,3.4]3.2縮略語下列縮略語適用于本文件。AI:人工智能(ArtificialIntelligence)API:應用程序編程接口(ApplicationProgrammingInterface)ASIC:專用集成電路(ApplicationSpecificIntegratedCircuit)CPU:中央處理器(CentralProcessingUnit)FPGA:現(xiàn)場可編程邏輯門陣列(FieldProgrammableGateArray)GPU:圖形處理單元(GraphicsProcessingUnit)KVM:基于內核的虛擬機(Kernel-basedVirtualMachine)TCP/IP:傳輸控制協(xié)議/網際協(xié)議(TransmissionControlProtocol/InternetProtocol)4總體架構人工智能算力資源池化指的是無需關注實際物理計算資源的大小、數(shù)量、型號以及安插的物理位置,對物理計算資源進行抽象,軟件化后形成一個統(tǒng)一的資源池,按需對計算資源進行有效調用的過程。人工智能算力資源池總體架構見圖1。其中:——人工智能應用:基于自然語言處理、計算機視覺、機器學習等技術實現(xiàn)的業(yè)務應用;——異構算力資源池:通過軟件定義的方式將多種異構算力變成可動態(tài)管理的資源池;——運行時:一套兼容各類計算資源的API編程環(huán)境的運行環(huán)境,模擬API編程的運行時接口,實現(xiàn)與上層AI框架的對接和管理;T/STSI43—20233——調度控制服務:資源池的核心管理、調度模塊,實現(xiàn)對節(jié)點IP地址、物理計算資源信息、虛擬計算資源信息以及應用任務信息等的匯總管理;——AI算力池化服務:發(fā)現(xiàn)并管理節(jié)點上的物理計算資源,將物理計算資源池化,將計算能力提供給集群中各個物理節(jié)點,以及各個物理節(jié)點上的虛擬機、容器;——異構算力資源:GPU、FPGA、ASIC等多種計算資源;——運維管理:提供圖形用戶界面,實現(xiàn)資源池全方位管理與監(jiān)控。5總體要求5.1資源池應采用分布式架構、模塊化設計,在架構及功能方面應具備良好的系統(tǒng)可擴展能力,使得系統(tǒng)在為用戶提供服務的過程中能實現(xiàn)平滑擴展,持續(xù)運行。5.2資源池應支持各類異構AI算力資源。注:AI算力資源包括GPU、FPGA、ASIC等人工5.3資源池采用的軟硬件應便于安裝、升級,并具有友好的管理界面。5.4資源池應具備人工智能應用和計算資源的解耦能力,在同一集群的任意節(jié)點上運行人工智能應用均可調用人工智能算力資源池內的資源。5.5資源池應具備提供細粒度算力資源的能力。5.6資源池應對能耗進行有效的監(jiān)控和管理,通過遠程管理提高運維管理效率。5.7資源池應支持業(yè)務不停機的灰度升級部署。5.8資源池在運維管理方面應具備計算資源全局監(jiān)控、告警、日志、數(shù)據(jù)統(tǒng)計、報表等能力。6功能要求6.1池化管理6.1.1應支持AI應用與物理計算資源解耦合,AI應用向資源池軟件調取虛擬計算資源,資源池軟件再匹配物理計算資源。6.1.2應支持多臺物理計算資源節(jié)點跨機資源聚合,為單一容器或虛擬機提供多卡虛擬計算資源。6.1.3應支持運行在普通CPU節(jié)點的人工智能業(yè)務通過網絡遠程調用物理GPU計算資源節(jié)點上的虛擬計算資源。6.1.4應支持虛擬計算資源動態(tài)調整,不應重新加載、重置、重啟容器或虛擬機等運行環(huán)境。6.2池化調度6.2.1應支持配置多種算力資源池任意調度策略,包括本地調度、本地優(yōu)先、節(jié)點均衡/緊湊、設備均衡/緊湊等調度策略。6.2.2應支持為不同的AI任務提供個性化的計算資源調度策略。6.2.3應支持AI任務調度計算資源時,可指定物理計算資源節(jié)點、人工智能加速卡芯片型號。6.3提供任意規(guī)格算力資源6.3.1應支持為上層業(yè)務提供聚合多臺計算資源節(jié)點上的物理計算資源的能力。6.3.2應支持為上層業(yè)務提供的虛擬計算資源按照算力1%和顯存1MB兩個維度進行任意切分,提供小算力資源。6.4虛擬算力資源隔離T/STSI43—20234應支持同一張人工智能加速卡上多任務虛擬計算資源并發(fā)運行,虛擬計算資源多任務隔離保護,異常虛擬計算資源任務不影響其他正常任務。6.5業(yè)務熱遷移業(yè)務遷移不應中斷AI業(yè)務,遷移過程中不影響AI業(yè)務對計算資源的遠程調用,能夠有效保證業(yè)務連續(xù)性,減少上層業(yè)務宕機時間,提升用戶使用體驗。6.6橫向擴展應支持資源池平滑擴容、縮容,支持添加和刪除計算資源節(jié)點或者人工智能加速卡。7通信網絡7.1管理網絡資源池使用基于TCP/IP的管理網絡來承載整個系統(tǒng)的管理工作,用于資源池的管理及調度服務。通過管理網絡,分布在各個節(jié)點的功能組件都保持與資源池控制模塊同步。管理網絡邏輯結構見圖2。圖2管理網絡邏輯結構通過私有的同步協(xié)議,分布式部署的各個功能組件應滿足如下要求:——資源池控制模塊支持多副本、高可用的部署模式;——各個功能組件啟動的次序無要求;——當某一個功能組件從錯誤中恢復之后,可以自動同步到正確狀態(tài)。7.2數(shù)據(jù)網絡資源池使用TCP/IP以太網絡、RoCERDMA、InfinibandRDMA、SharedMemory等多種后端數(shù)據(jù)網絡實現(xiàn)AI應用所在環(huán)境與計算資源物理節(jié)點之間的數(shù)據(jù)傳輸,用于資源池業(yè)務運算數(shù)據(jù)的交互。數(shù)據(jù)網絡邏輯結構見圖3。T/STSI43—20235圖3數(shù)據(jù)網絡邏輯結構數(shù)據(jù)網絡應滿足如下要求:——高帶寬、低延遲;——同時支持TCP/IP以太網絡等多種傳輸協(xié)議,優(yōu)先使用高性能的傳輸方式;——支持虛擬機、容器和宿主機之間的TCP/IP網絡隔離。8資源池部署與集成8.1資源池部署資源池的各個服務組件,應支持集中式單機部署或者分布式多機部署,部署形式包括:——安裝操作系統(tǒng)后,直接以二進制(Binary)形式部署;——以容器鏡像方式部署。8.2資源池集成資源池應具備適配多種Linux操作系統(tǒng)和云平臺的能力,同時支持基于KVM的虛擬機云平臺和基于Docker的容器云平臺。應支持原生容器,提供完善的虛擬GPU資源調度插件,以實現(xiàn)和Kubernetes的平滑對接。9兼容性要求9.1網絡兼容性資源池應支持數(shù)據(jù)中心級各類網絡協(xié)議類型。9.2GPU設備兼容性6資源池應支持主流人工智能芯片廠家生產的、多種GPU型號設備。9.3API版本兼容性資源池應支持主流人工智能芯片API。9.4操作系統(tǒng)兼容性資源池應支持人工智能應用主流操作系統(tǒng)基座。9.5基礎架構平臺兼容性資源池應支持多種類型的基礎架構平臺。9.6深度學習框架兼容性資源池應支持各類主流深度學習框架。示例:TensorFlow、Pytorch、PaddleP10可靠性要求10.1資源池應支持組件分布式部署方式,控制臺組件多副本部署,具備控制組件高可用等級。10.2資源池應具備任務熱遷移能力,保障服務不中斷。10.3資源池關鍵信息應具備自動或手動備份恢復能力。11安全要求資源池的安全應符合GB/T35279、GB/T31168、YD/T3954等要求。12驗證12.1驗證方法驗證方法包括:a)審查法:對人工智能算力資源池相關技術資料進行可視化檢查,以確定有關功能或特性是否達到規(guī)定的要求;b)演示法:對人工智能算力資源池進行操作,查看其實際運行情況,以驗證有關功能或特性是否達到規(guī)定的要求;c)實際運行法:將人工智能算力資源池投入實際運行,在一定周期內檢查運行情況,以確定有關功能或特性是否達到規(guī)定的要求。12.2驗證過程12.2.1功能T/STSI43—20237按照以下步驟對功能進行驗證,判斷驗證結果是否符合第6章的要求:a)對人工智能算力資源池相關技術資料,采用審查法檢查池化管理功能內容、池化調度功能內容、提供任意規(guī)格算力資源功能內容、虛擬算力資源隔離功能內容、業(yè)務熱遷移功能內容和橫向擴展功能內容;b)采用演示法,進行人工智能算力資源池相關操作,驗證池化管理功

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論