版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Al大模型時(shí)代已經(jīng)來臨,人工智能技術(shù)的創(chuàng)新和變革,涌現(xiàn)出幾何級(jí)增長的人工智能算力需求。根據(jù)OpenAl的數(shù)據(jù),算力資源需求每3~4個(gè)月就要翻一倍。大模型增強(qiáng)了Al技術(shù)的通用性,助力普惠行業(yè)Al的實(shí)現(xiàn),但是大模型在參數(shù)量上達(dá)到了數(shù)千億級(jí)別,訓(xùn)練的數(shù)據(jù)集規(guī)模也高達(dá)TB級(jí)別,完成單個(gè)大模型的訓(xùn)練,一般來說即需要投入超過200PFlops以上的智能算力資源,而結(jié)合資源復(fù)用度和算力中心建設(shè)規(guī)模的收益邊際效應(yīng),智能算力中心需要達(dá)到1000P或更大規(guī)模才能保證利用率和收益最優(yōu)。結(jié)合項(xiàng)目建設(shè)必要性和需求分析,本項(xiàng)目建設(shè)計(jì)算規(guī)模按基于半精度浮點(diǎn)FP16運(yùn)算的最大峰值約1000PFlops算力規(guī)劃本項(xiàng)目擬建設(shè)1000PFlops規(guī)模智算中心,以及約5PB的對(duì)象存儲(chǔ)和0.5PB的文件存儲(chǔ),以及配套的算力服務(wù)平臺(tái)和其他軟硬件設(shè)備。本項(xiàng)目建設(shè)內(nèi)容包括:AI算力硬件基礎(chǔ)設(shè)施(含計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)硬件資源)、Al算力軟件基礎(chǔ)平臺(tái)(AI計(jì)算服務(wù)、Al存儲(chǔ)服務(wù)、Al網(wǎng)絡(luò)服務(wù)、Al開發(fā)平臺(tái)和Al云管理平臺(tái))、信息安全體系和運(yùn)營運(yùn)維體系等。1.AI算力硬件基礎(chǔ)設(shè)施國際領(lǐng)先的新一代TensorCoreGPU服務(wù)器,旨在提供強(qiáng)大的Al和高性能計(jì)算(HPC)能力,主要特點(diǎn)為:專為大型語言模型、推薦系統(tǒng)、醫(yī)療健康研究和氣候科學(xué)的大規(guī)模計(jì)算需求而設(shè)計(jì)。每臺(tái)GPU服務(wù)器系統(tǒng)配備八塊高性能GPU算力卡,每張卡非稀疏算力989TFLOPS,卡間由高速數(shù)據(jù)鏈路連接,能夠在新的FP8精度下達(dá)到32Petaflop的整機(jī)AI性能。支持Transformer引擎,使大型語言模型的訓(xùn)練速度提升高達(dá)9倍,推理速度提升30倍。另外該服務(wù)器內(nèi)存配置高達(dá)80GB的HBM3內(nèi)存,帶寬達(dá)到3TB/s。本項(xiàng)目建設(shè)約1000PFLOPS需要的服務(wù)器數(shù)量約為128臺(tái),其中半精度FP16TensorCore的每張卡非稀疏算力989TFLOPS,折算算力2)AI存儲(chǔ)資源為全面支持AI數(shù)據(jù)采集、標(biāo)注、預(yù)處理、訓(xùn)練場景的分布式存儲(chǔ)系統(tǒng)建設(shè)目標(biāo),主要包括功能全面、穩(wěn)定可靠、高讀寫性能等特點(diǎn)。序號(hào)1功能全面、簡單易用支持標(biāo)準(zhǔn)S3對(duì)象存儲(chǔ)協(xié)議,包含CLI、API、SDK等多種使用方式,滿足Al全生命周期數(shù)據(jù)處理,包括等2穩(wěn)定可靠采用去中心化分布式存儲(chǔ)架構(gòu),提供10全路徑高可用機(jī)制保障,支持多副本和EC糾刪碼數(shù)據(jù)保護(hù)機(jī)制,數(shù)據(jù)可靠性達(dá)到12個(gè)9的持久性3高10性能引入NVME、RoCE高速網(wǎng)絡(luò)等先進(jìn)硬件,針對(duì)Al場景存儲(chǔ)10特性進(jìn)行大量優(yōu)化,為海量小文件數(shù)據(jù)集提供高性能4高擴(kuò)展性橫向擴(kuò)展能力5間的存儲(chǔ)數(shù)據(jù)同步、遷移該系統(tǒng)采用業(yè)界主流分布式存儲(chǔ)架構(gòu),支持冷熱數(shù)據(jù)智能分層和3AZ數(shù)據(jù)冗余分布。計(jì)算集群中的高速存儲(chǔ)LVSLws智能數(shù)據(jù)分層服務(wù)ROWiRoW智能數(shù)據(jù)分層服務(wù)DNSmoneNYMES80數(shù)據(jù)交換大集群,項(xiàng)目分布式存儲(chǔ)系統(tǒng)的架構(gòu)設(shè)計(jì)文件存儲(chǔ):(1)功能描述文件存儲(chǔ)提供一個(gè)完全托管的共享文件存儲(chǔ),能夠彈性伸縮至PB級(jí)規(guī)模,具備高可用性和持久性,為海量數(shù)據(jù)、高帶寬型應(yīng)用提供有力支持。適用于多種應(yīng)用場景,包括容器存儲(chǔ)、媒體處理、文件共享、內(nèi)容管理和Web服務(wù)等。文件存儲(chǔ)根據(jù)使用需求,業(yè)務(wù)不中斷,按需擴(kuò)容、性能容量可線性增長。性能隨容量增加而提升,同時(shí)保障數(shù)據(jù)的高持久度,滿足業(yè)務(wù)增長需求,文件存儲(chǔ)提供統(tǒng)一命名空間的存儲(chǔ)系統(tǒng),多種業(yè)務(wù)的數(shù)據(jù)都存儲(chǔ)在這個(gè)統(tǒng)一的存儲(chǔ)空間中,包括文件,視頻,圖像等多種類型的業(yè)務(wù)數(shù)據(jù)存儲(chǔ)。通過文件存儲(chǔ)構(gòu)建實(shí)現(xiàn)大容量并發(fā)的文件共享服務(wù),可以解決日常辦公的數(shù)據(jù)共享以及業(yè)務(wù)系統(tǒng)的數(shù)據(jù)共享問題。通過權(quán)限設(shè)置,針對(duì)不同用戶設(shè)置不同的文件和目錄訪問權(quán)限,進(jìn)行精細(xì)化的權(quán)限控制,保證數(shù)據(jù)的安全性。(2)組網(wǎng)方案文件存儲(chǔ)前后端網(wǎng)絡(luò)物理隔離,業(yè)務(wù)網(wǎng)絡(luò)與管理網(wǎng)絡(luò)分別使用不同的網(wǎng)絡(luò)平面,組網(wǎng)結(jié)構(gòu)如下所示,包括:前端業(yè)務(wù)網(wǎng)絡(luò)用于文件存儲(chǔ)與用戶網(wǎng)絡(luò)對(duì)接。后端存儲(chǔ)網(wǎng)絡(luò)用于文件存儲(chǔ)內(nèi)部節(jié)點(diǎn)間互聯(lián)。在文件存儲(chǔ)系統(tǒng)中,集群后端網(wǎng)絡(luò)可以支持10GE、25GE、IB連的組網(wǎng)需求。無論哪種組網(wǎng),文件存儲(chǔ)系統(tǒng)的所有節(jié)點(diǎn)網(wǎng)絡(luò)都是冗余的,任何單一網(wǎng)口故障或者單一交換機(jī)故障均不影響系統(tǒng)使用。文件存儲(chǔ)系統(tǒng)前端和后端可以分別使用不同的物理網(wǎng)卡以達(dá)到選擇GE、10GE、25GE、IB連接。通過文件存儲(chǔ)設(shè)備所提供的IPMI系統(tǒng)支持多種類型節(jié)點(diǎn)混合部署,混合部署時(shí)相同類型相同配置的節(jié)點(diǎn)最少配置為3臺(tái);系統(tǒng)僅部署NAS存儲(chǔ)時(shí),最少需要部署3Ethernet組網(wǎng)描述:前后端均采用Ethernet交換機(jī)組網(wǎng)的典型配置方案如圖所示。管理終端交換機(jī)存儲(chǔ)層節(jié)點(diǎn)萬兆交換機(jī)文件存儲(chǔ)系統(tǒng)結(jié)構(gòu)組網(wǎng)說明:Ethernet交換網(wǎng),后端網(wǎng)絡(luò)使用內(nèi)部Ethernet交換機(jī)。前后端交換機(jī)冗余配置。(3)容量設(shè)計(jì)根據(jù)大模型訓(xùn)練和推理對(duì)于文件存儲(chǔ)的需求,xxxxP的計(jì)算算力配比0.5PB的文件存儲(chǔ)。文件存儲(chǔ)采用三副本高可用架構(gòu),0.5PB的文件存儲(chǔ)需要18臺(tái)文件存儲(chǔ)服務(wù)器。文件存儲(chǔ)服務(wù)器的配置測算:單臺(tái)服務(wù)器有12塊硬盤,每塊硬盤容量(7.68T),采用糾刪碼4+2架構(gòu)(0.66),考慮損耗(0.91)得出每臺(tái)文件存儲(chǔ)服務(wù)器提供的可用存儲(chǔ)容量是:因此,共需10臺(tái)服務(wù)器,可提供約0.5PB的文件存儲(chǔ)可用容量。(1)功能描述對(duì)象存儲(chǔ)兼具塊存儲(chǔ)高速直接訪問磁盤的特點(diǎn)及文件存儲(chǔ)的分布式共享特點(diǎn),是一種可存儲(chǔ)文檔、圖片、影音視頻等非結(jié)構(gòu)化數(shù)據(jù)的云存儲(chǔ)服務(wù),提供海量、安全、高可靠、低成本的數(shù)據(jù)存儲(chǔ)能力。主要應(yīng)用場景為大數(shù)據(jù)分析、靜態(tài)網(wǎng)站托管、在線視頻點(diǎn)播、基因測序、智能視頻監(jiān)控等。提供多種語言的SDK,兼容主流的客戶端工具,隨時(shí)隨地通過網(wǎng)絡(luò)上傳、下載、管理數(shù)據(jù),應(yīng)用通過調(diào)用相應(yīng)的SDK進(jìn)行應(yīng)用開發(fā),實(shí)現(xiàn)直接讀取存儲(chǔ)中的數(shù)據(jù),為大并發(fā)高10應(yīng)用提供有力保障。提供精細(xì)化權(quán)限控制,精準(zhǔn)控制數(shù)據(jù)的訪問權(quán)限,確保數(shù)據(jù)的安全可靠。對(duì)象存儲(chǔ)的組網(wǎng)包括業(yè)務(wù)平面和存儲(chǔ)平面均采用10GE組網(wǎng)、業(yè)務(wù)平面采用GE組網(wǎng)同時(shí)存儲(chǔ)平面采用10GE組網(wǎng)以及業(yè)務(wù)和存儲(chǔ)平面均采用25GE組網(wǎng)三種方式。集群內(nèi)組網(wǎng)方案:匯聚交換機(jī)匯聚交換機(jī)畫結(jié)交換機(jī)后端交換機(jī)集群內(nèi)組網(wǎng)結(jié)構(gòu)單個(gè)子網(wǎng)內(nèi)的節(jié)點(diǎn)和交換機(jī)連線示意圖,單個(gè)集群由若干個(gè)這樣的子網(wǎng)組成。子網(wǎng)之間通過匯聚交換機(jī)互聯(lián)。多區(qū)域組網(wǎng)方案:對(duì)象存儲(chǔ)支持多區(qū)域組網(wǎng),提供統(tǒng)一命名空間的對(duì)象存儲(chǔ)服務(wù)。為滿足組網(wǎng)和數(shù)據(jù)可靠性要求,需要支持多Region單AZ組網(wǎng)形網(wǎng)如下圖所示。IAM為鑒權(quán)服務(wù)器,還支持Keystone鑒權(quán)、自有的POE鑒權(quán),這里以IAM為例。APIAPIInterface公網(wǎng)業(yè)務(wù)平面Region1租戶業(yè)務(wù)平面AZ1LVS1+LVS1a分布式存儲(chǔ)管理網(wǎng)絡(luò)平面LVS2+LVS2aRegion2OBSSDK多區(qū)域組網(wǎng)結(jié)構(gòu)對(duì)接的組件包括IAM(IdentityandAccessManagement,認(rèn)證和授權(quán)管理)或者使用POE(內(nèi)部鑒權(quán)服務(wù))、負(fù)載均衡集群,均需要在對(duì)象存儲(chǔ)以外使用獨(dú)立的服務(wù)器完成部署,詳細(xì)說明如下:2.負(fù)載均衡集群接入業(yè)務(wù)平面,提供負(fù)載均衡功能;3.對(duì)象存儲(chǔ)與IAM或者POE對(duì)接,完成統(tǒng)一認(rèn)證鑒權(quán)。存儲(chǔ)平面是對(duì)象存儲(chǔ)的內(nèi)部網(wǎng)絡(luò),每個(gè)對(duì)象存儲(chǔ)集群內(nèi)的節(jié)點(diǎn)通過存儲(chǔ)平面交換機(jī)互聯(lián),流量不跨集群。(3)容量設(shè)計(jì)根據(jù)大模型訓(xùn)練和推理對(duì)于對(duì)象存儲(chǔ)的需求,1000P的計(jì)算算力配比5PB的對(duì)象存儲(chǔ),用于圖像、視頻等存儲(chǔ)。對(duì)象存儲(chǔ)采用EC4+2高可用架構(gòu),5PB的對(duì)象存儲(chǔ)需要15臺(tái)對(duì)象存儲(chǔ)服務(wù)器。對(duì)象存儲(chǔ)服務(wù)器配置測算:每臺(tái)對(duì)象存儲(chǔ)服務(wù)器提供的可用存儲(chǔ)容量是:18*32*0.66*0.91=345.9(T)對(duì)象存儲(chǔ)服務(wù)器數(shù)量約為:因此,共需16臺(tái)服務(wù)器,可提供約5PB的對(duì)象存儲(chǔ)可用容量。xxxx智算中心是開展人工智能研究和應(yīng)用的基礎(chǔ),為大規(guī)模的數(shù)據(jù)分析、深度學(xué)習(xí)算法研究提供有力的計(jì)算能力、存儲(chǔ)能力與通信能力,進(jìn)而提高算法迭代速率?;谌斯ぶ悄苋蝿?wù)的發(fā)展特點(diǎn),該智算中心將采用存算分離的集群架構(gòu),通過高速的數(shù)據(jù)/存儲(chǔ)網(wǎng)絡(luò)將多個(gè)計(jì)算子集群和存儲(chǔ)子集群有效地連接起來。同時(shí),通過解耦計(jì)算和存儲(chǔ)子集群,可以快速地實(shí)現(xiàn)計(jì)算、存儲(chǔ)資源的彈性擴(kuò)展,按需分配,最終實(shí)現(xiàn)系統(tǒng)負(fù)載均衡調(diào)度更加靈活、有效?;贏l訓(xùn)練和推理的需求,設(shè)計(jì)的網(wǎng)絡(luò)拓?fù)浼軜?gòu)如下。履履存儲(chǔ)網(wǎng)絡(luò)數(shù)據(jù)網(wǎng)絡(luò)業(yè)務(wù)網(wǎng)絡(luò)IPMI網(wǎng)絡(luò)存儲(chǔ)網(wǎng)絡(luò)數(shù)據(jù)網(wǎng)絡(luò)業(yè)務(wù)網(wǎng)絡(luò)IPM網(wǎng)絡(luò)核心層交換機(jī)訓(xùn)練網(wǎng)絡(luò)數(shù)據(jù)網(wǎng)絡(luò)業(yè)務(wù)網(wǎng)絡(luò)IPMI網(wǎng)絡(luò)i計(jì)算模塊計(jì)算模塊日原存儲(chǔ)模塊存儲(chǔ)模塊項(xiàng)目網(wǎng)絡(luò)拓?fù)鋱D如上圖所示,本項(xiàng)目將會(huì)采用模塊化設(shè)計(jì),包含若干個(gè)計(jì)算模塊和存儲(chǔ)模塊。在單一模塊內(nèi),計(jì)算服務(wù)器或者存儲(chǔ)服務(wù)器由不同類型的網(wǎng)絡(luò)進(jìn)行互連。集群內(nèi)核心交換機(jī)負(fù)責(zé)不同模塊之間的互連。為充分發(fā)揮分布式系統(tǒng)軟硬件性能并保障效率,本項(xiàng)目采用多種網(wǎng)絡(luò)方案來滿足不同場景的節(jié)點(diǎn)互聯(lián)需求。根據(jù)模塊內(nèi)外的網(wǎng)絡(luò)流量類別,節(jié)點(diǎn)互聯(lián)采用了五種不同的網(wǎng)絡(luò)方案:基于以太網(wǎng)的業(yè)務(wù)網(wǎng)絡(luò)、基于IPMI(智能平臺(tái)管理接口)的管理網(wǎng)絡(luò)、基于InfiniBand硬件實(shí)現(xiàn)的RDMA(遠(yuǎn)程直接內(nèi)存訪問)的訓(xùn)練網(wǎng)絡(luò)、基于RoCE(基于以太網(wǎng)的RDMA技術(shù))的高速以太網(wǎng)的數(shù)據(jù)網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò)。HTTP/HTTPS通信流量由業(yè)務(wù)網(wǎng)絡(luò)承擔(dān)。業(yè)務(wù)網(wǎng)絡(luò)采用三層CLOS架構(gòu),并且支持大兩層網(wǎng)絡(luò)和VXLAN隔離,由此可以支持本項(xiàng)目的網(wǎng)絡(luò)隔離需求。基于以太網(wǎng)的業(yè)務(wù)網(wǎng)絡(luò)采用10Gbps的接入帶寬,提供集群在控制面的任務(wù)分發(fā)、管理和集群與外部用戶的互通。(2)IPMI網(wǎng)絡(luò):IPMI是一種服務(wù)器信息采集標(biāo)準(zhǔn),可以用來監(jiān)視服務(wù)器的物理健康特征,如溫度、電壓、風(fēng)扇狀態(tài)、電源狀態(tài)等?;贗PMI的管理網(wǎng)絡(luò)采用1Gbps的接入帶寬和通用的以太網(wǎng)技術(shù),承載服務(wù)器的監(jiān)控和遠(yuǎn)程管理產(chǎn)生的流量。(3)訓(xùn)練網(wǎng)絡(luò):RDMA是一種繞過遠(yuǎn)程主機(jī)操作系統(tǒng)內(nèi)核訪問其內(nèi)存中數(shù)據(jù)的技術(shù),由于不經(jīng)過操作系統(tǒng),不僅節(jié)省了大量CPU資源,同樣也提高了系統(tǒng)吞吐量,降低了網(wǎng)絡(luò)通信延遲。在本項(xiàng)目中,基于RDMA的高速訓(xùn)練網(wǎng)絡(luò)采用NDR/HDRInfiniBand網(wǎng)絡(luò),承載著集群內(nèi)分布式訓(xùn)練產(chǎn)生的計(jì)算流量。在大規(guī)模分布式訓(xùn)練場景中,GPU服務(wù)器之間的通信流量稱為訓(xùn)練流量。訓(xùn)練流量對(duì)網(wǎng)絡(luò)的要求為高帶寬、低延時(shí)。網(wǎng)絡(luò)上支持RDMA通信為必備要求。本項(xiàng)目采用了InfiniBand網(wǎng)絡(luò)和兩層CLOS架構(gòu)進(jìn)行組網(wǎng),以達(dá)成設(shè)計(jì)目標(biāo)。在單一計(jì)算模塊內(nèi),本項(xiàng)目根據(jù)GPU服務(wù)器的具體通信要求,采用了NDR400Gbps通信帶寬或者HDR200Gbps通信帶寬InfiniBand進(jìn)行服務(wù)器之間的互聯(lián),并且所采用的Leaf-Spine組網(wǎng)可以保證GPU計(jì)算節(jié)點(diǎn)之間的無阻塞的RDMA通信。分布在不同模塊的GPU服務(wù)器之間的RDMA通信由訓(xùn)練網(wǎng)絡(luò)的Super-Spine層交換機(jī)承層交換機(jī)采用HDRInfiniBand交換機(jī),并且可以動(dòng)態(tài)添加交換機(jī),以支持更高的通信性能。(4)存儲(chǔ)網(wǎng)絡(luò):本項(xiàng)目包含獨(dú)立的存儲(chǔ)模塊內(nèi)服務(wù)器之間的數(shù)據(jù)同步由存儲(chǔ)網(wǎng)絡(luò)承擔(dān)。存儲(chǔ)流量要求高帶寬和低延時(shí),本項(xiàng)目根據(jù)存儲(chǔ)軟件的特性,采用了基于以太網(wǎng)的RDMA(RoCE)進(jìn)行組網(wǎng)。在存儲(chǔ)集群內(nèi),存儲(chǔ)網(wǎng)絡(luò)采用了兩層CLOS網(wǎng)絡(luò)架構(gòu),并支持無損網(wǎng)絡(luò)以支持高性能的RDMA通信。RoCE(基于融合以太網(wǎng)的RDMA)是一個(gè)網(wǎng)絡(luò)協(xié)議,允許在以太網(wǎng)上使用RDMA,在本項(xiàng)目中為集群服務(wù)器的存儲(chǔ)網(wǎng)絡(luò)提供100Gbps/25Gbps的接入帶寬,用于存儲(chǔ)服務(wù)器之間的數(shù)據(jù)同步。(5)數(shù)據(jù)網(wǎng)絡(luò):數(shù)據(jù)網(wǎng)絡(luò)承擔(dān)計(jì)算服務(wù)器讀寫遠(yuǎn)端存儲(chǔ)服務(wù)器的流量。針對(duì)GPU服務(wù)器在模型訓(xùn)練過程中的10需求,在本項(xiàng)目中我們?yōu)橛?jì)算服務(wù)器的數(shù)據(jù)網(wǎng)絡(luò)提供25Gbps的接入帶寬,為存儲(chǔ)服務(wù)器的存儲(chǔ)網(wǎng)絡(luò)提供100Gbps的接入帶寬。計(jì)算模塊內(nèi)的計(jì)算節(jié)點(diǎn)從獨(dú)立存儲(chǔ)模塊讀寫數(shù)據(jù)讀寫數(shù)量產(chǎn)生的流量稱為數(shù)據(jù)流量。本項(xiàng)目采用了Spine-Leaf以太網(wǎng)絡(luò)架構(gòu)承擔(dān)這種流量,以便承載多路可用路由的數(shù)據(jù)傳輸場景,提升數(shù)據(jù)傳輸速度降低延時(shí)。計(jì)算集群可以根據(jù)實(shí)際10負(fù)載采用25G、100G或者更高的帶寬接入數(shù)據(jù)網(wǎng)絡(luò)的容量設(shè)計(jì):依據(jù)xxxx智算中心建設(shè)規(guī)模,本項(xiàng)目建設(shè)共需2臺(tái)核心交換機(jī)、38臺(tái)以太網(wǎng)交換機(jī)、26臺(tái)Infiniband交換機(jī)。具體需要配置如下網(wǎng)絡(luò)設(shè)備:網(wǎng)絡(luò)設(shè)備配置表節(jié)點(diǎn)名稱交換機(jī)規(guī)劃訓(xùn)練網(wǎng)絡(luò)訓(xùn)練網(wǎng)交換機(jī)RDMA-Spine4訓(xùn)練網(wǎng)交換機(jī)RDMA-Leaf8訓(xùn)練網(wǎng)交換機(jī)IBNDR2業(yè)務(wù)網(wǎng)核心交換機(jī)2業(yè)務(wù)網(wǎng)匯聚交換機(jī)4業(yè)務(wù)網(wǎng)接入交換機(jī)8數(shù)據(jù)網(wǎng)數(shù)據(jù)網(wǎng)匯聚交換機(jī)4數(shù)據(jù)網(wǎng)接入交換機(jī)8存儲(chǔ)網(wǎng)存儲(chǔ)網(wǎng)匯聚交換機(jī)4存儲(chǔ)網(wǎng)接入交換機(jī)8帶外管理網(wǎng)帶外核心交換機(jī)2帶外網(wǎng)接入交換機(jī)8互聯(lián)網(wǎng)出口區(qū)互聯(lián)網(wǎng)接入?yún)^(qū)設(shè)備42.算力中心建設(shè)架構(gòu)1)總體架構(gòu)行業(yè)智慧醫(yī)療智能遙感科研創(chuàng)新AI云運(yùn)營管理平臺(tái)統(tǒng)一云管平臺(tái)科創(chuàng)企業(yè)智能化企業(yè)智能制造格智慧紡織模型推理服務(wù)創(chuàng)建模型推理管理與使用推理彈性伸縮云監(jiān)控服務(wù)容器鏡像服務(wù)AI開發(fā)平臺(tái)資源配置云函數(shù)服務(wù)裸金屬服務(wù)器Al存儲(chǔ)服務(wù)文件存儲(chǔ)對(duì)象存儲(chǔ)存儲(chǔ)資源編碼調(diào)測高性能算力池AI網(wǎng)絡(luò)服務(wù)私有網(wǎng)絡(luò)彈性公網(wǎng)IP訓(xùn)練網(wǎng)絡(luò)業(yè)務(wù)網(wǎng)絡(luò)數(shù)據(jù)網(wǎng)絡(luò)存儲(chǔ)網(wǎng)絡(luò)基建Al平臺(tái)基礎(chǔ)平臺(tái)營維系運(yùn)運(yùn)體息全系信安體安全管理安全運(yùn)營技術(shù)支撐運(yùn)維服務(wù)增值服務(wù)硬件設(shè)施安全策略運(yùn)營服務(wù)應(yīng)用項(xiàng)目總體架構(gòu)圖xxXx智算中心主要是圍繞Al算力軟硬件基礎(chǔ)設(shè)施開展建設(shè)及運(yùn)營運(yùn)維,當(dāng)前主要包括基建設(shè)施、Al算力硬件基礎(chǔ)設(shè)施、Al算力軟件基礎(chǔ)平臺(tái)、Al能力軟件平臺(tái)和信息安全體系建設(shè),以及運(yùn)營運(yùn)維和運(yùn)營增值服務(wù)體系。建成后為當(dāng)?shù)靥峁┧懔Ψ?wù),面向全省政企事業(yè)單位,賦能支撐自動(dòng)駕駛、元宇宙、智慧科研、金融服務(wù)等各個(gè)行業(yè)領(lǐng)域創(chuàng)新發(fā)展和應(yīng)用。經(jīng)過前期摸排調(diào)研,首先本項(xiàng)目面向xX科技創(chuàng)新業(yè)務(wù),同時(shí)也向政務(wù)亮點(diǎn)、智慧醫(yī)療、智能遙感等智慧城市及各個(gè)行業(yè)的應(yīng)用賦能擴(kuò)展,算力應(yīng)用領(lǐng)域涉及Al大模型、AI4S、生成式AI、塊鏈數(shù)字化產(chǎn)業(yè)、元宇宙等戰(zhàn)略創(chuàng)科產(chǎn)業(yè)領(lǐng)域。主要面向xx地市政府、高校院所、重點(diǎn)科創(chuàng)企業(yè)、Al和軟件企業(yè)、智能化需求企業(yè),在大模型應(yīng)用、基礎(chǔ)科研、生物醫(yī)藥、金融科技、智慧城市、智能制造、車聯(lián)網(wǎng)、農(nóng)業(yè)與食品加工、紡織服裝鞋業(yè)等多個(gè)領(lǐng)域提供人工智能算力服務(wù)。通過xxxX智算中心與xx相關(guān)高校互聯(lián)互通資源共享,強(qiáng)化產(chǎn)學(xué)研創(chuàng)新協(xié)同。(2)算力中心云平臺(tái)AI計(jì)算服務(wù):主要包括Al計(jì)算管理系統(tǒng),提供高性能Al算力池、云容器實(shí)例、彈性裸金屬服務(wù)器服務(wù)等。Al計(jì)算管理系統(tǒng)提供面向Al訓(xùn)練、推理等場景,提供容器、裸金屬等多類型計(jì)算實(shí)例的全生命周期資源管理能力。高性能Al算力池主要打造的高性能、彈性擴(kuò)展、安全穩(wěn)定、智能調(diào)度的Al算力平臺(tái)。通過算力池啟動(dòng)不同的工作負(fù)載進(jìn)行Al相關(guān)訓(xùn)練、推理任務(wù),智能調(diào)度系統(tǒng)能夠提高資源的利用率,同時(shí)也可提高算力資源的利用率及Al應(yīng)用的效率。在Al算力調(diào)度基礎(chǔ)之上,為用戶提供云容器、彈性裸金屬服務(wù)器等。Al存儲(chǔ)服務(wù):主要包括存儲(chǔ)管理系統(tǒng)、Al文件存儲(chǔ)、Al對(duì)象存儲(chǔ)。Al存儲(chǔ)管理系統(tǒng)提供安全、穩(wěn)定、高可用、低成本、彈性可擴(kuò)展的存儲(chǔ)服務(wù)。在Al存儲(chǔ)基礎(chǔ)之上,用戶可根據(jù)需求,購買所需的文件存儲(chǔ)和對(duì)象存儲(chǔ)。Al網(wǎng)絡(luò)服務(wù):主要包括私有網(wǎng)絡(luò)VPC和彈性公網(wǎng)IPEIP。私有網(wǎng)絡(luò)VPC是云上隔離的私有網(wǎng)絡(luò)空間,支持高速RDMA網(wǎng)絡(luò)。彈性公網(wǎng)IP提供了公網(wǎng)IP與Internet帶寬,通過網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)技術(shù),滿足租戶私有網(wǎng)絡(luò)(VPC)中的裸金屬、開發(fā)機(jī)等各類資源提(3)算力中心軟件基礎(chǔ)平臺(tái)Al算力軟件基礎(chǔ)平臺(tái)包括Al開發(fā)平臺(tái)和AI能力平臺(tái)。AI能力軟件平臺(tái)包括Al模型管理和模型推理服務(wù)。面向大模型全新開發(fā)范式,提供模型的生命周期的管理,并覆蓋大模型微調(diào)、推理、到部署應(yīng)用的全棧式Al開發(fā)場景,幫助企業(yè)內(nèi)部有效沉淀及共享模型資產(chǎn),并提供公開算法庫,助力用戶快速開發(fā)定制業(yè)務(wù)模型。AI模型推理服務(wù)是基于人工智能技術(shù)的推理云服務(wù),提供大語言模型等推理API,賦能開發(fā)者模型能力、大規(guī)模并發(fā)推理AI開發(fā)平臺(tái):基于云原生技術(shù)服務(wù),為AI開發(fā)者提供專業(yè)靈活的開發(fā)環(huán)境及組件,鏈接Al開發(fā)全流程;Al開發(fā)平臺(tái)以專業(yè)的研發(fā)工具,靈活的云計(jì)算資源,流暢的開發(fā)體驗(yàn),穩(wěn)定的訪問服務(wù),開放的配置方式,幫助Al開發(fā)者更高效、便捷地打造Al應(yīng)用,助力產(chǎn)業(yè)智能化升級(jí)。(4)AI算力硬件基礎(chǔ)設(shè)施AI算力硬件基礎(chǔ)設(shè)施:人工智能算法特別是訓(xùn)練算法,需要海量算力的支持,因此xxxx智算中心底層除了通用CPU處理器之外,規(guī)劃采用H100GPU處理器,進(jìn)行性能加速。并根據(jù)計(jì)算資源建設(shè)規(guī)模,根據(jù)大模型訓(xùn)練和推理對(duì)于存儲(chǔ)的需求,配置相應(yīng)的存儲(chǔ)和網(wǎng)絡(luò)設(shè)備。本項(xiàng)目采用模塊化設(shè)計(jì),包含若干個(gè)計(jì)算模塊和存儲(chǔ)模塊。在單一模塊內(nèi),計(jì)算服務(wù)器或者存儲(chǔ)服務(wù)器由不同類型的網(wǎng)絡(luò)進(jìn)行互連。集群內(nèi)核心交換機(jī)負(fù)責(zé)不同模塊之間的互連。為充分發(fā)揮分布式系統(tǒng)軟硬件性能并保障效率,采用多種網(wǎng)絡(luò)方案來滿足不同場景的節(jié)點(diǎn)互聯(lián)需求。同時(shí)提供安全保障產(chǎn)品方案,嚴(yán)格參考等級(jí)保護(hù)的思路和標(biāo)準(zhǔn),將不同區(qū)域、不同層面的安全保護(hù)措施形成有機(jī)的安全保護(hù)體系,建成后的安全保障體系將充分符合國家等級(jí)保護(hù)標(biāo)準(zhǔn),能夠?yàn)閤xxX智算中心穩(wěn)定運(yùn)行提供有力保障。(5)運(yùn)營運(yùn)維體系建設(shè)完善的運(yùn)營體系和運(yùn)維體系,保障項(xiàng)目后期正常運(yùn)行。運(yùn)營運(yùn)維體系主要包括運(yùn)營運(yùn)維管理組織、運(yùn)營運(yùn)維規(guī)范制度的建設(shè),并提供運(yùn)營運(yùn)維支持服務(wù)。(6)基建設(shè)施本項(xiàng)目采用機(jī)房改造方案,根據(jù)智算中心機(jī)房應(yīng)用需求改造升級(jí),主要包括建筑系統(tǒng)、智慧電力及供配電系統(tǒng)、智慧冷卻空調(diào)系統(tǒng)、智慧機(jī)房綜合監(jiān)控系統(tǒng)。2)整體技術(shù)路線從算力技術(shù)先進(jìn)性、軟件生態(tài)成熟度和大模型趨勢等方面的綜合考慮,并充分借鑒國內(nèi)智算中心的建設(shè)和運(yùn)營經(jīng)驗(yàn),綜合考慮人工智能技術(shù)發(fā)展趨勢和市場因素,本項(xiàng)目建議AI算力采用GPUH100處理器作為核心硬件設(shè)備,軟件部分采用滿足多元化高性能調(diào)度的異構(gòu)Al云服務(wù)管理平臺(tái)和Al平臺(tái)。智算中心建設(shè)的技術(shù)路線涉及多個(gè)方面,包括硬件設(shè)備、軟件架構(gòu)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施等。硬件設(shè)備選擇:選擇適用于智算中心的高性能計(jì)算設(shè)備,如服務(wù)器、超級(jí)計(jì)算機(jī)或圖形處理器(GPU)。針對(duì)深度學(xué)習(xí)和人工智能任務(wù),考慮采用專門的AI芯片來加速計(jì)算過程。這些芯片可以提供高效的矩陣計(jì)算和神經(jīng)網(wǎng)絡(luò)推理能力,從而加快模型訓(xùn)練和推斷的速度。可以選擇使用GPU、TPU(張量處理器)或其他定制的Al芯片。這些設(shè)備應(yīng)具備高計(jì)算能力、大內(nèi)存容量和高速數(shù)據(jù)傳輸能力,以支持處理大規(guī)模的智能應(yīng)用。分布式計(jì)算架構(gòu):采用分布式計(jì)算架構(gòu)將計(jì)算任務(wù)分配給多個(gè)計(jì)算節(jié)點(diǎn)進(jìn)行并行處理。可以使用諸如Hadoop、Spark等開源分布式計(jì)算框架,或者自行設(shè)計(jì)分布式計(jì)算系統(tǒng)。這種架構(gòu)可以充分利用集群中的計(jì)算資源,提高計(jì)算效率和吞吐量。云計(jì)算平臺(tái)搭建:建立云計(jì)算平臺(tái),以提供虛擬化的計(jì)算資源和彈性的服務(wù)。選擇適當(dāng)?shù)脑朴?jì)算技術(shù)棧,如OpenStack、Kubernetes等,來管理和調(diào)度計(jì)算資源。這樣的平臺(tái)可以根據(jù)應(yīng)用需求動(dòng)態(tài)分配計(jì)算資源,并提供靈活的服務(wù)模型,如laaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺(tái)即服務(wù))和SaaS(軟件即服務(wù))。網(wǎng)絡(luò)基礎(chǔ)設(shè)施優(yōu)化:為順應(yīng)數(shù)據(jù)、Al模型的巨量化趨勢,設(shè)計(jì)服務(wù)器節(jié)點(diǎn)內(nèi)多卡互聯(lián)網(wǎng)絡(luò)和多服務(wù)器節(jié)點(diǎn)間網(wǎng)絡(luò)互連方案。其中,節(jié)點(diǎn)內(nèi)的多卡互聯(lián)方案以PCle、OAM高速互聯(lián)等標(biāo)準(zhǔn)互聯(lián)協(xié)議為主;節(jié)點(diǎn)間網(wǎng)絡(luò)方案將基于RoCE的以太網(wǎng)絡(luò)技術(shù)搭建,實(shí)現(xiàn)池化資源間總線級(jí)交互,保證數(shù)據(jù)訪問的極低時(shí)延。數(shù)據(jù)管理和存儲(chǔ):建立適當(dāng)?shù)臄?shù)據(jù)管理和存儲(chǔ)系統(tǒng),以管理和存儲(chǔ)智算中心處理的大規(guī)模數(shù)據(jù)??梢允褂梅植际轿募到y(tǒng)(如HDFS)或?qū)ο蟠鎯?chǔ)系統(tǒng)(如AmazonS3)等技術(shù),確保數(shù)據(jù)的可靠性、高可用性和高性能訪問。安全與隱私保護(hù):為智算中心建設(shè)一個(gè)強(qiáng)大的安全架構(gòu),包括網(wǎng)絡(luò)安全、身份認(rèn)證、數(shù)據(jù)加密和訪問控制等措施,可以考慮采用TLS/SSL、IPSec等安全技術(shù)以保證數(shù)據(jù)傳輸和交互的安全性。同時(shí),要確保在處理敏感數(shù)據(jù)時(shí)遵守隱私保護(hù)的法規(guī)和規(guī)定,如合規(guī)性要求、數(shù)據(jù)去標(biāo)識(shí)化等。綜上所述,xxxx智算中心技術(shù)路線注重計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、安全和數(shù)據(jù)中心基礎(chǔ)設(shè)施等方面的技術(shù)和方案,實(shí)現(xiàn)智能計(jì)算的快速發(fā)3.算力中心云平臺(tái)建設(shè)1)統(tǒng)一云管平臺(tái)(1)概述統(tǒng)一云管平臺(tái)主要面向云平臺(tái)資源的運(yùn)營人員、財(cái)務(wù)人員及運(yùn)維人員,為運(yùn)營人員提供高效的租戶管理、營銷管理、業(yè)務(wù)運(yùn)營等各類產(chǎn)品管理運(yùn)營功能,為財(cái)務(wù)人員提供匯款管理、對(duì)賬結(jié)算等費(fèi)用管理服務(wù),為運(yùn)維人員提供資產(chǎn)管理、報(bào)表管理、日志審計(jì)等資產(chǎn)維護(hù)和資源監(jiān)控的功能。(2)邏輯架構(gòu)合同管理統(tǒng)一云管平臺(tái)邏輯架構(gòu)統(tǒng)一的產(chǎn)品門戶:統(tǒng)一承載IAAS及PAAS產(chǎn)品,為用戶提供快速的資源獲取方式和通用的管理配置策略,一站式完成Al研發(fā)。全面的企業(yè)業(yè)務(wù)支撐:面向企業(yè)管理者提供企業(yè)級(jí)租戶管理工具、標(biāo)準(zhǔn)賬務(wù)支撐能力,實(shí)現(xiàn)企業(yè)內(nèi)部資源管理調(diào)配、財(cái)務(wù)分析及合高效的云平臺(tái)運(yùn)營管理:提供系統(tǒng)性的云平臺(tái)運(yùn)營管理體系,根據(jù)大企業(yè)或集成商客戶的不同業(yè)務(wù)特性和管理需求特性,提供管理框架,使得Al算力、數(shù)據(jù)、算法成為可運(yùn)營服務(wù)。(3)主要功能用戶管理:采用主子賬號(hào)管理模式,由主賬號(hào)統(tǒng)一管理子賬號(hào)使用生命周期。實(shí)現(xiàn)了管、控分離和權(quán)限下放。訪問控制管理:使用業(yè)內(nèi)經(jīng)典的RBAC模型對(duì)平臺(tái)內(nèi)子賬號(hào)進(jìn)行統(tǒng)一的訪問控制管理。方便用戶快速使用和管理。管理組管理:為了提升資源的管理效率,根據(jù)用戶企業(yè)部門組織相關(guān)信息組織資源,平臺(tái)提供了“管理組”,方便用戶按照企業(yè)管理的需要建立組織結(jié)構(gòu),在管理組層級(jí)為用戶授權(quán)。訂閱管理:訂閱是用戶進(jìn)行計(jì)費(fèi)和賬單管理的單位,所購資源與訂閱直接關(guān)聯(lián)。訂閱與計(jì)費(fèi)賬戶關(guān)聯(lián)。資源組管理:資源組是共享相同生命周期、權(quán)限和策略的資源的集合,是最基本的資源分組方式。每個(gè)資源實(shí)例必須且只能隸屬于一個(gè)資源組。費(fèi)用管理:費(fèi)用管理包含賬戶余額管理、消費(fèi)流水和趨勢查詢、訂單管理、賬單管理和合同包。幫助用戶通過收入、支出分析系統(tǒng)的使用情況。訂單管理:訂單管理包括訂單查詢、續(xù)訂管理和退訂管理。支持用戶對(duì)于各類資源生命周期的特殊邏輯管理。賬單管理:賬單管理包括賬單概覽和賬單明細(xì)。方便客戶從多個(gè)視角了解賬單額度、使用趨勢、余額使用分布。統(tǒng)一用戶控制臺(tái):快速入口訪問:最近訪問入口提供快捷的產(chǎn)品與服務(wù)導(dǎo)航;自定義入口覆蓋多類型入口收藏場景,為用戶提供定制化入口管理需求。資源全局概覽:支持對(duì)登錄賬號(hào)下的各類產(chǎn)品服務(wù)資源進(jìn)行關(guān)鍵指標(biāo)的用量統(tǒng)計(jì)和異常狀態(tài)提醒。賬戶資金概覽:支持賬戶可用余額、代金券及剩余延停額度概覽,一鍵快速充值功能。待辦事項(xiàng)提醒:為用戶提供待續(xù)費(fèi)、待支付訂單數(shù)統(tǒng)計(jì),支持一鍵跳轉(zhuǎn)至訂單管理頁續(xù)費(fèi)或支付訂單。結(jié)構(gòu)化幫助中心:提供完備的新手指引文檔和詳細(xì)的產(chǎn)品介紹文檔,幫助用戶快速上手云產(chǎn)品。多通道消息告警通知:提供即時(shí)、多類型產(chǎn)品公告及告警類通知以支持用戶進(jìn)行資產(chǎn)生命周期管理、維持服務(wù)正常運(yùn)行。云平臺(tái)運(yùn)營運(yùn)維管理劃分、可用region限定、租戶級(jí)別的平臺(tái)偏好應(yīng)用配置。資源運(yùn)營:從已售資源、庫存資源、硬件資源等多個(gè)層面,統(tǒng)計(jì)資源使用數(shù)據(jù),根據(jù)水位狀態(tài),利用率、占用率等信息,輔助運(yùn)營進(jìn)行資源管理的策略選擇。產(chǎn)品管理:根據(jù)系統(tǒng)售賣策略和營銷內(nèi)容,制定標(biāo)準(zhǔn)單元產(chǎn)品、可售賣產(chǎn)品、產(chǎn)品屬性、收費(fèi)模式、計(jì)價(jià)策略等內(nèi)容,實(shí)現(xiàn)線上售賣體系的實(shí)時(shí)變更。財(cái)務(wù)管理:提供平臺(tái)級(jí)的訂單報(bào)表、賬單報(bào)表、用戶賬戶余額報(bào)表,輔助財(cái)務(wù)進(jìn)行賬務(wù)核算、幫助運(yùn)營快速獲悉租戶的賬務(wù)風(fēng)險(xiǎn),及時(shí)與租戶對(duì)接,減少客戶因余額不足,系統(tǒng)停服的風(fēng)險(xiǎn)。賬戶管理:支持面向租戶的線下余額匯款功能、合同包創(chuàng)建功能以及代金券發(fā)放功能,為各類營銷場景提供可擴(kuò)展的解決方案。2)云監(jiān)控服務(wù)云監(jiān)控是全方位的云資源監(jiān)控平臺(tái),從基礎(chǔ)設(shè)施、系統(tǒng)服務(wù)和運(yùn)行任務(wù)等多種維度,提供全方位的監(jiān)控、可視化和靈活告警等功能,助力客戶全面了解資源使用情況和業(yè)務(wù)的運(yùn)行狀況,保障業(yè)務(wù)持久運(yùn)行的同時(shí)降低運(yùn)維成本。(2)主要功能云監(jiān)控服務(wù)主要具備以下功能:云資源監(jiān)控:支持對(duì)接多種云產(chǎn)品,可便捷地查看各目標(biāo)資源的健康狀態(tài)和其他指標(biāo)信息,自定義監(jiān)控指標(biāo)更具靈活性,助力用戶深入了解云產(chǎn)品資源狀態(tài)。支持采集多種類型日志信息,根據(jù)特定的語法規(guī)則進(jìn)行查詢,與其他云服務(wù)的監(jiān)控功能結(jié)合豐富查詢維度,形成完整的監(jiān)控閉環(huán),助力業(yè)務(wù)異常排查??焖俑婢禾峁╈`活告警規(guī)則的配置,在監(jiān)控?cái)?shù)據(jù)達(dá)到告警閾值時(shí)發(fā)送報(bào)警通知,用戶及時(shí)獲取異常通知,查詢異常原因,并對(duì)異常進(jìn)行處理。監(jiān)控大盤:支持針對(duì)不同云產(chǎn)品創(chuàng)建專屬監(jiān)控大盤,提供豐富的配置指標(biāo)和多樣化的可視化形式,以清晰直觀的方式掌握各云產(chǎn)品的資源情況。事件監(jiān)控:事件監(jiān)控具備了各云產(chǎn)品的故障和業(yè)務(wù)異常事件,可設(shè)置告警規(guī)則以便快速響應(yīng),詳細(xì)記錄助力關(guān)聯(lián)云產(chǎn)品資源和排查復(fù)盤。3)容器鏡像服務(wù)(1)概述容器鏡像服務(wù)支持容器鏡像全生命周期管理的安全托管平臺(tái),提供易用可靠的鏡像管理功能。容器鏡像服務(wù)是為容器鏡像、HelmChart等符合OCI標(biāo)準(zhǔn)的云原生制品提供全生命周期管理的安全托管平臺(tái),提供易用但可靠的鏡像管理能力,助力開發(fā)者以更靈活的方式進(jìn)行Al任務(wù)的訓(xùn)練。(2)主要功能容器鏡像服務(wù)主要具備以下功能:全生命周期管理:支持多種原生制品的推送、拉取和清理等全生命周期的托管能力,可為鏡像添加Al特性標(biāo)簽以便分類管理。支持內(nèi)外網(wǎng)訪問控制,鏡像安全掃描等功能,保障數(shù)據(jù)安全及訪細(xì)粒度權(quán)限管控:提供容器鏡像隔離能力,細(xì)粒度權(quán)限管理,支持為不同用戶分配相應(yīng)的訪問權(quán)限。無縫對(duì)接云產(chǎn)品:無縫對(duì)接ACP、CCI和AICL等云產(chǎn)品,為Al訓(xùn)練和應(yīng)用部署提供個(gè)性化能力支持。4.算力中心軟件基礎(chǔ)平臺(tái)建設(shè)(1)概述基于云原生技術(shù)服務(wù),為Al開發(fā)者提供專業(yè)靈活的開發(fā)環(huán)境及組件,鏈接Al開發(fā)全流程,包括掛載云存儲(chǔ)獲取數(shù)據(jù)與模型信息,鏈接其他Al服務(wù)獲取豐富的數(shù)據(jù)管理、模型可視化等服務(wù)。Al云開發(fā)機(jī)提供專業(yè)的研發(fā)工具,靈活的云計(jì)算資源,流暢的開發(fā)體驗(yàn),穩(wěn)定的訪問服務(wù),開放的配置方式,幫助Al開發(fā)者更高效、便捷地打造Al應(yīng)用,助力產(chǎn)業(yè)智能化升級(jí)。(2)邏輯架構(gòu)WEBIDE/WebTerminalIDE客戶端(如VSCode)云開發(fā)機(jī)AI算法組件CV算法NLP算法Al訓(xùn)練框架PytorchTensorFlow計(jì)算架構(gòu)驅(qū)動(dòng)&組件庫CUDA操作系統(tǒng)與常用軟件Ubuntu第三方服務(wù)(如TensorBoard)大模型算法JaxRcuDNNCentOS計(jì)算、存儲(chǔ)、容器鏡像、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施Al云發(fā)機(jī)邏輯架構(gòu)AI云開發(fā)機(jī)作為用于給Al開發(fā)者的使用的開發(fā)環(huán)境,應(yīng)考慮在基于底層Al基礎(chǔ)設(shè)施上對(duì)資源的靈活使用,如以容器的方式進(jìn)行系統(tǒng)性的管理,同時(shí)考慮與不同的依賴的存儲(chǔ)、網(wǎng)絡(luò)的可交互性,可拓展性。因設(shè)計(jì)目標(biāo)為Al開發(fā)者使用,在Al云開發(fā)機(jī)的內(nèi)部服務(wù)設(shè)以及相應(yīng)的計(jì)算驅(qū)動(dòng)庫,并為開發(fā)者預(yù)置主流的Al訓(xùn)練框架、算法框架等內(nèi)容,減少用戶構(gòu)建開發(fā)環(huán)境的時(shí)間。同時(shí),Al開發(fā)平臺(tái)也支持用戶自定義鏡像的方式支持caCQe、mxnet、paddlepaddle等主流深度學(xué)習(xí)框架。考慮到不同Al開發(fā)者的習(xí)慣不同,且開發(fā)工作較為復(fù)雜,使用者對(duì)開發(fā)機(jī)系統(tǒng)會(huì)要求較高的開放權(quán)限,使他們能夠自定義地安裝自己需要的組件和相應(yīng)的版本依賴,并應(yīng)能支持配合多種IDE、webide的形式,在線或遠(yuǎn)程登錄訪問使用開發(fā)機(jī)內(nèi)的服務(wù)與資源,保障使用的流暢性和穩(wěn)定性。此外,考慮到Al開發(fā)者已有多種成熟的分析工具使用,云開發(fā)機(jī)的系統(tǒng)設(shè)計(jì),應(yīng)有足夠的開放性,能允許開發(fā)者去接入多種第三方的訓(xùn)練可視化、數(shù)據(jù)分析等服務(wù)。(3)主要功能多種資源規(guī)格配置:根據(jù)Al研究員的不同業(yè)務(wù)需求和任務(wù)需要,靈活配置選擇不同cpu、gpu數(shù)量、內(nèi)存規(guī)格的云開發(fā)環(huán)境。預(yù)置Al研發(fā)過程中主流、高效的算法、訓(xùn)練框架和Al組件包,免去大量繁瑣安裝,實(shí)現(xiàn)隨起隨用。支持對(duì)已創(chuàng)建的Al云開發(fā)機(jī),進(jìn)行多種操作,按需啟用,隨時(shí)停止,開發(fā)環(huán)境服務(wù)狀態(tài)盡在掌握。云端編碼調(diào)試:通過瀏覽器可快捷訪問云端的原生IDE功能,進(jìn)行代碼編譯調(diào)試,模型構(gòu)建,無需繁瑣基礎(chǔ)設(shè)施、環(huán)境搭建??赏ㄟ^本地客戶端、多種web端遠(yuǎn)程接入訪問,同時(shí)享受本地穩(wěn)定開發(fā)體驗(yàn)和云端豐富資源??稍谠崎_發(fā)機(jī)內(nèi)用少量資源完成代碼調(diào)試,鏈接AI高性能算力池,發(fā)起大規(guī)模分布式訓(xùn)練任務(wù),實(shí)現(xiàn)極致彈性算力使用。支持開發(fā)人員在Al云開發(fā)機(jī)內(nèi)以root權(quán)限配置需要的環(huán)境以及安裝相應(yīng)的組件包,實(shí)現(xiàn)開發(fā)環(huán)境的自定義。支持開發(fā)人員在完成了開發(fā)環(huán)境的自定義配置以后,保存開發(fā)機(jī)的配置和鏡像內(nèi)容為鏡像快照,用于后續(xù)的恢復(fù),以及創(chuàng)建新的開發(fā)機(jī)時(shí)選擇自定義鏡像。Al云開發(fā)機(jī)詳細(xì)功能列表序號(hào)主要功能點(diǎn)主要功能描述1創(chuàng)建Al云開發(fā)機(jī)的Al云開發(fā)機(jī)資源2開發(fā)機(jī)資源配置習(xí)慣等維度,對(duì)Al云開發(fā)機(jī)的各種規(guī)格進(jìn)行配置3開發(fā)機(jī)鏡像配置身需求選擇不同的操作系統(tǒng)版本。4Al云開發(fā)機(jī)打開支持以WebTerminal的形式,打開訪問正在運(yùn)行中的Al云開發(fā)機(jī)。5Al云開發(fā)機(jī)信息查看即云開發(fā)環(huán)境,包括ID,名稱,所使用的6Al云開發(fā)機(jī)編輯支持用戶對(duì)已創(chuàng)建的Al云開發(fā)機(jī)實(shí)例進(jìn)進(jìn)行查找和區(qū)分不同的Al云開發(fā)機(jī)實(shí)7Al云開發(fā)機(jī)啟動(dòng)支持將已停止的Al云開發(fā)機(jī)實(shí)例重新啟動(dòng)并占用計(jì)算資源,并將Al云開發(fā)機(jī)變?yōu)檫\(yùn)行中狀態(tài)的操作。8Al云開發(fā)機(jī)停止支持將正在運(yùn)行中的Al云開發(fā)機(jī)停止運(yùn)行,并釋放相應(yīng)計(jì)算資源,使Al云開發(fā)機(jī)變?yōu)橐淹V範(fàn)顟B(tài)的操作。9Al云開發(fā)機(jī)資源監(jiān)控支持監(jiān)控查看Al云開發(fā)機(jī)正在使用的計(jì)和可視化展示支持私有鏡像創(chuàng)建開發(fā)機(jī)權(quán)限的私有鏡像來創(chuàng)建開發(fā)機(jī)支持私有鏡像啟動(dòng)開發(fā)機(jī)身有權(quán)限的私有鏡像來恢復(fù)啟動(dòng)開發(fā)機(jī)支持開發(fā)機(jī)綁定多個(gè)EIP和DNAT規(guī)則支持用戶對(duì)特定的開發(fā)機(jī)實(shí)例綁定多個(gè)EIP和DNAT網(wǎng)絡(luò)規(guī)則,實(shí)現(xiàn)不同網(wǎng)絡(luò)服務(wù)規(guī)則支持自定義鏡像支持用戶在開發(fā)機(jī)內(nèi)根據(jù)自身需求安裝保存為自定義鏡像。支持開發(fā)機(jī)更換鏡像擇任意有權(quán)限的鏡像進(jìn)行啟動(dòng)開發(fā)機(jī)狀態(tài)保存新拉起恢復(fù),或用于其他Al云開發(fā)機(jī)的創(chuàng)建。多種IDE支持根據(jù)不同用戶習(xí)慣,支持多種主流IDE,包括CodeServer和內(nèi)的服務(wù)和相關(guān)文件數(shù)據(jù)。存儲(chǔ)卷掛載支持遠(yuǎn)程登錄支持用戶通過SSHKeys等主流的身份驗(yàn)證方式,通過TerminalSSH或本地VSCode客戶端遠(yuǎn)程登錄至開發(fā)機(jī)內(nèi),實(shí)現(xiàn)本地開發(fā)接入云端資源服務(wù)。開放開發(fā)權(quán)限提供用戶在開發(fā)機(jī)內(nèi)的root權(quán)限,支持用戶使用依賴root/sudo權(quán)限的命令完載等,實(shí)現(xiàn)開發(fā)環(huán)境的自定義。多種第三方服務(wù)訪問包括用戶配置TensorBoard、WanDB等第三方服務(wù)獲取開發(fā)機(jī)內(nèi)的訓(xùn)練日志和模型信息進(jìn)行實(shí)驗(yàn)的分析和對(duì)比支持向計(jì)算集群提交訓(xùn)練任務(wù)支持用戶在開發(fā)機(jī)內(nèi)用少量資源完成代碼調(diào)試,并使用CLI工具,向集群提交分布式的訓(xùn)練任務(wù)。(4)使用場景基于以上設(shè)計(jì)的AI云開發(fā)機(jī)的特性及產(chǎn)品功能,應(yīng)滿足以下幾個(gè)常見應(yīng)用場景的使用。數(shù)據(jù)分析處理:可基于開發(fā)機(jī)內(nèi)置的組件,通過交互式編碼對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,格式轉(zhuǎn)化,特征工程等數(shù)據(jù)預(yù)處理??苫陂_發(fā)機(jī)內(nèi)置算法組件與模型,根據(jù)業(yè)務(wù)和落地需求,調(diào)整相關(guān)backbone,head,neck等網(wǎng)絡(luò)部分,并進(jìn)行調(diào)試?;陂_發(fā)機(jī)內(nèi)置訓(xùn)練框架和算力資源,對(duì)構(gòu)建的算法發(fā)起訓(xùn)練、調(diào)參,可鏈接Al訓(xùn)練池發(fā)起更大規(guī)模的任務(wù)。可基于本地、在線導(dǎo)入的數(shù)據(jù)集,對(duì)已訓(xùn)練的模型,或開發(fā)機(jī)內(nèi)置模型,發(fā)起模型的評(píng)測,調(diào)試測試代碼。可對(duì)訓(xùn)練出的模型進(jìn)行格式轉(zhuǎn)化,根據(jù)目標(biāo)部署的設(shè)備與架構(gòu),進(jìn)行算子的編譯和模型的量化、壓縮。模型平臺(tái)提供科學(xué)、系統(tǒng)的企業(yè)級(jí)模型平臺(tái),面向大模型全新開發(fā)范式,作為核心基站,打通模型的生命周期的管理,并覆蓋大模型微調(diào)、推理、到部署應(yīng)用的全棧式Al開發(fā)場景,幫助企業(yè)內(nèi)部有效沉淀及共享模型資產(chǎn),加速Al開發(fā)效率,并提供公開算法庫,助力用戶快速開發(fā)定制業(yè)務(wù)模型。(2)邏輯架構(gòu)AI模型平臺(tái)頂層交互模型算法支持任務(wù)類型支持功能模塊提供服務(wù)層封裝基礎(chǔ)設(shè)施存儲(chǔ)、網(wǎng)絡(luò)、計(jì)算等Al數(shù)據(jù)管理平臺(tái)邏輯架構(gòu)Al模型平臺(tái)的系統(tǒng)設(shè)計(jì),包含了模型與算法兩大核心元素。在模型層面,針對(duì)開發(fā)者訓(xùn)練生產(chǎn)的模型,模型平臺(tái)需提供系統(tǒng)的模型生命周期管理,幫助開發(fā)者進(jìn)行模型資產(chǎn)的沉淀。另一方面,用于加速Al開發(fā)流程,Al模型平臺(tái)應(yīng)提供相應(yīng)的主流公開模型、主流公開算法等,避免開發(fā)者從0開始工作的情況。此外,在模型與算法類型上,應(yīng)考慮多種全面的Al任務(wù)類型和算法類型,包括NLP、CV、多模態(tài)、語音等常見AI任務(wù),并提供主流的開發(fā)算法,如Llama,Pythia,Llama2等系列的微調(diào)算法,以快速支持相應(yīng)的模型微調(diào)任務(wù)。該系統(tǒng)的整體使用,需綜合考慮不同的使用場景和Al開發(fā)者的使用習(xí)慣,來通過包括web界面,cli工具,python獲取、查看、使用、保存,算法的使用,支持多維度的交互形式。(3)主要功能Al模型平臺(tái)的功能模塊需要綜合考慮用戶產(chǎn)出的模型管理,以及平臺(tái)內(nèi)預(yù)置的公開模型、公開算法。支持托管企業(yè)優(yōu)質(zhì)模型,以git方式組織模型文件,配合模型描述schema,實(shí)現(xiàn)標(biāo)準(zhǔn)化模型定義,高效版本管理。公開模型:提供業(yè)界先進(jìn)、高精度的預(yù)訓(xùn)練模型,覆蓋豐富的任務(wù)類型和算法類型,支持百億、千億參數(shù)量大模型。提供微調(diào)算法庫,覆蓋llama、pythia等多種主流大模型類型,支持全量微調(diào)、lora微調(diào)等多種微調(diào)方法,提供大模型微調(diào)最佳實(shí)踐,通過簡單幾行命令,即可快速啟動(dòng)微調(diào)任務(wù)??焖俨渴痱?yàn)證:支持用戶在瀏覽檢索私有&公開模型的同時(shí),在目標(biāo)模型詳情頁,快速發(fā)起該模型的推理服務(wù)部署操作,用于驗(yàn)證模型的實(shí)際落地效Al模型平臺(tái)詳細(xì)功能列表主要功能點(diǎn)主要功能描述1創(chuàng)建模型空間于模型存儲(chǔ)。2模型空間擴(kuò)縮容支持“使用中”的預(yù)付費(fèi)模型空間調(diào)整配3模型空間續(xù)訂支持續(xù)訂已到期的模型空間,延長使用時(shí)4模型空間退訂提前釋放資源。5模型空間管理支持以列表形式查看模型空間名稱、ID、6創(chuàng)建模型支持創(chuàng)建模型倉庫,用于存儲(chǔ)、管理模型文件,創(chuàng)建后會(huì)自動(dòng)初始化模型對(duì)應(yīng)的git倉庫。7模型權(quán)限配置支持將模型分享給模型空間下的其他用8模型管理支持以卡片形式查看模型名稱、標(biāo)簽、性能信息、權(quán)限信息等。序號(hào)主要功能點(diǎn)主要功能描述9模型檢索模型篩選框架信息進(jìn)行聯(lián)合篩選。模型詳情查看模型簡介查看支持自動(dòng)將模型倉庫master分支下的README.md文件進(jìn)行渲染,展示模型介紹信息、性能信息、訓(xùn)練數(shù)據(jù)集信息等。模型文件列表查看支持按照git文件組織方式查看模型文線查看,gitcommit信息查看,文件大小查模型版本管理支持按照git開發(fā)范式,切換branch/tag來查看和管理不同版本下的模型文件。模型管理cli工具支持通過git指令集操作模型倉庫,實(shí)現(xiàn)模型文件push、pull等一系列操作,支持使用scoampcli工具查詢、篩選模型列表。模型管理sdk工具支持通過pythonsdk獲取模型文件列模型上傳分片面向大模型場景,支持Ifs標(biāo)記的大模型型內(nèi)置100+業(yè)界高質(zhì)量的開源大模型,覆蓋自然語言處理、多模態(tài)等多種任務(wù)類型,支持transformers、diCQusers等多種框架。公開模型下載支持通過gitcli指令集在Al開發(fā)平臺(tái)內(nèi)下載使用公開模型。公開模型收藏支持收藏業(yè)務(wù)所需公開模型,可按收藏篩選快速找到目標(biāo)模型。序號(hào)主要功能點(diǎn)主要功能描述公開模型管理支持以卡片形式查看模型名稱、標(biāo)簽、更新時(shí)間、下載次數(shù)、收藏量等關(guān)鍵信息。公開模型篩選公開模型排序支持按照更新時(shí)間、下載次數(shù)、收藏次數(shù)三個(gè)維度進(jìn)行排序。公開模型檢索支持以關(guān)鍵詞檢索公開模型,支持按名稱、ID、性能指標(biāo)等信息進(jìn)行模糊搜索。公開模型詳情查看支持查看公開模型基本信息如模型名稱、URL、更新時(shí)間、開源協(xié)議等,支持跳轉(zhuǎn)查看開源協(xié)議源文件,支持查看模型簡介和文件列表。公開模型簡介查看展示公開模型的模型介紹,可查看性能信息、訓(xùn)練數(shù)據(jù)集等。公開模型文件列表查看支持按照git文件組織方式查看模型文線查看,gitcommit信息查看,文件大小查密鑰生成支持生成用于私有模型管理git指令認(rèn)證,以及公開模型下載git指令認(rèn)證所需密蓋原有密鑰。法庫提供微調(diào)算法庫,支持全量微調(diào)、lora微調(diào)兩種微調(diào)方法,可以基于默認(rèn)配置快速啟動(dòng)微調(diào)任務(wù),或clone源代碼自主修改。微調(diào)算法庫源代碼查看支持在線查看微調(diào)算法庫源代碼,可切換branch/tag查看不同代碼文件和gitcommit信息等,提供gitclone方法下載微調(diào)算法公開算法管理支持以卡片形式查看算法名稱、標(biāo)簽、更新時(shí)間、關(guān)聯(lián)資產(chǎn)等關(guān)鍵信息。序號(hào)主要功能點(diǎn)主要功能描述公開算法收藏支持收藏業(yè)務(wù)所需公開算法,可按收藏篩選快速找到目標(biāo)算法。公開算法篩選支持按照任務(wù)類型、算法類型、微調(diào)方法、收藏進(jìn)行聯(lián)合篩選。公開算法排序支持按照更新時(shí)間、收藏次數(shù)兩個(gè)維度進(jìn)行排序。公開算法檢索支持以關(guān)鍵詞檢索公開算法,支持按名稱模糊搜索。公開算法解讀支持查看公開算法的介紹,微調(diào)實(shí)例效果,微調(diào)步驟,關(guān)聯(lián)資產(chǎn)等信息。公開算法微調(diào)實(shí)例查看支持查看公開算法對(duì)應(yīng)不同參數(shù)量的模調(diào)任務(wù)。公開算法關(guān)聯(lián)資產(chǎn)查看支持查看公開算法對(duì)應(yīng)的預(yù)訓(xùn)練模型、預(yù)點(diǎn)擊跳轉(zhuǎn)查看關(guān)聯(lián)資產(chǎn)詳情。LlaMa微調(diào)支持提供LlaMa全量微調(diào)及l(fā)ora微調(diào)方法。Pythia微調(diào)支持提供pythia全量微調(diào)及l(fā)ora微調(diào)方法。(4)應(yīng)用場景基于以上設(shè)計(jì)的Al模型平臺(tái)的特性及產(chǎn)品功能,應(yīng)滿足以下幾個(gè)常見應(yīng)用場景的使用。Al算法選型:根據(jù)業(yè)務(wù)需求、任務(wù)類型等多種維度,幫助用戶快速找到合適的算法模型為基礎(chǔ),云端快速構(gòu)建開發(fā)環(huán)境,隨時(shí)基于已有算法進(jìn)行模型訓(xùn)練、優(yōu)化、迭代,告別從0開發(fā)。大模型開發(fā)范式落地:提供大模型開放平臺(tái),提供大模型自動(dòng)分塊、大文件自動(dòng)跟蹤等能力,配備多種開發(fā)工具,加速大模型行業(yè)應(yīng)用落地。前沿算法驗(yàn)證:更新、匯集前沿、新潮Al算法,搭配相應(yīng)開發(fā)環(huán)境、計(jì)算資源、驗(yàn)證腳本等核心要素,系統(tǒng)性提升Al算法落地、算法集成驗(yàn)證的效率,全面助力基于前沿算法的應(yīng)用開發(fā)。沉淀用戶Al模型資產(chǎn),并提供系統(tǒng)性工具,協(xié)助用戶管理不同算法、模型版本、適配環(huán)境、代碼、數(shù)據(jù)集等核心Al要素,提升后續(xù)算法復(fù)用及迭代速度。模型推理服務(wù):Al模型推理服務(wù)是面向大模型的推理云服務(wù),方便開發(fā)者將大模型部署到云端推理,快速高效地搭建推理服務(wù),提供簡潔易用的運(yùn)維能力和高性價(jià)比高質(zhì)量的大模型推理服務(wù)。(2)邏輯架構(gòu)負(fù)載均衡動(dòng)態(tài)加載模型量化認(rèn)證鑒權(quán)算力調(diào)度批量處理流量控制彈性擴(kuò)縮容模型加速告警系統(tǒng)網(wǎng)絡(luò)等網(wǎng)關(guān)服務(wù)引擎硬件GPUCPU內(nèi)存服務(wù)管理等流量監(jiān)控服務(wù)監(jiān)控模型推理邏輯架構(gòu)整體模型推理的系統(tǒng)架構(gòu)應(yīng)考慮多方面的層級(jí),包括底層的基礎(chǔ)設(shè)施(硬件)的使用,以及在上面搭建的推理引擎,來實(shí)現(xiàn)對(duì)多種不同硬件的適配與加速,并可對(duì)多種不同類型的模型,只是模型的量化壓縮和加速處理。因模型推理是對(duì)外提供Al應(yīng)用服務(wù)的核心環(huán)節(jié),在系統(tǒng)設(shè)計(jì)上,需要考慮業(yè)務(wù)調(diào)用時(shí)的峰谷情況,在能批量處理大量請(qǐng)求的同時(shí),同時(shí)在服務(wù)層級(jí),通過動(dòng)態(tài)加載,靈活的算力調(diào)度,彈性的擴(kuò)縮容等能力,加強(qiáng)對(duì)模型推理生成的在線服務(wù)的系統(tǒng)性管理。在模型推理的最上層,應(yīng)有相應(yīng)的網(wǎng)絡(luò)層面的服務(wù)和設(shè)計(jì),包括對(duì)不以及支持用戶可根據(jù)實(shí)際Al業(yè)務(wù)需求配置白名單的能力。(3)主要功能模型推理平臺(tái)能力應(yīng)承接模型平臺(tái)管理的自主模型和模型平臺(tái)支持的公開模型,并按用戶需求配置,持續(xù)提供在線服務(wù),和主要功Al模型推理服務(wù)的創(chuàng)建針對(duì)Al開發(fā)者,提供快捷的Al模型推理發(fā)起服務(wù),用戶通過硬件資源的配置,選擇需要的模型、鏡像和推理參數(shù)配置,以及副本數(shù)量等信息,則可以快速自動(dòng)創(chuàng)建,生成一個(gè)推理服務(wù),使得Al開發(fā)者可以聚焦在Al模型算法的能力本身,享受便捷、快速的服務(wù)實(shí)現(xiàn)。Al推理服務(wù)的管理與使用針對(duì)已創(chuàng)建的推理服務(wù),自動(dòng)生成推理服務(wù)可用的API,并支持用戶對(duì)服務(wù)進(jìn)行鑒權(quán)配置管理,基于模型推理的暴露API,向上進(jìn)一步搭建Al應(yīng)用,并提供詳細(xì)的在線服務(wù)的請(qǐng)求、性能、調(diào)用統(tǒng)計(jì)和分析等能力。AI推理服務(wù)的彈性伸縮考慮到終端用戶使用AI推理服務(wù),典型的AI應(yīng)用服務(wù)會(huì)有訪問的峰谷,推理服務(wù)在實(shí)現(xiàn)自動(dòng)的服務(wù)化,以及允許用戶配置更新的同時(shí),支持用戶配置根據(jù)服務(wù)狀況和業(yè)務(wù)邏輯配置對(duì)在線服務(wù)中的Al推理服務(wù)自動(dòng)擴(kuò)縮容。模型推理服務(wù)詳細(xì)功能列表主要功能點(diǎn)主要功能描述1推理服務(wù)創(chuàng)建支持創(chuàng)建多實(shí)例多副本推理服務(wù),用于推理客戶上傳至模型平臺(tái)的模型,以API的形式向客戶提供推理能力。(實(shí)例允許跨區(qū)域算力,和訓(xùn)練算力互通)2支持多種模型來源創(chuàng)建推理服務(wù)用戶上傳模型:支持用戶將自己模型上傳至模型平臺(tái),然后用于創(chuàng)建推理服務(wù)。模型平臺(tái)公開模型:模型平臺(tái)有提供多種優(yōu)秀的開源模型,可供用戶創(chuàng)建推理服主要功能點(diǎn)主要功能描述用戶微調(diào)模型:支持用戶使用模型平臺(tái)微調(diào)模型,并將微調(diào)后的模型創(chuàng)建推理服3支持多種推理鏡像創(chuàng)建推理服務(wù)用戶上傳的推理鏡像:用戶可以講自己的推理鏡像上傳至CCR,用于用于創(chuàng)建推理服務(wù)。商湯官方鏡像:現(xiàn)在僅提供一種官方鏡4推理服務(wù)更新支持用戶更新推理服務(wù)中的實(shí)例配置,對(duì)推理服務(wù)進(jìn)行模型更新或者擴(kuò)縮容。5推理服務(wù)刪除支持刪除不再使用的推理服務(wù),釋放相關(guān)算力資源。6推理服務(wù)查看詳情支持查看推理服務(wù)的詳情信息,如推理服務(wù)接口,服務(wù)日志,調(diào)用統(tǒng)計(jì)等信息。7推理服務(wù)搜索支持以關(guān)鍵詞檢索推理服務(wù),支持按名稱進(jìn)行模糊搜索。8推理服務(wù)鑒權(quán)管理支持對(duì)推理服務(wù)進(jìn)行鑒權(quán)管理,如創(chuàng)建APIKey,刪除APIKey,更新APIKey名稱等。9推理服務(wù)創(chuàng)建Key支持對(duì)每個(gè)推理服務(wù)最多創(chuàng)建10個(gè)APIKey,用于調(diào)用該推理服務(wù)的能力。推理服務(wù)刪除Key支持用戶刪除推理服務(wù)現(xiàn)有APIKey。推理服務(wù)更新Key名稱支持用戶更新推理服務(wù)現(xiàn)由APIKey的名查看推理服務(wù)日志支持用戶查看推理服務(wù)的日志,將會(huì)提供創(chuàng)建中,運(yùn)行中等狀態(tài)中的關(guān)鍵運(yùn)行日志信息。查看推理服務(wù)CPU使用情況支持用戶查看推理服務(wù)的CPU使用情況,提供實(shí)時(shí),最近一小時(shí),最近一天,最近七天的數(shù)據(jù),時(shí)間顆粒度可調(diào)。查看推理服務(wù)內(nèi)存支持用戶查看推理服務(wù)的內(nèi)存使用情況,主要功能點(diǎn)主要功能描述使用情況七天的數(shù)據(jù),時(shí)間顆粒度可調(diào)。查看推理服務(wù)GPU使用情況支持用戶查看推理服務(wù)的GPU使用情況,七天的數(shù)據(jù),時(shí)間顆粒度可調(diào)。查看推理服務(wù)顯存使用情況七天的數(shù)據(jù),時(shí)間顆粒度可調(diào)。查看推理服務(wù)QPS統(tǒng)計(jì)信息支持用戶查看推理服務(wù)的QPS統(tǒng)計(jì)信息,數(shù)據(jù),時(shí)間顆粒度可調(diào)。查看推理服務(wù)調(diào)用量統(tǒng)計(jì)信息支持用戶查看推理服務(wù)的調(diào)用量統(tǒng)計(jì)信天的數(shù)據(jù),時(shí)間顆粒度可調(diào)。查看推理服務(wù)首Token延遲統(tǒng)計(jì)信息支持用戶查看推理服務(wù)的首Token延遲統(tǒng)近七天的數(shù)據(jù),時(shí)間顆粒度可調(diào)。查看推理服務(wù)單Token耗時(shí)統(tǒng)計(jì)信息支持用戶查看推理服務(wù)的單Tokne耗時(shí)統(tǒng)近七天的數(shù)據(jù),時(shí)間顆粒度可調(diào)。(4)應(yīng)用場景基于以上設(shè)計(jì)的Al模型推理服務(wù)應(yīng)滿足以下幾個(gè)常見應(yīng)用場景前沿模型快速驗(yàn)證:通過模型推理暴露的API,用戶可在上層封裝為微應(yīng)用,迅速搭建并驗(yàn)證前沿模型在具體業(yè)務(wù)場景上的落地效果和潛在交互形式。行業(yè)Al應(yīng)用落地:根據(jù)行業(yè)應(yīng)用需求,用戶可配置業(yè)務(wù)需求依賴的模型的自動(dòng)擴(kuò)縮容邏輯,并基于模型推理的API,在上層封裝需要落地的應(yīng)用業(yè)務(wù)邏輯,持續(xù)為Al應(yīng)用軟件賦能。5.算力中心算力軟硬件設(shè)備類型1)Al服務(wù)器選型Al服務(wù)器主要用于視頻、圖形處理,結(jié)合調(diào)研的業(yè)務(wù)場景、計(jì)算性能需求,在考慮先進(jìn)性和效率性基礎(chǔ)上,綜合考慮計(jì)算密度、設(shè)備性價(jià)比、設(shè)備功耗等因素,建議采用H100GPU服務(wù)器。2)存儲(chǔ)設(shè)備選型1.文件存儲(chǔ)選型針對(duì)用戶多、文件數(shù)量多、存儲(chǔ)空間要求巨大、存儲(chǔ)容量起步配置高等特點(diǎn),優(yōu)選分布式文件存儲(chǔ),與生俱來支持精簡配置的功能,存儲(chǔ)容量可以按照實(shí)際存儲(chǔ)使用的情況按需增加存儲(chǔ)節(jié)點(diǎn),且優(yōu)選具有和云平臺(tái)聯(lián)動(dòng)的能力的分布式存儲(chǔ)型號(hào),可以服務(wù)化的形式讓用戶在平臺(tái)上自主申請(qǐng)文件存儲(chǔ)資源,且可以自動(dòng)化地掛載到虛擬機(jī)或裸金屬服務(wù)器上。文件存儲(chǔ)推薦采用全對(duì)稱分布式集群架構(gòu),采用全互聯(lián)全冗余的組網(wǎng)機(jī)制,實(shí)現(xiàn)存儲(chǔ)系統(tǒng)節(jié)點(diǎn)的全局統(tǒng)一命名空間,從而允許系統(tǒng)中任何節(jié)點(diǎn)并發(fā)訪問整系統(tǒng)的任何文件;并且支持文件內(nèi)的細(xì)粒度的全局鎖,提供從多個(gè)節(jié)點(diǎn)并發(fā)訪問相同文件的不同區(qū)域,實(shí)現(xiàn)高并發(fā)讀寫,最終達(dá)到高性能訪問系統(tǒng)。分布式架構(gòu)能夠支持節(jié)點(diǎn)動(dòng)態(tài)擴(kuò)展,節(jié)點(diǎn)隨需而定,而且節(jié)點(diǎn)擴(kuò)展中業(yè)務(wù)不中斷。隨著節(jié)點(diǎn)數(shù)的增加,存儲(chǔ)容量和計(jì)算能力線性增加,最終給用戶提供呈線性遞增的帶寬、并發(fā)數(shù)。同時(shí)支持支持NFS,CIFS,NDMP,FTP等多種接口,一個(gè)系統(tǒng)承載多業(yè)務(wù)應(yīng)用,實(shí)現(xiàn)數(shù)據(jù)的全生命周期管理。插件化的應(yīng)用特性組合,在基礎(chǔ)架構(gòu)上加載不同的特性滿足客戶多方面需求,對(duì)同一基礎(chǔ)架構(gòu)上的不同應(yīng)用之間的數(shù)據(jù)實(shí)現(xiàn)統(tǒng)一調(diào)度管理。2.對(duì)象存儲(chǔ)選型對(duì)象存儲(chǔ)兼具塊存儲(chǔ)高速直接訪問磁盤的特點(diǎn)及文件存儲(chǔ)的分布式共享特點(diǎn),是一種可存儲(chǔ)文檔、圖片、影音視頻等非結(jié)構(gòu)化數(shù)據(jù)的云存儲(chǔ)服務(wù),提供海量、安全、高可靠、低成本的數(shù)據(jù)存儲(chǔ)能力。對(duì)象存儲(chǔ)推薦采用分布式部署,對(duì)象存儲(chǔ)接入節(jié)點(diǎn)以集群方式組網(wǎng),任何服務(wù)請(qǐng)求都可以通過負(fù)荷分擔(dān)機(jī)制由任一接入節(jié)點(diǎn)提供服務(wù),不存在傳統(tǒng)存儲(chǔ)由于狀態(tài)同步、鎖定機(jī)制導(dǎo)致的接入節(jié)點(diǎn)數(shù)目擴(kuò)展瓶頸,因此接入節(jié)點(diǎn)集群內(nèi)的節(jié)點(diǎn)數(shù)目理論上可以無限擴(kuò)展,支撐容量線性擴(kuò)展不存在架構(gòu)上的瓶頸。并且通過系統(tǒng)自動(dòng)負(fù)載均衡、元數(shù)據(jù)多級(jí)緩存和特有的小對(duì)象聚合技術(shù),使得對(duì)象存儲(chǔ)的單桶支持20000TPS、100億對(duì)象,充分滿足客戶業(yè)務(wù)應(yīng)用單桶讀寫業(yè)務(wù)的訴求,免除了分桶改造的麻煩。分布式對(duì)象存儲(chǔ)的擴(kuò)展性具備如下特點(diǎn):(1)快速負(fù)載均衡:擴(kuò)容存儲(chǔ)節(jié)點(diǎn)后不需要做大量的數(shù)據(jù)搬遷,系統(tǒng)可以快速達(dá)到負(fù)載均衡狀態(tài)。(2)靈活的擴(kuò)容方式:可以獨(dú)立擴(kuò)容計(jì)算節(jié)點(diǎn)、硬盤、存儲(chǔ)節(jié)點(diǎn),或者同時(shí)進(jìn)行擴(kuò)容。(3)性能線性增長:機(jī)頭、存儲(chǔ)帶寬和Cache都均勻分布到各個(gè)節(jié)點(diǎn)上,系統(tǒng)TPS、吞吐量和Cache隨著節(jié)點(diǎn)的擴(kuò)容而線性增加。3)網(wǎng)絡(luò)設(shè)備選型適用性與先進(jìn)性相結(jié)合的原則,不同品牌的交換機(jī)產(chǎn)品價(jià)格差異較大,功能也不一樣,因此選擇時(shí)不能只看品牌或追求高價(jià),也不能只看價(jià)錢低的,應(yīng)該根據(jù)應(yīng)用的實(shí)際情況,選擇性能價(jià)格比高,既能滿足目前需要,又能適應(yīng)未來幾年網(wǎng)絡(luò)發(fā)展的交換機(jī)。選擇市場主流產(chǎn)品的原則,選擇交換機(jī)時(shí),應(yīng)選擇在市場上有相當(dāng)?shù)姆蓊~,具有高性能、高可靠性、高安全性、高可擴(kuò)展性、高可維護(hù)性的產(chǎn)品。安全可靠的原則,交換機(jī)的安全決定了網(wǎng)絡(luò)系統(tǒng)的安全,選擇交換機(jī)時(shí)這一點(diǎn)是非常重要的,交換機(jī)的安全主要表現(xiàn)在VLAN的劃分、交換機(jī)的過濾技術(shù)等。6.配套基礎(chǔ)設(shè)施建設(shè)方案1)機(jī)房建設(shè)總體要求(1)規(guī)范性原則投標(biāo)機(jī)房在規(guī)劃、設(shè)計(jì)、建設(shè)過程中,應(yīng)符合國家標(biāo)準(zhǔn)《數(shù)據(jù)中心設(shè)計(jì)規(guī)范》(GB50174)的相關(guān)規(guī)定,機(jī)房等級(jí)應(yīng)不低于國標(biāo)A級(jí)(2)可靠性原則投標(biāo)機(jī)房應(yīng)具有抵御自然災(zāi)害如地震、火災(zāi)、水害、鼠蟲害等的能力,應(yīng)確保電力供應(yīng)及空調(diào)運(yùn)行的穩(wěn)定性和連續(xù)性。投標(biāo)機(jī)房整體可用性必須達(dá)到99.99%以上(即全年不可用時(shí)間不超過1.6小時(shí))。(3)可擴(kuò)展性原則考慮到租用期間不斷發(fā)展的需要,在機(jī)房的場地面積及電力容量、空調(diào)容量、通訊能力等機(jī)房基礎(chǔ)設(shè)施的各個(gè)方面都應(yīng)預(yù)留足夠的余量及可擴(kuò)充的靈活性。(4)獨(dú)立性原則保證所租用區(qū)域?yàn)楸卷?xiàng)目專用,與其他用戶區(qū)或其他功能區(qū)物理隔離,避免相互影響。2)機(jī)房機(jī)柜具體規(guī)范要求(1)機(jī)柜技術(shù)要求序號(hào)1機(jī)柜數(shù)量柜2機(jī)柜電流每個(gè)機(jī)柜提供雙路供電,兩路供電均有UPS保障,每路供電220VAC單相,電流≥63A。3機(jī)柜PDU每個(gè)機(jī)柜提供兩條PDU,每條包含國標(biāo)/IEC10A插座≥20個(gè)、國標(biāo)/IEC16A插座≥6個(gè),并可根據(jù)采購人需求免費(fèi)將10A插座改造為16A插4機(jī)柜尺寸機(jī)柜寬≥600mm,深≥1200mm,高度≥42U。5安全隔離行隔離。6布線方式機(jī)柜間布線方式均為上走線方式。7擴(kuò)容機(jī)柜數(shù)量擴(kuò)容(總量不超過100個(gè))時(shí),應(yīng)保證與原有機(jī)柜在同一機(jī)房模塊內(nèi),且與原有機(jī)柜連8空柜必須為空柜,具備后期擴(kuò)容到滿柜的能力。存儲(chǔ)系統(tǒng)不與其他設(shè)備產(chǎn)生相互的線纜、熱、電、地干擾。(2)機(jī)房技術(shù)要求序號(hào)1機(jī)房資質(zhì)投標(biāo)機(jī)房參照《數(shù)據(jù)中心設(shè)計(jì)規(guī)范》(GB50174)建設(shè),達(dá)到A級(jí)及以上標(biāo)準(zhǔn),或者達(dá)到基礎(chǔ)運(yùn)營商集團(tuán)五星級(jí)標(biāo)準(zhǔn)。具體可按項(xiàng)目實(shí)際規(guī)劃要求2機(jī)房環(huán)境供配電防雷級(jí)別:接地電阻小于1Ω3動(dòng)環(huán)監(jiān)控機(jī)房需提供動(dòng)環(huán)監(jiān)控系統(tǒng)。4地理位置機(jī)房擬定位于xx,且距離項(xiàng)目建設(shè)單位距離不超過20千米。具體可按項(xiàng)目實(shí)際規(guī)劃要求調(diào)整。5機(jī)房資質(zhì)建議房機(jī)柜總數(shù)≥1000個(gè)機(jī)房環(huán)保:建議機(jī)房被列入工信部發(fā)布的國家綠色數(shù)據(jù)中心名單。互聯(lián)網(wǎng)接入:建議機(jī)房是運(yùn)營商骨干網(wǎng)核心節(jié)點(diǎn)機(jī)房6機(jī)房環(huán)境運(yùn)輸通道:專門的卸貨區(qū)、貨梯、坡道等專業(yè)設(shè)施,設(shè)備可無障礙直達(dá)機(jī)房,滿足常規(guī)設(shè)備通過貨梯出入條件,具備非標(biāo)機(jī)柜出入條件。機(jī)房承重:≥1000KG/平米;。機(jī)房凈高:≥4.5米。機(jī)房模塊所在樓層位置:建議位于地上樓層。建議機(jī)房所在場地為獨(dú)棟建筑,機(jī)房建筑內(nèi)不含有數(shù)據(jù)中心以外的用途空間。7供電等級(jí)10KV及以上,并提供不同上級(jí)變電站配置N+1或2N組柴油發(fā)電機(jī)組,在市電異常斷電后,柴發(fā)必須在15分鐘內(nèi)提供備用電力,支持全部機(jī)房負(fù)荷在掉電期間持續(xù)運(yùn)行。數(shù)據(jù)中心UPS系統(tǒng)支持2N模式為機(jī)房供電,單路不應(yīng)低于15分鐘、雙路不低于30分鐘。8動(dòng)環(huán)監(jiān)控機(jī)房出入口、通道應(yīng)配有攝像機(jī)監(jiān)控,錄像保存時(shí)間不得少于90天;同時(shí)人員進(jìn)出應(yīng)設(shè)有相應(yīng)的安全等級(jí)權(quán)限。9網(wǎng)絡(luò)保障機(jī)房總出口帶寬不低于100G。支持接入基礎(chǔ)運(yùn)營商的互聯(lián)網(wǎng)鏈路、專線、裸光纖網(wǎng)絡(luò)。機(jī)房內(nèi)應(yīng)有獨(dú)立的機(jī)房專用空調(diào)系統(tǒng),建議采用下送風(fēng)或行機(jī)空調(diào)水平送風(fēng)方式,應(yīng)具備恒溫、恒濕控制功能。(3)機(jī)房服務(wù)要求序號(hào)1運(yùn)維服務(wù)機(jī)房運(yùn)維人員7×24×365小時(shí)值班,滿足不少于2人同時(shí)現(xiàn)場值守。機(jī)房提供7×24×365小時(shí)電話熱線和郵件報(bào)障,受理記錄須備份存檔。機(jī)房運(yùn)維管理制度及流程文檔完整基礎(chǔ)設(shè)施及電路檢查與巡檢:檢查和巡檢間隔不超過4小時(shí),并有日志記錄。提供應(yīng)急預(yù)案:應(yīng)對(duì)機(jī)房供電、空調(diào)、消防、網(wǎng)絡(luò)安全等方面突發(fā)事件應(yīng)急方案。應(yīng)急演練:按應(yīng)急預(yù)案每年進(jìn)行1-2次演練。不少于3個(gè)調(diào)試工位具有可展示項(xiàng)目的大屏、場地及配套服務(wù)(4)網(wǎng)絡(luò)線路要求所有線路均為獨(dú)享帶寬,保證網(wǎng)絡(luò)通暢。能夠支持多種專線(SDH、MSTP、光纖等),不能對(duì)線路規(guī)格、數(shù)量、容量、接入方式等進(jìn)行限制(國家及地方的標(biāo)準(zhǔn)規(guī)范除外)(5)靜態(tài)互聯(lián)網(wǎng)鏈路要求1線路帶寬帶寬≥500Mbps,速率上下行對(duì)等。2線路提供不少于32個(gè)IPv4公網(wǎng)地址。3線路需提供不少于::/64位IPv6公網(wǎng)地址。4免費(fèi)IPv4地址數(shù)量:128個(gè)及以上。5雙棧需同時(shí)提供IPv4和IPv6雙棧接入。6線路質(zhì)量時(shí)延小于等于50ms;3)機(jī)房總體需求機(jī)房用電需求:序號(hào)機(jī)架數(shù)量單機(jī)柜功率功率總需求E需求總功率UPS(2N)蓄電池變壓器油機(jī)101主+4組(40節(jié)/組,1280-3臺(tái)(2主-1-2臺(tái)機(jī)房其他設(shè)備需求:求服務(wù)器電力機(jī)房整體標(biāo)準(zhǔn)優(yōu)于GB50174-A,TierⅢI級(jí)滿足2N電力冗余系統(tǒng);配置UPS電源,后備時(shí)間不小于15分鐘;制冷需求提供不小于N+1冗余制冷系統(tǒng)。環(huán)境需求滿足GB50174-A級(jí)標(biāo)準(zhǔn)要求網(wǎng)絡(luò)路由運(yùn)營商光纜接入路由,三線接入,不少于3個(gè)全程獨(dú)立管路。建設(shè)屬性數(shù)據(jù)中心耐火等級(jí),不低于二級(jí)。設(shè)計(jì)抗震烈度,不小于7度/丙類,抗震設(shè)防烈度滿足本地抗震設(shè)防要求。建筑屋面防水等級(jí),不低于一級(jí)。消防驗(yàn)收通過屬地消防局認(rèn)證、驗(yàn)收,手續(xù)齊全4)機(jī)房環(huán)境配套采購清單投資估算總表序號(hào)項(xiàng)目名稱數(shù)量備注一工程費(fèi)用主要設(shè)備材料費(fèi)1高壓配電部分2N架構(gòu),12面高壓柜2變壓器4臺(tái)1600kVA變壓器3低壓柜部分2N架構(gòu)4柴油發(fā)電機(jī)工程2臺(tái)1600kW油機(jī)5UPS設(shè)備8臺(tái)600kVA6UPS輸出柜4組,每組3面7UPS蓄電池32組,每組408機(jī)柜工程DC艙及網(wǎng)絡(luò)機(jī)柜9空調(diào)系統(tǒng)列間氟泵空調(diào)-40kw小母線400.00按長度暫估動(dòng)環(huán)監(jiān)控按機(jī)柜負(fù)載功率裝修工程按機(jī)房面積消防、報(bào)警及排煙按機(jī)房面積照明按機(jī)房面積電纜及母線按配電設(shè)備價(jià)格20%暫估輔材及安裝工程費(fèi)按10%暫估二工程建設(shè)其它費(fèi)工程費(fèi)用×5%三預(yù)備費(fèi)程建設(shè)其它費(fèi))四投資合計(jì)工程費(fèi)用+工程建設(shè)其它費(fèi)+預(yù)備費(fèi)智算云(重慶)科技有限公司是一家由重慶市南岸區(qū)政府牽頭,與商湯科技共同出資建立的合資公司。本公司依托商湯科技深厚的學(xué)術(shù)積累和全棧式人工智能能力,在南岸區(qū)重慶經(jīng)開區(qū)建立了重慶人工智能計(jì)算中心,長期規(guī)劃為政府、產(chǎn)業(yè)、高校、科研院所等提供最前沿的科技創(chuàng)新和行業(yè)應(yīng)用孵化底座,助力實(shí)現(xiàn)財(cái)務(wù)數(shù)字化服務(wù)、生活智慧化運(yùn)用、企業(yè)智能化升級(jí)和教育前瞻性培育。該項(xiàng)目由智算云進(jìn)行運(yùn)營,該智算中心建成后,將該智算中心納入商湯全國算力一體調(diào)度網(wǎng)絡(luò),進(jìn)行算力調(diào)度和使用。(一)建設(shè)智算中心,為醫(yī)療及大健康行業(yè)全面賦能建設(shè)智算中心對(duì)醫(yī)療及大健康領(lǐng)域的價(jià)值主要體現(xiàn)在以下幾個(gè)1.提升醫(yī)療服務(wù)效率和質(zhì)量:智算中心通過提供強(qiáng)大的算力支持,使得醫(yī)療健康數(shù)據(jù)的分析和處理更加高效,從而優(yōu)化醫(yī)療資源配置,提升疾病預(yù)防、治療和健康管理的能力。2.支持醫(yī)療智慧應(yīng)用:智算中心支撐手術(shù)機(jī)器人、遠(yuǎn)程醫(yī)療、可穿戴設(shè)備、電子病歷等智慧醫(yī)療應(yīng)用的發(fā)展,通過處理海量數(shù)據(jù),為醫(yī)生和患者提供更準(zhǔn)確、個(gè)性化的診療建議。3.促進(jìn)醫(yī)療科研和藥物研發(fā):在生物醫(yī)藥領(lǐng)域,智算中心的算力提升促進(jìn)了基因測序的精準(zhǔn)性和新藥研發(fā)的效率,加速了醫(yī)療科研和藥物研發(fā)的進(jìn)程。4.推動(dòng)醫(yī)療數(shù)字化轉(zhuǎn)型:智算中心作為核心驅(qū)動(dòng)力,推動(dòng)傳統(tǒng)醫(yī)療行業(yè)經(jīng)歷數(shù)字化與智慧化轉(zhuǎn)型,通過運(yùn)用先進(jìn)的算法和模型,從海量數(shù)據(jù)中提取有價(jià)值的信息。5.支持醫(yī)共體建設(shè):智算中心通過提供算力支持,幫助醫(yī)共體實(shí)現(xiàn)數(shù)據(jù)共享、遠(yuǎn)程醫(yī)療服務(wù)、智能診斷等,提升基層醫(yī)療服務(wù)能力和水平。6.促進(jìn)醫(yī)療Al的規(guī)?;瘧?yīng)用:智算中心為醫(yī)療Al的訓(xùn)練和應(yīng)用提供了豐富的場景和數(shù)據(jù)支撐,使得醫(yī)療Al能夠快速規(guī)?;瘧?yīng)用,提高醫(yī)療服務(wù)效率和質(zhì)量。7.助力醫(yī)保支付方式改革:智算中心支持醫(yī)保支付方式的創(chuàng)新,如按人頭付費(fèi)、按病種付費(fèi)等,提高醫(yī)?;鸬氖褂眯?。智算中心的建設(shè)對(duì)醫(yī)療及大健康領(lǐng)域具有重要的推動(dòng)作用,不僅能夠提升醫(yī)療服務(wù)的質(zhì)量和效率,還能夠促進(jìn)醫(yī)療科研和藥物研發(fā)的進(jìn)步,同時(shí)推動(dòng)醫(yī)療行業(yè)的數(shù)字化轉(zhuǎn)型。。1.推動(dòng)區(qū)域經(jīng)濟(jì)發(fā)展:智算中心作為新型基礎(chǔ)設(shè)施,有助于吸引高科技企業(yè)和人才,促進(jìn)當(dāng)?shù)鼐蜆I(yè)和產(chǎn)業(yè)升級(jí),加速數(shù)字經(jīng)濟(jì)的發(fā)2.促進(jìn)科技創(chuàng)新:智算中心提供的算力支持可以加速人工智能、大數(shù)據(jù)等技術(shù)的研發(fā)和應(yīng)用,推動(dòng)科技創(chuàng)新和產(chǎn)業(yè)轉(zhuǎn)型。3.提升公共服務(wù)水平:智算中心可以為政府、企業(yè)和公眾提供高效、智能的數(shù)據(jù)處理和分析服務(wù),提高公共服務(wù)的質(zhì)量和效率。4.加強(qiáng)區(qū)域協(xié)同發(fā)展:智算中心的建設(shè)有助于形成區(qū)域間的算力網(wǎng)絡(luò),促進(jìn)資源共享和優(yōu)勢互補(bǔ),加強(qiáng)區(qū)域間的經(jīng)濟(jì)和科技合作。5.支持綠色低碳發(fā)展:智算中心采用先進(jìn)的節(jié)能技術(shù)和管理措施,有助于降低能耗和減少碳排放,支持可持續(xù)發(fā)展。6.增強(qiáng)區(qū)域競爭力:智算中心的建設(shè)和運(yùn)營可以提升區(qū)域的科技實(shí)力和創(chuàng)新能力,增強(qiáng)在全球或全國范圍內(nèi)的競爭力。7.促進(jìn)產(chǎn)業(yè)集群形成:智算中心可以吸引相關(guān)產(chǎn)業(yè)鏈上下游企業(yè)集聚,形成產(chǎn)業(yè)集群,推動(dòng)區(qū)域經(jīng)濟(jì)的集約化和規(guī)?;l(fā)展。8.促進(jìn)區(qū)域經(jīng)濟(jì)均衡發(fā)展:智算中心的建設(shè)和運(yùn)營有助于促進(jìn)區(qū)域經(jīng)濟(jì)的均衡發(fā)展,特別是在數(shù)據(jù)中心資源豐富的地區(qū),可以帶動(dòng)當(dāng)?shù)亟?jīng)濟(jì)的發(fā)展和就業(yè)。9.推動(dòng)教育和人才培養(yǎng):智算中心可以與周邊高校和研究機(jī)構(gòu)合作,提供實(shí)踐平臺(tái)和資源,促進(jìn)教育創(chuàng)新和人才培養(yǎng)。10.加強(qiáng)區(qū)域品牌建設(shè):智算中心的建設(shè)和運(yùn)營有助于提升區(qū)域的知名度和影響力,加強(qiáng)區(qū)域品牌的建設(shè)。通過算力網(wǎng)絡(luò)連接,帶動(dòng)整個(gè)區(qū)域的數(shù)字化轉(zhuǎn)型和經(jīng)濟(jì)發(fā)展。智算中心的建設(shè)對(duì)云南、廣西等周邊區(qū)域的發(fā)展具有多方面的積極影響,有助于推動(dòng)經(jīng)濟(jì)、科技、社會(huì)等多方面的進(jìn)步。(三)依托區(qū)域算力中心能力,持續(xù)為其他產(chǎn)業(yè)提供算力服務(wù)1.推動(dòng)工業(yè)AI化:智算中心通過提供必要的算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù),為人工智能應(yīng)用提供了基礎(chǔ)支撐,推動(dòng)了人工智能技術(shù)的工業(yè)的AI化轉(zhuǎn)型。2.促進(jìn)技術(shù)創(chuàng)新和研發(fā):智算中心的算力支持能夠加速科研和技術(shù)創(chuàng)新,特別是在需要大規(guī)模計(jì)算和數(shù)據(jù)處理的領(lǐng)域,如生物科學(xué)、設(shè)計(jì)制造等。3.支持智慧城市建設(shè):智算中心能夠?yàn)槌鞘泄芾怼⒐舶踩?、環(huán)境監(jiān)測等領(lǐng)域提供強(qiáng)大的數(shù)據(jù)支持和智能分析,提升區(qū)域治理的智能4.賦能自動(dòng)駕駛和智能交通:智算中心提供的算力對(duì)自動(dòng)駕駛技術(shù)的研發(fā)和實(shí)施至關(guān)重要,有助于推動(dòng)智能交通系統(tǒng)的發(fā)展。5.促進(jìn)文娛創(chuàng)作和數(shù)字內(nèi)容生產(chǎn):智算中心可以支持Al在文娛創(chuàng)作領(lǐng)域的應(yīng)用,如AIGC(人工智能生成內(nèi)容),推動(dòng)數(shù)字內(nèi)容生產(chǎn)6.提升政府治理能力:智算中心能夠?yàn)檎峁Q策支持和商業(yè)洞察,提升政府治理的現(xiàn)代化水平。智算中心將持續(xù)為智慧城市、工業(yè)、交通、文旅、建筑等行業(yè)提供算力服務(wù)。如果說人工智能是當(dāng)今行業(yè)創(chuàng)新性發(fā)展的新驅(qū)動(dòng)力,那么智算中心就是新基石。數(shù)量單位一、計(jì)算服務(wù)及管理區(qū)1GPU服務(wù)器CPU:2路CPU芯片,主頻≥2.1GHz,核數(shù)8*989TFLOPS,顯存≥8*80G內(nèi)存:≥32*64GBDDR54800MHzRDIMM網(wǎng)絡(luò)適配器1:1*≥10G雙口網(wǎng)卡,光口網(wǎng)絡(luò)適配器2:≥4*400GNDR單口,支持IBVPI卡,安裝位置為平均分布于4個(gè)PCleSwitch下網(wǎng)絡(luò)適配器3:≥1*100GbE/HDR100雙Switch下的槽位硬盤1:≥2*960GB讀取密集型SATASSD硬盤2:≥2*7.68TBPCle4.0NVMeSSD外管理臺(tái)源輸入失效時(shí)不宕機(jī)、且系統(tǒng)性能不降低風(fēng)扇:冗余風(fēng)扇,支持熱插拔,支持根據(jù)服務(wù)器當(dāng)前負(fù)載自動(dòng)控制風(fēng)扇轉(zhuǎn)速2算力管理+IB網(wǎng)服務(wù)器CPU:2路CPU芯片,主頻≥2.6GHz,核數(shù)內(nèi)存:≥16*32GBDDR43200MHz網(wǎng)絡(luò)適配器1:1*≥10G雙口以太網(wǎng)卡,光口網(wǎng)絡(luò)適配器2:≥1*100G雙口InfinibandVPI卡網(wǎng)絡(luò)適配器3:≥1*200G單口InfinibandVPI卡硬盤1:≥8*960GB讀取密集型SATASSD硬盤2:≥2*3.84TB讀取密集型PCle4.0NVMeSSD(U.2)RAID卡:≥1塊,支持RAIDO/1/10電源:冗余電源,支持熱插拔2臺(tái)3算力監(jiān)控服務(wù)器CPU:2路CPU芯片,主頻≥2.6GHz,核數(shù)內(nèi)存:≥16*32GBDDR43200MHz網(wǎng)絡(luò)適配器1:1*≥10G雙口以太網(wǎng)卡,光口網(wǎng)絡(luò)適配器2:≥1*100G雙口InfinibandVPI卡硬盤1:≥8*960GB讀取密集型SATASSD硬盤2:≥2*3.84TB讀取密集型PCle4.0NVMeSSD(U.2)RAID卡:≥1塊,支持RAID0/1/10電源:冗余電源,支持熱插拔3臺(tái)4算力管理服務(wù)器CPU:2路CPU芯片,主頻≥2.6GHz,核數(shù)內(nèi)存:≥16*32GBDDR43200MHz網(wǎng)絡(luò)適配器1:1*≥10G雙口以太網(wǎng)卡,光口網(wǎng)絡(luò)適配器2:≥1*100G雙口InfinibandVPI卡硬盤1:≥8*960GB讀取密集型SATASSD硬盤2:≥2*3.84TB讀取密集型PCle4.0NVMeSSD(U.2)4臺(tái)RAID卡:≥1塊,支持RAID0/1/10電源:冗余電源,支持熱插拔5負(fù)載均衡管理服務(wù)器CPU:2路CPU芯片,主頻≥2.3GHz,核數(shù)內(nèi)存:≥8*16GBDDR43200MHz網(wǎng)絡(luò)適配器1:1*≥10G雙口以太網(wǎng)卡,光口網(wǎng)絡(luò)適配器2:≥2*100G雙口InfinibandVPI卡硬盤1:≥2*960GB讀取密集型SATASSD硬盤2:≥1*7.68TB讀取密集型PCle4.0NVMeSSD(U.2)RAID卡:≥1塊,支持RAID0/1/10電源:冗余電源,支持熱插拔3臺(tái)6器CPU:2路CPU芯片,主頻≥2.6GHz,核數(shù)內(nèi)存:≥16*32GBDDR43200MHz網(wǎng)絡(luò)適配器1:1*≥10G雙口以太網(wǎng)卡,光口網(wǎng)絡(luò)適配器2:≥1*100G雙口InfinibandVPI卡6臺(tái)硬盤1:≥2*960GB讀取密集型SATASSD硬盤2:≥1*3.84TB讀取密集型PCle4.0NVMeSSD(U.2)RAID卡:≥1塊,支持RAID0/1/10電源:冗余電源,支持熱插拔Al能力服務(wù)區(qū)1代理機(jī)CPU:2路CPU芯片,主頻≥2.3GHz,核數(shù)內(nèi)存:≥16*16GBDDR43200MHz網(wǎng)絡(luò)適配器1:1*≥10G雙口以太網(wǎng)卡,光口網(wǎng)絡(luò)適配器2:≥1*100G雙口InfinibandVPI卡硬盤1:≥2*960GB讀取密集型SATASSD硬盤2:≥1*3.84TB讀取密集型PCle4.0NVMeSSD(U.2)RAID卡:≥1塊,支持RAID0/1/10電源:冗余電源,支持熱插拔2臺(tái)2云開發(fā)務(wù)器CPU:2路CPU芯片,主頻≥2.6GHz,核數(shù)內(nèi)存:≥16*32GBDDR43200MHz網(wǎng)絡(luò)適配器1:1*≥10G雙口以太網(wǎng)卡,3臺(tái)光口網(wǎng)絡(luò)適配器2:≥1*100G雙口InfinibandVPI卡硬盤1:≥8*960GB讀取密集型SATASSD硬盤2:≥2*3.84TB讀取密集型PCle4.0NVMeSSD(U.2)RAID卡:≥1塊,支持RAID0/1/10電源:冗余電源,支持熱插拔3務(wù)器CPU:2路CPU芯片,主頻≥2.6GHz,核數(shù)內(nèi)存:≥16*32GBDDR43200MHz網(wǎng)絡(luò)適配器1:1*≥10G雙口以太網(wǎng)卡,光口網(wǎng)絡(luò)適配器2:≥1*100G雙口InfinibandVPI卡硬盤1:≥8*960GB讀取密集型SATASSD硬盤2:≥2*3.84TB讀取密集型PCle4.0NVMeSSD(U.2)RAID卡:≥1塊,支持RAID0/1/10電源:冗余電源,支持熱插拔6臺(tái)4模型和推理服務(wù)器CPU:2路CPU芯片,主頻≥2.6GHz,核數(shù)內(nèi)存:≥16*32GBDDR43200MHz網(wǎng)絡(luò)適配器1:1*≥10G雙口以太網(wǎng)卡,光口支持RDMA/RoCEv2硬盤1:≥8*960GB讀取密集型SATASSD硬盤2:≥2*3.84TB讀取密集型PCle4.0NVMeSSD(U.2)RAID卡:≥1塊,支持RAID0/1/10電源:冗余電源,支持熱插拔2臺(tái)文件存儲(chǔ)區(qū)1文件存儲(chǔ)服務(wù)器CPU:2路CPU芯片,主頻≥2.6GHz,核數(shù)內(nèi)存:≥16*32GBDDR43200MHzRDIMM硬盤1:≥2*960GB讀取密集型SATASSD硬盤2:≥12*7.68TB讀取密集型PCle4.0NVMeSSD(U.2)網(wǎng)絡(luò)適配器1:1*≥10G雙口以太網(wǎng)卡,光口網(wǎng)絡(luò)適配器2:≥2*100G雙口Infiniband臺(tái)VPI卡,支持100GbE,光口電源:冗余電源,支持熱插拔2服務(wù)器CPU:2路CPU芯片,主頻≥2.3GHz,核數(shù)內(nèi)存:≥8*16GBDDR43200MHzRDIMM硬盤1:≥2*960GB讀取密集型SATASSD硬盤2:≥1*7.68TB讀取密集型PCle4.0NVMeSSD(U.2)網(wǎng)絡(luò)適配器1:1*≥10G雙口以太
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鐘表維修工工藝創(chuàng)新考核試卷及答案
- 呼和浩特市土默特左旗輔警考試公安基礎(chǔ)知識(shí)考試真題庫及參考答案
- 新疆阿勒泰地區(qū)檢察院書記員考試題(附答案)
- 保險(xiǎn)公估人筆試題附答案
- 社會(huì)工作者考試社會(huì)工作法規(guī)與政策試題練習(xí)題及答案
- 高頻臨平協(xié)管員面試題及答案
- 農(nóng)藥題庫及答案
- 心理健康教育測試題試卷及參考答案解析
- 醫(yī)院藥房招聘筆試試題及答案
- 食安繼續(xù)考試題庫及答案
- 1500V儲(chǔ)能系統(tǒng)全場景解決方案與典型案例分享
- 魯科版五年級(jí)下冊英語單詞
- 公路路面煤矸石基層應(yīng)用技術(shù)規(guī)范(DB15-T 3122-2023)
- 大學(xué)計(jì)算機(jī)基礎(chǔ)操作題(一)
- AQ-T7009-2013 機(jī)械制造企業(yè)安全生產(chǎn)標(biāo)準(zhǔn)化規(guī)范
- 小學(xué)美術(shù)與心理健康的融合滲透
- 儲(chǔ)罐組裝施工措施方案(拱頂液壓頂升)-通用模版
- 2023年上海鐵路局人員招聘筆試題庫含答案解析
- 質(zhì)量源于設(shè)計(jì)課件
- 2023屆高考語文復(fù)習(xí)-散文專題訓(xùn)練-題目如何統(tǒng)攝全文(含答案)
- 馬鞍山經(jīng)濟(jì)技術(shù)開發(fā)區(qū)建設(shè)投資有限公司馬鞍山城鎮(zhèn)南部污水處理廠擴(kuò)建工程項(xiàng)目環(huán)境影響報(bào)告書
評(píng)論
0/150
提交評(píng)論