版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書ChatGPT系列大模型的發(fā)布,不僅引爆全球科技圈,更加夯實(shí)了人工智能(Artificial范圍內(nèi)提速。然而,早期建設(shè)的智算中心,以承載中小模型、賦能企業(yè)數(shù)的,在技術(shù)標(biāo)準(zhǔn)、生態(tài)構(gòu)建、業(yè)務(wù)發(fā)展和全局運(yùn)營等各方面仍有待提升。新型智算中心的建設(shè)是一個(gè)系統(tǒng)工程,需要“算存網(wǎng)管效”從自身戰(zhàn)略轉(zhuǎn)型出發(fā),為構(gòu)建智能服務(wù)的核心和基礎(chǔ),定義新型面向未來大模型孵化,從新互聯(lián)、新算效、新存儲、新平臺和新技術(shù)演進(jìn)建議,希望本白皮書能夠?yàn)楹献骰锇樵谛滦椭撬阒行牡谋景灼谥袊苿?dòng)集團(tuán)有限公司技術(shù)部和計(jì)劃建設(shè)部指導(dǎo)下星網(wǎng)銳捷、昆侖芯、天數(shù)智芯、盛科、云合智網(wǎng)、云豹智新型智算中心技術(shù)體系的構(gòu)建與成熟需要產(chǎn)業(yè)鏈各方凝聚共中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書中國移動(dòng)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書11956年第一次AI發(fā)展浪潮信息伊始,60多年來,從理論探索到大數(shù)據(jù)驅(qū)動(dòng),從深度學(xué)習(xí)到大模型智能涌現(xiàn),AI正在成為一項(xiàng)新興的通用型技術(shù),向多場景、規(guī)?;IGC(AI隨著AI在賦能產(chǎn)業(yè)發(fā)展、促進(jìn)數(shù)實(shí)融合方面發(fā)揮出愈加顯著的作用,各國政府紛紛發(fā)布政中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書以應(yīng)對來自“戰(zhàn)略競爭者和外國對手”的挑戰(zhàn)方政府相繼出臺政策,指導(dǎo)AI產(chǎn)業(yè)發(fā)展規(guī)劃,鼓勵(lì)企業(yè)加大人才引進(jìn)和研發(fā)力度,并明確智算中心的戰(zhàn)略地位不斷提升,為構(gòu)造未來競爭發(fā)展優(yōu)勢,很算中心。其中,美國能源部及國家科學(xué)基金會主導(dǎo),將智算中心點(diǎn)。美國科技巨頭也是智算中心的主要建設(shè)者,包括谷歌的開放機(jī)器學(xué)習(xí)中心(9E特中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書國內(nèi)智算中心建設(shè)熱潮始于2020年,目前已有40+城市建成或正在建設(shè)智算中心(如圖心主要由地方政府與企業(yè)合建,總體投資規(guī)模超千億,旨在帶動(dòng)當(dāng)?shù)鼗ヂ?lián)網(wǎng)和AI企業(yè)自建的智算中心是國內(nèi)智能算力的重要組成,如阿里在張北和烏蘭察布建設(shè)的總規(guī)模達(dá)15E的智算中心,旨在結(jié)合智能駕駛、智慧城市等業(yè)務(wù),探索云服務(wù)后的智感在生態(tài)方面各地智算中心的服務(wù)對象多為區(qū)域內(nèi)的行業(yè)客戶、科研全局協(xié)同,隨著東數(shù)西算、東數(shù)西渲等應(yīng)用需求不斷豐富中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書粒度提供算力服務(wù)的模式,轉(zhuǎn)變?yōu)橹С志蘖坎⑿杏?jì)算習(xí)和使用的時(shí)間成本,另一方面加強(qiáng)產(chǎn)業(yè)鏈上下游中國移動(dòng)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書2結(jié)合大模型技術(shù)的發(fā)展趨勢以及對智算中心建設(shè)和使用現(xiàn)狀的分析,我們認(rèn)為ChatGPT等預(yù)訓(xùn)練大模型的出現(xiàn),必將帶來AI基礎(chǔ)設(shè)施的變革,傳統(tǒng)的算力堆疊方式已然失效,智算中心需要在互聯(lián)、算效、存儲、平臺、節(jié)能五大領(lǐng)域進(jìn)行系統(tǒng)化的重對千行百業(yè)的革新與改造。為此,中國移動(dòng)結(jié)合自身轉(zhuǎn)型戰(zhàn)略和一線客戶需求,提出NICC中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書智算運(yùn)維域和智算運(yùn)營域。其中基礎(chǔ)設(shè)施層提供計(jì)算、存儲、網(wǎng)在此之上搭建算力原生平臺提供應(yīng)用跨架構(gòu)遷移能力;應(yīng)用使能層集成行業(yè)主流AI開發(fā)框進(jìn)行管理維護(hù),確保系統(tǒng)的穩(wěn)定運(yùn)行;智算運(yùn)營域?qū)油獠靠蛻粢惨骖欆浖脚_與硬件資源的縱向協(xié)同,同對智算底座的算力能力和擴(kuò)展性均提出高要求。在設(shè)備形態(tài)方面,GPU、AI芯片以扣卡模中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書硬件資源開始按照集群的方式部署,相比提升單芯片算力,芯片間關(guān)鍵。互聯(lián)方案以服務(wù)器節(jié)點(diǎn)為界限,節(jié)點(diǎn)內(nèi)外高速互聯(lián)技術(shù)各自存儲逐漸向融合存儲演進(jìn),提升數(shù)據(jù)交互效率;平臺應(yīng)具備池化算算資源的細(xì)粒度分配、動(dòng)態(tài)調(diào)度和一體管理。分布式并行訓(xùn)練框架2)超級池化時(shí)期:當(dāng)大模型邁進(jìn)萬億參數(shù)量規(guī)模,算力、顯存和互聯(lián)的需求再次升級,智算中心將真正進(jìn)入超級池化時(shí)代,高速互聯(lián)的百卡組成的“超級服務(wù)器(SuperServer,級服務(wù)器”內(nèi)需要打造統(tǒng)一的協(xié)議實(shí)現(xiàn)CPU、GPU、AI芯片、顯存、存儲等池化資源的無縫連接,進(jìn)而通過GSE等高性能交換網(wǎng)絡(luò),達(dá)到極高吞吐、極低時(shí)延的系統(tǒng)算力;為推動(dòng)算效能力進(jìn)一步提升,基于存算一體架構(gòu)的大算力芯片將開始逐步服務(wù)器”內(nèi)支持內(nèi)存池技術(shù),對外擴(kuò)展支持全局統(tǒng)一存儲;針對日構(gòu)建基于算力原生平臺的跨架構(gòu)開發(fā)、編譯、優(yōu)化環(huán)境,屏蔽底層我們認(rèn)為,新型智算中心當(dāng)前已處在“集群時(shí)期”,中國移動(dòng)想構(gòu)建AI基礎(chǔ)設(shè)施;面向中遠(yuǎn)期,我們應(yīng)重點(diǎn)攻關(guān)“超級池化時(shí)期”的關(guān)鍵技術(shù),盡快形中國移動(dòng)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書33.1集群內(nèi)的高速卡間互聯(lián)大模型浪潮除了帶來算法及軟件革命,也拉開了AI基礎(chǔ)設(shè)施變革的序幕。一方面,算法結(jié)構(gòu)的創(chuàng)新影響了AI芯片在算力精度范圍和專用加速電路等方面的設(shè)計(jì),但單芯片算力提升據(jù)樣本,模型的尺寸已經(jīng)遠(yuǎn)超出單個(gè)AI芯片甚至單臺服務(wù)器的計(jì)算能力,億級以上的模型需要部署在高速互聯(lián)的多個(gè)AI芯片上,分布式并行訓(xùn)練。當(dāng)前,相較于單芯片能力提升,3.1.1大模型分布式訓(xùn)練需要高速卡間互聯(lián)在大模型迸發(fā)出知識涌現(xiàn)能力之前,AI的主流場景是中小模型承載的計(jì)算機(jī)視覺類中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書型顯存占用集中在單卡或者單服務(wù)器節(jié)點(diǎn),訓(xùn)練模式多采用單行,每張卡或節(jié)點(diǎn)上都有完整的模型結(jié)構(gòu),卡間通信主要傳輸訓(xùn)練數(shù)據(jù),分布式運(yùn)行,數(shù)據(jù)樣本和模型結(jié)構(gòu)被切分到多張卡或者節(jié)點(diǎn)上,卡樣本的通信,還有模型梯度的頻繁傳遞,對卡間的互聯(lián)能力在帶寬常用的分布式并行策略主要分為數(shù)據(jù)并行(DataParallel,DP)和模型并行(Model中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書●數(shù)據(jù)并行的實(shí)現(xiàn)思路是每個(gè)計(jì)算設(shè)備上(每張卡或者節(jié)點(diǎn))都有一個(gè)完整模型,將數(shù)據(jù)集拆分到多個(gè)計(jì)算設(shè)備上同時(shí)訓(xùn)練,在反向傳播中,各個(gè)設(shè)備上的個(gè)Stages放在每個(gè)計(jì)算設(shè)備上,訓(xùn)練過程是逐層順序計(jì)算,通信數(shù)據(jù)量比數(shù)據(jù)并行小,對拓?fù)錈o特殊要求,點(diǎn)對點(diǎn)互聯(lián)即可,通信帶寬要求在幾-十幾GB/s;張量并行由英偉達(dá)在PCIe形態(tài)設(shè)備在通信帶寬和模式上都難以為繼。在帶寬方面,PCIe4.0*16最高為64GB/s,無法覆蓋百G帶寬需求;在通信模式方面,卡間通信必須經(jīng)過CPU繞轉(zhuǎn)甚至跨CPUNUMA,不僅帶來通信延遲,還增加AI算法開發(fā)難度;在擴(kuò)展性方面,部分廠家曾采用橋互聯(lián)數(shù)量基本在4卡及以下,擴(kuò)展能力有限。因此,PCIe設(shè)備形態(tài)逐漸被扣卡模組形態(tài)的中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書3.1.2“七國八制”的卡間高速互聯(lián)技術(shù)現(xiàn)狀針對中小模型訓(xùn)練,基于PCIe設(shè)備形態(tài)的解決方案已經(jīng)非常成熟,面向大模型場景,基于扣卡模組的卡間高速互聯(lián)方案則呈現(xiàn)“七國八制”的局面。目前行業(yè)主要分為私有和開放一代到第二代的演進(jìn)主要體現(xiàn)在互聯(lián)拓?fù)涞霓D(zhuǎn)變,從cube直連演變?yōu)镾witch交換拓?fù)洌谌诮粨Q拓?fù)涞幕A(chǔ)上,通過增加單卡的NVLink通道數(shù)提升點(diǎn)對點(diǎn)(PeertoPeer,P2P)帶寬,第四代則通過完善多種協(xié)議內(nèi)容,進(jìn)一步實(shí)現(xiàn)C2C(chiptochip)、AI中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書寬的提升,但也會引起功耗上升、PCB布局布線困難等問題,是芯片工程實(shí)現(xiàn)的經(jīng)典PPA中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書展能力,當(dāng)前國際主流水平已經(jīng)采用Switch交換或全互聯(lián)的拓?fù)浣Y(jié)構(gòu)達(dá)到8卡或百卡級別力上均有代際差;芯片的通信協(xié)議設(shè)計(jì)決定了集群的互聯(lián)效率,同時(shí)反過來影響芯片的IO3.1.3未來萬億級模型的卡間高速互聯(lián)演進(jìn)建議聯(lián)協(xié)議均各自為“?!?,且多數(shù)企業(yè)缺乏從AI芯片到交換芯片的全產(chǎn)品設(shè)計(jì)能力,導(dǎo)致交我們建議從統(tǒng)一高速互聯(lián)協(xié)議入手,以實(shí)現(xiàn)百卡規(guī)?;ヂ?lián)為設(shè)計(jì)目標(biāo),聯(lián)的擴(kuò)展性及開放性要求,可采用統(tǒng)一的計(jì)算總線協(xié)議作為百卡第一,推動(dòng)GPU、AI加速卡支持統(tǒng)一高效計(jì)算總線協(xié)議。在大規(guī)模并行計(jì)算中,各個(gè)設(shè)備統(tǒng)一的計(jì)算總線協(xié)議避免了不同協(xié)議之間的轉(zhuǎn)換,可以確保設(shè)備協(xié)議的設(shè)計(jì)應(yīng)聚焦多個(gè)GPU、AI加速卡之間在大帶寬、低時(shí)延的基礎(chǔ)訴求,并實(shí)現(xiàn)緩存一致性的數(shù)據(jù)訪問,確保簡化上層應(yīng)用研發(fā)難度,提升流量控制、架構(gòu)在解決異構(gòu)設(shè)備互聯(lián)問題時(shí)會使用不同的通信協(xié)議和數(shù)據(jù)格式復(fù)雜性和延遲,對整體性能產(chǎn)生不利影響。因此,構(gòu)建多異構(gòu)設(shè)備中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書等設(shè)備間進(jìn)行統(tǒng)一尋址,將有利于降低用戶開發(fā)難度,提升設(shè)備第三,推動(dòng)GPU、AI加速卡在功耗和面積上進(jìn)一步實(shí)現(xiàn)集約化設(shè)計(jì),滿足單芯片計(jì)算能力提升和數(shù)據(jù)中心節(jié)能要求。通過引入更高速率的SerDesIP,對計(jì)算總線協(xié)議進(jìn)行優(yōu)化,減少芯片上所需的硬件資源和物理面積,以減少通信過程中的能量消耗。低未來,期望結(jié)合計(jì)算總線協(xié)議推廣、產(chǎn)品規(guī)模研發(fā)、生態(tài)系統(tǒng)建3.2.1InfiniBand與RoCE是當(dāng)前主流方案新型智算中心網(wǎng)絡(luò)從邏輯上可以分為:出口網(wǎng)絡(luò)、管理網(wǎng)絡(luò)其中,參數(shù)網(wǎng)絡(luò)主要用于承載AI模型訓(xùn)練業(yè)務(wù),其通信流量主要具備周期性、流量大、同步突發(fā)等特點(diǎn)。尤其在大模型訓(xùn)練過程中,通信具有非常強(qiáng)的周期性,且每輪迭代的通信模式突發(fā)式傳輸,以上通信流量的特點(diǎn)要求參數(shù)網(wǎng)絡(luò)必須具備零丟中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書寬的網(wǎng)絡(luò)效果。目前市場上只有NVIDIA可提供IB2010年提出RoCE協(xié)議標(biāo)準(zhǔn),允許應(yīng)用通過以太網(wǎng)實(shí)現(xiàn)遠(yuǎn)程內(nèi)存訪問,使用者只需要更換網(wǎng)卡,而不需要更換現(xiàn)有的以太網(wǎng)網(wǎng)絡(luò)設(shè)備及線纜就可以享受到RDMA帶來的網(wǎng)絡(luò)性能提挑戰(zhàn)二:分布式訓(xùn)練的多對一通信模型產(chǎn)生大量In-cast流量,造成設(shè)備內(nèi)部隊(duì)列緩存的瞬時(shí)突發(fā)而導(dǎo)致?lián)砣踔羴G包,造成應(yīng)用時(shí)延的增加和吞吐的下降。PFC(Priority-based中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書在該架構(gòu)下,各節(jié)點(diǎn)分布式運(yùn)行和自我決策轉(zhuǎn)發(fā)路徑導(dǎo)致無法3.2.2全調(diào)度以太網(wǎng)突破無損以太性能瓶頸“授權(quán)請求”和“響應(yīng)機(jī)制”的主動(dòng)流控,最大限度避免網(wǎng)絡(luò)擁塞的產(chǎn)生。三是從“局部”決策到“全局”調(diào)度演進(jìn),即全局視野的轉(zhuǎn)發(fā)調(diào)度機(jī)制,實(shí)現(xiàn)GSE)技術(shù)方案[11],打造無阻塞、高帶寬、低時(shí)延、自動(dòng)化的新型智算中心網(wǎng)絡(luò),助力如圖3-8所示,全調(diào)度以太網(wǎng)(GSE)技術(shù)架構(gòu)主要包括計(jì)算層、網(wǎng)絡(luò)層和控制層3個(gè)層中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書現(xiàn)GSP和GSF協(xié)同,實(shí)現(xiàn)基于報(bào)流量調(diào)度等技術(shù)融合的交換網(wǎng)絡(luò);控制層主要包含全局集中式GSOS,以及GSP和計(jì)算節(jié)點(diǎn)即服務(wù)器側(cè)的計(jì)算卡、網(wǎng)卡,提供高性能計(jì)算能力。GSP即網(wǎng)絡(luò)邊緣處理節(jié)點(diǎn),用以接入計(jì)算流量,并對流量做全局調(diào)度;流量上行時(shí)具備動(dòng)態(tài)負(fù)具備流量排序能力。GSF即網(wǎng)絡(luò)核心交換節(jié)點(diǎn),作為GSP的上一層級設(shè)備,用于靈活擴(kuò)展網(wǎng)絡(luò)規(guī)模,具備動(dòng)態(tài)負(fù)載均衡能力,以及反壓信息發(fā)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書智算中心網(wǎng)絡(luò)通常采用胖樹(Fat-Tree)架構(gòu),智算業(yè)務(wù)流量存在“數(shù)量少,單流大”的特點(diǎn),傳統(tǒng)以太網(wǎng)逐流率不均,從而引起網(wǎng)絡(luò)擁塞。單流多路徑是提升智算中心網(wǎng)絡(luò)有鍵技術(shù)手段。GSE技術(shù)架構(gòu)提出一種基于報(bào)文容器(PacketContainer,PKTC)的轉(zhuǎn)發(fā)及長”容器進(jìn)行轉(zhuǎn)發(fā),屬于同一個(gè)報(bào)文容器的數(shù)據(jù)包標(biāo)記相同的容銷來對數(shù)據(jù)包進(jìn)行組裝和還原。在網(wǎng)絡(luò)中轉(zhuǎn)發(fā)時(shí)添加的報(bào)文另一方面,由于模型訓(xùn)練流量的特殊性,網(wǎng)絡(luò)會出現(xiàn)“多打大于A2的出口帶寬,造成A2口出口隊(duì)列擁塞。這種情況僅通過負(fù)載均衡是無法規(guī)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書用以實(shí)現(xiàn)本GSP節(jié)點(diǎn)到對應(yīng)所有出端口的流量調(diào)度。本G授權(quán)請求和響應(yīng)機(jī)制,由最終的設(shè)備出口、途經(jīng)的設(shè)備統(tǒng)一進(jìn)行全網(wǎng)端到端授權(quán),保證全網(wǎng)中前往任何一個(gè)端口的流量既不會超過該端口的負(fù)載能力,也不會超出中間任一網(wǎng)絡(luò)節(jié)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書GSE技術(shù)方案,網(wǎng)卡側(cè)仍采用傳統(tǒng)RoCE網(wǎng)卡。此外,也可以結(jié)合網(wǎng)卡能力演進(jìn),將GSE方案各組件的功能在網(wǎng)絡(luò)組件中重新分工,將部分或全部網(wǎng)絡(luò)功是說,在未來的實(shí)際應(yīng)用中,可以將GSP的功能全部下沉到網(wǎng)卡以提供端到端的方案,也可以將網(wǎng)絡(luò)的起終點(diǎn)分別落在網(wǎng)絡(luò)設(shè)備和網(wǎng)卡上,為后續(xù)網(wǎng)絡(luò)建3.2.3智算中心網(wǎng)絡(luò)關(guān)鍵技術(shù)演進(jìn)1)速率體系升級,功耗成為挑戰(zhàn):在交換芯片方面,交換芯片作為網(wǎng)絡(luò)設(shè)備的心臟,直接決定設(shè)備能力。當(dāng)前業(yè)界單芯片容量已達(dá)51.2T,SerDes速率也演進(jìn)到100G。在接口帶寬方面,傳統(tǒng)通用數(shù)據(jù)中心服務(wù)器接入帶寬以10G、25G為主,而AI100G/200G的高性能網(wǎng)卡,最高端網(wǎng)卡已經(jīng)達(dá)到400G接口。而網(wǎng)絡(luò)接入層交換機(jī)需配套片容量、單通道數(shù)據(jù)傳輸速率的大幅提升和對光模塊速率、數(shù)量要求的提高,使得網(wǎng)絡(luò)設(shè)線距離,降低成本和功耗。該技術(shù)雖前景可觀,但對現(xiàn)有網(wǎng)絡(luò)建設(shè)和運(yùn)多新挑戰(zhàn)。LPO技術(shù)將傳統(tǒng)光模塊內(nèi)部DSP功能集成到交換芯片中,降低光模塊層面信號2)低時(shí)延轉(zhuǎn)發(fā),F(xiàn)EC技術(shù)是關(guān)鍵:隨著端口速率的不斷提升,高速信號完整性FEC的過程又可以分為檢錯(cuò)邏輯和糾錯(cuò)邏輯。在低速的FEC處理中往往沒有做上述流程的區(qū)分,但隨著速率提升、檢測及糾錯(cuò)邏輯的復(fù)雜,細(xì)分差異化處消除無錯(cuò)場景下FEC收幀和譯碼時(shí)延,降低無錯(cuò)情況下的接口時(shí)延,消除高增益FEC碼字中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書所以此方式可以優(yōu)化端口的平均轉(zhuǎn)發(fā)時(shí)延。靈活FEC技術(shù)可以根據(jù)鏈路的誤碼率狀態(tài),自吐、低時(shí)延數(shù)據(jù)傳輸?shù)男枨蟾鼮槠惹?,這些數(shù)據(jù)不僅涉及用戶隱產(chǎn)。為了應(yīng)對日益嚴(yán)峻的數(shù)據(jù)安全挑戰(zhàn),要對以太網(wǎng)傳輸鏈路提數(shù)據(jù)加解密帶來的時(shí)延與開銷。目前以太網(wǎng)已部署的存量設(shè)備可現(xiàn)有MACSec等網(wǎng)絡(luò)安全加密技術(shù)難以完全覆蓋鏈路層及以上協(xié)議層的安全加密。如基于優(yōu)先級的流量控制幀無法加密幀頭部以及掩蓋幀發(fā)送頻率、幀長效防止流量分析攻擊,存在安全漏洞。PHYSec技術(shù)將物理層加密的理念與以太網(wǎng)物理層技術(shù)相融合,以實(shí)現(xiàn)低開銷、低時(shí)延、高安全和協(xié)議透明等特性的4)擁塞控制,端網(wǎng)協(xié)同是核心:由于網(wǎng)絡(luò)中流量的隨機(jī)性以及路徑的多樣性,擁塞的出現(xiàn)不可避免。網(wǎng)絡(luò)出現(xiàn)擁塞后,會造成排隊(duì)時(shí)延增大、網(wǎng)絡(luò)利用率降低性增速乘性降速)調(diào)整發(fā)送速率。由于1個(gè)比特的ECN信號無法定量地表示擁塞程度,發(fā)目前,業(yè)界典型的優(yōu)化思路分為兩類:第一類是更加精細(xì)化的被動(dòng)控制,如HPCC(High中國移動(dòng)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書4以GPU為代表的高性能并行計(jì)算芯片架構(gòu)和以針對AI領(lǐng)域?qū)S眉铀伲―SA,Domain片上排布了數(shù)以千計(jì)的,專為同時(shí)處理多重任務(wù)而設(shè)計(jì)的小計(jì)算核心。隨著AI深度學(xué)習(xí)算片是一種針對神經(jīng)網(wǎng)絡(luò)計(jì)算的專用處理器,主要功能是加速神量計(jì)算單元。AIDSA芯片在功耗、可靠性、芯片體積、性能等方面都有巨大的優(yōu)勢,但由當(dāng)前技術(shù)和生態(tài)還處于多而不強(qiáng)的局面。GPU生態(tài)代表的是英偉達(dá),AIDSA是Google中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書面向未來萬億模型的興起到大模型應(yīng)用逐漸落地,算的性能瓶頸。二是海量內(nèi)存和計(jì)算單元間的頻繁訪問切一是存算一體化設(shè)計(jì)思路,解決存儲帶寬和訪存功耗的問題。未來10年是計(jì)算架構(gòu)變革的新十年。計(jì)算存儲一體化已經(jīng)是業(yè)內(nèi)一大研究方向。存算一并不是每個(gè)神經(jīng)元都能有效激活,這個(gè)時(shí)候稀疏計(jì)算可以4.2存算一體構(gòu)建新型計(jì)算范式存算一體作為新型計(jì)算范式,基于在存儲原位實(shí)現(xiàn)計(jì)算的本質(zhì),打構(gòu),避免了頻繁的數(shù)據(jù)訪問和搬運(yùn)帶來的功耗激增的問題,大大緩解了AI芯片性能提升的中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書a)模擬存算一體存算一體在NICC的主要應(yīng)用是大模型推理??紤]規(guī)則稀疏性,以達(dá)到與存算陣列的最佳適配,并實(shí)現(xiàn)能效最大化。以復(fù)旦大學(xué)ISSCC2023結(jié)合對應(yīng)的存內(nèi)陣列設(shè)計(jì)和電路實(shí)現(xiàn),能夠在28nm工藝下,達(dá)到現(xiàn)有Transformer加速中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書使用數(shù)字存內(nèi)計(jì)算和模擬存內(nèi)計(jì)算混合、雙生多bit等方法,實(shí)現(xiàn)INT8和BF16等混合精現(xiàn)階段的存算一體芯片在介質(zhì)優(yōu)化、集成規(guī)模、工具鏈支面臨諸多挑戰(zhàn),導(dǎo)致應(yīng)用普及較慢,建議錨定智算核安全、管理等基礎(chǔ)設(shè)施虛擬化能力的專用處理器。面對智算業(yè)務(wù)場景,推理任務(wù)對網(wǎng)絡(luò)和存儲I/O的時(shí)延提出了更極致的性能需求,DPU可在智算領(lǐng)域解決三大1)統(tǒng)一云化管理:智算服務(wù)場景存在裸金屬、容器、虛節(jié)點(diǎn)并池管理提高計(jì)算資源利用效率,成為關(guān)鍵的業(yè)務(wù)痛點(diǎn),DPU是最佳的解決方案。通過DPU可提供計(jì)算資源快速發(fā)放和回收等底層支撐能力,使彈性裸金屬特性和虛機(jī)一致,支持云盤啟動(dòng),完成靈活的存儲分配,實(shí)現(xiàn)存儲多租戶隔離并縮需要滿足多用戶并行使用時(shí)產(chǎn)生的海量數(shù)據(jù)讀取及中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書后對存儲系統(tǒng)提出更高的性能要求。DPU產(chǎn)品可以提供專用的高速存儲單元來處理和管理框架進(jìn)行文件系統(tǒng)卸載,實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)格式統(tǒng)一化,實(shí)現(xiàn)不同來源的3)RDMA網(wǎng)絡(luò)協(xié)同優(yōu)化:智算集群由大量的智算服務(wù)器節(jié)點(diǎn)組成分布式系統(tǒng),節(jié)點(diǎn)間通及RDMA大規(guī)模隊(duì)列資源增強(qiáng)能力,借助DPU優(yōu)秀可編程特性,協(xié)同網(wǎng)絡(luò)側(cè)進(jìn)行高性能為解決上述關(guān)鍵問題,新引入的DPU部件作為智算服務(wù)器的IO入口需對原有的網(wǎng)卡部件1)DPU替代服務(wù)器中存儲面及管理面網(wǎng)卡,作用在CPU域,原配中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書虛擬化技術(shù)從軟件實(shí)現(xiàn)向軟硬結(jié)合發(fā)展的結(jié)果,技術(shù)架構(gòu)與云計(jì)算關(guān)系密切,存在耦合,DPU虛擬化技術(shù)棧在技術(shù)迭代中差異化發(fā)展,不同產(chǎn)品的同一技術(shù)的實(shí)現(xiàn)路徑多樣,軟件實(shí)現(xiàn)方式差異大。亟需解決業(yè)界異廠家DPU與云平臺軟件定向開發(fā)適配成本高的問題。建議圍繞管理、網(wǎng)絡(luò)、存儲、計(jì)算、安全五大軟件系統(tǒng),推動(dòng)DPU軟件功能要求和交互接口在網(wǎng)絡(luò)側(cè),網(wǎng)絡(luò)技術(shù)創(chuàng)新需要與DPU深度協(xié)同。智算業(yè)務(wù)要求零丟包、低時(shí)延、高吞吐的在硬件側(cè),亟需優(yōu)先引導(dǎo)服務(wù)器整機(jī)層及DPU部件層標(biāo)準(zhǔn)化及通用化。重點(diǎn)圍繞服務(wù)器結(jié)構(gòu)及供電、散熱、帶外納管方案、上下電策略四大方向進(jìn)行統(tǒng)一,為DPU與上層軟件的深中國移動(dòng)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書5大模型訓(xùn)練是一項(xiàng)復(fù)雜而耗時(shí)的任務(wù),類似GPT-3級別的模型訓(xùn)練數(shù)據(jù)集通常很大,無法1)數(shù)據(jù)上傳:大模型預(yù)訓(xùn)練階段首先需要獲取訓(xùn)練數(shù)據(jù)集,這些來自互聯(lián)網(wǎng)、書籍、論文的數(shù)據(jù)需要進(jìn)行預(yù)處理和清洗,包括分詞、去除噪聲和非常以提供靈活的數(shù)據(jù)訪問方式,數(shù)據(jù)集通常會上傳到對象存儲中。大模型訓(xùn)練的數(shù)據(jù)集可達(dá)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書與TensorFlow、PyTorch等訓(xùn)練框架的兼容性寫入操作,因此在模型訓(xùn)練開始之前,需要把數(shù)據(jù)集3)數(shù)據(jù)讀?。簲?shù)據(jù)集放入文件存儲后,還需要進(jìn)行進(jìn)一步預(yù)處理。CV類數(shù)據(jù)集通常需要先對圖片序列化并添加類別標(biāo)簽、圖像尺寸等元數(shù)據(jù),自然語音類數(shù)進(jìn)行切分,轉(zhuǎn)換為訓(xùn)練框架實(shí)現(xiàn)代碼期望的采樣率和集準(zhǔn)備就緒后,模型將基于隨機(jī)初始化的權(quán)重啟動(dòng)訓(xùn)練。整個(gè)數(shù)據(jù)集),4)歸檔寫回:由于HBM是易失性存儲,一旦在訓(xùn)練過程中發(fā)生意外中斷,訓(xùn)練數(shù)據(jù)將全開始訓(xùn)練,從而節(jié)省大量的時(shí)間和經(jīng)濟(jì)成本。此外,文件存儲還用中的各種指標(biāo),包括損失函數(shù)的變化、準(zhǔn)確率的提升等,以便后續(xù)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書5)模型復(fù)制:模型訓(xùn)練完成后,最終的模型權(quán)重會被寫入到文件存儲中保存,用于模型推智算中心存儲設(shè)施承載海量非結(jié)構(gòu)化數(shù)據(jù),根據(jù)業(yè)務(wù)需求通常存儲三種傳統(tǒng)類型存儲,不同類型的存儲池相互分立,各自使用獨(dú)1)存儲性能:大模型訓(xùn)練過程中,呈現(xiàn)出大量小文件小IO讀操作負(fù)載特征,是對傳統(tǒng)文降低GPU利用率,增加訓(xùn)練耗時(shí)。目前業(yè)界通過升級分布式文件存儲節(jié)點(diǎn)硬件配置、提高3)存儲調(diào)度:超大規(guī)模的模型訓(xùn)練,未來可能需要實(shí)現(xiàn)跨地域多中心并行訓(xùn)練,以有效拉通整體的算力和存儲能力,這要求存儲具有跨地域統(tǒng)一命名空高的端到端數(shù)據(jù)交互性能,但是當(dāng)前仍然受到存儲現(xiàn)有技術(shù)架文件存儲和對象存儲雖然架構(gòu)和協(xié)議不同,但都使用元數(shù)據(jù)機(jī)制件存儲和對象存儲可合并升級為融合存儲。目前已經(jīng)有一些開源或商業(yè)的解決方案,例如接口實(shí)現(xiàn)兩套系統(tǒng)數(shù)據(jù)交互的優(yōu)化。使用融合存儲,用戶只需將數(shù)據(jù)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書一的存儲架構(gòu),文件、對象等多種協(xié)議存儲可以更加緊密地協(xié)1)協(xié)議轉(zhuǎn)換語義損失:文件存儲和對象存儲采用不同的數(shù)據(jù)存儲范式,一些文件系統(tǒng)獨(dú)有在對象存儲中無法直接體現(xiàn);文件系統(tǒng)的部分訪問控制列表(ACLs)可能無法轉(zhuǎn)換到對象2)安全訪問策略差異:在文件存儲系統(tǒng)中,訪問控制通常是基于傳統(tǒng)的文件權(quán)限,例如原生協(xié)議融合指的是,制定統(tǒng)一的存儲框架,在底層將元數(shù)據(jù)和數(shù)據(jù)實(shí)體抽象1)共同設(shè)計(jì)一致的數(shù)據(jù)模型標(biāo)準(zhǔn),兼容文件存儲和對象存儲的特性,最大程度地保留文件5.4全局統(tǒng)一存儲打破單體局限跨地域多數(shù)據(jù)中心之間的全局統(tǒng)一存儲,可以實(shí)現(xiàn)全局存儲資和高可用性。另一方面,可以通過負(fù)載均衡策略,使得應(yīng)用程序可以就中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書而無需擔(dān)心數(shù)據(jù)存放的物理位置,為實(shí)現(xiàn)跨域的分布式并跨地域全局統(tǒng)一存儲當(dāng)前還屬于中遠(yuǎn)期的技術(shù),處于起步探索跨地域長距離的數(shù)據(jù)交互時(shí)延受到網(wǎng)絡(luò)傳輸性能極限的約束,雖然就近選擇數(shù)據(jù)中心,基于性能和距離等因素對數(shù)據(jù)進(jìn)行熱冷分級存大模型訓(xùn)練任務(wù)對內(nèi)存和顯存帶來較大挑戰(zhàn),數(shù)據(jù)需要在計(jì)算、Cache、HBM、DDR內(nèi)存設(shè)備之間頻繁移動(dòng),缺乏統(tǒng)一內(nèi)存空間的尋址會導(dǎo)致編程模型變得復(fù)雜,也會限制設(shè)備之間的協(xié)作,必須通過手動(dòng)管理數(shù)據(jù)傳輸和復(fù)制,因此增加了開發(fā)難度和錯(cuò)誤率。同時(shí),在為了降低以上問題對新型智算中心整體運(yùn)行效率的影響第一,盡快完善滿足內(nèi)存池化技術(shù)的計(jì)算總線協(xié)議及子協(xié)議實(shí)現(xiàn)。完整、高效地實(shí)現(xiàn)CXL.顯存、緩存之間的一致性算法,確保共享內(nèi)存中的數(shù)據(jù)同步更新中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書備之間的協(xié)同工作接口,聚焦設(shè)備間高效協(xié)作和共享計(jì)算能力,減內(nèi)存,簡化數(shù)據(jù)傳輸和管理,顯著降低系統(tǒng)的復(fù)雜性和能耗。內(nèi)存池技術(shù)的發(fā)展將為AI領(lǐng)中國移動(dòng)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書6智算平臺的關(guān)鍵在于對智能算力進(jìn)行高質(zhì)量管理,使能資源效入駐更易、算力協(xié)同更廣。智算平臺高質(zhì)量管理有四大關(guān)鍵技術(shù)于優(yōu)化資源效率的池化技術(shù)以及提高計(jì)算性能的分布式訓(xùn)練框架算中心建設(shè)中引入并持續(xù)演進(jìn);從中遠(yuǎn)期分析,應(yīng)在進(jìn)一步培育產(chǎn)品的同時(shí),加快推動(dòng)算力原生技術(shù)成熟以降低業(yè)務(wù)準(zhǔn)入門檻,傳統(tǒng)智算中心的GPU利用率面臨巨大挑戰(zhàn),據(jù)公開數(shù)據(jù)顯示,已有智算中心,GPU平均中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書導(dǎo)致,傳統(tǒng)智算中心的GPU資源分配以整卡分配或虛擬化分配為主,粒度較粗,資源靜態(tài)智算資源池化平臺以“軟件定義”的方式,提供四大資源敏捷●隔空取物:基于高速無損網(wǎng)絡(luò),跨節(jié)點(diǎn)調(diào)取智算資源,使CPU及GPU高中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書如3-17圖所示,Kubernetes作為池化平臺的技術(shù)底座,主要承擔(dān)CPU的管理調(diào)度和作全仿真GPU卡的原生運(yùn)行時(shí)的池化運(yùn)行時(shí)組件,AI應(yīng)用可以像在真實(shí)環(huán)上述智算資源池化技術(shù)有效優(yōu)化了GPU等智能算力資源的管理效率,然而GPU/AI芯片種類繁多,其原生運(yùn)行時(shí)又相對活躍、升級頻繁,對原生運(yùn)另外一種流派的池化技術(shù)可規(guī)避基于API劫持技術(shù)所面臨的問題,該類技術(shù)將API劫持轉(zhuǎn)移至更底層的驅(qū)動(dòng)層面實(shí)現(xiàn),該位置涉及的接口更少,可大幅度降低仿真工作復(fù)雜度,以這是一種完全與GPU無關(guān)的設(shè)備虛擬化和遠(yuǎn)程處理方法,允許在沒有顯式軟件支持的情況下啟用新的硬件體系結(jié)構(gòu)。該項(xiàng)技術(shù)分為前端和后端,前端監(jiān)視應(yīng)用程序截至后端處理,后端則按應(yīng)用程序申請的數(shù)量分配資源,或?qū)?yīng)用程序拆行,在保持代碼、數(shù)據(jù)和執(zhí)行環(huán)境一致性的前提下使用這些機(jī)器上的智算源的敏捷化管理。與API劫持技術(shù)直接介入到AI應(yīng)用訪問資源的流程、需要仿真原生運(yùn)行時(shí)的API接口的方式不同,應(yīng)用程序監(jiān)視器不介入到AI應(yīng)用訪問資源的流程,而是通過更底層的系統(tǒng)調(diào)用隱含而廣泛的支持更多種類、型號的硬件和新的運(yùn)行時(shí)功兩種方案在集成實(shí)現(xiàn)難度、性能表現(xiàn)、升級適配等方中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書新型智算中心需要集結(jié)泛在、多樣的計(jì)算系統(tǒng),形成一體化性構(gòu)建相對獨(dú)立且排他的工具鏈系統(tǒng),適配集成各類AI框架形成分支版本,構(gòu)成“中間件應(yīng)用與特定系統(tǒng)的鎖定,難以在多個(gè)豎井生態(tài)系統(tǒng)間遷移部署,使算力運(yùn)營商所集算力無法為智算應(yīng)用呈現(xiàn)出一體化的資源,制約算力資源的高效運(yùn)用,亟需融通業(yè)象模型;二是為開發(fā)者建立統(tǒng)一的編程模型及范式,實(shí)現(xiàn)轉(zhuǎn)譯機(jī)制及各類算力廠商軟硬件棧建立動(dòng)態(tài)適配、統(tǒng)一納管及任務(wù)映射機(jī)制。從各廠商緊鎖定式工具鏈運(yùn)行模式,從根本上解決上層應(yīng)用對單一廠商中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書配、聯(lián)合測試、標(biāo)準(zhǔn)建設(shè)等工作,希望與產(chǎn)、學(xué)、分布式訓(xùn)練框架是搭建在大型算力資源池基礎(chǔ)上的用于并行務(wù)的一組工具集合,其將訓(xùn)練任務(wù)劃分為多個(gè)子任務(wù),通過在當(dāng)前業(yè)界分布式訓(xùn)練框架呈現(xiàn)百花齊放現(xiàn)狀,一方面是以硬件廠家主導(dǎo)研發(fā)的框架,這些框架特點(diǎn)在于與其硬件配合度較高,能夠較好地發(fā)揮硬件本身優(yōu)勢,包括英偉達(dá)然而,設(shè)備之間的計(jì)算速度可能不同,導(dǎo)致一些設(shè)備比其他設(shè)備中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書使其能夠適應(yīng)更大規(guī)模和更復(fù)雜的深度學(xué)習(xí)模型和數(shù)據(jù)集,通過在硬件、方面持續(xù)創(chuàng)新,進(jìn)一步推動(dòng)分布式訓(xùn)練技術(shù)的發(fā)展。未來分布式訓(xùn)練框架化設(shè)計(jì)并行訓(xùn)練策略以滿足超大規(guī)模模型訓(xùn)練需求,并考慮存儲資源限制等瓶頸,通過引入模型壓縮、輕量化、異步訓(xùn)練等技障或通信中斷等問題,包括設(shè)計(jì)更優(yōu)的任務(wù)檢支持同時(shí)處理多個(gè)數(shù)據(jù)模態(tài)和執(zhí)行多個(gè)任務(wù),通過提供可適應(yīng)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書在線學(xué)習(xí)和增量學(xué)習(xí)的能力。未來的分布式訓(xùn)練框架將支持在跨集群訓(xùn)練、邊緣訓(xùn)推、容錯(cuò)可靠性等方面不斷優(yōu)化完善,簡部分智算中心則存在大量閑置資源沒有充分利用的情況。如何有算力,實(shí)現(xiàn)高性能、高可靠的跨域分布式并行訓(xùn)練,將成為推動(dòng)跨智算中心的分布式并行訓(xùn)練目前已成為學(xué)界一大研究方向,統(tǒng)一納管和調(diào)度,實(shí)現(xiàn)跨域的模型訓(xùn)練,隨著智算中心內(nèi)部算力1)跨智算中心可用傳輸帶寬有限,周期性的大流量通信引發(fā)通信瓶頸。對于多智算中心間但異地場景傳輸距離遠(yuǎn)不具備光纖直連條件,通常使用廣域網(wǎng)專線連接要周期性同步模型參數(shù),隨著模型規(guī)模增大,智算中心間通信將產(chǎn)生嚴(yán)2)跨智算中心算力和網(wǎng)絡(luò)資源差異分布且動(dòng)態(tài)變化,易產(chǎn)生同步阻塞,拉低系統(tǒng)效率。不同智算中心算力和網(wǎng)絡(luò)配置不同,將造成計(jì)算和傳輸步調(diào)不協(xié)調(diào)。對于跨域低、帶寬小的計(jì)算節(jié)點(diǎn)將拖慢模型同步的完成時(shí)間并拉低系統(tǒng)訓(xùn)練效率,產(chǎn)外,廣域網(wǎng)的帶寬也要分配給其他通信業(yè)務(wù),帶寬資源實(shí)時(shí)競爭,資源的動(dòng)綜上,優(yōu)化模型傳輸帶寬開銷和確保模型訓(xùn)練性能是跨域模型中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書的資源抽象,以支持所有的并行策略(數(shù)據(jù)并行、流水并行、具備高效、通用和硬件感知等能力,實(shí)現(xiàn)訓(xùn)練任務(wù)拆分、任務(wù)調(diào)度系統(tǒng)可實(shí)時(shí)獲悉不同智算中心的硬件資源情況,監(jiān)控節(jié)點(diǎn)前的分布式機(jī)器學(xué)習(xí)系統(tǒng)普遍采用精確傳輸服務(wù)協(xié)議,無差別地將所有梯度收斂影響不同,無需傳輸所有梯度信息即可完成模型訓(xùn)練。因此,設(shè)計(jì)一種頸。模型壓縮可以顯著減少每次模型同步傳輸?shù)臄?shù)據(jù)量,典型的方案包括量是用有效的數(shù)據(jù)表示壓縮參數(shù)或梯度,減少每個(gè)值的占用位數(shù),稀疏則是通梯度參與梯度聚合與模型更新,避免發(fā)送不必要的信息。設(shè)計(jì)滿足跨域帶寬中國移動(dòng)中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書7倍以上,這意味著服務(wù)器散熱量會大大增加,單機(jī)柜的功率密度和散熱量也大幅增長。與此同時(shí),半導(dǎo)體元器件的溫度每升高10度,可靠性就降低一半。據(jù)統(tǒng)計(jì),液冷技術(shù)可以有效地將熱量從設(shè)備中導(dǎo)出,相比空氣能夠傳熱更快(提升20~25倍能),高數(shù)據(jù)中心的設(shè)備部署密度,實(shí)現(xiàn)空間資源的高效利用(液冷機(jī)柜密度3~4倍,相同算力下節(jié)省機(jī)房面積約75%另一方面將有助于提高芯片可靠性,保證芯中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書液冷方案包括冷板式、浸沒式和噴淋式三種技術(shù)。冷板式液體無需接觸發(fā)熱的器件,通過裝有液體的冷板導(dǎo)熱,借助液體循環(huán)帶走熱接觸式冷卻,將發(fā)熱器件完全浸沒在冷卻液中,發(fā)熱器件與液體直接接觸據(jù)工質(zhì)是否產(chǎn)生相變又分為單相液冷和相變液冷。噴淋式液冷是將冷卻液件表面或與發(fā)熱器件接觸的擴(kuò)展表面上,吸熱后排走,再與外部冷源進(jìn)行單相浸沒式是目前主流方案。冷板式液冷部件兼容性強(qiáng),機(jī)房改造、運(yùn)維與現(xiàn)有基礎(chǔ)設(shè)施不兼容、生態(tài)不完善等問題,隨著國產(chǎn)冷卻液性能的提升考慮到大模型訓(xùn)練場景散熱和可靠性需求,兼顧機(jī)房空間、設(shè)備1)統(tǒng)一標(biāo)準(zhǔn)問題:液冷系統(tǒng)涉及到的部件之間兼容性存在標(biāo)準(zhǔn)缺失,各家服務(wù)器設(shè)備、冷卻液、制冷管路、供配電等產(chǎn)品形態(tài)各異、接口不同2)可靠性問題:除了服務(wù)器本身,冷卻液流經(jīng)的管路也存在腐蝕和泄露的風(fēng)險(xiǎn),冷卻液對::管路接口型號等參數(shù),形成行業(yè)標(biāo)準(zhǔn),不同廠商的液冷機(jī)柜和同型號CDU對接,實(shí)現(xiàn)異廠2)在冷卻液中添加含有防腐蝕、防凍功能的緩蝕劑,比如乙二醇溶液等,降低管道的泄露中國移動(dòng)NICC新型智算中心技術(shù)體系白皮書1)推動(dòng)服務(wù)器和機(jī)柜解耦:通用冷板式液冷服務(wù)器已被行業(yè)廣泛接受,生態(tài)趨于完善,例景下,產(chǎn)業(yè)生態(tài)標(biāo)準(zhǔn)化不足,產(chǎn)品設(shè)計(jì)差異較大,冷板能力、流服務(wù)器解耦難度較高,導(dǎo)致產(chǎn)品競爭不充分,采購成本高,同時(shí)給方面,必須采取健康防護(hù)措施,對冷卻液的更換和排放必須統(tǒng),進(jìn)一步降低冷板式液冷數(shù)據(jù)中心的散熱。協(xié)同制冷和散熱,中國移動(dòng)中國移動(dòng)N
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物標(biāo)志物在藥物臨床試驗(yàn)中的臨床試驗(yàn)技術(shù)研究
- 生物標(biāo)志物在臨床試驗(yàn)中的亞組分析策略-1
- 生物制劑失應(yīng)答的個(gè)體化治療方案制定
- 生物制劑TDM指導(dǎo)下的IBD聯(lián)合治療方案優(yōu)化
- 深度解析(2026)《GBT 20081.2-2021氣動(dòng) 減壓閥和過濾減壓閥 第2部分:評定商務(wù)文件中應(yīng)包含的主要特性的試驗(yàn)方法》
- 深度解析(2026)《GBT 19487-2004電子政務(wù)業(yè)務(wù)流程設(shè)計(jì)方法 通 用規(guī)范》
- 深度解析(2026)GBT 19520.17-2010電子設(shè)備機(jī)械結(jié)構(gòu) 482.6mm(19in)系列機(jī)械結(jié)構(gòu)尺寸 第3-105部分:1U高度機(jī)箱的尺寸和設(shè)計(jì)要求
- 人力資源管理師考試難點(diǎn)突破與應(yīng)試技巧含答案
- 設(shè)備維護(hù)工作考核標(biāo)準(zhǔn)及流程
- 娛樂休閑產(chǎn)品加工建設(shè)項(xiàng)目可行性分析報(bào)告(總投資3000萬元)
- 《做酸奶》課件教學(xué)課件
- 開展中長導(dǎo)管的臨床意義
- 《企業(yè)戰(zhàn)略管理》期末復(fù)習(xí)題庫 (一)
- 第5單元舞劇音樂《快樂的女戰(zhàn)士》課件人教版初中音樂九年級上冊
- 8.2《購買水果》(教案)-2025-2026學(xué)年三年級上冊數(shù)學(xué) 北師大版
- 按摩店大學(xué)生創(chuàng)業(yè)計(jì)劃
- 廣東省領(lǐng)航高中聯(lián)盟2025-2026學(xué)年高三上學(xué)期12月聯(lián)考政治試卷(含答案)
- 2025年秋人教版(新教材)初中數(shù)學(xué)七年級上冊期末綜合測試卷及答案
- 城市地下綜合管廊運(yùn)營方案
- (完整版)2025年新版藥品管理法培訓(xùn)試卷附答案
- 2025年檢察院書記員考試題庫附答案
評論
0/150
提交評論