AI數(shù)據(jù)中心規(guī)劃與建設(shè)方案_第1頁(yè)
AI數(shù)據(jù)中心規(guī)劃與建設(shè)方案_第2頁(yè)
AI數(shù)據(jù)中心規(guī)劃與建設(shè)方案_第3頁(yè)
AI數(shù)據(jù)中心規(guī)劃與建設(shè)方案_第4頁(yè)
AI數(shù)據(jù)中心規(guī)劃與建設(shè)方案_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AI數(shù)據(jù)中心規(guī)劃與建設(shè)

02

AI生成式業(yè)務(wù)系統(tǒng)

04

典型AI數(shù)據(jù)中心規(guī)劃與建設(shè)AI世界總體愿景及驅(qū)動(dòng)力AI時(shí)代數(shù)據(jù)中心發(fā)展與變化CONTENTS010301AI世界總體愿景及驅(qū)動(dòng)力人工智能是一個(gè)大方向

,

不可阻擋根據(jù)中國(guó)信息通信研究院的相關(guān)報(bào)告顯示

,

截止2024年7月

,

全球AI企業(yè)近3萬家

,

全球人工智能大

模型有1328個(gè)

,

其中中國(guó)各類企業(yè)在不到2年時(shí)間就上市發(fā)布478個(gè)人工智能大模型。AI是過去70年ICT產(chǎn)業(yè)發(fā)展的總成果AI

將引發(fā)百年未有之大變革02AI生成式業(yè)務(wù)系統(tǒng)AI

不確定性和確定性根據(jù)麥肯錫的調(diào)研

超過70%的企業(yè)

領(lǐng)導(dǎo)者預(yù)見AI將在接下來的五年內(nèi)深

刻改變其業(yè)務(wù)格局

。

同時(shí)

,

企業(yè)發(fā)展

AI有著相當(dāng)大的不確定性

,

據(jù)德勤的

數(shù)據(jù)顯示

,

90%的大型企業(yè)計(jì)劃投資

AI

,

但真正能夠成功規(guī)?;渴鸬膬H

占10%。這是因?yàn)樯墒紸I的革命性創(chuàng)新和內(nèi)在局限性兼而有之。架構(gòu)先行將不確定挑戰(zhàn)變成確定機(jī)遇構(gòu)建企業(yè)級(jí)All

in

AI架構(gòu)的核心挑戰(zhàn)可以歸結(jié)為兩個(gè)簡(jiǎn)單的幾何圖形:?jiǎn)♀徯偷姆欠€(wěn)定性結(jié)構(gòu)行業(yè)大模型的不可能三角生產(chǎn)研發(fā)

營(yíng)銷以架構(gòu)的確定性應(yīng)對(duì)模型的不確定性

形成具備持續(xù)開發(fā)態(tài)模型層的非常規(guī)

穩(wěn)定架構(gòu)?模型多源:

算力底座封裝軟硬件的復(fù)雜性,

彈性資源調(diào)度解決算力效率,

服務(wù)化的標(biāo)

準(zhǔn)接口對(duì)接開放的模型層,

支持來源多樣

的模型?三重進(jìn)化:

模型能力進(jìn)行

API

封裝,

應(yīng)用與模型解耦,

形成可替換的

發(fā)動(dòng)機(jī)

”;L

0

基礎(chǔ)大模型隨產(chǎn)業(yè)進(jìn)化,

L

1

行業(yè)模

型隨行業(yè)模型市場(chǎng)

、

行業(yè)生態(tài)或集團(tuán)中心

云進(jìn)化,

L

2

場(chǎng)景模型可以在企業(yè)側(cè)微調(diào)

進(jìn)化?應(yīng)用編排:

業(yè)務(wù)從邊緣

、

支撐型應(yīng)用到核

心生產(chǎn)應(yīng)用,

按需組合交互理解

(

NLP)

、

感知

CV)、

仿真預(yù)測(cè)

、

決策優(yōu)化模型

和檢索能力,

API

輕量式嵌入或助手型接入業(yè)務(wù)流程。應(yīng)用場(chǎng)景為綱的實(shí)質(zhì)是從解決問題的第一性原理出發(fā)

,

場(chǎng)景是起點(diǎn)也是終點(diǎn)

是價(jià)值的閉環(huán)。四位一體是指在實(shí)現(xiàn)應(yīng)用場(chǎng)景價(jià)值閉環(huán)的過程中

,

應(yīng)用場(chǎng)景

、

數(shù)據(jù)

、

模型和算力四個(gè)要素缺一不可

四位一體落地時(shí)

,

分為技術(shù)三角和業(yè)務(wù)三角

,

實(shí)現(xiàn)技術(shù)和業(yè)務(wù)的解耦

,

便于建立平臺(tái)化的技術(shù)架構(gòu)。應(yīng)用場(chǎng)景為綱

,

四位一體

,

實(shí)現(xiàn)價(jià)值三角從易到難

,

沿著價(jià)值流的方向

,

逐步深入核心和生產(chǎn)場(chǎng)景。AI

業(yè)務(wù)價(jià)值三角

,

則可作為識(shí)別場(chǎng)景業(yè)務(wù)價(jià)值的經(jīng)驗(yàn)范式和向?qū)?。?chǎng)景落地選擇從三個(gè)維度入手

業(yè)務(wù)準(zhǔn)備度

、

技術(shù)準(zhǔn)備度和數(shù)據(jù)準(zhǔn)備度。場(chǎng)景選擇由易到難的路徑場(chǎng)景選擇的價(jià)值三角行業(yè)

+AI

的關(guān)鍵路口來臨

,

并不在語言大模型的延伸線上數(shù)據(jù)之道延續(xù)

AIGC

治理結(jié)構(gòu)變革實(shí)現(xiàn)價(jià)值最大化大模型開發(fā)的工程難題算力底座組件間高耦合和繁榮生態(tài)依賴企業(yè)級(jí)

AI

架構(gòu)03AI時(shí)代數(shù)據(jù)中心發(fā)展與變化數(shù)據(jù)中心走向智算數(shù)據(jù)中心承載業(yè)務(wù)差異?

傳統(tǒng)

DC

主要承載企業(yè)級(jí)應(yīng)用和數(shù)據(jù)存儲(chǔ)

,

Web

服務(wù)

、

數(shù)據(jù)庫(kù)管理和文件存儲(chǔ)等常規(guī)信息處

理任務(wù)。?AI

DC

主要承載

AI

模型的訓(xùn)練與推理

,

高效提

供算力資源

,

并支持大數(shù)據(jù)集的處理。技術(shù)架構(gòu)差異?

傳統(tǒng)

DC

采用馮·諾依曼的主從架構(gòu)

,

其中

CPU扮演指揮官的角色

,

負(fù)責(zé)分配任務(wù)給其他部件

。

種架構(gòu)在面對(duì)大規(guī)模并行計(jì)算任務(wù)時(shí)存在

計(jì)算墻

、

內(nèi)存墻

I/

O

等問題,

限制了性

能的進(jìn)一步提升。?

AI

DC

采用更加先進(jìn)的全互聯(lián)對(duì)等架構(gòu)

,

允許處

理器之間

,

以及處理器到內(nèi)存

、

網(wǎng)卡等直接通信

,

減少了中心化控制帶來的延遲

,

突破主從架構(gòu)的算

力瓶頸

,

實(shí)現(xiàn)了高效的分布式并行計(jì)算。算力類型差異?

傳統(tǒng)

DC

CPU

為中心

適用于一般性的計(jì)算

需求。?

AI

DC

xPU

為中心

提供并行計(jì)算

,

處理

AI模型訓(xùn)練所需的大量矩陣運(yùn)算。散熱模式差異?

傳統(tǒng)

DC

單機(jī)柜功率密度通常在

3

~

8

千瓦之間

,

可裝載的服務(wù)器設(shè)備數(shù)量有限

,

算力密度相對(duì)較低

,

一般采用傳統(tǒng)的風(fēng)冷散熱。?

AI

DC

單機(jī)柜功率密度通常在

20

~

100

千瓦之間,

主要采用液冷或風(fēng)液混合的散熱技術(shù)

液冷能夠更傳統(tǒng)數(shù)據(jù)中心與智算數(shù)據(jù)中心存在以下幾方面的差異:有效地帶走熱量

,

保證高性能計(jì)算設(shè)備的穩(wěn)定運(yùn)行。AI

DC

主要承載

AI

模型的

訓(xùn)推用

”不同場(chǎng)景訓(xùn)練推理的算力需求及工程難度?

推理性能優(yōu)化?

高效的訓(xùn)練和微調(diào)?

提升算力資源利用率?

多模編排快速支撐AI應(yīng)用創(chuàng)新?降低AI

DC運(yùn)維難度?

如何應(yīng)對(duì)生成式AI安全?

高密供電、散熱等機(jī)房條件 AI

數(shù)據(jù)中心建設(shè)場(chǎng)景及類型

?

提升算力資源利用率?

一站式部署?

便捷運(yùn)維?

安全保障?電力供應(yīng)?

可靠性與故障恢復(fù)?

有效算力提升 AI

數(shù)據(jù)中心五大特征變化

系統(tǒng)摩爾CPU

、GPU

、NPU都是處理器,到底差在哪??CPU中央處理器(

Central

Processing

Unit)CPU被視為是電腦的“大腦”

,負(fù)責(zé)執(zhí)行作業(yè)系統(tǒng)、

應(yīng)用程序運(yùn)作所需的命令與程序

,也是決定程序執(zhí)行速度的關(guān)鍵,

不論是瀏覽網(wǎng)頁(yè)或處理文書作業(yè)

,都會(huì)受到CPU效能的影響。?GPU

圖形處理器(

Graphics

Processing

Unit)GPU具有數(shù)百至數(shù)千個(gè)算數(shù)邏輯單元(Arithmetic

Logic

Unit

,ALU)

,得以處理眾多平行執(zhí)行的數(shù)學(xué)

運(yùn)算

,加快繪圖渲染、

影片編碼解碼等處理

,也格外適合執(zhí)行AI的深度學(xué)習(xí)演算法

,

GPU因而在AI浪

潮下大放異彩。?NPU

神經(jīng)網(wǎng)絡(luò)處理器(

Neural-network

Processing

Unit)邊緣運(yùn)算浪潮下日趨火紅的NPU

,則是專門為加速服務(wù)器的AI運(yùn)算所打造。NPU具有兩大技術(shù)特點(diǎn):第一個(gè)是模擬人類神經(jīng)網(wǎng)絡(luò)的運(yùn)作方式

,

同樣擅長(zhǎng)平行運(yùn)算處理

,

并適當(dāng)?shù)胤峙湫酒瑑?nèi)的“任務(wù)流”

,

減少閑置的運(yùn)算資源。第二個(gè)是經(jīng)由“近存儲(chǔ)器運(yùn)算”(將處理器盡量靠近DRAM

,

以減少資料的傳輸延遲以及功率消耗)

“存內(nèi)運(yùn)算”(將簡(jiǎn)單的邏輯運(yùn)算移至存儲(chǔ)器陣列中)

,

實(shí)現(xiàn)儲(chǔ)存及運(yùn)算的一體化

降低運(yùn)算過程的能

耗、加快存取速度

,從而提升AI運(yùn)算的執(zhí)行速度和效率。系統(tǒng)摩爾能基木桶?挑戰(zhàn)一:

超大容量電力供應(yīng)的獲取與匹配?挑戰(zhàn)二:

超高密機(jī)柜的散熱技術(shù)創(chuàng)新?挑戰(zhàn)三:

建筑空間分區(qū)的前瞻設(shè)計(jì)提供資源管理調(diào)度、

支撐模型訓(xùn)練及

AI

開發(fā),

以及提供運(yùn)維管理的

AI

平臺(tái)面臨極大的挑戰(zhàn),

主要包括:?AI

算力資源的高效利用?AI

開發(fā)的高門檻和高成本?AI

DC

運(yùn)維運(yùn)營(yíng)難度大迭代式平臺(tái)編排式應(yīng)用編排式應(yīng)用生成式安全?

一是

AI

內(nèi)容生產(chǎn)過程的

“黑盒”特性?

二是

AI

系統(tǒng)面臨新型安全攻擊的威脅?

三是潛在引入新的數(shù)據(jù)安全風(fēng)險(xiǎn)新型

AI

DC目標(biāo)架構(gòu)04AI數(shù)據(jù)中心規(guī)劃與建設(shè)?

需求

一提升基礎(chǔ)大模型預(yù)訓(xùn)練效率

,

縮短訓(xùn)練時(shí)長(zhǎng)當(dāng)前

,

對(duì)于各頭部互聯(lián)網(wǎng)企業(yè)及大模型廠商而言

,

都希望預(yù)訓(xùn)練的周期越短越好

,

以實(shí)現(xiàn)基礎(chǔ)大模型的快

速迭代

,

從而贏得市場(chǎng)先機(jī);與此同時(shí)

,

成千上萬臺(tái)

AI

服務(wù)器的長(zhǎng)周期

、

高負(fù)荷運(yùn)轉(zhuǎn)需消耗大量電力。因此

,

提升訓(xùn)練效率

、

縮短訓(xùn)練時(shí)長(zhǎng)

,

不僅能贏得市

場(chǎng)競(jìng)爭(zhēng)

也能實(shí)現(xiàn)節(jié)能降本

。

要提升訓(xùn)練效率

,

在確

定的算力規(guī)模下

,

關(guān)鍵在于提高算力集群的有效算力。超大型

AI

數(shù)據(jù)中心?

需求二?

滿足推理的

LACE

體驗(yàn)要求關(guān)鍵建設(shè)需求:?

需求三提升能源基礎(chǔ)設(shè)施效率,

滿足超大型

AI

D

C

可持續(xù)發(fā)展?

需求二滿足推理的

LACE

體驗(yàn)要求超大型

AI

數(shù)據(jù)中心關(guān)鍵建設(shè)需求:超大型

AI

數(shù)據(jù)中心超大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向

一:

極致算效?

場(chǎng)景

基礎(chǔ)模型預(yù)訓(xùn)練為了加速基礎(chǔ)模型的預(yù)訓(xùn)練

,

需要提升超大規(guī)模集群有效算力

。

集群有效算力由三個(gè)關(guān)鍵指標(biāo)決定

集群算力

規(guī)模

、

集群算力利用率

(MFU)和集群可用度

(HA)

。?

關(guān)鍵技術(shù)2基于單機(jī)效率優(yōu)化和集群并行優(yōu)化,

提升集群算力利用率?

關(guān)鍵技術(shù)1基于超節(jié)點(diǎn)及超大規(guī)模組網(wǎng)架構(gòu),

提升集群算力規(guī)模超大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向

一:

極致算效?

關(guān)鍵技術(shù)1基于算存協(xié)同

CK

PT

加速和故障快速恢復(fù),

提升集群可用度超大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向

一:

極致算效?

場(chǎng)景二

海量用戶的分布式推理無論是日均調(diào)用數(shù)萬次以上的典型模型

,

還是能力持續(xù)發(fā)展的超大模型

(超大參數(shù)

、

超長(zhǎng)序列

、

多模態(tài))

,

實(shí)現(xiàn)高效推理方面都面臨較大的挑戰(zhàn)

,

需要采用如下關(guān)鍵技術(shù)?

關(guān)鍵技術(shù)1以

KV

Cache

為中心的

P/

D

分離技術(shù),

提升海量用戶的推

理效率?

關(guān)鍵技術(shù)2KV

Cache

多級(jí)緩存,

提升超長(zhǎng)序列模型的推理效率超大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向

一:

極致算效?

關(guān)鍵技術(shù)3多機(jī)并行推理,

提升超大參數(shù)和多模態(tài)大模型的推理效率超大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向

一:

極致算效?

關(guān)鍵技術(shù)1

彈性的能源基礎(chǔ)設(shè)施模塊彈性能源基礎(chǔ)設(shè)施模塊需支持多代算力及多元化算力混

合部署?

關(guān)鍵技術(shù)2

極致的供配電效率通過軟硬協(xié)同創(chuàng)新可以提升供配電能效

、

密度和可靠性超大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向二:

極致能效?

關(guān)鍵技術(shù)3極致的散熱效率通過

AI

聯(lián)動(dòng)調(diào)優(yōu)降低能耗,

提升系統(tǒng)可靠性。?

關(guān)鍵技術(shù)4

聯(lián)動(dòng)調(diào)優(yōu)降能耗超大型

AI

數(shù)據(jù)中心?

超大型AI

DC

綜合評(píng)價(jià)指標(biāo)體系表八大方面的關(guān)鍵需求及挑戰(zhàn):大型

AI

數(shù)據(jù)中心?訓(xùn)推融合:大型

AI

DC不僅承載模型訓(xùn)練務(wù),

同時(shí)也承載

AI推理業(yè)務(wù)。通過在同一平臺(tái)上同時(shí)支持訓(xùn)

練和推理

,可以實(shí)現(xiàn)資源共享

,簡(jiǎn)化管理流程

,并

提高整體效率。?風(fēng)液融合:

由于大型

AI

DC

中既有智算也有通算

,不同類別的算力所需的散熱模式也不同。對(duì)于低密

度的通算、

網(wǎng)絡(luò)和存儲(chǔ)設(shè)備

,通常采用風(fēng)冷散熱;

而對(duì)于高密度的智算

,液冷散熱逐漸成為剛需。面

向未來

,風(fēng)冷和液冷在

AI

DC

內(nèi)共存將成為必然趨

勢(shì)。?通智融合:大型

AI

DC

不僅包含智算

,還包括通算。通算業(yè)務(wù)和智算業(yè)務(wù)的混合部署成為AI

DC的常態(tài)。?多模融合:在實(shí)際的企業(yè)應(yīng)用中

,往往需要多個(gè)模型共同支撐一個(gè)完整的

AI

應(yīng)用。大型

AI

DC

需要具備融合與高效的特點(diǎn)。

其中

,

“融合”具體體現(xiàn)在以下4個(gè)方面:大型

AI

數(shù)據(jù)中心大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向

一:

架構(gòu)高效算力管理高效:?

統(tǒng)一管理?

跨域調(diào)度?

靈活調(diào)度?

資源可視化?

標(biāo)準(zhǔn)化接口模型管理高效:?

模型編排?

標(biāo)準(zhǔn)化接口?

模型版本管理?自動(dòng)化部署?

監(jiān)控與反饋一個(gè)

AI

DC

架構(gòu)是否高效

主要體現(xiàn)在算力管理和模型管理是否高效上。大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向二:

開發(fā)高效平臺(tái)的核心能力包括以下三個(gè)方面:主要可以通過動(dòng)態(tài)靈活的算力調(diào)度(時(shí)分復(fù)用)

、算力切分一卡多用(空分復(fù)用)

兩種手段。大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向三:

算力高效能源基礎(chǔ)設(shè)施的高效

,核心是滿足智算液冷與通算風(fēng)冷混合部署需求

,

當(dāng)前主要面臨如下挑戰(zhàn):大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向四:

能源高效大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向四:

能源高效在風(fēng)液混合區(qū)

,采用風(fēng)液混合微模塊

,

實(shí)現(xiàn)風(fēng)液彈性配比。新一代運(yùn)維管理系統(tǒng)應(yīng)具備全面監(jiān)控、

故障預(yù)測(cè)、

故障快速分析定位及恢復(fù)等功能。大型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向五:

管理高效大型

AI

數(shù)據(jù)中心DC

綜合評(píng)價(jià)指標(biāo)體系表大型

AI小型

AI

數(shù)據(jù)中心DC

的核心需求小型

AI小型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向

一:

形態(tài)靈活

(靈)按物理形態(tài)分節(jié)點(diǎn)型和機(jī)柜型

,按部署形態(tài)分獨(dú)立部署和云邊緣部署

,按功能形態(tài)分承載智能客服、

代碼生成

等應(yīng)用的NLP

,承載工業(yè)質(zhì)檢、

醫(yī)療影像等應(yīng)用的CV

,承載辦公助手、

文生圖等應(yīng)用的多模態(tài)類。小型

AI

數(shù)據(jù)中心

規(guī)劃建設(shè)方向二:

快速部署

、

快速升級(jí)

(快)支持云邊的應(yīng)用、

模型、

數(shù)據(jù)等多維協(xié)同加入星球獲取更多更全的數(shù)智化解決方案小型

AI

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論