版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
AI數(shù)據(jù)中心規(guī)劃與建設(shè)
02
AI生成式業(yè)務(wù)系統(tǒng)
04
典型AI數(shù)據(jù)中心規(guī)劃與建設(shè)AI世界總體愿景及驅(qū)動(dòng)力AI時(shí)代數(shù)據(jù)中心發(fā)展與變化CONTENTS010301AI世界總體愿景及驅(qū)動(dòng)力人工智能是一個(gè)大方向
,
不可阻擋根據(jù)中國(guó)信息通信研究院的相關(guān)報(bào)告顯示
,
截止2024年7月
,
全球AI企業(yè)近3萬家
,
全球人工智能大
模型有1328個(gè)
,
其中中國(guó)各類企業(yè)在不到2年時(shí)間就上市發(fā)布478個(gè)人工智能大模型。AI是過去70年ICT產(chǎn)業(yè)發(fā)展的總成果AI
將引發(fā)百年未有之大變革02AI生成式業(yè)務(wù)系統(tǒng)AI
不確定性和確定性根據(jù)麥肯錫的調(diào)研
,
超過70%的企業(yè)
領(lǐng)導(dǎo)者預(yù)見AI將在接下來的五年內(nèi)深
刻改變其業(yè)務(wù)格局
。
同時(shí)
,
企業(yè)發(fā)展
AI有著相當(dāng)大的不確定性
,
據(jù)德勤的
數(shù)據(jù)顯示
,
90%的大型企業(yè)計(jì)劃投資
AI
,
但真正能夠成功規(guī)?;渴鸬膬H
占10%。這是因?yàn)樯墒紸I的革命性創(chuàng)新和內(nèi)在局限性兼而有之。架構(gòu)先行將不確定挑戰(zhàn)變成確定機(jī)遇構(gòu)建企業(yè)級(jí)All
in
AI架構(gòu)的核心挑戰(zhàn)可以歸結(jié)為兩個(gè)簡(jiǎn)單的幾何圖形:?jiǎn)♀徯偷姆欠€(wěn)定性結(jié)構(gòu)行業(yè)大模型的不可能三角生產(chǎn)研發(fā)
營(yíng)銷以架構(gòu)的確定性應(yīng)對(duì)模型的不確定性
,
形成具備持續(xù)開發(fā)態(tài)模型層的非常規(guī)
穩(wěn)定架構(gòu)?模型多源:
算力底座封裝軟硬件的復(fù)雜性,
彈性資源調(diào)度解決算力效率,
服務(wù)化的標(biāo)
準(zhǔn)接口對(duì)接開放的模型層,
支持來源多樣
的模型?三重進(jìn)化:
模型能力進(jìn)行
API
封裝,
應(yīng)用與模型解耦,
形成可替換的
“
發(fā)動(dòng)機(jī)
”;L
0
基礎(chǔ)大模型隨產(chǎn)業(yè)進(jìn)化,
L
1
行業(yè)模
型隨行業(yè)模型市場(chǎng)
、
行業(yè)生態(tài)或集團(tuán)中心
云進(jìn)化,
L
2
場(chǎng)景模型可以在企業(yè)側(cè)微調(diào)
進(jìn)化?應(yīng)用編排:
業(yè)務(wù)從邊緣
、
支撐型應(yīng)用到核
心生產(chǎn)應(yīng)用,
按需組合交互理解
(
NLP)
、
感知
(
CV)、
仿真預(yù)測(cè)
、
決策優(yōu)化模型
和檢索能力,
API
輕量式嵌入或助手型接入業(yè)務(wù)流程。應(yīng)用場(chǎng)景為綱的實(shí)質(zhì)是從解決問題的第一性原理出發(fā)
,
場(chǎng)景是起點(diǎn)也是終點(diǎn)
,
是價(jià)值的閉環(huán)。四位一體是指在實(shí)現(xiàn)應(yīng)用場(chǎng)景價(jià)值閉環(huán)的過程中
,
應(yīng)用場(chǎng)景
、
數(shù)據(jù)
、
模型和算力四個(gè)要素缺一不可
。
四位一體落地時(shí)
,
分為技術(shù)三角和業(yè)務(wù)三角
,
實(shí)現(xiàn)技術(shù)和業(yè)務(wù)的解耦
,
便于建立平臺(tái)化的技術(shù)架構(gòu)。應(yīng)用場(chǎng)景為綱
,
四位一體
,
實(shí)現(xiàn)價(jià)值三角從易到難
,
沿著價(jià)值流的方向
,
逐步深入核心和生產(chǎn)場(chǎng)景。AI
業(yè)務(wù)價(jià)值三角
,
則可作為識(shí)別場(chǎng)景業(yè)務(wù)價(jià)值的經(jīng)驗(yàn)范式和向?qū)?。?chǎng)景落地選擇從三個(gè)維度入手
:
業(yè)務(wù)準(zhǔn)備度
、
技術(shù)準(zhǔn)備度和數(shù)據(jù)準(zhǔn)備度。場(chǎng)景選擇由易到難的路徑場(chǎng)景選擇的價(jià)值三角行業(yè)
+AI
的關(guān)鍵路口來臨
,
并不在語言大模型的延伸線上數(shù)據(jù)之道延續(xù)
,
AIGC
治理結(jié)構(gòu)變革實(shí)現(xiàn)價(jià)值最大化大模型開發(fā)的工程難題算力底座組件間高耦合和繁榮生態(tài)依賴企業(yè)級(jí)
AI
架構(gòu)03AI時(shí)代數(shù)據(jù)中心發(fā)展與變化數(shù)據(jù)中心走向智算數(shù)據(jù)中心承載業(yè)務(wù)差異?
傳統(tǒng)
DC
:
主要承載企業(yè)級(jí)應(yīng)用和數(shù)據(jù)存儲(chǔ)
,
如
Web
服務(wù)
、
數(shù)據(jù)庫(kù)管理和文件存儲(chǔ)等常規(guī)信息處
理任務(wù)。?AI
DC
:
主要承載
AI
模型的訓(xùn)練與推理
,
高效提
供算力資源
,
并支持大數(shù)據(jù)集的處理。技術(shù)架構(gòu)差異?
傳統(tǒng)
DC
:
采用馮·諾依曼的主從架構(gòu)
,
其中
CPU扮演指揮官的角色
,
負(fù)責(zé)分配任務(wù)給其他部件
。
這
種架構(gòu)在面對(duì)大規(guī)模并行計(jì)算任務(wù)時(shí)存在
“
計(jì)算墻
”
、
“
內(nèi)存墻
”
和
“
I/
O
墻
”
等問題,
限制了性
能的進(jìn)一步提升。?
AI
DC
:
采用更加先進(jìn)的全互聯(lián)對(duì)等架構(gòu)
,
允許處
理器之間
,
以及處理器到內(nèi)存
、
網(wǎng)卡等直接通信
,
減少了中心化控制帶來的延遲
,
突破主從架構(gòu)的算
力瓶頸
,
實(shí)現(xiàn)了高效的分布式并行計(jì)算。算力類型差異?
傳統(tǒng)
DC
:
以
CPU
為中心
,
適用于一般性的計(jì)算
需求。?
AI
DC
:
以
xPU
為中心
,
提供并行計(jì)算
,
處理
AI模型訓(xùn)練所需的大量矩陣運(yùn)算。散熱模式差異?
傳統(tǒng)
DC
:
單機(jī)柜功率密度通常在
3
~
8
千瓦之間
,
可裝載的服務(wù)器設(shè)備數(shù)量有限
,
算力密度相對(duì)較低
,
一般采用傳統(tǒng)的風(fēng)冷散熱。?
AI
DC
:
單機(jī)柜功率密度通常在
20
~
100
千瓦之間,
主要采用液冷或風(fēng)液混合的散熱技術(shù)
。
液冷能夠更傳統(tǒng)數(shù)據(jù)中心與智算數(shù)據(jù)中心存在以下幾方面的差異:有效地帶走熱量
,
保證高性能計(jì)算設(shè)備的穩(wěn)定運(yùn)行。AI
DC
主要承載
AI
模型的
“
訓(xùn)推用
”不同場(chǎng)景訓(xùn)練推理的算力需求及工程難度?
推理性能優(yōu)化?
高效的訓(xùn)練和微調(diào)?
提升算力資源利用率?
多模編排快速支撐AI應(yīng)用創(chuàng)新?降低AI
DC運(yùn)維難度?
如何應(yīng)對(duì)生成式AI安全?
高密供電、散熱等機(jī)房條件 AI
數(shù)據(jù)中心建設(shè)場(chǎng)景及類型
?
提升算力資源利用率?
一站式部署?
便捷運(yùn)維?
安全保障?電力供應(yīng)?
可靠性與故障恢復(fù)?
有效算力提升 AI
數(shù)據(jù)中心五大特征變化
系統(tǒng)摩爾CPU
、GPU
、NPU都是處理器,到底差在哪??CPU中央處理器(
Central
Processing
Unit)CPU被視為是電腦的“大腦”
,負(fù)責(zé)執(zhí)行作業(yè)系統(tǒng)、
應(yīng)用程序運(yùn)作所需的命令與程序
,也是決定程序執(zhí)行速度的關(guān)鍵,
不論是瀏覽網(wǎng)頁(yè)或處理文書作業(yè)
,都會(huì)受到CPU效能的影響。?GPU
圖形處理器(
Graphics
Processing
Unit)GPU具有數(shù)百至數(shù)千個(gè)算數(shù)邏輯單元(Arithmetic
Logic
Unit
,ALU)
,得以處理眾多平行執(zhí)行的數(shù)學(xué)
運(yùn)算
,加快繪圖渲染、
影片編碼解碼等處理
,也格外適合執(zhí)行AI的深度學(xué)習(xí)演算法
,
GPU因而在AI浪
潮下大放異彩。?NPU
神經(jīng)網(wǎng)絡(luò)處理器(
Neural-network
Processing
Unit)邊緣運(yùn)算浪潮下日趨火紅的NPU
,則是專門為加速服務(wù)器的AI運(yùn)算所打造。NPU具有兩大技術(shù)特點(diǎn):第一個(gè)是模擬人類神經(jīng)網(wǎng)絡(luò)的運(yùn)作方式
,
同樣擅長(zhǎng)平行運(yùn)算處理
,
并適當(dāng)?shù)胤峙湫酒瑑?nèi)的“任務(wù)流”
,
減少閑置的運(yùn)算資源。第二個(gè)是經(jīng)由“近存儲(chǔ)器運(yùn)算”(將處理器盡量靠近DRAM
,
以減少資料的傳輸延遲以及功率消耗)
或
“存內(nèi)運(yùn)算”(將簡(jiǎn)單的邏輯運(yùn)算移至存儲(chǔ)器陣列中)
,
實(shí)現(xiàn)儲(chǔ)存及運(yùn)算的一體化
,
降低運(yùn)算過程的能
耗、加快存取速度
,從而提升AI運(yùn)算的執(zhí)行速度和效率。系統(tǒng)摩爾能基木桶?挑戰(zhàn)一:
超大容量電力供應(yīng)的獲取與匹配?挑戰(zhàn)二:
超高密機(jī)柜的散熱技術(shù)創(chuàng)新?挑戰(zhàn)三:
建筑空間分區(qū)的前瞻設(shè)計(jì)提供資源管理調(diào)度、
支撐模型訓(xùn)練及
AI
開發(fā),
以及提供運(yùn)維管理的
AI
平臺(tái)面臨極大的挑戰(zhàn),
主要包括:?AI
算力資源的高效利用?AI
開發(fā)的高門檻和高成本?AI
DC
運(yùn)維運(yùn)營(yíng)難度大迭代式平臺(tái)編排式應(yīng)用編排式應(yīng)用生成式安全?
一是
AI
內(nèi)容生產(chǎn)過程的
“黑盒”特性?
二是
AI
系統(tǒng)面臨新型安全攻擊的威脅?
三是潛在引入新的數(shù)據(jù)安全風(fēng)險(xiǎn)新型
AI
DC目標(biāo)架構(gòu)04AI數(shù)據(jù)中心規(guī)劃與建設(shè)?
需求
一提升基礎(chǔ)大模型預(yù)訓(xùn)練效率
,
縮短訓(xùn)練時(shí)長(zhǎng)當(dāng)前
,
對(duì)于各頭部互聯(lián)網(wǎng)企業(yè)及大模型廠商而言
,
都希望預(yù)訓(xùn)練的周期越短越好
,
以實(shí)現(xiàn)基礎(chǔ)大模型的快
速迭代
,
從而贏得市場(chǎng)先機(jī);與此同時(shí)
,
成千上萬臺(tái)
AI
服務(wù)器的長(zhǎng)周期
、
高負(fù)荷運(yùn)轉(zhuǎn)需消耗大量電力。因此
,
提升訓(xùn)練效率
、
縮短訓(xùn)練時(shí)長(zhǎng)
,
不僅能贏得市
場(chǎng)競(jìng)爭(zhēng)
,
也能實(shí)現(xiàn)節(jié)能降本
。
要提升訓(xùn)練效率
,
在確
定的算力規(guī)模下
,
關(guān)鍵在于提高算力集群的有效算力。超大型
AI
數(shù)據(jù)中心?
需求二?
滿足推理的
“
LACE
”
體驗(yàn)要求關(guān)鍵建設(shè)需求:?
需求三提升能源基礎(chǔ)設(shè)施效率,
滿足超大型
AI
D
C
可持續(xù)發(fā)展?
需求二滿足推理的
“
LACE
”
體驗(yàn)要求超大型
AI
數(shù)據(jù)中心關(guān)鍵建設(shè)需求:超大型
AI
數(shù)據(jù)中心超大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向
一:
極致算效?
場(chǎng)景
一
:
基礎(chǔ)模型預(yù)訓(xùn)練為了加速基礎(chǔ)模型的預(yù)訓(xùn)練
,
需要提升超大規(guī)模集群有效算力
。
集群有效算力由三個(gè)關(guān)鍵指標(biāo)決定
:
集群算力
規(guī)模
、
集群算力利用率
(MFU)和集群可用度
(HA)
。?
關(guān)鍵技術(shù)2基于單機(jī)效率優(yōu)化和集群并行優(yōu)化,
提升集群算力利用率?
關(guān)鍵技術(shù)1基于超節(jié)點(diǎn)及超大規(guī)模組網(wǎng)架構(gòu),
提升集群算力規(guī)模超大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向
一:
極致算效?
關(guān)鍵技術(shù)1基于算存協(xié)同
CK
PT
加速和故障快速恢復(fù),
提升集群可用度超大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向
一:
極致算效?
場(chǎng)景二
:
海量用戶的分布式推理無論是日均調(diào)用數(shù)萬次以上的典型模型
,
還是能力持續(xù)發(fā)展的超大模型
(超大參數(shù)
、
超長(zhǎng)序列
、
多模態(tài))
,
在
實(shí)現(xiàn)高效推理方面都面臨較大的挑戰(zhàn)
,
需要采用如下關(guān)鍵技術(shù)?
關(guān)鍵技術(shù)1以
KV
Cache
為中心的
P/
D
分離技術(shù),
提升海量用戶的推
理效率?
關(guān)鍵技術(shù)2KV
Cache
多級(jí)緩存,
提升超長(zhǎng)序列模型的推理效率超大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向
一:
極致算效?
關(guān)鍵技術(shù)3多機(jī)并行推理,
提升超大參數(shù)和多模態(tài)大模型的推理效率超大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向
一:
極致算效?
關(guān)鍵技術(shù)1
:
彈性的能源基礎(chǔ)設(shè)施模塊彈性能源基礎(chǔ)設(shè)施模塊需支持多代算力及多元化算力混
合部署?
關(guān)鍵技術(shù)2
:
極致的供配電效率通過軟硬協(xié)同創(chuàng)新可以提升供配電能效
、
密度和可靠性超大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向二:
極致能效?
關(guān)鍵技術(shù)3極致的散熱效率通過
AI
聯(lián)動(dòng)調(diào)優(yōu)降低能耗,
提升系統(tǒng)可靠性。?
關(guān)鍵技術(shù)4
:
聯(lián)動(dòng)調(diào)優(yōu)降能耗超大型
AI
數(shù)據(jù)中心?
超大型AI
DC
綜合評(píng)價(jià)指標(biāo)體系表八大方面的關(guān)鍵需求及挑戰(zhàn):大型
AI
數(shù)據(jù)中心?訓(xùn)推融合:大型
AI
DC不僅承載模型訓(xùn)練務(wù),
同時(shí)也承載
AI推理業(yè)務(wù)。通過在同一平臺(tái)上同時(shí)支持訓(xùn)
練和推理
,可以實(shí)現(xiàn)資源共享
,簡(jiǎn)化管理流程
,并
提高整體效率。?風(fēng)液融合:
由于大型
AI
DC
中既有智算也有通算
,不同類別的算力所需的散熱模式也不同。對(duì)于低密
度的通算、
網(wǎng)絡(luò)和存儲(chǔ)設(shè)備
,通常采用風(fēng)冷散熱;
而對(duì)于高密度的智算
,液冷散熱逐漸成為剛需。面
向未來
,風(fēng)冷和液冷在
AI
DC
內(nèi)共存將成為必然趨
勢(shì)。?通智融合:大型
AI
DC
不僅包含智算
,還包括通算。通算業(yè)務(wù)和智算業(yè)務(wù)的混合部署成為AI
DC的常態(tài)。?多模融合:在實(shí)際的企業(yè)應(yīng)用中
,往往需要多個(gè)模型共同支撐一個(gè)完整的
AI
應(yīng)用。大型
AI
DC
需要具備融合與高效的特點(diǎn)。
其中
,
“融合”具體體現(xiàn)在以下4個(gè)方面:大型
AI
數(shù)據(jù)中心大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向
一:
架構(gòu)高效算力管理高效:?
統(tǒng)一管理?
跨域調(diào)度?
靈活調(diào)度?
資源可視化?
標(biāo)準(zhǔn)化接口模型管理高效:?
模型編排?
標(biāo)準(zhǔn)化接口?
模型版本管理?自動(dòng)化部署?
監(jiān)控與反饋一個(gè)
AI
DC
架構(gòu)是否高效
,
主要體現(xiàn)在算力管理和模型管理是否高效上。大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向二:
開發(fā)高效平臺(tái)的核心能力包括以下三個(gè)方面:主要可以通過動(dòng)態(tài)靈活的算力調(diào)度(時(shí)分復(fù)用)
、算力切分一卡多用(空分復(fù)用)
兩種手段。大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向三:
算力高效能源基礎(chǔ)設(shè)施的高效
,核心是滿足智算液冷與通算風(fēng)冷混合部署需求
,
當(dāng)前主要面臨如下挑戰(zhàn):大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向四:
能源高效大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向四:
能源高效在風(fēng)液混合區(qū)
,采用風(fēng)液混合微模塊
,
實(shí)現(xiàn)風(fēng)液彈性配比。新一代運(yùn)維管理系統(tǒng)應(yīng)具備全面監(jiān)控、
故障預(yù)測(cè)、
故障快速分析定位及恢復(fù)等功能。大型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向五:
管理高效大型
AI
數(shù)據(jù)中心DC
綜合評(píng)價(jià)指標(biāo)體系表大型
AI小型
AI
數(shù)據(jù)中心DC
的核心需求小型
AI小型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向
一:
形態(tài)靈活
(靈)按物理形態(tài)分節(jié)點(diǎn)型和機(jī)柜型
,按部署形態(tài)分獨(dú)立部署和云邊緣部署
,按功能形態(tài)分承載智能客服、
代碼生成
等應(yīng)用的NLP
類
,承載工業(yè)質(zhì)檢、
醫(yī)療影像等應(yīng)用的CV
類
,承載辦公助手、
文生圖等應(yīng)用的多模態(tài)類。小型
AI
數(shù)據(jù)中心
規(guī)劃建設(shè)方向二:
快速部署
、
快速升級(jí)
(快)支持云邊的應(yīng)用、
模型、
數(shù)據(jù)等多維協(xié)同加入星球獲取更多更全的數(shù)智化解決方案小型
AI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年上海政法學(xué)院?jiǎn)握校ㄓ?jì)算機(jī))測(cè)試備考題庫(kù)附答案
- 變壓器鐵芯疊裝工沖突管理水平考核試卷含答案
- 水泥混凝土制品工安全文化模擬考核試卷含答案
- 礦用重型卡車輪胎換修工崗前基礎(chǔ)理論考核試卷含答案
- 魚糜制作工安全管理知識(shí)考核試卷含答案
- 家具制作工崗前決策力考核試卷含答案
- 2024年濰坊職業(yè)學(xué)院輔導(dǎo)員考試參考題庫(kù)附答案
- 企業(yè)員工招聘與離職手冊(cè)(標(biāo)準(zhǔn)版)
- 2024年焦作大學(xué)輔導(dǎo)員考試筆試真題匯編附答案
- 2024年甘孜職業(yè)學(xué)院輔導(dǎo)員考試筆試題庫(kù)附答案
- 【八年級(jí)下冊(cè)數(shù)學(xué)北師大版】第三章 圖形的平移與旋轉(zhuǎn)(9類壓軸題專練)
- 中建項(xiàng)目安全總監(jiān)競(jìng)聘
- 中建給排水施工方案EPC項(xiàng)目
- 公司股權(quán)分配方案模板
- 電氣工程及自動(dòng)化基于PLC的皮帶集中控制系統(tǒng)設(shè)計(jì)
- 舊設(shè)備拆除方案
- 醫(yī)學(xué)教材 常見輸液反應(yīng)的處理(急性肺水腫)
- FURUNO 電子海圖 完整題庫(kù)
- 急診科護(hù)士長(zhǎng)述職報(bào)告
- 分子對(duì)稱性和點(diǎn)群
- 物業(yè)前臺(tái)崗位職責(zé)6篇
評(píng)論
0/150
提交評(píng)論