2025中國算力發(fā)展之AI計算開放架構研究報告_第1頁
2025中國算力發(fā)展之AI計算開放架構研究報告_第2頁
2025中國算力發(fā)展之AI計算開放架構研究報告_第3頁
2025中國算力發(fā)展之AI計算開放架構研究報告_第4頁
2025中國算力發(fā)展之AI計算開放架構研究報告_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2025

中國算力發(fā)展之AI計算開放架構研究報告2025中國算力發(fā)展之AI計算開放架構研究報告CONTENTS

·

目錄目錄CONTENTS一

、

AI計算開放架構研究背景.........................................................011.1AI計算需求持續(xù)增長..............................................................................021)大模型持續(xù)發(fā)展,AI算力需求不斷攀升..............................................022)AI應用泛在化,萬卡集群建設加速推進..............................................033)大模型持續(xù)創(chuàng)新與應用深入,驅動AI計算模式升級........................034)萬卡、十萬卡超大規(guī)模集群不斷涌現..................................................041.2國內異構算力發(fā)展趨勢..........................................................................041)算力多元異構融合發(fā)展...........................................................................042)異構算力系統(tǒng)的發(fā)展現狀與趨勢..........................................................053)智算中心的異構算力發(fā)展趨勢...............................................................061.3中國人工智能發(fā)展面臨算力瓶頸..........................................................061)AI芯片單卡性能相比國際先進水平存在代差......................................072)發(fā)展集群算力是突破算力瓶頸的關鍵舉措..........................................073)智算配套生態(tài)系統(tǒng)不完善,削弱整體算力效能..................................08二、

AI計算開放架構:概念與意義................................................092.1計算架構演變史:合久必分,分久必合..............................................101)大型機時代...............................................................................................102)集群時代...................................................................................................103)智能時代...................................................................................................102.2集群組網方式:ScaleUp與ScaleOut............................................111)開放架構協(xié)議發(fā)展...................................................................................112)ScaleUp超節(jié)點與ScaleOut分布式擴展..........................................122025

中國算力發(fā)展之AI計算開放架構研究報告2.3AI計算開放架構的概念與定義.............................................................142.4國內外AI計算架構發(fā)展一覽................................................................161)國外AI計算架構發(fā)展一覽.....................................................................162)國內AI計算架構發(fā)展一覽.....................................................................172.5AI計算開放架構產品、方案.................................................................181)國內外相關機構現狀及進展...................................................................182)國內外相關開放架構產品發(fā)展情況......................................................212.6AI計算開放架構的意義與價值.............................................................251)有助于推動跨層協(xié)作,加速AI技術迭代創(chuàng)新.....................................252)有助于破解算力瓶頸,彌補性能和供給缺口......................................253)有助于降低使用成本,推進全行業(yè)算力普惠......................................264)有助于強化產業(yè)協(xié)同,構建共建共贏的生態(tài)......................................26三、

開放架構面臨的挑戰(zhàn)與應對......................................................273.1面臨的困難與挑戰(zhàn).................................................................................283.2AI計算開放架構的目標.........................................................................303.3業(yè)界應對舉措..........................................................................................32四、

智算中心AI計算開放架構部署案例.......................................334.1曙光AI超集群系統(tǒng)案例........................................................................344.2沐曦AI計算集群部署案例....................................................................36CONTENTS

·

目錄五、

展望:智能時代的中國智算產業(yè)生態(tài).....................................375.1智算產業(yè)生態(tài)未來趨勢...........................................................................381)算力規(guī)模不斷擴大,呈多元化創(chuàng)新趨勢..............................................382)

芯片國產替代加速,國產GPU百花齊放............................................383)

布局端邊云協(xié)同,算力部署進一步優(yōu)化.............................................395.2AI計算開放架構發(fā)展倡議.....................................................................391)加快標準研制,構建產業(yè)協(xié)同生態(tài)......................................................392)攻關技術難題,突破算力效率瓶頸......................................................403)優(yōu)化運營管理,提升智算服務質量......................................................402025

中國算力發(fā)展之AI計算開放架構研究報告12025

中國算力發(fā)展之AI計算開放架構研究報告HAPT追RAI計算開放架構研究背景CHAPTER1·

AI計算開放架構研究背景1.1

AI計算需求持續(xù)增長1)大模型持續(xù)發(fā)展,AI算力需求不斷攀升近年來,以

ChatGPT、Sora、DeepSeek

等為代表的預訓練大模型持續(xù)取得突破,模型規(guī)模進一步擴大,推動人工智能從感知向認知、從分析判斷式向生成式、從專用向通用轉變,進入快速發(fā)展的新階段,技術迭代疊加

AI應用規(guī)模落地,帶動AI計算爆發(fā)式增長。根據Scaling

Law(規(guī)模定律)

,模型性能與參數量、訓練數據量和計算資源之間存在冪律關系。2020年,GPT-3的發(fā)布標志著大模型時代的開啟。從GPT-1到GPT-3,模型在各項任務表現提升的同時,參數量也增長了

1500倍,據

OpenAI公布,GPT-3最大的一個模型擁有的參數量是1750億。2023年,

隨著GPT-4模型的發(fā)布,其在邏輯推理和文本理解上展示出了強大能力,GPT-4模型生產的內容已接近人類創(chuàng)作水平,而其訓練的參數量也相應增長至1.8萬億,需要在

2.5萬張A100上訓練90-100天。GPT-5模型參數規(guī)模和訓練數據量官方尚未披露,但根據各方推測,參數可能達到3-5萬億甚至更高水平,訓練token數量估計在13-30萬億之間。GPT五代模型的演進在其參數規(guī)模上呈現出明顯的指數級增長。2025年初,DeepSeek大模型的發(fā)布,標志著國內大模型技術的長足進步,達到了世界領先水平,

DeepSeek大模型的快速推廣應用,進一步激發(fā)了各行業(yè)領域對AI計算的需求。22025

中國算力發(fā)展之AI計算開放架構研究報告2)AI應用泛在化,萬卡集群建設加速推進智算需求

迅猛

增長,萬卡集

群建設加速推

進。隨著AIGC技術

發(fā)展,以DeepSeek為代表的開源大模型正逐漸滲透到諸多行業(yè),引發(fā)新一代人工智能技術發(fā)展新浪潮,帶動了一批新興業(yè)務的快速發(fā)展,如MOE基礎模型預訓練、強化學習訓練、高通量集群推理、智能體、科學智能(AI

for

Science)等,這些新興業(yè)務往往需要高性能計算能力和大規(guī)模數據處理能力,以應對復雜的算法和模型,處理海量數據,支撐各類應用和業(yè)務創(chuàng)新。同時,多模態(tài)融合技術的興起,將文本、圖像、音頻等多種數據模態(tài)進行融合處理,Sora、GPT-4o、Gemini等多模態(tài)大模型的海量數據、高清晰度的多輪去噪也將帶來算力百倍以上的增長。以文生視頻大模型Sora為例,Sora生成60秒視頻對比GPT-3生成3000字文本,對應推理計算負荷增加超600倍。根據測算,與語言大模型(GPT-3)相比,

Sora訓練階段的算力需求達170多倍;推理階段,完成一項常規(guī)任務,算力需求是大語言模型600多倍?!?025人工智能指數報告》顯示,標準人工智能訓練模型的計算需求約每5個月翻一番,大語言模型訓練數據集規(guī)模約每8個月翻一番。隨著模型參數和訓練集群規(guī)模越來越大,訓練也從單機單卡轉變成多機多卡,甚至萬卡集群的訓練,以支持千億級甚至萬億級參數規(guī)模的大模型訓練,從而大幅壓縮大模型訓練時間,以實現模型能力的快速迭代。3)大模型持續(xù)創(chuàng)新與應用深入,驅動AI計算模式升級大模型推理成為落地應用的關鍵環(huán)節(jié),通過硬件、軟件一體化集成,結合分布式并行推理等技術能有效提升推理效率,出現一體機、推理集群等新的產品服務形式。大模型技術能力提升進一步推動了大模型的研發(fā)與落地應用浪潮。大模型一體機作為“軟硬協(xié)同、開箱即用”的智能化基礎設施,正成為推動

AI普惠化、行業(yè)場景化落地的核心載體。同時,基礎大模型

(千億級以上參數)預訓練及高通量推理應用需要大規(guī)模智算集群支撐。隨著模型參數量從千億邁向萬億,模型能力更加泛化,大模型對底層智算基礎設施的要求進一步升級,萬卡集群成為這一輪大模型基建軍備競賽的標配,萬卡集群有助于壓縮大模型訓練時間,實現模型能力的快速迭代。萬卡集群是指由一萬張3CHAPTER1·

AI計算開放架構研究背景及以上的加速卡(如

GPU、NPU、TPU或其他專用AI加速芯片)組成的高性能計算系統(tǒng),用以訓練基礎大模型。4)萬卡、十萬卡超大規(guī)模集群不斷涌現國外

Google、Meta、Microsoft

等科技巨頭,正利用超萬卡集群推動其在基座大模型、智能算法研發(fā)及生態(tài)服務等方面的技術創(chuàng)新。如

Google推出超級計算機A3

VirtualMachines,

有26000塊NvidiaH100GPU,同時

于自

建TPUv5p

8960卡集群。

Meta在2022年推出了一個擁有16,000塊NvidiaA100的A|研究超級集群Al

Research

Super

Cluster,2024年初又公布兩個24576塊NvidiaH100集群,用于支持下一代生成式AI模型的訓練??萍季揞^們通過成千上萬臺服務器組成的集群算力優(yōu)勢,不斷優(yōu)化服務架構,提升用戶體驗,加速新技術的市場轉化與應用。國內互聯網、大模型、運營商等企業(yè)作為

AI技術創(chuàng)新的先鋒,通過建設超萬卡集群來加速其在云計算、大數據分析和大模型研發(fā)等領域的突破。字節(jié)跳動、阿里巴巴、百度、中國移動、中國電信、商湯科技、智譜

AI

等企業(yè)積極推進大規(guī)模智算集群的建設。其中,字節(jié)跳動搭建了一個12288卡Ampere架構訓練集群,研發(fā)

MegaScale生產系統(tǒng)用于訓練大語言模型。中科曙光為多個國家級超算中心建設萬卡集群,并接入國家超算互聯網(SCNet),

支撐大模型推理、智能體開發(fā)、AI

for

Science科學大模型研發(fā)訓練等場景。通過集群的強大計算力,國內頭部互聯網等企業(yè)不僅加速了自身業(yè)務的數字化轉型,也為國內科技產業(yè)的發(fā)展貢獻了創(chuàng)新動力。大型AI研發(fā)企業(yè)出于對大規(guī)模模型訓練和復雜算法計算的迫切需求,正積極投建超萬卡集群以滿足其大模型的計算需求。1.2

國內異構算力發(fā)展趨勢1)算力多元異構融合發(fā)展全球算力呈現出多元異構發(fā)展、智算加速擴張的總體態(tài)勢?;?023年全球算力規(guī)模的測算結果,通用算力規(guī)模占比

60.55%,廣泛應用于企業(yè)

ERP系統(tǒng)、政務數據處理、互聯網基礎服務等標準化場景;智能算力規(guī)模占比

36.81%,其規(guī)模擴張主要由AI技術突破驅動,廣泛應用于大模型訓練;超算算力規(guī)模占比

2.64%,主要服務于氣候模擬、新藥研發(fā)、國防軍工等重大科研任務。4我國算力結構的多元化與全球趨勢一致,在政策引導與技術創(chuàng)新的雙重作用下,通用算力、智能算力和超級算力協(xié)同發(fā)展的供給體系

[

《算力基礎設施高質量發(fā)展行動計劃》(工信部聯通信〔2023〕180號)]格局進一步強化。其中,智能算力規(guī)模在大模型和生成式人工智能的迅猛發(fā)展下快速提升?!?025算力發(fā)展報告》顯示,截至2025年6月底,我國在用算力中心機架總規(guī)模達1085萬標準機架,智能算力規(guī)模達788EFlops(FP16)。據IDC測算,2023至2028年我國智能算力規(guī)模的五年年復合增長率可達到46.2%[

國際數據公司IDC、浪潮信息《2025年中國人工智能計算力發(fā)展評估報告》]。2)異構算力系統(tǒng)的特征與優(yōu)勢近年來,AI大模型、智能駕駛等算力應用場景呈現倍增發(fā)展,

普遍具有高并行、低延遲的雙重計算需求,傳統(tǒng)的同構計算架構已無法滿足日益復雜的計算需求。CPU、GPU、FPGA、ASIC等不同類型的處理器在執(zhí)行模型訓練、推理等工作任務時優(yōu)勢各異,通過科學組合可以為不同計算任務匹配最合適的計算資源,從而大幅提升計算效率和性能。異構算力融合成為提升算力效能的最優(yōu)選擇。一方面,異構算力可以打破傳統(tǒng)的單一架構算力形態(tài),更好地滿足不同應用場景下的算力使用需求;另一方面,異構計算模式通過協(xié)同調度不同廠商、代際、架構的芯片資源,靈活調度計算任務,實現能力開放和統(tǒng)一管理,能夠大幅度優(yōu)化數據處理流程,提升模型訓練效率和資源利用率,有更多企業(yè)和科研機構推出具備商用價值的異構算力應用方案,逐步推動異構算力從理論走向落地,成為算力產業(yè)高質量發(fā)展的重要動力。海光DCU系列、華為昇騰系列、寒武紀思元系列、壁仞科技

BR100系列專為Transformer

AI

優(yōu)化打造

GPU、ASIC

等架構芯片,滿足云端大模型訓練和推理需求;高通驍龍系列、瑞芯微

RK3588為支持多模態(tài)感知和端側AI推理,構建

FPGA、集成52025

中國算力發(fā)展之AI計算開放架構研究報告

CPU、GPU、FPGA、ASIC等不同類型的處理器在執(zhí)行模型訓練、推理等工作任務時優(yōu)勢各異,通過科學組合可以為不同計算任務匹配最合適的計算資源,從而大幅提升計算效率和性能。異構算力融合成為提升算力效能的最優(yōu)選擇。CHAPTER1·

AI計算開放架構研究背景NPU等架構芯片,重點應用于智能手機、智能汽車、工業(yè)機器人等,滿足邊緣與終端計算需求;中科曙光星云系列

Nebula800超智融合算力平臺、長三角國家技術創(chuàng)新中心“珠璣”平臺通過CPU、GPU異構融合,支持多精度計算、算力統(tǒng)一調度等,用于科學計算、人工智能、AI

for

Science等場景,滿足平臺與生態(tài)建設領域需求。3)智算中心的異構算力發(fā)展趨勢伴隨生成式人工智能應用在行業(yè)走深向實,“大模型+大算力+大數據”正成為新一代人工智能發(fā)展的基本范式。雖然算力變得愈加重要,但是其發(fā)展卻面臨供需矛盾問題。

一方面,對算力的需求增長迅猛。無論是企業(yè)數字化轉型,還是智能終端消費和移動數據流量消費規(guī)模的不斷擴大,都在持續(xù)釋放算力需求;另一方面,傳統(tǒng)的單一計算架構面臨性能和功耗瓶頸,無法滿足日益高漲的算力需求。為應對構筑大算力智算中心的需求,CPU、GPU、NPU以及各種專用加速器(ASIC)的異構計算,將成為常態(tài)。異構計算(Heterogeneous

Computing),主要指不同類型的指令集和體系架構的計算單元組成的系統(tǒng)的計算方式,在云數據中心、邊緣計算場景等有著廣泛應用。異構智算技術未來的發(fā)展趨勢,將會呈現開放、融合、聚合的特點。其中,開放要求智算中心從硬件到軟件、從芯片到架構、從建設模式到應用服務都應該是開放的、標準的;融合是指搭載多種類型的芯片,提供多元的能力;聚合則要求智算中心的建設需求在超大規(guī)模前提下采用領先的技術,保證自身的先進性。而軟件棧能否無縫地協(xié)同、調度不同類型的算力資源,為開發(fā)者提供統(tǒng)一、高效的程序設計界面,將成為各智算中心發(fā)展的關鍵。1.3

中國人工智能發(fā)展面臨算力瓶頸近年來,人工智能(AI)應用普及泛在,大模型持續(xù)創(chuàng)新演進,驅動AI算力需求持續(xù)增長,并推動計算系統(tǒng)架構升級。大規(guī)模智能計算集群成為支撐大模型創(chuàng)新的關鍵算力底座。同時,在美國持續(xù)加強對華科技戰(zhàn)的大背景下,全球信息技術產業(yè)生態(tài)體系加速調整。中國智算產業(yè)面臨兩大挑戰(zhàn):單卡算力性能瓶頸、算力成本高。6在芯片、模型、基礎軟件等核心技術自主創(chuàng)新突破的基礎上,發(fā)展更大規(guī)模、更高效的智算集群,突破國內

AI算力瓶頸,已經成為產業(yè)共識。曙光、海光、華為、浪潮、新華三、沐曦、壁仞、曦智等眾多科技企業(yè)都在加快研制智算超節(jié)點、超集群等產品,

以網強算、以存提算、以電補算、軟硬協(xié)同等創(chuàng)新策略方法不斷出現。1)AI芯片單卡性能相比國際先進水平存在代差單卡算力方面,我國主流AI芯片在FP32(單精度浮點)

、FP16(半精度浮點)等關鍵算力指標上與英偉達旗艦產品存在2-3代技術差,難以滿足大模型訓練對高并行計算效率的需求。在大模型訓練場景中,由于國產AI芯片單卡算力不足,往往需要使用更多數量的芯片組成集群來完成任務,既增加硬件成本,也帶來集群管理復雜度提升、芯片間數據交互延遲等問題。訓練同樣參數規(guī)模的大模型,使用國產芯片的訓練費用和時間成本比使用國際先進芯片多30%-50%,影響研發(fā)效率與創(chuàng)新速度。數據傳輸速度受限,使得芯片在處理大規(guī)模數據時無法迅速獲取數據進行運算,從而制約了單卡算力密度的發(fā)揮。2)發(fā)展集群算力是突破算力瓶頸的關鍵舉措傳統(tǒng)的單卡計算已經無法滿足人工智能大模型訓練的需求,因此多卡集群的方式72025

中國算力發(fā)展之AI計算開放架構研究報告CHAPTER1·

AI計算開放架構研究背景成為必然選擇,不僅需要總算力規(guī)模,更要求在單一

IDC中部署大規(guī)模算力系統(tǒng)的能力。埃隆·馬斯克(Elon

Musk)為訓練AI基座大模型Grok

3,在單一集群里部署了20萬個英偉達H100

GPU。英偉達自2014年起公布了GPU協(xié)同工作的NVLink協(xié)議,第五代NVLink將卡間互聯帶寬提升至1.2TB/s。采用NVLink互聯的千卡集群,參數同步效率提升2倍以上,支撐千卡集群整體算力利用率提升至90%。而國產芯片的互聯帶寬僅200-400GB/s,與國際領先水平仍有一定差距??ㄩg互聯帶寬低,導致在構建大規(guī)模集群以訓練超大規(guī)模模型時,性能將大打折扣。當前,我國邊緣算力、通用算力供給相對充足,智算算力超過

30%,但高端算力(千卡級及以上集群)總量缺口持續(xù)擴大,發(fā)達地區(qū)的高峰時段或特定應用場景下算力短缺問題仍然突出。3)智算配套生態(tài)系統(tǒng)不完善,削弱整體算力效能我國智算中心平均算力使用率僅為30%左右,遠低于大型數據中心50%-60%的水平,配套生態(tài)跟不上是其中的一個重要原因。如果不進行配套生態(tài)的完善,那么即便我國在智算硬件投入上不斷加大,算力依舊難以得到高效運用。軟硬件適配方面,國產算力硬件與各類算法、軟件的適配度仍有待提升,算法優(yōu)化投入不足,影響了硬件性能的充分釋放。生態(tài)協(xié)同方面,國內宣布擁有千卡規(guī)模的算力集群不少于100個,但其中大部分是異構芯片,如果不同硬件系統(tǒng)相互封閉,互聯總線標準接口不統(tǒng)一,軟件?;ゲ患嫒?,不能協(xié)調和打通,將導致難以實現有效整合利用,無法滿足大型企業(yè)和科研機構對大規(guī)模模型訓練的需求。供需匹配方面,我國智算中心在建設初期往往過于注重硬件規(guī)模,忽視了應用生態(tài)的培育,導致算力供給與用戶實際需求脫節(jié)。許多智算中心建成后,缺乏與之適配的行業(yè)應用,大量算力處于空閑狀態(tài)。部分地方政府主導建設的智算中心,由于沒有結合當地產業(yè)特色打造應用場景,實際利用率僅在20%-30%。82025

中國算力發(fā)展之AI計算開放架構研究報告2025

中國算力發(fā)展之AI計算開放架構研究報告HAPTR2AI計算開放架構概念與意義CHAPTER2·

AI計算開放架構概念與意義2.1

計算架構演變史:合久必分,分久必合1)大型機時代最早的計算機是大型主機計算機——占據一個房間的大規(guī)模硬件設備。大型主機最初是獨立的機器,能夠執(zhí)行復雜的計算任務。大型機時代的計算架構是集中式的,

即一臺或多臺主計算機為中心節(jié)點,所有數據集中存儲并處理,終端或客戶端主要負責數據的錄入和輸出,而數據的存儲與控制處理則完全由中心節(jié)點負責。其軟件的總體架構也是集中式的、封閉的。最典型的代表是IBM公司的System/360,以及由其他廠商,如Amdahl,

Hitachi

Data

Systems

(HDS)

制造的兼容的系統(tǒng)。在大型機時代,這些大型機使用專用的處理器指令集、操作系統(tǒng)和應用軟件。故此,大型機不僅僅是一個硬件上的概念,更是一個硬件和專屬軟件的有機整體。2)集群時代隨著計算機系統(tǒng)向網絡化和微型化方向的快速發(fā)展,傳統(tǒng)的集中式處理模型逐漸難以滿足人們的需求,計算架構走向集群時代。集群就是指一組(若干個)相互獨立的計算機,利用高速通信網絡組成的一個較大的計算機服務系統(tǒng),每個集群節(jié)點(即集群中的每臺計算機)都是運行各自服務的獨立服務器。通常一套系統(tǒng)集群架構,只需要幾臺或數十臺服務器主機即可。與動輒價值上百萬元的專用超級計算機相比便宜了很多。在達到同樣性能需求的條件下,采用計算機集群架構比采用同等運算能力的大型計算機具有更高的性價比。3)智能時代智能時代的計算架構正經歷從傳統(tǒng)分布式向超異構融合的范式轉變,以超節(jié)點、整機柜、超大規(guī)模集群為核心載體,通過軟硬協(xié)同、資源池化與智能調度實現算力效率的躍升。超節(jié)點,即

Superpod,是一種用于構建大規(guī)模算力集群的技術架構。此概念最早由英偉達提出,指將數千張GPU集成在一個邏輯單元內,形成類似“超級計算節(jié)點”

10的系統(tǒng)。與傳統(tǒng)架構不同的是,超節(jié)點可以通過高速互聯技術,彌補原先服務器間帶寬不足以及高時延等問題,以期實現算力效率的優(yōu)化。整機柜服務器的歷史可以追溯到上個世紀,譬如Google在1999年“土法上馬”的“軟木板服務器”(corkboard

server)

,可以說是互聯網行業(yè)最早的整機柜服務器。整機柜服務器中既有服務器、又有機柜,它將機柜和服務器作為一個整體來考慮,采用封閉式設計,將服務器、供電、散熱等組件集成于標準機柜內。因為在規(guī)模等因素驅動下相對更具備打破次元壁的條件,所以它在互聯網和云計算的公司里,以及現在的智算時代得到較為廣泛的應用。而如前所述,為了推進基礎預訓練大模型

(千億級以上參數),相關的企業(yè)則需要大規(guī)模乃至超大規(guī)模智算集群支撐。而超大規(guī)模集群一般以GW級智算中心為目標,通過級聯多個超節(jié)點形成萬卡乃至數十萬卡的集群。2.2

集群組網方式:Scale

Up與

Scale

Out1)開放架構協(xié)議發(fā)展開放計算的實踐始于Facebook在2009年應對基礎設施挑戰(zhàn)的舉措。其設計的高能效數據中心,比之前設施能源效率高38%,運營成本低24%。2011年,Facebook公開設計并聯合Intel、Rackspace等啟動了開放計算項目(OCP),旨在硬件領域創(chuàng)造類似開源軟件的協(xié)作創(chuàng)新。112025

中國算力發(fā)展之AI計算開放架構研究報告CHAPTER2·

AI計算開放架構概念與意義OCP

社區(qū)在服務器項目組下設立了

OAI(

Open

Accelerator

Infrastructure)項目組。該工作組旨在建立一整套可兼容各類

AI

加速器的技術標準,解決

AI

計算基礎設施建設中硬件和生態(tài)割裂的重大挑戰(zhàn)。OAI

工作組推進的開放技術規(guī)范涉及OAI、OAM、UBB、HIB

9

大領域,涵蓋結構設計、溫度、管理、供電、硬件安全性、可用性等諸多方面,以促進不同

AI

加速器技術的開放融合及標準化,讓

AI

計算硬件系統(tǒng)設計更加敏捷,產業(yè)配套更為簡化。

OAM

OAI

項目組中進展最為迅速的領域。

OAM

設計規(guī)范定義了加速器模塊互聯形式和通用規(guī)范。為了進一步促進OAI生態(tài)的建立,OAI小組在OAM的基礎上統(tǒng)一了AI加速卡基板OAI-UBB(UniversalBaseboard)

設計規(guī)范。2019年底,

OCP正式發(fā)布了OAI-

UBB1.0設計規(guī)范,并隨后推出了基于

OAI-UBB1.0規(guī)范的開放加速硬件平臺,無需硬件修改即可支持不同廠商的OAM產品。在2016年,為了滿足對開放架構的需求,IBM和Xilinx等公司成立了OpenCAPI聯盟(OCC),旨在為處理器、內存擴展和加速器提供行業(yè)支持的緩存一致性互連。其基于IBM現有的CoherentAccelerator

Processor

Interface(CAPI)

技術,

并將其向外開放。2019年英特爾聯合阿里巴巴、戴爾EMC、Facebook、谷歌、HPE、華為和微軟共同成立Compute

Express

Link(CXL)聯盟,

隨后AMD和Arm也先后加入。全新的互聯協(xié)議Compute

EXpress

Link(CXL)是一種開放性的互聯協(xié)議,

能夠讓CPU與GPU、FPGA或其他加速器之間實現高速高效的互聯,滿足現今高性能異構計算的要求,并且提供更高的帶寬及更好的內存一致性,目前最新的是CXL

3.0規(guī)范。2)Scale

Up超節(jié)點與Scale

Out

分布式擴展 萬億參數大模型的訓練,需要萬卡、十萬卡的訓練集群支持。為了讓集群能夠管理更多的

GPU卡,業(yè)界借鑒了原來云平臺管理服務器的辦法,通過Scale-up(縱向擴展)和Scale-out(橫向擴展)實現系統(tǒng)擴展。122025

中國算力發(fā)展之AI計算開放架構研究報告Scale-up通過增加單臺服務器(節(jié)點)的

GPU數量或性能(如使用更高算力的GPU)來提升計算能力,

Scale-out通過增加服務器節(jié)點數量(分布式架構)來提升計算能力。簡單來說Scale-up就是提高個體能力,

Scale-out就是增加成員數量,當然很多時候,在一個集群中這兩個技術是結合起來使用的。其中,超節(jié)點是Scale-up方案的杰出代表,

它通過高帶寬、低時延互聯技術將多張GPU(或AI算力芯片)緊密耦合的集群化架構,旨在突破傳統(tǒng)分布式算力集群的通信瓶頸,提升整體計算效率。Scale

Up和Scale

Out最主要的區(qū)別,在于AI芯片之間的連接速率。ScaleUp是節(jié)點內部連接。它的連接速率更高,時延更低,性能更強勁。在2014年,英偉達專門推出了NVLINK總線協(xié)議。NVLINK允許GPU之間以點對點方式進行通信,速度遠高于PCIe,時延也低得多。由于NVLINK是私有協(xié)議,因此更多推出

AI芯片的企業(yè),也在研究如何搭建自己的AI算力集群。AMD公司推出了UA

LINK。國內的騰訊、阿里、中國移動等企業(yè),

也牽頭推出了ETH-X、ALS、OISA等項目。2025年9月,海光信息也正式推出其自主研發(fā)的開放系統(tǒng)互聯總線HSL(High-performance

Scalable

Link)。HSL是海光信息自主研發(fā)的高性能互聯協(xié)議,具有高帶寬、低延遲、全局地址空間一致性、全棧開放和靈活擴展等顯著特點。相比傳統(tǒng)

PCIe

接口,HSL總線大幅降低了延遲,提升了帶寬,實現了芯片間(C2C)的高速直連,極大簡化了編程復雜度,并支持從單機多卡到大規(guī)模智算集群的彈性擴展。海光信息宣布在2025年第四季度發(fā)布HSL

1.0規(guī)范,并在2026年第一季度推出設計參考方案,以降低生態(tài)伙伴的適配門檻,加速產業(yè)落地。海光信息已聯合寒武紀、昆侖芯、沐熙、摩爾線程等

10余家國產AI芯片及硬件廠商,以及浪潮、無錫眾芯微等硬件基礎設施廠商,共同啟動生態(tài)共建計劃。各方將基于

HSL總線構建統(tǒng)一的互聯標準,實現AI芯片與海光CPU的高效協(xié)同,解決國產智算服務器“適配難”的問題,推動“即插即用”的便捷性。Scale

Out主要采用的通信網絡技術,是Infiniband(IB)和RoCEv2。這兩個技術都是基于RDMA(遠程直接內存訪問)協(xié)議,擁有比傳統(tǒng)以太網更高的速率、更低的時延,負載均衡能力也更強。13CHAPTER2·

AI計算開放架構概念與意義2.3AI計算開放架構的概念與定義AI計算開放架構,旨在面向大規(guī)模智能計算場景,聯合芯片、計算系統(tǒng)、大模型等產業(yè)鏈上下游企業(yè),從單點突破走向集成創(chuàng)新,實現產業(yè)鏈開放跨層優(yōu)化,破解“技術墻”和“生態(tài)墻”,主要為了解決算力瓶頸、算力成本高的問題?;陂_放架構和產業(yè)跨層協(xié)作優(yōu)化,

一方面以GPU為核心進行一體化緊耦合設計,實現更大規(guī)模、更高效的超級集群系統(tǒng),突破算力瓶頸;另一方面,基于開放架構,實現統(tǒng)一的接口規(guī)范,使用標準化、商品化的軟硬件技術,代替定制化、專有化的系統(tǒng),

降低算力成本,實現算力普惠,促進生態(tài)繁榮。14?

存算協(xié)同:通過算、存、傳一體化協(xié)同設計,實現多級數據加速,突破存儲IO瓶頸,提高GPU算效。?

綠色高效:通過先進液冷等技術,適配高功率高性能加速部件極致

散熱需求,支撐算力中心高密度部署,提升系統(tǒng)能效。?穩(wěn)定可靠:通過單機、集群和軟件高可靠性設計,并利用大模型、智

能體等AI技術,提升大規(guī)模集群運維、監(jiān)控與調度效率,保障平穩(wěn)運行。?生態(tài)繁榮:兼容主流異構計算生態(tài),提高國產AI算力的適用性與易

用性,降低模型軟件開發(fā)適配成本,保護用戶軟硬件投資。?多元算力:適配多品牌GPU加速卡,滿足大模型訓練推理、AI

forScience、科學計算等多元場景下多精度、混合精度運算需求。?高速互連:通過Scale-up和Scale-out多層次高速互連網絡,

提高CPU-GPU、GPU卡間、節(jié)點間數據傳輸帶寬,提升全局系統(tǒng)訪存通

信效率?;贏I計算開放架構構建的集群系統(tǒng)應具備以下六大特征:2025

中國算力發(fā)展之AI計算開放架構研究報告15隨著AI技術對智能終端的需求日益增加,國際企業(yè)積極布局,加速推動AI能力在移動端與邊緣端的落地。以Arm為代表的科技公司推出的AI移動芯片,搭載于蘋果、安卓等不同機型,

為手機用戶帶來實時語音翻譯、智能影像優(yōu)化等便捷的AI功能。通過研發(fā)低功耗硬件,并結合輕量化模型適配技術,國際企業(yè)實現了邊緣端AI計算能力算力提升和成本降低的雙重突破,有力地推動了智能設備在各行業(yè)、各領域的廣泛普及,加速了AI技術從云端走向終端的進程。16隨著大模型參數規(guī)模的不斷膨脹,訓練所需的算力呈指數級增長,傳統(tǒng)單機架構已無法滿足需求。國際企業(yè)紛紛推出分布式AI計算架構來應對這一挑戰(zhàn)。英偉達的DGX

SuperPOD系統(tǒng)運用NVLink互聯技術,

將數千塊GPU緊密連接在一起,

構建超級計算集群;谷歌通過專用網絡架構,實現TPU芯片的靈活組網,用戶可根據實際任務需求,動態(tài)調整算力規(guī)模。分布式架構通過將復雜的計算任務拆分成多個子任務,利用數據并行和模型并行等技術,在不同的計算節(jié)點上同步處理,使得大規(guī)模AI訓練和推理任務能夠高效穩(wěn)定地運行。國際企業(yè)圍繞不同AI應用場景對硬件性能的差異化需求,將場景化定制作為提升AI計算效率的核心策略。英偉達的GPU針對大模型訓練和推理過程中大規(guī)模并行計算的特點,不斷優(yōu)化顯存架構與互聯技術;Arm的Lumex芯片針對移動端設備電池容量有限、散熱空間狹小等問題,

通過巧妙的異構架構設計與先進的能效管理技術,在有限的功耗預算下,為移動端帶來強大的AI算力。國際企業(yè)通過對硬件架構的深度優(yōu)化與創(chuàng)新,做到場景決定架構,實現算力的最大化利用與突破。CHAPTER2·

AI計算開放架構概念與意義2.4

國內外AI計算架構發(fā)展一覽●

分布式架構優(yōu)化云端算力調度●

移動端與邊緣端AI能力快速普及●

專用硬件創(chuàng)新引領算力突破1)國外AI計算架構發(fā)展一覽國內AI計算架構發(fā)展緊密圍繞大模型研發(fā)與應用需求,實現技術適配場景。百度昆侖芯片針對文心大模型的Transformer架構優(yōu)化計算流程,提升訓練效率;

阿里巴巴Hanguang

800芯片支撐Qwen系列大模型在金融風控、醫(yī)療影像診斷等場景的推理任務,推動了AI技術的商業(yè)化。17國內企業(yè)注重平臺化、聯盟化模式推動架構開放,形成產業(yè)鏈合力。

OpenI啟智社區(qū)

[

/OpenI]作為國家級AI開源平臺,

匯聚2000+開源模型、1000+數據集,提供超10PFlops共享算力,支持高校、企業(yè)開發(fā)者開展聯合研發(fā);在2025重慶世界智能產業(yè)博覽會上,中科曙光協(xié)同

AI芯片、AI整機、大模型等20多家產業(yè)鏈上下游企業(yè),正式發(fā)布了國內首個AI計算開放架構,并推出曙光AI超集群系統(tǒng),同時依托國家先進計算產業(yè)創(chuàng)新中心啟動“AI計算開放架構聯合實驗室”建設。這一系列舉措標志著中國智能計算產業(yè)從單點技術突破邁向集群化協(xié)同創(chuàng)新的新階段。面對國際技術封鎖與高端芯片供應限制,國內企業(yè)將“自主可控”作為核心戰(zhàn)略,從芯片架構設計、指令集開發(fā)到軟件棧構建實現全鏈條突破。不僅為國內

AI技術提供了強有力的支持,也推動了AI計算能力向全行業(yè)賦能的升級?!?/p>

大模型驅動應用場景落地●

產業(yè)協(xié)同構建開放生態(tài)●

自主創(chuàng)新突破技術壁壘2025

中國算力發(fā)展之AI計算開放架構研究報告2)國內AI計算架構發(fā)展一覽CHAPTER2·

AI計算開放架構概念與意義2.5AI計算開放架構產品、方案1)國內外相關機構現狀及進展●

開放計算項目基金會(OpenCompute

Project,OCP)OCP是2011年由Facebook(現為Meta)

聯合英特爾、Rackspace、高盛和Arista

Networks建立的全球最大的開放計算社區(qū),擁有超450家來自北美、歐洲、中國和世界其他地區(qū)的多元化成員企業(yè),涵蓋多個關鍵領域,其使命是為實現可擴展的計算,提供高效的服務器,存儲和數據中心硬件設計,

以減少數據中心的環(huán)境影響。成員通過公開分享、開放協(xié)作,

向全球貢獻技術規(guī)范、設計方案、白皮書及最佳實踐文檔,加速包括數據中心在內的

IT基礎設施創(chuàng)新方案的應用實踐。截至目前,

OCP已建立了冷卻環(huán)境、服務器、網絡、存儲、硬件管理、機架和電源、AI、邊緣計算等40多個項目和子項目,以及150多個工作流,將創(chuàng)新延伸到IT

基礎設施的方方面面,助力AI算力可持續(xù)發(fā)展。根據

IDC

2025年最新數據,到

2029年,OCP會員通過銷售OCP認證產品所產生的營收,預計將會超過1900億美元,其中亞太地區(qū)將貢獻OCP認證產品營收的36%,中國的貢獻占比更高達28%。OCP將芯粒(Chiplet)技術作為重點發(fā)展領域,在芯片架構層面突破傳統(tǒng)

GPU卡間互聯能力的限制,推動高性能AI和HPC集群的芯片多樣性,其最新發(fā)布的通用裸片之間通信和鏈路層的規(guī)范,已全面兼容

UCIe標準。OCP全新光路交換(OCS)182025

中國算力發(fā)展之AI計算開放架構研究報告子項目,推動開放式光交換技術協(xié)作,滿足人工智能等數據密集型應用對高帶寬、低延遲和能效日益增長的連接需求。與傳統(tǒng)電交換不同,

OCS利用光子技術實現光路數據傳輸,顯著降低大規(guī)模AI工作負載的功耗并提升可靠性。OCS技術為規(guī)模不斷擴大的AI集群提供了可擴展的解決方案,既能處理海量數據吞吐,確保與各類網絡協(xié)議無縫集成,又能適配相同的軟件定義網絡API及管理框架,在優(yōu)化資源配置、提升性能的同時,降低成本。在網絡技術創(chuàng)新方面,成員企業(yè)博通推出專為

AI擴展工作負載優(yōu)化而設計的Scale

Up以太網框架;谷歌即將推出第五代冷卻液分配單元(CDU)?!?/p>

可持續(xù)和可擴展基礎設施聯盟(SustainableandScalableInfrastructureAlliance,SSIA)可持續(xù)與可擴展基礎設施聯盟(SSIA)致力于創(chuàng)建、培育和推動開放標準采用,

從而提高數據中心和數字基礎設施供應鏈的效率,其成員包括數據中心運營商、私有云和公有云最終用戶、供應鏈制造商和技術組件提供商,

以及數千名活躍于云、技術、數據中心和邊緣生態(tài)系統(tǒng)的個人會員。SSIA的前身是Open19,是于

2016年由LinkedIn發(fā)起的為新一代開放數據中心建立全新標準的組織,旨在為不同規(guī)模、不同種類的數據中心提供創(chuàng)新方案,解決能耗、密度、靈活性等現實問題。其創(chuàng)新性地引入了“基于模塊”的即插即用機架架構的開放標準,以期獲得超大規(guī)模的計算效率。憑借獨特的電源架設計和機柜模塊(Brick

Cage),機柜模塊支持標準化服務器模塊,并使用盲插式連接器模型連接數據和電源。該開源設計實現了顛覆性的效率提升、組件復用和成本降低,同時保持了對服務器模塊內部技術的獨立性。2021年1月,Open19加入Linux基金會,

成為Linux基金會數據中心硬件創(chuàng)新的主要項目。2023年12月,SSIA發(fā)布了新版本的Open19

v2機架標準,

該標準包括用于機架式服務器的可插拔液體冷卻標準,

以及48V本機電源解決方案,提升不兼容的冷卻系統(tǒng)的互操作能力,可實現不同液冷技術供應商的設備連接和替換。

Equinix公司將根據Open19

v2規(guī)范在其100多個數據中心推出直接芯片液體冷卻?!?/p>

開放數據中心委員會(Open

Data

Center

Committee,ODCC)ODCC是在中國通信標準化協(xié)會指導下,以開放、合作、創(chuàng)新、共贏為宗旨,圍繞服務器、數據中心設施、網絡、新技術與測試、邊緣計算、智能監(jiān)控與管理等內容,

打造活躍、高效、有國際競爭力的生態(tài)圈和開放平臺,推動形成行業(yè)統(tǒng)一、有國際影響力的規(guī)范和標準,促進產業(yè)合作、技術創(chuàng)新和推廣應用。19CHAPTER2·

AI計算開放架構概念與意義ODCC源自2011年由阿里巴巴、百度、騰訊發(fā)起,英特爾擔任技術顧問的整機柜服務器標準化項目“Scorpio”,

旨在通過統(tǒng)一設計規(guī)范降低數據中心部署成本并提升擴展效率。2014年,隨著中國電信、中國移動及多家服務器廠商的先后加入,形成了開放數據中心委員會,將Scorpio的研究內容從服務器擴展到涵蓋模塊化數據中心設計、開放網絡等更廣的領域。目前,ODCC的決策組成員為騰訊、阿里巴巴、百度、中國電信、中國移動、中國信通院、京東和美團。會員單位超過200家,覆蓋數據中心行業(yè)的上下游企業(yè)。

ODCC已累計發(fā)布300余項成果,對數據中心產業(yè)發(fā)展起到了積極的引領和推動作用?!?/p>

開放計算標準工作委員會(Open

ComputeTechnology

Committee,OCTC)OCTC是中國電子工業(yè)標準化技術協(xié)會的下屬分支機構,成立于2022年,主要成員來自ICT最終用戶以及上下游生態(tài)伙伴,其工作范圍涵蓋新型數據中心全產業(yè)鏈條技術熱點,包含動環(huán)基礎設施和

IT基礎設備,旨在聯合最終用戶、系統(tǒng)廠商、核心組件供應商、科研院校,建立適用于新型數據中心的先進技術標準,完善產業(yè)鏈生態(tài),推進產業(yè)健康、快速發(fā)展,滿足國家對于數據中心綠色、集約、高效發(fā)展的要求。2024年9月,OCTC正式發(fā)布了服務器帶內管理軟件首個開源項目,旨在為服務器帶內管理提供一套功能全面、高性能、易擴展的標準化管理軟件,支撐海量設備的精細化、智能化運維,以數據中心管理開放全面提升運維質量與效率?;?/p>

IPMI驅動打通帶內帶外管理,軟件實現關鍵性能指標實時收集,利用監(jiān)控告警機制,可實現秒級監(jiān)控與故障智能預警,且支持插件化擴展,其平均

CPU消耗不超過3%,內存占用低于200MiB,采用優(yōu)化的時序數據庫持久化處理性能數據,具備自動熔斷能力。在兼容性上,軟件采用

Go語言交叉編譯,支持主流服務器架構與操作系統(tǒng),通過標準化北向接口與第三方系統(tǒng)無縫集成,可作為BMC

Agent擴展BMC帶內功能。●

AI計算開放架構聯合實驗室國家先進計算產業(yè)創(chuàng)新中心于2018年組建成立,旨在圍繞國產芯片建立、健全國產計算技術供應鏈和產業(yè)鏈,從底層CPU、GPU到上層應用,建立起完善的自主創(chuàng)新體系,補齊供應鏈短板,提升產業(yè)國際競爭力。2020年,在國家先進計算產業(yè)創(chuàng)新中心支持下,發(fā)起成立了海光產業(yè)生態(tài)合作組織,簡稱“光合組織”,構建起覆蓋芯片、整機、基礎軟件、應用軟件、計算服務的全棧技術生態(tài)體系。截至目前,光合組織已經匯聚6000余家合作伙伴,在全國建成28個實體生態(tài)適配中心,基于海光C86+DCU202025

中國算力發(fā)展之AI計算開放架構研究報告計算平臺,推動

1.5萬余項軟硬件適配測試優(yōu)化項目,基本形成從技術研發(fā)到市場拓展的生態(tài)閉環(huán)。2025年9月,國家先進計算產業(yè)創(chuàng)新中心一方面協(xié)同芯片、整機、應用等企業(yè)推進技術能力開放,包括海光信息的開放系統(tǒng)互聯總線

HSL、曙光數創(chuàng)的液冷超節(jié)點設計規(guī)范、曙光

DeepAI基礎軟件棧與OneScience科學大模型開發(fā)平臺、中科天機的氣象模式高質量數據等,同時組織聯合20多家上下游企業(yè)共同啟動建設“AI計算開放架構聯合實驗室”,進一步推進產業(yè)鏈跨層技術協(xié)作優(yōu)化,解決芯片與基礎軟件協(xié)同、模型

-

硬件適配優(yōu)化等難題,破解“硬件墻”“生態(tài)墻”壁壘;推進關鍵場景驗證,針對大模型訓練、行業(yè)應用等場景,

開展跨廠商技術對齊與性能驗證;促進標準制定與共享,推動開放架構的標準化,降低行業(yè)重復研發(fā)成本。2)國內外相關開放架構產品發(fā)展情況人工智能技術在過去幾年中迅速發(fā)展,在大數據、云計算、深度學習等領域的應用促使了AI計算架構的不斷創(chuàng)新與優(yōu)化。AI計算架構的開放性,不僅增強了技術的共享與合作,還促進了產業(yè)的跨界融合。國內外的科技公司和研究機構在推動AI計算架構開放的過程中,涌現出一系列重要技術和平臺。●

國外

AI計算開放架構產品發(fā)展情況國際科技巨頭憑借深厚的技術積累與龐大的研發(fā)投入,在AI計算架構領域占據主導地位,構建起以專用硬件和開源生態(tài)協(xié)同為核心的發(fā)展模式,覆蓋云、邊、端等多元場景,引領了全球AI計算技術的發(fā)展潮流。NVIDIA

GB200

NVL72機架以及計算和交換機托盤液冷設計,是英偉達向OCP貢獻的機架級AI算力解決方案,覆蓋機架、托盤、液冷、熱設計、NVLink互聯等多個維度,旨在通過開放標準推動高性能AI基礎設施的規(guī)模化部署。Nvidia

GB200

NVL72是基于Blackwell架構的多節(jié)點液冷機架級擴展系統(tǒng),

其核心由72個BlackwellGPU與36個GraceCPU通過NVLink-C2C技術集成,提供高達

1.4exaFLOPS的AI算力,專為萬億參數級生成式AI

和高性能計算設計?;?/p>

NVIDIAMGX

模塊化架構,GB200

NVL72能夠高效支撐數據中心基礎設施設計。同時,NVIDIASpectrum-X以太網網絡平臺也增加了對OCP社區(qū)規(guī)范的支持,在基于

OCP認證設備的AI工廠,企業(yè)可以充分發(fā)揮出性能潛力。21Meta開放式AI硬件設計,從Catalina高功率液冷機架到Grand

Teton的跨廠商支持,再到分解式調度結構等,為AI硬件的標準化與高密度化奠定了基礎。Catalina機架基于NVIDIA

Blackwell平臺設計,是專為

AI工作負載打造的高性能解決方案,具備模塊化和靈活性的特點,支持NVIDIA

GB200

GraceBlackwell超級芯片,能夠滿足AI任務不斷增長的計算需求,并解決AI集群中GPU功耗不斷增加的難題。GrandTeton平臺是Meta

AI基礎設施的另一重要組成部分,為大規(guī)模推薦模型等內存帶寬受限任務設計,支持AMD

Instinct

MI300X加速器,為復雜深度學習模型提供充裕內存支持,顯著提升計算能力與內存帶寬。除此之外,Meta

研發(fā)的分解式調度結構(DSF)基于OCP-SAI標準和Meta

自研的FBOSS系統(tǒng),

支持基于以太網的RoCE接口,

能夠連接NVIDIA、Broadcom、AMD等多家供應商的加速器與網絡端點,是一種開放式網絡設計,系統(tǒng)靈活性得到了極大提升,為AI基礎設施的開放化發(fā)展提供支持。Arm

Lumex

CSS

計算平

臺,聚焦低功

AI

域,

跨CPU、GPU和系統(tǒng)IP的整體架構,每個子系統(tǒng)都針對現實世界的AI工作負載進行了優(yōu)化,能夠高效適配智能手機、智能手表、智能家居設備等本地AI推理需求。新一代Armv9.3

C1

CPU集群內建第二代Arm可伸縮矩陣擴展(SME2)單元,為Arm生態(tài)系統(tǒng)提供可移植的解決方案。結合Arm

KleidiAI等軟件開發(fā)工具,Lumex

CSS計算平臺帶來性能上的強大表現以及設計上的靈活性、應用開發(fā)上的便捷性。目前,Arm

Lumex

CSS計算平臺上運行著超過900萬款應用,通過平臺構建應用和工作負載的軟件開發(fā)者超過2200萬名。Lumex

CSS設計理念和商業(yè)模式與典型22CHAPTER2·

AI計算開放架構概念與意義2025

中國算力發(fā)展之AI計算開放架構研究報告的開放計算架構有所不同,本質上是Arm

的一種“半開放”或“有限開放”的高級IP授權模式,旨在通過預先集成和驗證來加速芯片設計,但其核心

IP和底層架構并未完全開源,是一個Arm生態(tài)內部的“優(yōu)化集成套件”?!?/p>

國內

AI計算開放架構產品發(fā)展情況近年來,我國在AI計算架構領域取得了顯著進展,曙光、華為、字節(jié)跳動、百度等主要科技公司紛紛投入巨資進行自主研發(fā),推動了AI芯片、計算平臺以及大模型的發(fā)展。華

出Ascend

列AI

CANN

(Compute

Architecture

for

Neural

Networks),

形成“硬件+軟件”協(xié)同體系。華為昇騰芯片采用自研的達芬奇架構,旨在優(yōu)化AI計算的效率和靈活性,適應多種AI場景和算法需求。CANN作為針對AI場景推出的異構計算架構,對上支持多種AI框架,通過統(tǒng)

一編程接口,實現對不同芯片架構的適配,對下服務AI處理器與編程,降低開發(fā)者門檻。CANN發(fā)揮承上啟下的關鍵作用,是提升昇騰AI處理器計算效率的關鍵平臺。通過昇騰硬件使能CANN全面開源開放,華為正在構建一個與NVIDIA

CUDA生態(tài)競爭的開放計算體系,

目前已支撐華為云ModelArts平臺及近千款行業(yè)AI應用落地。字節(jié)跳動定義了“大禹”服務器架構,通過核心標準統(tǒng)一與場景靈活擴展的設計理念,支持多樣性算力,在開放與性能之間找到了關鍵平衡點?!按笥怼蓖ㄟ^優(yōu)化服務器架構設計,積極推動開放部件應用,構建產業(yè)鏈協(xié)同生態(tài)。

一是通過自研DPU(DataProcessing

Unit)

,支持上下兩個計算節(jié)點共享一個DPU降低網絡成本;二是持續(xù)推進開放固件OpenBMC的發(fā)展,提高系統(tǒng)互操作性;三是存儲部件,高密場景采用E1.S,大容量存儲推進

E3.S應用,并為未來技術如單盤1000TB容量、80W功耗的E2形態(tài)預留空間設計。百度發(fā)布昆侖系列

AI芯片,基于自研XPU架構構建軟硬件協(xié)同生態(tài),專為深度學習訓練與推理設計,支持FP16、FP8等混合精度計算。其第三代產品P800采用自研的XPU-P架構,顯存容量顯著超越同類芯片,專為大規(guī)模AI計算場景優(yōu)化,可支持各類大模型的推理與訓練任務。為高效釋放算力,

百度推出了基于昆侖芯P800的三萬卡集群,采用創(chuàng)新架構設計,支持高速互聯與資源靈活調度,顯著提升大規(guī)模訓練任務的穩(wěn)定性與能效比。在金融領域,招商銀行與百度智能云基于昆侖芯

P800開展算力合作,成功支撐多種開源大模型,在智能客服、多模態(tài)數據分析等場景中實現了顯著的性能提升與成本優(yōu)化。23CHAPTER2·

AI計算開放架構概念與意義新華三開發(fā)了H3C

UniPoD系列,它是基于新華三自身在網絡聯接領域的深厚積累,結合不同品牌GPU的性能與架構特點而開發(fā),它是基于以太協(xié)議和

PCIe協(xié)議的雙技術路線超節(jié)點產品,可實現單機柜最高64卡的全互聯互通,從而大幅提升單節(jié)點計算效能。H3C

UniPoD超節(jié)點產品以算力芯片多元化、互聯協(xié)議標準化、基礎設施集成化為核心設計理念,主要涵蓋H3C

UniPoD

S80000和H3C

UniPoD

F80000兩個子產品系列,基于不同協(xié)議路線,將為不同規(guī)模參數的模型訓練、推理和精調提供有針對性地算力支撐。浪潮信息推出了“元腦SD200”,作為

OCTC創(chuàng)始成員和OCP核心成員,這是浪潮信息推出的超節(jié)點AI服務器。元腦SD200基于開放總線交換技術構建,在單機內實現了64路GPU芯片的高速統(tǒng)一互連,單機即可運行超萬億參數大模型,并在多個全參模型實測中,實現64卡整機推理性能的超線性擴展。中科曙光2025年11月推出業(yè)界首個單機柜級640卡超節(jié)點scaleX640,面向萬億參數大模型訓練與高通量推理等場景,打造更大規(guī)模、更高效率的智算基礎設施,具備“超強性能、極致效率、超高可靠、全面開放”等特征。該超節(jié)點在“一拖二”系統(tǒng)設計中,單曙光scaleX640超節(jié)點24機柜實現最大640卡超高速總線互連,雙scaleX640超節(jié)點組成1280卡千卡級計算單元,機柜間通過高速網絡互連;同時位于中間的液體冷凝換熱裝置CDM可為兩側超節(jié)點計算柜提供高達

1.7MW的超強散熱能力,通過采用超高速正交架構、超高密度刀片、浸沒相變液冷、高壓直流供電等技術,不僅實現了

PUE小至1.04的極致能源效率,且相比業(yè)界其他超節(jié)點將單機柜算力密度最大提高了20倍。曙光scaleX640超節(jié)點基于AI計算開放架構設計,可適配支持多品牌AI加速卡,為用戶提供多元、靈活硬件選擇,

并兼容主流AI計算軟件生態(tài),支持異構加速計算應用、模型無縫遷移與深度優(yōu)化。2.6AI計算開放架構的意義與價值1)有助于推動跨層協(xié)作,加速AI技術迭代創(chuàng)新傳統(tǒng)AI計算架構下,產業(yè)鏈呈現割裂狀態(tài),硬件制造商需適配專有軟件,軟件開發(fā)者需針對單一硬件重構代碼,技術壁壘嚴重制約跨層級協(xié)同與突破性研發(fā)。AI計算開放架構通過整合芯片、整機、大模型、行業(yè)應用等上下游資源,依托產業(yè)聯盟、實驗室等協(xié)作機制,推動形成從硬件、軟件、算法到應用的全鏈條優(yōu)化,提升產業(yè)整體創(chuàng)新效能。同時,通過建立統(tǒng)一技術標準體系避免重復研發(fā)與同質化競爭,共享編譯框架、算子庫等核心技術資源降低算法開發(fā)技術門檻,助力快速實現AI應用部署,激活多主體創(chuàng)新活力,推動形成多層次、多主體參與的技術創(chuàng)新格局,加速人工智能技術迭代創(chuàng)新。2)有助于破解算力瓶頸,彌補性能和供給缺口當前全球AI產業(yè)發(fā)展面臨算力困境,“脫鉤斷鏈”風險加劇,國際巨頭通過封閉生態(tài)壟斷核心技術,部分國家對高端AI芯片、軟件框架實施出口限制,致使算力供給受限。AI計算開放架構以GPU為核心,構建計算、存儲、網絡、供電、散熱、管理、軟252025

中國算力發(fā)展之AI計算開放架構研究報告

AI計算開放架構通過整合芯片、整機、大模型、行業(yè)應用等上下游資源,依托產業(yè)聯盟、實驗室等協(xié)作機制,推動形成從硬件、軟件、算法到應用的全鏈條優(yōu)化,提升產業(yè)整體創(chuàng)新效能。CHAPTER2·

AI計算開放架構概念與意義件全鏈條的緊耦合技術體系,通過集群資源動態(tài)調度、分布式存儲優(yōu)化、高速網絡協(xié)同等技術手段,取代傳統(tǒng)追求單節(jié)點極致性能的發(fā)展模式,以集群創(chuàng)新彌補單卡性能差距,提升高端算力供給。此外,采用兼容主流技術標準與自主創(chuàng)新發(fā)展并重的技術路線,構建自主可控生態(tài)閉環(huán),規(guī)避技術斷供風險,保障算力供給的穩(wěn)定與可持續(xù)。3)有助于降低使用成本,推進全行業(yè)算力普惠數字經濟時代,AI算力是核心生產資料,但傳統(tǒng)AI計算架構下,算力資源集中于互聯網巨頭,中小企業(yè)與科研機構普遍陷入用不起、用不好的困境。AI計算開放架構通過開放核心模型架構與訓練框架,使中小開發(fā)者無需重復投入底層技術研發(fā),可直接基于開源基礎模型開展垂直領域微調,

降低技術準入門檻,讓全行業(yè)“用得上”;依托集群優(yōu)化能力,實現算力規(guī)模越大、單位成本越低,并結合存算傳協(xié)同設計、先進冷板液冷等技術,在提升性能的同時降低能耗與運維成本,讓全行業(yè)“用得起”;

整合分散硬件資源形成共享算力池,支持按需取用與行業(yè)靈活適配,讓全行業(yè)“用得好”。4)有助于強化產業(yè)協(xié)同,構建共建共贏的生態(tài)傳統(tǒng)AI計算架構往往存在Vendor

Lock-in(廠商鎖定)

陷阱,

導致生態(tài)資源高度集中于少數巨頭,上下游企業(yè)缺乏議價權,產業(yè)創(chuàng)新活力被抑制。

AI計算開放架構憑借硬件兼容、端邊云協(xié)同特性,讓中小企業(yè)低成本試錯、科研機構聚焦前沿、千行百業(yè)加速數字化,各主體在開放體系中自由協(xié)作。此外,通過統(tǒng)一接口標準,實現多品牌硬件兼容,有效破解國產算力生態(tài)碎片化難題,讓分散的資源形成合力,為“AI+”提供底層支撐,推動AI與制造、醫(yī)療、金融等不同領域深度融合,重塑生產與生活范式,推動跨領域協(xié)同創(chuàng)新,最終構建資源共享、優(yōu)勢互補、利益共贏的產業(yè)生態(tài)。262025

中國算力發(fā)展之AI計算開放架構研究報告27AI計算開放架構面臨的挑戰(zhàn)與應對2025

中國算力發(fā)展之AI計算開放架構研究報告伴隨著算力產業(yè)規(guī)模擴張,算力供需失衡與生態(tài)協(xié)同難題逐漸凸顯,我國AI算力領域正面臨“外部卡脖子”與“內部低協(xié)同”的雙重挑戰(zhàn)。為破解這些問題,

AI計算開放架構應運而生。它是面向大規(guī)模智能計算場景、以GPU為核心的高效緊耦合協(xié)同創(chuàng)新體系,既要搭建異構算力架構、提升算力利用率,也要打破“技術墻+生態(tài)墻”、共建自主生態(tài)。3.1

面臨的困難與挑戰(zhàn)為破解當前國內算力產業(yè)發(fā)展困局,在芯片、基礎軟件、模型等核心技術自主創(chuàng)新突破的基礎上,發(fā)展更大規(guī)模、更高效的智算集群,突破AI算力瓶頸,已經成為產業(yè)共識。曙光、海光、華為、浪潮、新華三、沐曦、壁仞、曦智等眾多科技企業(yè)都在加快研制智算超節(jié)點、超集群等產品,以網強算、以存提算、以電補算、軟硬協(xié)同等創(chuàng)新策略方法不斷出現。然而,當前我國的AI計算架構技術路線多樣且開放性不足,各企業(yè)的技術優(yōu)勢難以形成合力,導致異構算力協(xié)同效率較低,用戶使用門檻及成本較高。其原因主要有以下兩點:國產算力硬件正處于“多線并進”的爬坡期,多元異構融合需突破新瓶頸。?

技術路線層面,當前我國算力硬件產業(yè)需在架構開放性、兼容性與應用成本之間尋找動態(tài)平衡,以昇騰、海光、寒武紀、燧原等為代表的主流廠商均采用獨立架構路線,體現了對突破CUDA生態(tài)壟斷的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論