版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中國電信云計算研究院中國電信云計算研究院1面向下一代云計算的研究11.1研究圖譜2025:云計算產(chǎn)業(yè)和技術(shù)分析 1.2熱點方向一:分離式數(shù)據(jù)中心架構(gòu)與關(guān)鍵技術(shù) 1.2.1彈性可擴展的云數(shù)據(jù)中心資源優(yōu)化 1.2.2面向資源池化的分離式數(shù)據(jù)中心架構(gòu) 1.2.3支持分離式數(shù)據(jù)中心架構(gòu)的軟件棧 1.3熱點方向二:面向AI場景的PaaS數(shù)據(jù)平臺層技術(shù) 1.3.1面向智能應(yīng)用的Serverless計算平臺技術(shù) 1.3.2面向大模型時代的智能數(shù)據(jù)平臺技術(shù) 1.3.3支撐智能任務(wù)的高性能存儲平臺技術(shù) 1.4熱點方向三:智能化云運維、可信安全與能效優(yōu)化 1.4.1面向大規(guī)模集群的自動化運維與可靠性工程 1.4.2云計算環(huán)境下的基礎(chǔ)設(shè)施安全 1.4.3云數(shù)據(jù)中心智能功耗管理與優(yōu)化 1.5展望與建議 1.5.1云計算的未來研究方向和關(guān)鍵技術(shù)展望 1.5.2云計算的發(fā)展建議 2面向云網(wǎng)融合的研究252.1研究圖譜2025:戰(zhàn)略升級的解讀與研究承接 2.1.1趨勢分析 2.1.2方向聚焦 2.2熱點方向四:云網(wǎng)一體化調(diào)度 2.2.1網(wǎng)絡(luò)感知的計算調(diào)度 2.2.2計算感知的網(wǎng)絡(luò)調(diào)度 2.2.3計算-網(wǎng)絡(luò)聯(lián)合調(diào)度 2.3熱點方向五:面向智算的云網(wǎng)基礎(chǔ)設(shè)施 2.3.1算內(nèi)網(wǎng)絡(luò)構(gòu)建AI數(shù)據(jù)中心DCN 2.3.2算間網(wǎng)絡(luò)實現(xiàn)跨數(shù)據(jù)中心互聯(lián)DCI 2.3.3入算網(wǎng)絡(luò)支撐用戶算力接入DCA 2.4熱點方向六:云邊端協(xié)同 2.4.1數(shù)據(jù)協(xié)同構(gòu)建跨層級數(shù)據(jù)流通體系 2.4.2任務(wù)協(xié)同實現(xiàn)多點協(xié)作與動態(tài)調(diào)度 2.4.3模型協(xié)同支撐智能能力演進 2.5展望與建議 2.5.1云網(wǎng)融合的未來研究方向和關(guān)鍵技術(shù)展望 2.5.2云網(wǎng)融合的發(fā)展建議 3圍繞智能算法的研究493.1研究圖譜2025:云計算與云網(wǎng)融合中的智能算法 3.1.1趨勢分析 3.1.2方向聚焦 3.2熱點方向七:算法賦能云計算 3.2.1運籌優(yōu)化算法及其應(yīng)用 3.2.2深度學(xué)習(xí)及其應(yīng)用 3.2.3強化學(xué)習(xí)及其應(yīng)用 3.3熱點方向八:AIAgent與AgenticAI 3.3.2多模態(tài)與具身Agent 3.4展望與建議 3.4.1智能算法的未來研究方向和關(guān)鍵技術(shù)展望 3.4.2智能算法的發(fā)展建議 4面向新興技術(shù)的研究674.1研究圖譜2025:新興產(chǎn)業(yè)布局中的技術(shù)生態(tài)與發(fā)展脈絡(luò) 4.1.1趨勢分析 4.1.2方向聚焦 4.2熱點方向九:新興技術(shù)及應(yīng)用 4.2.1智能時代下的新興計算范式 4.2.2面向泛在互聯(lián)的第六代移動通信系統(tǒng) 4.2.3面向低空經(jīng)濟的智能計算 4.3熱點方向十:數(shù)據(jù)與AI的安全 4.3.1面向數(shù)據(jù)隱私的安全威脅與保護機制 4.3.2面向AI系統(tǒng)的攻擊方法與防御策略 4.4展望與建議 4.4.1新興技術(shù)的未來研究方向和關(guān)鍵技術(shù)展望 4.4.2新興技術(shù)的發(fā)展建議 5智能泛在云和白皮書總結(jié)835.1智能泛在云 5.1.1智能泛在云的背景與特征 5.1.2智能泛在云的技術(shù)挑戰(zhàn)與創(chuàng)新機會 5.1.3智能泛在云的定位與展望 5.2云計算研究白皮書2025的總結(jié) 第一章目前,世界各國正在加速推動云計算的創(chuàng)新與應(yīng)用以應(yīng)對日益復(fù)雜的數(shù)字化需求和全球競爭。云計算不僅為大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術(shù)的快速發(fā)展提供了底層支撐,也成為國家戰(zhàn)略的重要組成部分,影響著全球產(chǎn)業(yè)格局與經(jīng)濟結(jié)構(gòu)的變革。過去一年,以DeepSeek為代表的人工智能大模型應(yīng)用取得突破性進展,眾多AI+應(yīng)用成為云增長的新引擎,加速推動全球云計算產(chǎn)業(yè)向智能化方向發(fā)展。本章將從上述云計算產(chǎn)業(yè)的新變化入手,探討全球云計算技術(shù)的發(fā)展現(xiàn)狀以及前沿技術(shù)演進趨勢,重點分析頭部云廠商在云計算領(lǐng)域的戰(zhàn)略布局、技術(shù)創(chuàng)新投入及其市場動態(tài)。本章還將結(jié)合國內(nèi)當(dāng)前的云計算發(fā)展?fàn)顩r,分析我國在全球云計算競爭中的優(yōu)勢與挑戰(zhàn),探討下一代云計算的發(fā)展方向。云游戲AIforCloudAI增強數(shù)據(jù)庫AI運維資源調(diào)度負載均衡故障預(yù)測AI優(yōu)化索引參數(shù)優(yōu)化云游戲AIforCloudAI增強數(shù)據(jù)庫AI運維資源調(diào)度負載均衡故障預(yù)測AI優(yōu)化索引參數(shù)優(yōu)化調(diào)優(yōu)系統(tǒng)框架基礎(chǔ)架構(gòu)AI+PaaSServerlessAI云函數(shù)MaaSServerlessAI云函數(shù)MaaS(ModelasaService)輕量化函數(shù)沙箱工作流編排Agent向量檢索AI-Native數(shù)據(jù)庫訓(xùn)推一體框架模型壓縮模型評估推理APIAI算力適配冷啟動加速KVCache冷啟動加速作業(yè)編排分布式作業(yè)編排故障容錯預(yù)訓(xùn)練故障容錯精調(diào)即服務(wù)通算+智算云DC節(jié)能自動調(diào)頻能耗管理節(jié)能/散熱架構(gòu)HypervisorDC節(jié)能自動調(diào)頻能耗管理節(jié)能/散熱架構(gòu)Hypervisor輕量虛擬化資源超分故障隔離軟硬協(xié)同租戶安全SSD存儲DDR5網(wǎng)絡(luò)SDN擁塞控制網(wǎng)絡(luò)虛擬化RDMA新興架構(gòu)新型協(xié)議云操作系統(tǒng)彈性伸縮負載混部性能診斷云操作系統(tǒng)GPUCPUGPUCPUFPGA圖1.1:云計算研究圖譜(由云計算研究院總結(jié)形成)傳統(tǒng)的云計算服務(wù)模型主要由基礎(chǔ)設(shè)施即服務(wù)IaaS、平臺即服務(wù)PaaS和軟件即服務(wù)SaaS三大核心層面構(gòu)成。隨著人工智能技術(shù)的不斷革新,AI正從實驗室走向千行百業(yè),從工作場景深入生活場景。社會對算力的需求呈現(xiàn)出前所未有的普惠化、場景化與生態(tài)化特征。在此背景下,云計算服務(wù)模式正在加速向“AI+”深度轉(zhuǎn)型,推動形成以AIIaaS、AIPaaS、MaaS和AISaaS為代表的全產(chǎn)業(yè)鏈服務(wù)體系,構(gòu)筑人工智能時代的新質(zhì)生產(chǎn)力范式,圖1.1列舉了當(dāng)前階段云計算領(lǐng)域的技術(shù)研究圖譜。在基礎(chǔ)架構(gòu)層,AIIaaS成為支撐大模型時代的核心底座。基于CXL(ComputeExpressLink)的內(nèi)存池化架構(gòu)顯著提升異構(gòu)算力資源的調(diào)度靈活性與利用率[1,2];DPU與RDMA等新興架構(gòu)技術(shù)強化了數(shù)據(jù)傳輸效率與系統(tǒng)控制能力[3,4];GPU/FPGA/ASIC等專用芯片與存算分離技術(shù)、高帶寬存儲介質(zhì)深度融合,構(gòu)建面向AI訓(xùn)練與推理的高性能智算云平臺。同時,云操作系統(tǒng)通過AI驅(qū)動的資源調(diào)度、能耗管理與故障預(yù)測,實現(xiàn)數(shù)據(jù)中心的高效、低碳運行,踐行綠色可持續(xù)發(fā)展。在系統(tǒng)框架層,AIPaaS正在重塑開發(fā)者體驗。Serverless計算平臺結(jié)合冷啟動加速、函數(shù)壓縮與工作流編排,支持AI應(yīng)用的極致彈性與快速迭代;面向AI開發(fā)的一站式平臺集成訓(xùn)練框架、推理優(yōu)化、向2量檢索與模型壓縮能力,降低開發(fā)門檻;數(shù)據(jù)庫與大數(shù)據(jù)平臺向“湖倉一體”、“實時分析+AI內(nèi)嵌”演進,支撐復(fù)雜的數(shù)據(jù)科學(xué)任務(wù)。CI/CD流程也擴展至MLOps(MachineLearningOperations)范疇,實現(xiàn)模型交付的自動化與可追溯。與此同時,模型即服務(wù)MaaS(ModelasaService)正成為連接模型能力與行業(yè)應(yīng)用的關(guān)鍵樞紐[5]。通過提供預(yù)訓(xùn)練大模型托管、精調(diào)接口、推理API及模型市場,MaaS使企業(yè)無需從零訓(xùn)練即可獲取先進AI能力,極大加速AI落地進程。AIforCloud廣泛應(yīng)用于基礎(chǔ)架構(gòu)層和系統(tǒng)框架層兩個層級,通過AI算法優(yōu)化資源調(diào)度、網(wǎng)絡(luò)擁塞控制、能耗管理與安全防護,云計算系統(tǒng)自身也變得更加智能、穩(wěn)定與高效。這種“以AI優(yōu)化云,以云承載AI”的雙向賦能機制,正在推動云計算進入一個自我進化、持續(xù)增效的新階段??偟膩碚f,在AI智能時代,云計算已不再僅是資源供給平臺,而是演變?yōu)榧疉I算力供給、AI能力構(gòu)建、模型服務(wù)化與智能應(yīng)用輸出于一體的全棧AI服務(wù)平臺。這一變革更催生出全新的商業(yè)模式與產(chǎn)業(yè)生態(tài)。本節(jié)余下的內(nèi)容將結(jié)合研究知識圖譜,通過公開資料的整理討論云計算行業(yè)國內(nèi)外市場和發(fā)展趨勢。1.1.1趨勢分析過去一年里,AI技術(shù)在云計算的各個方面加速滲透,正成為重塑云計算產(chǎn)業(yè)格局的核心驅(qū)動力,從算力需求、服務(wù)模式到應(yīng)用場景,全方位推動著行業(yè)的創(chuàng)新與變革。接下來,本節(jié)將從全球市場格局、關(guān)鍵技術(shù)演進和行業(yè)開源標(biāo)準(zhǔn)三個維度,深入剖析云計算產(chǎn)業(yè)的最新變化趨勢。AI技術(shù)驅(qū)動全球云計算市場持續(xù)變革2024年,Gartner數(shù)據(jù)顯示全球云計算市場繼續(xù)保持穩(wěn)健增長,規(guī)模達6929億美元,同比增速同時預(yù)計到2030年,全球云計算市場規(guī)模將接近2萬億美元[6]。綜合《云計算研究白皮書(2024)》[7]對2021—2023年全球云計算市場的系統(tǒng)研判,以及Gartner對未來五年云計算領(lǐng)域增長率的預(yù)測,可以發(fā)現(xiàn)當(dāng)前云計算市場正經(jīng)歷關(guān)鍵轉(zhuǎn)型:從高速擴張期步入結(jié)構(gòu)優(yōu)化期,增速雖有所放緩但更趨穩(wěn)定。在此背景下,AI技術(shù)的爆發(fā)式發(fā)展正成為打破原有市場平衡、重塑三大云服務(wù)版圖的關(guān)鍵變量。43.0%28.6%IaaSPaaSSaaS28.4%(a)2024年全球IaaS,PaaS和SaaS市場份額比例IaaSPaaSSaaS40.0%20.0%0.0%21-2222-2323-24(b)近三年全球IaaS,PaaS和SaaS市場份額增速圖1.2:全球IaaS,PaaS和SaaS市場份額2024年,全球云計算市場的增長情況展現(xiàn)出“穩(wěn)中有變”的發(fā)展格局,AI浪潮的持續(xù)深化和AIInfra的火熱為IaaS市場注入了新的活力。如圖1.2所示,Gartner等機構(gòu)的數(shù)據(jù)[6,8]指出2023-2024年P(guān)aaS與跳動、天翼云等大型科技公司持續(xù)加碼AIInfra建設(shè),大幅擴充智算中心規(guī)模[9];另一方面,以DeepSeek為代表的AI獨角獸則通過開源模式降低技術(shù)門檻[10],激發(fā)了更廣泛的市場參與熱情,推動中小企業(yè)和開發(fā)者對IaaS資源的需求快速增長。這種“頭部企業(yè)重資產(chǎn)投入+開源生態(tài)普惠創(chuàng)新”的雙輪驅(qū)動模式,正在重塑全球云計算市場格局,標(biāo)志著產(chǎn)業(yè)進入AI深度融合的新增長周期。2024年,全球PaaS市場份額與IaaS市場份額基本持平,但累計份額已打破了過去SaaS長期占據(jù)主導(dǎo)地位的局面。具體而言,其市場份額分別達到約1718億美元和1707億美元,同時,IaaS和PaaS的1.1.研究圖譜2025:云計算產(chǎn)業(yè)和技術(shù)分析3市場比例分別提升至28.6%和28.4%,雖然單一份額仍低于SaaS的43%,但兩者合計已超過SaaS,顯示出其在云服務(wù)市場中的重要地位,打破了過去SaaS長期占據(jù)主導(dǎo)地位的局面。這一結(jié)構(gòu)性轉(zhuǎn)變主要得益于生成式AI和大模型等新興技術(shù)的推動,企業(yè)和開發(fā)者對底層算力和平臺級服務(wù)的需求持續(xù)增長,使IaaS和PaaS成為驅(qū)動市場擴張的核心動力。生成式AI和大模型等新技術(shù)推動了企業(yè)和開發(fā)者對于底層算力資源和平臺級開發(fā)環(huán)境的需求,促使他們選擇高效靈活的云服務(wù)解決方案。尤其是PaaS平臺,憑借一站式模型開發(fā)與部署能力,成為眾多中小企業(yè)和開發(fā)者構(gòu)建AI應(yīng)用的首選。隨著未來云技術(shù)的不斷演進,作為云平臺架構(gòu)中承上啟下的關(guān)鍵中間層,PaaS層所面臨的市場需求將持續(xù)攀升,功能也將進一步強化與拓展。與此同時,IaaS市場的基礎(chǔ)設(shè)施升級和規(guī)模擴展將繼續(xù)為整個云服務(wù)生態(tài)提供堅實支撐。全球云計算SaaS市場增速逐年放緩,這一趨勢既源于行業(yè)發(fā)展的階段性瓶頸,更與AI技術(shù)引發(fā)的行業(yè)變革密切相關(guān)。從市場基礎(chǔ)來看,飽和態(tài)勢已形成明顯增長阻力。當(dāng)前全球99%的企業(yè)已引入至少一種SaaS應(yīng)用,美國大型企業(yè)的SaaS普及率更是高達91%,辦公協(xié)同、客戶管理等核心場景的剛需客戶增量銳減,剩余潛在市場的開拓不僅需要更高營銷成本,還需適配小眾化需求,整體獲客效率持續(xù)走低。與此同時,IaaS與PaaS的高速增長進一步分流資源。IaaS依托AI訓(xùn)練等高算力需求保持強勢增長,PaaS因深度融合AI與大數(shù)據(jù)保持20%的增速,企業(yè)將更多預(yù)算投向這些支撐定制化AI服務(wù)的底層設(shè)施,進一步擠壓了傳統(tǒng)SaaS市場。而AI技術(shù)的滲透則從根本上重塑了SaaS的發(fā)展邏輯:生成式AI推動SaaS產(chǎn)品從傳統(tǒng)流程自動化工具升級為智能決策伙伴,通過實時數(shù)據(jù)洞察、業(yè)務(wù)風(fēng)險預(yù)判等能力重構(gòu)服務(wù)價值;這種變革不僅催生了“按效果分成”等新型盈利模式,讓傳統(tǒng)按賬號訂閱的收費邏輯面臨挑戰(zhàn),更因GPT等技術(shù)展現(xiàn)出的“需求即生成應(yīng)用”能力,對標(biāo)準(zhǔn)化SaaS產(chǎn)品形成替代壓力。0阿里云天翼云華為云55.6%55.6%26.2%18.3%↓差距~37%IaaSPaaSSaaS(a)云廠商云計算業(yè)務(wù)營收(億美元)(b)云計算三大市場份額占比圖1.3:2024年國內(nèi)云計算廠商營收與市場份額占比我國的云計算市場規(guī)模仍然保持著較高的增長態(tài)勢,目前市場規(guī)模已達到8288億元,同比增長34.4%,增速遠超全球平均水平。在國內(nèi)云計算市場,隨著產(chǎn)品服務(wù)競爭加劇和行業(yè)需求持續(xù)多樣化,主要云服務(wù)廠商的云業(yè)務(wù)營收整體呈增長態(tài)勢,但云廠商間的格局正出現(xiàn)新變化。如圖1.3(a)所示,天翼云在2024年的營收首次超越阿里達到163億美元,增速達19.8%;阿里云營收162億美元,增長9.4%,增速放緩;華為云營收121億美元,增速22.4%[11]。造成這一格局變化有以下兩個關(guān)鍵因素,一方面是國家對運營商云的政策支持力度持續(xù)加大,推動天翼云等電信系云廠商進行算力布局、在以政務(wù)云為代表的領(lǐng)域快速擴張;另一方面,行業(yè)用戶對云服務(wù)的需求更加多元,各家云廠商深化混合云、行業(yè)云的布局,并通過降低價格與優(yōu)化服務(wù)來爭奪客戶,加速了傳統(tǒng)IT基礎(chǔ)設(shè)施向云平臺的遷移。因此,在價格、服務(wù)與政策等多重因素疊加下,國內(nèi)云市場的滲透率進一步提升,導(dǎo)致云廠商排名與梯隊結(jié)構(gòu)的重新洗牌。以智能體(AIAgent)、自動化模型服務(wù)、多模態(tài)生成等為代表的智算類業(yè)務(wù)驅(qū)動云計算市場從傳統(tǒng)算力需求向“智算需求”轉(zhuǎn)移,成為國內(nèi)IaaS與PaaS的核心增量來源。2024年國內(nèi)云計算市場份額中,兩年至少有15%日常工作決策將由智能體自主完成,33%的企業(yè)軟件應(yīng)用將包含智能體。相比于2024年未產(chǎn)生智能體的階段,智能體在運營商、制造業(yè)、金融服務(wù)等領(lǐng)域的規(guī)?;瘧?yīng)用,直接拉動了企業(yè)對高4性能GPU以及大規(guī)模算力集群的需求,智能計算成為IaaS增長最快的份額。同時,智能體訓(xùn)練、推理的持續(xù)迭代需要自動化的數(shù)據(jù)管理、模型開發(fā)以及部署測試,促使企業(yè)進一步依賴云廠商提供的AIPaaS、MLOps、向量數(shù)據(jù)庫、MaaS等平臺級能力,從而也推動了PaaS業(yè)務(wù)收入顯著提升。從技術(shù)發(fā)展趨勢上看,智能體驅(qū)動下的算力需求、工具鏈需求和行業(yè)場景需求的三重疊加,將在未來成為支撐國內(nèi)IaaS與PaaS高增長的主引擎。軟硬件創(chuàng)新驅(qū)動云基礎(chǔ)設(shè)施持續(xù)進化過去一年,云計算在硬件架構(gòu)革新、軟件系統(tǒng)智能化升級以及開源生態(tài)共建方面取得顯著突破,形成以“硬件突破—軟件革新”協(xié)同發(fā)展的技術(shù)發(fā)展格局。本部分聚焦行業(yè)實踐,從硬件基礎(chǔ)設(shè)施、軟件平臺能力兩個方向梳理年度標(biāo)志性事件與技術(shù)躍遷路徑。全球云計算硬件基礎(chǔ)設(shè)施正加速向高性能、異構(gòu)化與資源池化方向演進。例如華為發(fā)布的CloudMa-trix384超節(jié)點架構(gòu)成為年度最具影響力的硬件創(chuàng)新之一。該架構(gòu)采用全對等互聯(lián)與全棧協(xié)同設(shè)計,集成了自研鯤鵬CPU、Ascend910CNPU及高速統(tǒng)一總線UB(UnifiedBus)網(wǎng)絡(luò),構(gòu)建了總算力達300PFLOPs的超大規(guī)模AI云底座。NVIDIAH200GPU已在Amazon、GoogleCloud和MicrosoftAzure大規(guī)模部署,搭載HBM3e顯存,帶寬達4.8TB/s,配合GB200Superchip與NVLinkSwitch系統(tǒng),在千卡集群中實現(xiàn)通信延遲下降近40%,顯著提升大模型訓(xùn)練效率。AMDInsti內(nèi)存和CDNA3架構(gòu),在Meta、Microsoft等平臺落地應(yīng)用,支持AI與HPC融合負載。Amazon推出自研Trainium2芯片與Graviton4CPU組合,構(gòu)建端到端可控的EC2UltraClusters,支撐千億參數(shù)模型訓(xùn)練,并探索基于CXL3.1的內(nèi)存擴展架構(gòu)以緩解GPU顯存瓶頸。Google在其TPUv5p集群中引入液冷封裝與商正通過芯片自研、高速互聯(lián)與內(nèi)存服務(wù)化,推動硬件架構(gòu)從“封閉堆疊”向“開放協(xié)同”轉(zhuǎn)型。在軟件層面,云計算正邁向以智能調(diào)度、自主運維與語義感知為核心的下一代操作系統(tǒng)階段。阿里云在靈駿智算集群中集成智能運維引擎,利用時序預(yù)測模型對GPU利用率、溫度、顯存占用等指標(biāo)進行分鐘級異常預(yù)警,結(jié)合歷史故障圖譜實現(xiàn)根因定位,SLA違規(guī)率降低超35%。GoogleCloud的Autopilot[12]系統(tǒng)能夠結(jié)合機器學(xué)習(xí)分析容器歷史負載,自動推薦最優(yōu)資源配置;Monarch系統(tǒng)日均處理超百萬條監(jiān)控流,支持跨區(qū)域性能診斷與容量規(guī)劃。MicrosoftAzure將因果推斷與知識圖譜應(yīng)用于告警聚合,將數(shù)千條原始事件歸并為可操作的故障單元,縮短平均修復(fù)時間達40%以上;Microsoft的AzureMachineLearning平臺采用彈性訓(xùn)練調(diào)度器,動態(tài)增減分布式訓(xùn)練節(jié)點,在保障收斂性的前提下降低30%以上計算成本。Amazon通過DevOpsGuru實現(xiàn)基于無監(jiān)督學(xué)習(xí)的異常檢測,可識別Lambda函數(shù)冷啟動激增、RDS慢查詢等典型問題,并提供修復(fù)建議;Karpenter彈性節(jié)點控制器可在秒級內(nèi)響應(yīng)Pod調(diào)度需求,大幅提升EKS集群資源利用率。云計算行業(yè)開源組織與行業(yè)標(biāo)準(zhǔn)布局全球云計算開源生態(tài)進入爆發(fā)期,開源項目成為技術(shù)標(biāo)準(zhǔn)制定與產(chǎn)業(yè)話語權(quán)爭奪的主要戰(zhàn)場。國際上,Linux基金會主導(dǎo)的OpenAccelerationFramework整合CUDA、ROCm與CANN生態(tài),推動AI加速器接口標(biāo)準(zhǔn)化,打破廠商鎖定困境。在國內(nèi),開源力量同樣迅猛崛起。華為推出的OpenYuanRong項目,聚焦AI推理框架開源,兼容PyTorch與MindSpore模型,支持異構(gòu)硬件自動優(yōu)化,上線三個月即被30余家云服務(wù)商集成。天翼云則發(fā)布TeleDB——一款面向云原生的分布式數(shù)據(jù)庫開源項目,支持多模態(tài)數(shù)據(jù)處理與強一致性事務(wù),在電信級高并發(fā)場景中表現(xiàn)優(yōu)異,已被多家省級政務(wù)云采用。2025年中國云計算開源項目不僅在數(shù)量上快速增長,更在關(guān)鍵技術(shù)自主可控與生態(tài)協(xié)同方面展現(xiàn)出強大生命力,正逐步改變?nèi)蛟朴嬎慵夹g(shù)格局。標(biāo)準(zhǔn)制定正從“輔助支撐”角色轉(zhuǎn)變?yōu)橐龑?dǎo)技術(shù)路線演進的核心力量,成為產(chǎn)業(yè)協(xié)同創(chuàng)新的樞紐。2025年云計算領(lǐng)域在標(biāo)準(zhǔn)化建設(shè)方面取得關(guān)鍵進展,全球主要標(biāo)準(zhǔn)組織與產(chǎn)業(yè)聯(lián)盟加速推進技術(shù)規(guī)范制1.1.研究圖譜2025:云計算產(chǎn)業(yè)和技術(shù)分析5定,推動異構(gòu)算力協(xié)同、多云互操作、綠色低碳等共性能力的統(tǒng)一化與規(guī)?;涞?。在國際方面,分布式管理任務(wù)組DMTF(DistributedManagementTaskForce)持續(xù)推動Redfish標(biāo)準(zhǔn)演進,增強對現(xiàn)代數(shù)據(jù)中心基礎(chǔ)設(shè)施的建模能力,支持GPU、FPGA等加速器資源的發(fā)現(xiàn)與管理,為未來AI工作負載調(diào)度和資源拓撲暴露奠定數(shù)據(jù)模型基礎(chǔ)。同時,Internet工程任務(wù)組IETF通過SCIM(SystemforCross-domainIdentity配置與策略語義層面的跨域協(xié)同機制,為解決“多云孤島”問題提供技術(shù)路徑。在國內(nèi),中國電子技術(shù)標(biāo)準(zhǔn)化研究院發(fā)布的《云計算異構(gòu)計算資源池化技術(shù)要求》(草案/團體標(biāo)準(zhǔn))提出了基于虛擬化與解耦架構(gòu)的資源池參考模型,探索異構(gòu)硬件互聯(lián)技術(shù)在算力資源整合中的應(yīng)用前景,華為、阿里、中科曙光等企業(yè)參與了該標(biāo)準(zhǔn)的技術(shù)研討與驗證試點[13]。同時,開放原子開源基金會推動OpenHarmony、OpenEuler等項目與國家標(biāo)準(zhǔn)對接,實現(xiàn)“開源—標(biāo)準(zhǔn)—產(chǎn)業(yè)化”閉環(huán)。2025年云計算標(biāo)準(zhǔn)工作呈現(xiàn)出“技術(shù)引領(lǐng)、場景驅(qū)動、全球協(xié)作、產(chǎn)研聯(lián)動”的鮮明特征。標(biāo)準(zhǔn)不再滯后于技術(shù)發(fā)展,而是前瞻性地定義接口、協(xié)議與評估體系,為技術(shù)創(chuàng)新提供穩(wěn)定預(yù)期與規(guī)?;窂?。為明確標(biāo)準(zhǔn)化與開源在行業(yè)中的關(guān)鍵地位和作用,以下將從多云協(xié)同、產(chǎn)品兼容、合規(guī)監(jiān)管和生態(tài)創(chuàng)新等方面,具體闡述標(biāo)準(zhǔn)化與開源在云計算中起到的實際作用。在多云協(xié)同方面,企業(yè)為避免供應(yīng)商鎖定普遍采用多家云服務(wù),但不同廠商架構(gòu)和接口差異較大,容易形成“信息孤島”。統(tǒng)一標(biāo)準(zhǔn)與主流開源協(xié)議有助于規(guī)范數(shù)據(jù)交換與接口對接,實現(xiàn)多云間的資源共享和協(xié)同管理,降低遷移成本。在產(chǎn)品兼容方面,云存儲、數(shù)據(jù)庫及安全組件若缺乏統(tǒng)一接口,企業(yè)跨云遷移與系統(tǒng)集成將面臨較高技術(shù)門檻。通過標(biāo)準(zhǔn)化約束接口規(guī)范與性能指標(biāo),并結(jié)合開源軟件的開放開發(fā)與測試機制,可顯著提升云產(chǎn)品的互操作性與可靠性。在合規(guī)監(jiān)管方面,隨著《數(shù)據(jù)安全法》《網(wǎng)絡(luò)安全法》等法規(guī)的實施,云服務(wù)必須滿足安全與合規(guī)標(biāo)準(zhǔn)才能合法運營。行業(yè)標(biāo)準(zhǔn)為監(jiān)管評估提供了統(tǒng)一依據(jù),開源安全工具和合規(guī)方案則幫助企業(yè)更便捷地落地合規(guī)要求、降低運營風(fēng)險。在生態(tài)創(chuàng)新方面,統(tǒng)一標(biāo)準(zhǔn)降低了技術(shù)集成與合作的門檻,促進第三方服務(wù)在云平臺上的繁榮生長。開源通過開放源代碼吸引全球開發(fā)者參與,推動技術(shù)快速迭代;誰能主導(dǎo)關(guān)鍵開源項目,誰就更容易在產(chǎn)業(yè)生態(tài)中掌握技術(shù)主導(dǎo)權(quán)和話語權(quán)。1.1.2方向聚焦為全面把握全球云計算技術(shù)發(fā)展方向,本節(jié)從云領(lǐng)域?qū)W術(shù)界與工業(yè)界關(guān)于技術(shù)研究前沿探索出發(fā),系統(tǒng)梳理并深入分析2025年度云計算領(lǐng)域的關(guān)鍵進展與趨勢演進。通過整合產(chǎn)業(yè)一線的創(chuàng)新成果與學(xué)術(shù)前沿科研動向,為政策制定者、技術(shù)研發(fā)人員提供權(quán)威、前瞻的洞察參考。本節(jié)持續(xù)跟蹤調(diào)研了近3年和云CCF-A類為主從中篩選出近860篇云計算領(lǐng)域有企業(yè)參與的已發(fā)表文章。現(xiàn)有學(xué)術(shù)研究聚焦通用計算云和AI智能云兩大主體,涵蓋包括數(shù)據(jù)中心基礎(chǔ)架構(gòu)、AI與系統(tǒng)、任務(wù)調(diào)度與編排框架、中間件、AI加速器、性能調(diào)優(yōu)等在內(nèi)的30余個具體的研究點。通過進一步的篩選與合并,本節(jié)將上述涉及的所有研究整理為10個基礎(chǔ)研究方向,分別為MLSys、數(shù)據(jù)庫、DC與服務(wù)管理、文件與存儲系統(tǒng)、加速器硬件、OS與分布式系統(tǒng)、分離式數(shù)據(jù)高水平論文數(shù)量4006258數(shù)據(jù)庫DC與服務(wù)管理文件與存儲系統(tǒng)加速器硬件OS與分布式系統(tǒng)分離式數(shù)據(jù)中心AI數(shù)據(jù)庫DC與服務(wù)管理文件與存儲系統(tǒng)加速器硬件OS與分布式系統(tǒng)分離式數(shù)據(jù)中心AIforcloud虛擬化技術(shù)量子計算圖1.4:近三年企業(yè)參與的云計算熱點研究領(lǐng)域文章發(fā)表數(shù)量中心、AIforCloud、虛擬化技術(shù)以及量子計算,以構(gòu)建一個從硬件到軟件、從基礎(chǔ)設(shè)施到智能優(yōu)化較為完整的云計算熱點研究方向洞察(見圖1.4)。6相比2024年的統(tǒng)計結(jié)果,受益于大模型的快速崛起,近三年的MLSys方向的發(fā)文數(shù)量和硬件加速器方向論文呈現(xiàn)穩(wěn)步增長,成為了云計算研究體系中最受關(guān)注、增長最快、企業(yè)參與最集中的方向。而DC與服務(wù)管理和文件存儲相關(guān)領(lǐng)域的發(fā)文數(shù)量呈現(xiàn)少許下降趨勢。量子計算技術(shù)的發(fā)文數(shù)量逐年攀升,是未來的潛在熱點領(lǐng)域。頂會論文數(shù)量400第一梯隊頂會論文數(shù)量400第二梯隊第三梯隊48阿里巴巴Microsoft華為Google字節(jié)NVIDIAAmazonSamsung騰訊AMDAppleOracleVMwareCiscoSAPNetApp阿里巴巴Microsoft華為Google字節(jié)NVIDIAAmazonSamsung騰訊AMDAppleOracleVMwareCiscoSAPNetAppSnowflake(a)近三年頭部企業(yè)研究數(shù)量分布(從高到低排序)42.2%42.2% 9.0%(+2.1%)華為字節(jié).Amazon其他3.4%3.4%4.7%5.6%(-1.9%)4.7%(b)近三年頭部企業(yè)研究數(shù)量占總比及相較去年變化圖1.5:近三年頭部企業(yè)在研究成果的影響力分布企業(yè)在學(xué)術(shù)研究領(lǐng)域活躍度保持不變,大約31%的近三年學(xué)術(shù)成果有企業(yè)參與,且大部分以國外廠商為主。以華為和阿里巴巴為代表的國內(nèi)廠商學(xué)術(shù)影響力增加顯著。如圖1.5(a)所示。本節(jié)將發(fā)文數(shù)量較多的企業(yè)劃分為三個梯隊,相比2024年統(tǒng)計結(jié)果,阿里云近三年發(fā)文量超越Microsoft成為第一,華為超越Google、Meta進入前三,位居第二梯隊首位。而Samsung進入第二梯隊并超越騰訊,AMD,Apple,Oracle,Cisco,SAP,NetApp和Snowflake成為第三梯隊新晉成員,VMware則保持第三梯隊不變。相比2024年白皮書統(tǒng)計結(jié)果,近三年企業(yè)參與發(fā)表的論文數(shù)量的“分布傾斜”現(xiàn)象有所緩解。從圖1.5(a)可以看到,貢獻超過80%研究成果的頭部企業(yè)數(shù)量從去年統(tǒng)計結(jié)果的13個增加到20個,其中新增了不少新面孔,這也代表著有更多的企業(yè)初步在云計算和系統(tǒng)領(lǐng)域?qū)W術(shù)研究上嶄露頭角。圖1.5(b)進一步展示了阿里,Microsoft,華為,Google,Meta,Amazon這些擁有云計算營收業(yè)務(wù)的頭部企業(yè)研究成果占總體發(fā)文數(shù)量的比值(紅色代表相比2024年白皮書統(tǒng)計結(jié)果有增長,綠色則代表有所下降未展示的企業(yè)則全部歸類于其他類別??梢钥吹?,除華為和Amazon發(fā)文量占比有輕微增長外,其他頭部企業(yè)研究成果發(fā)表論文數(shù)量均有所下降,例如阿里云論文發(fā)表數(shù)量占整體比重降低0.8%,Google發(fā)文量占比下降1.9%,而Microsoft發(fā)文量占比下降幅度最大接近7%,其他企業(yè)則上升了近9%。創(chuàng)新驅(qū)動力在系統(tǒng)領(lǐng)域持續(xù)擴散,企業(yè)新面孔的加速涌現(xiàn),為學(xué)術(shù)研究和產(chǎn)業(yè)發(fā)展注入了新鮮血液。相比2024年白皮書統(tǒng)計結(jié)果,在今年的系統(tǒng)領(lǐng)域頂級學(xué)術(shù)會議上,有七十余家單位如商湯科技、智譜科技、超威半導(dǎo)體、百度、聯(lián)想,以及電信、移動等首次亮相,涵蓋了AI初創(chuàng)、互聯(lián)網(wǎng)公司、傳統(tǒng)IT與半導(dǎo)體巨頭、通信運營商等多元行業(yè)。它們在體系結(jié)構(gòu)、操作系統(tǒng)、數(shù)據(jù)庫、云計算等多個頂會發(fā)表了聚焦大模型推理、分布式調(diào)度、云原生等前沿主題的論文,展現(xiàn)出學(xué)科交叉和新興應(yīng)用的廣泛需求。企業(yè)直接參與論文署名愈發(fā)普遍,研究緊貼實際生產(chǎn)和業(yè)務(wù)需求,產(chǎn)學(xué)研融合不斷加深。同時,國際機構(gòu)的積極參與進一步推動了全球?qū)W術(shù)交流。頂會對新團隊和新思想的包容性持續(xù)提升,越來越多新興單位能夠在學(xué)術(shù)舞臺嶄露頭角,行業(yè)創(chuàng)新生態(tài)更加開放與活躍。綜上,2025年云計算領(lǐng)域在軟硬件協(xié)同、AI原生架構(gòu)和分布式系統(tǒng)等方面取得突破,學(xué)術(shù)與產(chǎn)業(yè)的深度融合加速了新技術(shù)的落地。云計算正圍繞大模型驅(qū)動的算力升級、數(shù)據(jù)平臺智能化以及云服務(wù)高可用與安全能效三大主題進行演進。具體來看,分離式數(shù)據(jù)中心架構(gòu)與關(guān)鍵技術(shù)通過異構(gòu)算力、內(nèi)存池化及新型互連技術(shù),顯著提升了資源利用率和遠程內(nèi)存訪問效率,為大模型場景下的高效調(diào)度與彈性擴縮容提供支撐;面向AI場景的PaaS數(shù)據(jù)平臺層技術(shù)聚焦于數(shù)據(jù)庫和存儲系統(tǒng)的創(chuàng)新,推動高性能、可擴展、智能化數(shù)據(jù)平臺的構(gòu)建,以滿足AI業(yè)務(wù)對海量數(shù)據(jù)管理與加速的需求;智能化云運維、可信安全與1.2.熱點方向一:分離式數(shù)據(jù)中心架構(gòu)與關(guān)鍵技術(shù)7能效優(yōu)化方面,通過AI運維和安全機制的不斷完善,實現(xiàn)了云服務(wù)的高可用、可信與綠色發(fā)展。由此,下文將圍繞上述三大熱點方向進行系統(tǒng)梳理與深入分析。1.2熱點方向一:分離式數(shù)據(jù)中心架構(gòu)與關(guān)鍵技術(shù)在云計算和大數(shù)據(jù)時代,數(shù)據(jù)中心面臨著資源利用率、彈性擴展和高效運維等多方面的挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)中心架構(gòu)已難以滿足日益增長的業(yè)務(wù)需求和技術(shù)演進。分離式數(shù)據(jù)中心架構(gòu)作為一種創(chuàng)新模式,通過資源池化與功能解耦,實現(xiàn)了更高的靈活性與可擴展性,為云服務(wù)和新型應(yīng)用場景提供了堅實基礎(chǔ)。本節(jié)將圍繞分離式數(shù)據(jù)中心架構(gòu)展開,重點介紹其關(guān)鍵技術(shù)及發(fā)展趨勢。具體而言,后續(xù)三個小節(jié)將分別探討彈性可擴展的云數(shù)據(jù)中心資源優(yōu)化、面向資源池化的分離式數(shù)據(jù)中心架構(gòu),以及支持分離式數(shù)據(jù)中心架構(gòu)的軟件棧等關(guān)鍵問題。為更好地理解相關(guān)技術(shù)路徑與研究進展,表1.1重點遴選了部分具有代表性的關(guān)鍵研究成果。表1.1:頭部企業(yè)重點關(guān)注的分離式數(shù)據(jù)中心架構(gòu)與關(guān)鍵技術(shù)研究領(lǐng)域研究點研究方向概述主要會議研究主要關(guān)注點與代表性工作彈性可擴展的云數(shù)據(jù)中心資源優(yōu)化傳統(tǒng)云數(shù)據(jù)中心架構(gòu)日益暴露出資源擱淺和彈性粒度不足等問題。隨著規(guī)模擴大,提升資源利用率、采用分層存儲和動態(tài)收割技術(shù)進行協(xié)同調(diào)度,已成為云服務(wù)商應(yīng)對資源閑置與彈性需求的核心關(guān)注。EuroSys?內(nèi)存分級、資源動態(tài)收割與復(fù)用:Meta、Google和Microsoft廣泛研究了云基礎(chǔ)設(shè)施中關(guān)于使用SSD、NVM、CXL內(nèi)存等異構(gòu)存儲介質(zhì)進行動態(tài)卸載能力[14,15,16],中國電信云計算研究院進一步探索了該場景下的多租資源公平分配,以減少共置負載性能劣化[17];Microsoft針對數(shù)據(jù)中心閑置資源開展關(guān)于智能動態(tài)資源收割與復(fù)用的一系列研究工作[18,19,20],實現(xiàn)了在云平臺中動態(tài)、安全地回收和復(fù)用虛擬機暫時閑置的計算和內(nèi)存資源,顯著提升了資源利用率和服務(wù)器效能。?智算資源細粒度管理:NVIDIA提出了一系列GPU資源共享技術(shù)。Kimi、DeepSeek以及華為等深入研究了智算云基礎(chǔ)設(shè)施中不同應(yīng)用中不同階段的資源需求,通過算力、顯存、DRAM等不同資源的細粒度管控,提升計算與存儲效率,實現(xiàn)整體智算資源的效率提升[10,21,22,23]。面向資源池化的分離式數(shù)據(jù)中心架構(gòu)傳統(tǒng)計算與存儲的分離架構(gòu)逐漸出現(xiàn)資源利用不均、彈性粒度不足等問題。分離式架構(gòu)將“內(nèi)存池”進行獨立資源管理優(yōu)化,以提升資源利用率,解決資源匹配和分配不均問題。EuroSys?RDMA、NVLink高速互聯(lián)內(nèi)存池:Google通過細粒度、高效的遠程內(nèi)存分配機制,解決了池化架構(gòu)中“分配開銷與內(nèi)存浪費”的兼顧挑戰(zhàn)[24];還基于現(xiàn)有RDMA內(nèi)存池架構(gòu)中的高可用問題,研究如何減少分離式架構(gòu)帶來的爆炸半徑擴大影響[25];阿里通過將集群中的GPU中顯存統(tǒng)一管理,對推理服務(wù)過程中產(chǎn)生的數(shù)據(jù)統(tǒng)一放置,實現(xiàn)多GPU資源之間的資源共享,減少GPU資源的“碎片空間”,提升了顯存的使用率[26]。?CXL共享內(nèi)存池:Microsoft和Intel利用CXL高速互聯(lián)總線技術(shù)進行內(nèi)存池化場景下的多租資源分配,以提升內(nèi)存資源使用率,并減少內(nèi)存性能劣化[1,27];阿里云利用CXL交換機,實現(xiàn)云數(shù)據(jù)庫的內(nèi)存池化和數(shù)據(jù)共享[28]。支持分離式數(shù)據(jù)中心架構(gòu)的軟件棧支持分離式架構(gòu)的軟件棧主要集中在簡化編程復(fù)雜性、提升遠程資源訪問效率、優(yōu)化資源池化與調(diào)度策略,以及增強系統(tǒng)可擴展性與高可用性等方面,為大規(guī)模異構(gòu)資源的統(tǒng)一管理與高效利用提供支撐。HotOS?分離式操作系統(tǒng):華為提出FlacOS操作系統(tǒng),通過在內(nèi)存互聯(lián)的機架級架構(gòu)中實現(xiàn)內(nèi)核數(shù)據(jù)結(jié)構(gòu)的共享和無鎖同步機制,使得單一操作系統(tǒng)統(tǒng)一管理機架級資源,解決傳統(tǒng)分離式資源管理帶來的同步瓶頸和故障恢復(fù)挑戰(zhàn)[29];天翼云提出“聚合計算”產(chǎn)品理念,通過將池化算力資源按需聚合,為HPC等場景提供高效、靈活的算力服務(wù)[30]。?分離式運行時:華為云在分離式數(shù)據(jù)中心運行時方面,提出通過分層接口和聲明式API實現(xiàn)數(shù)據(jù)系統(tǒng)與硬件的解耦,提升了資源利用率和系統(tǒng)擴展性。隨后,又通過挖掘多線程程序的異步性,進一步優(yōu)化了分離式內(nèi)存的訪問性能和編程易用性[31,32]。?IR運行時:Google和OneFlow針對AI場景下的多樣的硬件資源集群,提出了支持算子粒度任務(wù)執(zhí)行的運行時,通過統(tǒng)一抽象算子來支持不同CPU、GPU、FPGA等異構(gòu)硬件,實現(xiàn)不同算力需求與資源之間的高效匹配[33,34]。1.2.1彈性可擴展的云數(shù)據(jù)中心資源優(yōu)化現(xiàn)行云計算資源分配粒度粗,資源利用率不高且成本居高不下,高效利用迫在眉睫。追求像用水用電一樣靈活地使用資源是云計算發(fā)展的核心目標(biāo)。然而,受限于硬件體系結(jié)構(gòu)和操作系統(tǒng)抽象,且高速網(wǎng)絡(luò)互聯(lián)、內(nèi)存、存儲等模塊發(fā)展速度出現(xiàn)嚴重不均衡現(xiàn)象,使得主機間資源難以高效共享。人工智能8云工作負載機器學(xué)習(xí)訓(xùn)練大數(shù)據(jù)分析Web機器學(xué)習(xí)訓(xùn)練大數(shù)據(jù)分析Web服務(wù)云視頻會議云游戲…機器學(xué)習(xí)推理WorkloadIntelligenceHarvestVMsSpotVMsCPU超頻CPUHarvestVMsSpotVMsCPU超頻CPU降頻彈性伸縮資源超分資源預(yù)留規(guī)格推薦…跨域部署云平臺優(yōu)化技術(shù)圖1.6:WorkloadIntelligence概覽[35]的崛起加劇了高投入與低資源利用率之間的矛盾。Microsoft、Google等云廠商宣布上百億美元建設(shè)AI專用數(shù)據(jù)中心,以GPU為核心配置成為了云廠商提供的主流基礎(chǔ)資源。然而,主流云服務(wù)商采用大顆粒度“切割”物理服務(wù)器資源(如CPU、內(nèi)存、GPU以虛擬機或容器實例售賣,進一步限制了租戶的資源靈活性,導(dǎo)致資源擱淺和成本浪費。MicrosoftAzure等公開數(shù)據(jù)表明,數(shù)據(jù)中心內(nèi)存擱淺比例高達6-30%,GPU算力使用效率僅僅在30%-50%,而內(nèi)存成本占物理服務(wù)器總成本的37-50%[27]。除此之外,隨著大數(shù)據(jù)業(yè)務(wù)和內(nèi)存密集型應(yīng)用的持續(xù)增長,云業(yè)務(wù)普遍采用大容量內(nèi)存緩存以及算力獨占的方式以提升性能,負載長期占據(jù)大量內(nèi)存與計算資源,資源分配率居高不下,但實際高頻訪問的數(shù)據(jù)僅占很小比例。為此,學(xué)術(shù)界與工業(yè)界在近些年逐步開始探索通過部署低成本存儲介質(zhì)(如SSD、NVM等)以及基于高速互聯(lián)技術(shù)(CXL、RDMA等)的資源池化技術(shù)嘗試解決。針對資源擱淺與成本浪費的挑戰(zhàn),業(yè)界已積極探索遠內(nèi)存、自動資源配置等多種技術(shù)路徑,以提升資源利用率和降低成本。Meta、Google和Microsoft等公司,廣泛研究了如何利用利用SSD、NVM、CXL內(nèi)存等異構(gòu)存儲介質(zhì)進行動態(tài)數(shù)據(jù)卸載[14,15,16]。比如,中國電信云計算研究院針對多租戶環(huán)境下不同負載間的內(nèi)存資源競爭問題,提出了QoS感知的分級內(nèi)存管理框架Vulcan。該框架設(shè)計了基于負載特征的用戶態(tài)內(nèi)存頁面遷移機制,顯著提升了多應(yīng)用場景下的靈活性與適應(yīng)性。通過工作負載敏感性的快速內(nèi)存容量動態(tài)公平分配策略,有效避免了傳統(tǒng)熱度驅(qū)動分配導(dǎo)致的“冷頁困境”,保障了延遲敏感型與吞吐量型負載的性能隔離與公平性。實驗結(jié)果表明,Vulcan在云服務(wù)多租戶內(nèi)存資源管理領(lǐng)域展現(xiàn)出顯著優(yōu)勢[17]。除此以外,Microsoft在數(shù)據(jù)中心閑置/擱淺資源的收割方面持續(xù)創(chuàng)新,先后推出用以高效收割閑置CPU、內(nèi)存資源[18,20,19]的Harvest系列VM,實現(xiàn)多資源聯(lián)合調(diào)度與細粒度分配,顯著提升了資源利用率和業(yè)務(wù)保障,有效推動了云基礎(chǔ)設(shè)施的智能化和降本增效。然而,目前這些優(yōu)化方式多為平臺單向、透明管理,沒有租戶的直接參與。雖便于部署但受限于狹窄的資源分配接口,云平臺難以直接洞察租戶實際需求,導(dǎo)致實際響應(yīng)滯后且效率仍有優(yōu)化空間。隨著云應(yīng)用復(fù)雜性提升,協(xié)作式資源管理逐步成為趨勢。以Microsoft在SC’25大會提出的WI(WorkloadIntelligence)[35]框架為代表,新型協(xié)作機制支持租戶主動表達業(yè)務(wù)特性(如可用性、延遲容忍度等),平臺則智能匹配并啟用多種優(yōu)化機制(如自動擴縮容、Spot/HarvestVM、超頻/降頻、區(qū)域遷移等),顯著提升資源利用率和經(jīng)濟性,圖1.6展示了WI的概覽。研究表明,WI框架可為租戶平均節(jié)省約48.8%的資源成本,并提升綠色低碳水平。針對智算中心的巨大投入與GPU資源使用效率的低下,業(yè)界與學(xué)術(shù)界積極探索不同租戶間資源劃分與調(diào)度,任務(wù)資源度量與搶占等多種技術(shù),以此提升資源的使用效率。NVIDIA在硬件架構(gòu)、驅(qū)動層和軟件棧上為智算中心的多場景混合運行構(gòu)建了完善的資源共享機制。CUDA的Context、Stream與Hyper-Q在軟件與運行時層面提供了基礎(chǔ)的并行與軟隔離能力;MPS(Multi-ProcessService)在進程級別上將多進程請求合并到同一GPU上下文中,提升了多任務(wù)并發(fā)度。針對多租戶環(huán)境的強隔離場景,NVIDIA又提出了MIG(Multi-InstanceGPU)技術(shù),使得云原生環(huán)境下能夠?qū)崿F(xiàn)劃分物理GPU。在此基礎(chǔ)上,學(xué)術(shù)界也圍繞不同服務(wù)的資源使用模式開展了一系列工作。SpotServe[36]基于多實例負載變化,提出使用可回收實例來降低服務(wù)成本并提升資源效率。FlexLLM[23]則從單實例內(nèi)部的多應(yīng)用共存出發(fā),利用推理和微調(diào)在計算和顯存需求上的互補,實現(xiàn)兩類資源的同時提升,為不同服務(wù)的資源共享提出新方案。MuxServ更進一步從單個應(yīng)用內(nèi)部特征分析,識別推理過程中密集和內(nèi)存密集階段的差異,通過跨請求進行模型的請求階段組合,為模型的服務(wù)模式提供了新思路。1.2.熱點方向一:分離式數(shù)據(jù)中心架構(gòu)與關(guān)鍵技術(shù)91.2.2面向資源池化的分離式數(shù)據(jù)中心架構(gòu)分離式資源池化數(shù)據(jù)中心架構(gòu),通過算力、存儲、網(wǎng)絡(luò)三大失配、資源利用不均、彈性調(diào)度不足和協(xié)同效率瓶頸等四大挑戰(zhàn)。隨著數(shù)據(jù)中心規(guī)模的持續(xù)擴展和業(yè)務(wù)形態(tài)的日益復(fù)雜,傳統(tǒng)數(shù)據(jù)中心架構(gòu)正面臨多重挑戰(zhàn)。首先,數(shù)據(jù)保存周期遠長于服務(wù)器硬件的更新周期,導(dǎo)致數(shù)據(jù)遷移與運維成本顯著增加,存儲與算力資源的生命周期嚴重失配。其次,資源利用在時空維度上呈現(xiàn)顯著不均衡,部分計算節(jié)點或存儲設(shè)備長期處于低負載狀態(tài),而高峰期資源緊張,整體利用率難以提升。第三,云原生應(yīng)用不斷涌現(xiàn),對計算與存儲資源的彈性分配提出了更高要求,傳統(tǒng)架構(gòu)難以滿足其動態(tài)擴縮和敏捷調(diào)度的訴求。最后,數(shù)據(jù)中心在算力、存儲和網(wǎng)絡(luò)資源之間的協(xié)同效率面臨瓶頸,資源孤島和跨域性能損耗制約了整體服務(wù)能力。針對上述困境,分離式數(shù)據(jù)中心架構(gòu)應(yīng)運而生,正如圖1.7所示,其核心理念是通過資源池化實現(xiàn)算力、存儲與網(wǎng)絡(luò)的解耦與獨立調(diào)度。一方面,多元化業(yè)務(wù)場景驅(qū)動算力異構(gòu)化發(fā)展,異構(gòu)計算資源池可根據(jù)任務(wù)類型按需分配CPU、GPU、FPGA等多種算力,實現(xiàn)高效資源利用。另一方面,低時延網(wǎng)絡(luò)技術(shù)的發(fā)展為內(nèi)存與磁盤的分離及池化提供了技術(shù)基礎(chǔ),網(wǎng)絡(luò)層的優(yōu)化有效降低了數(shù)據(jù)訪問延遲,支撐資源池間的高效協(xié)作。此外,新型應(yīng)用不斷推動高效共享存儲的發(fā)展,存儲資源池不僅提升了數(shù)據(jù)訪問的彈性和可靠性,還為多租戶環(huán)境下的數(shù)據(jù)隔離和共享提供了保障。總體而言,面向資源池化的分離式數(shù)據(jù)中心架構(gòu)通過算力、存儲、網(wǎng)絡(luò)三大資源的解耦與池化,顯著提升了資源利用率與服務(wù)彈性,增強了對新興業(yè)務(wù)場景的適應(yīng)能力,為下一代數(shù)據(jù)中心的發(fā)展奠定了堅實基礎(chǔ)。DRAMCPUCPU池CPUDRAM共享內(nèi)存池DRAMCPUCPU池CPUDRAMDRAMDRAMCPUCPU存儲設(shè)備UnifiedInterconnection存儲設(shè)備UnifiedInterconnection網(wǎng)卡核心網(wǎng)/互聯(lián)網(wǎng)網(wǎng)卡網(wǎng)卡FPGAASICGPU特定硬件FPGAASICGPU圖1.7:分離式數(shù)據(jù)中心架構(gòu)示意分離式數(shù)據(jù)中心通過高速互聯(lián)實現(xiàn)算力、內(nèi)存和存儲資源的池化與解耦,推動了RDMA和CXL等技術(shù)的應(yīng)用,同時也帶來了內(nèi)存高可用性和大模型顯存池化等新的挑戰(zhàn)與機遇。在分離式數(shù)據(jù)中心架構(gòu)中(如圖1.7算力、內(nèi)存和存儲等各類資源通過高速網(wǎng)絡(luò)實現(xiàn)解耦與互聯(lián),每個服務(wù)器節(jié)點通常專用于某一類功能,如計算、內(nèi)存或持久化存儲,從而構(gòu)建出多樣化的資源池。應(yīng)用程序可以靈活地從這些資源池中獲取所需資源,實現(xiàn)高度彈性的擴展能力。目前,計算與持久化存儲的分離已在業(yè)界廣泛落地,內(nèi)存資源池化則成為新的研究熱點。分離式內(nèi)存技術(shù)(DisaggregatedMemory)通過將遠程服務(wù)器的未使用內(nèi)存或共享內(nèi)存池納入統(tǒng)一管理,打破了單機內(nèi)存容量的限制,提升了資源利用率。隨著高性能互聯(lián)技術(shù)(如RDMA、CXL和UB)的發(fā)展,內(nèi)存池化可以在機架內(nèi)或機架間靈活擴展,實現(xiàn)集群級別的資源調(diào)度與彈性分配。然而,遠程內(nèi)存訪問帶來的性能開銷、故障影響范圍擴大以及資源管理復(fù)雜性等挑戰(zhàn),仍需進一步技術(shù)突破。當(dāng)前,RDMA和CXL等技術(shù)正推動內(nèi)存池系統(tǒng)的創(chuàng)新,相關(guān)容錯與成本優(yōu)化機制也在持續(xù)探索。工業(yè)界如國際上Meta和MicrosoftAzure和國內(nèi)阿里已提出原型方案,但成熟的分離式內(nèi)存系統(tǒng)仍處于發(fā)展階段。在此基礎(chǔ)上,CXL與RDMA為內(nèi)存池系統(tǒng)的構(gòu)建提供了關(guān)鍵技術(shù)支撐,內(nèi)存高可用性成為系統(tǒng)落地的核心挑戰(zhàn),此外,面向大模型的顯存池化也成為分離式架構(gòu)下的新興研究方向?;赗DMA等技術(shù)的高速互聯(lián)內(nèi)存池系統(tǒng)有效緩解了資源擱淺問題,但距離工業(yè)落地仍有挑戰(zhàn)。基于RDMA以及NVLink的遠端內(nèi)存訪問技術(shù),將多臺服務(wù)器的內(nèi)存與顯存整合為統(tǒng)一池,實現(xiàn)數(shù)據(jù)透明遷移,有效擴展本地內(nèi)存資源,提升大規(guī)模機器學(xué)習(xí)等負載的性能。其中,在內(nèi)存管理中,F(xiàn)astswap[38]結(jié)合10遠內(nèi)存感知調(diào)度,提高整體吞吐量。然而,這類系統(tǒng)在多應(yīng)用并發(fā)場景下容易發(fā)生性能干擾,Canvas[39]通過交換路徑隔離,為每個應(yīng)用分配獨立的交換分區(qū)和帶寬,實現(xiàn)自適應(yīng)優(yōu)化,顯著減少了性能波動。此外,部分方案如AIFM[40]和Carbink[25]將遠存管理顯式暴露給開發(fā)者,要求應(yīng)用自行管理遠程內(nèi)存,雖然提升了靈活性,但增加了開發(fā)復(fù)雜度。在顯存管理中,Aegaeon[41]中根據(jù)不同模型請求的實時負載,動態(tài)決定模型在GPU的資源占比,并采用Token級細粒度調(diào)度實現(xiàn)靈活的資源分配。通過低開銷的KVCache管理與上下文切換,使多模型共享顯存成為可能。進一步的,eLLM[42]將模型推理過程的所有模型權(quán)重、激活與KVCache在統(tǒng)一的虛擬顯存池中進行管理,并解耦虛擬地址與物理顯存的映射構(gòu)建可擴展的顯存抽象。Infinite-LLM[43]通過自適應(yīng)、分布式注意力機制,將KVCache拆分為細粒度單元并跨節(jié)點動態(tài)放置,實現(xiàn)無感從集群空閑實例分配內(nèi)存,實現(xiàn)全局范圍的靈活、高效內(nèi)存池化。更進一步的,為了更高效的使用顯存空間,Mooncake[21]在以GPU為核心的池化分級存儲中提出了基于預(yù)測的早期拒絕策略與啟發(fā)式熱點遷移機制。通過緩存副本平衡跨實例間數(shù)據(jù)的復(fù)用熱度,從而提升緩存復(fù)用效率。盡管資源邏輯池化已經(jīng)取得顯著進展,但保障池化后的可靠性仍是不可或缺的關(guān)鍵一環(huán)。為了提升容錯能力并降低存儲開銷,Google的Carbink系統(tǒng)[25]采用糾刪碼(ErasureCoding)替代傳統(tǒng)復(fù)制機制,將本地驅(qū)逐的數(shù)據(jù)編碼后分散存儲于多個遠程節(jié)點,同時結(jié)合遠程內(nèi)存壓縮和可卸載奇偶校驗計算,實現(xiàn)了高效冗余與快速恢復(fù),顯著降低了故障帶來的影響?;谠鷥?nèi)存語義的CXL共享內(nèi)存池系統(tǒng)催生了一系列架構(gòu)創(chuàng)新。近年來,遠程內(nèi)存管理技術(shù)不斷演進,基于CXL技術(shù)的遠存管理則帶來了新的突破。CXL打破物理服務(wù)器的內(nèi)存邊界,實現(xiàn)池化和跨主機動態(tài)分配,極大提升了資源利用率。MicrosoftAzure的Pond方案采用機器學(xué)習(xí)預(yù)測負載時延敏感性,將不敏感的虛擬機優(yōu)先分配池化內(nèi)存,并通過QoS監(jiān)控和自動回滾機制緩解“內(nèi)存擱淺”問題[27]。學(xué)術(shù)和產(chǎn)業(yè)界也在積極探索CXL遠存管理的新模式。Tigon[44]系統(tǒng)針對分布式數(shù)據(jù)庫場景,利用CXL內(nèi)存實現(xiàn)跨主機原子操作,顯著降低同步延遲,提升事務(wù)處理性能。PolarCXLMem聚焦云原生數(shù)據(jù)庫,通過CXL交換機實現(xiàn)內(nèi)存池化,并創(chuàng)新PolarRecv機制支持數(shù)據(jù)庫瞬時恢復(fù)和緩沖池?zé)嵘恚瑫r提出新型一致性協(xié)議,提升多節(jié)點數(shù)據(jù)共享效率。實驗證明,基于CXL的管理方案不僅提升了內(nèi)存資源的靈活性和利用率,還顯著改善了數(shù)據(jù)庫等關(guān)鍵應(yīng)用的性能。盡管如此,CXL遠存管理同樣面臨著“爆炸半徑”問題。阿里云提出通過基于引用計數(shù)的分布式內(nèi)存管理機制,即使部分節(jié)點故障或進程崩潰,也能保障遠程內(nèi)存資源的安全釋放和回收,有效避免內(nèi)存泄漏和雙重釋放,提升了系統(tǒng)的彈性和可靠性[45]。需要指出的是,當(dāng)前主流的研究更多是在提升遠程內(nèi)存池系統(tǒng)對外圍故障的應(yīng)對能力。例如,糾刪碼和分布式管理可以降低單點失效帶來的數(shù)據(jù)丟失風(fēng)險,熱遷移和一致性協(xié)議則有助于快速恢復(fù)業(yè)務(wù)和保障多節(jié)點協(xié)同。但這些機制本質(zhì)上仍是圍繞數(shù)據(jù)和資源管理展開,尚未從根本上解決內(nèi)存池底層硬件或核心服務(wù)發(fā)生故障時所帶來的爆炸半徑問題。如何提升內(nèi)存池自身的容錯和隔離能力,仍是未來遠程內(nèi)存池系統(tǒng)落地部署的重要挑戰(zhàn)。1.2.3支持分離式數(shù)據(jù)中心架構(gòu)的軟件棧盡管分離式數(shù)據(jù)中心架構(gòu)通過將計算、存儲、內(nèi)存等關(guān)鍵資源進行解耦與池化,為云服務(wù)帶來了更高的靈活性與可擴展性,但這種架構(gòu)也帶來了編程復(fù)雜性提升、遠程資源訪問效率降低、資源調(diào)度與管理難度增加等新挑戰(zhàn)。為此,國際國內(nèi)均開始圍繞分離式操作系統(tǒng)、分離式運行時及IR(IntermediateRepresentation)運行時的軟件棧進行創(chuàng)新設(shè)計,圖1.8展示了三者關(guān)系。高速互聯(lián)技術(shù)的演進,正在催生以完全資源分離和分布式部署為核心特征的分離式操作系統(tǒng)新架構(gòu)。傳統(tǒng)操作系統(tǒng)(如Linux、Windows等)通常是單機、單內(nèi)核設(shè)計,即所有資源(CPU、內(nèi)存、存儲、網(wǎng)絡(luò)等)的管理和調(diào)度都由一個內(nèi)核負責(zé),資源被嚴格限制在一臺物理機。分離式操作系統(tǒng)將操作系統(tǒng)的各個功能模塊(如內(nèi)存管理、存儲管理、網(wǎng)絡(luò)管理等)拆分出來,分別運行在不同的專用硬件或服務(wù)器上,通過高速網(wǎng)絡(luò)互聯(lián),實現(xiàn)資源的“池化”和“按需分配”。也就是說,分離式操作系統(tǒng)把操作系統(tǒng)的服務(wù)變成了“分布式服務(wù)”。2018年,美國普渡大學(xué)提出LegoOS[46],首次提出了splitkernel架構(gòu),其將傳統(tǒng)操作系統(tǒng)功能拆分為多個分布式監(jiān)控器,各自運行在獨立硬件組件上,通過網(wǎng)絡(luò)消息協(xié)同完成資源1.2.熱點方向一:分離式數(shù)據(jù)中心架構(gòu)與關(guān)鍵技術(shù)11cudf算子算子圖Acudf算子算子圖AC"C算子邏輯圖EE分離式運行時接入層接入層執(zhí)行面執(zhí)行面數(shù)據(jù)面數(shù)據(jù)面控制面控制面分離式操作系統(tǒng)服務(wù)器服務(wù)器分離式分離式硬件分離式分離式分離式分離式存儲圖1.8:分離式數(shù)據(jù)中心架構(gòu)的軟件棧管理與故障處理。這種架構(gòu)突破了操作系統(tǒng)依賴單一物理服務(wù)器的限制,實現(xiàn)了CPU、內(nèi)存、存儲等資源的徹底解耦,使得資源分配不再受限于物理邊界,極大提升了數(shù)據(jù)中心的資源利用率和彈性,該研究成果獲得了當(dāng)年大會BestPaperAward。2021年VMware提出的NrOS[47]進一步關(guān)注多核、多節(jié)點環(huán)境下操作系統(tǒng)內(nèi)核的可擴展性和正確性。NrOS通過高效的內(nèi)核狀態(tài)復(fù)制與共享機制,簡化了內(nèi)核同步,提高了系統(tǒng)的擴展性和可靠性,為分離式和分布式硬件環(huán)境下的操作系統(tǒng)開發(fā)提供了新的思路。與此同時,分別來自英國愛丁堡大學(xué)和上海交通大學(xué)提出的AggregateVM[48]和GiantVM[49]等系統(tǒng)則從虛擬化層面推動了分離式資源管理的落地。其通過分布式Hypervisor,將來自不同物理主機的碎片化資源臨時聚合為一個虛擬機實例,支持vCPU、內(nèi)存和I/O設(shè)備的動態(tài)遷移和調(diào)度,提升了資源利用率。分離式軟件運行時在提升遠程內(nèi)存可用性和資源彈性的同時,也引入了訪問延遲和編程復(fù)雜度等開銷,需要在性能收益與系統(tǒng)復(fù)雜性之間權(quán)衡。分離式軟件運行時是一種專為分離式內(nèi)存架構(gòu)設(shè)計的運行時系統(tǒng),它的核心目標(biāo)是讓應(yīng)用能夠高效地利用分布在不同服務(wù)器上的遠程內(nèi)存資源,從而突破單機物理內(nèi)存的限制,實現(xiàn)資源的彈性擴展和高效利用。在傳統(tǒng)的數(shù)據(jù)中心架構(gòu)中,計算和內(nèi)存資源被固定地綁定在同一臺服務(wù)器上,導(dǎo)致資源利用率不均衡,部分服務(wù)器內(nèi)存閑置而部分服務(wù)器因內(nèi)存不足而性能受限。分離式運行時通過網(wǎng)絡(luò)將各服務(wù)器的內(nèi)存池化,使得應(yīng)用在本地內(nèi)存不夠時可以直接訪問遠程內(nèi)存,避免了頻繁的磁盤換入換出帶來的性能瓶頸。然而,遠程內(nèi)存訪問帶來的微秒級高延遲成為新的技術(shù)挑戰(zhàn)。傳統(tǒng)做法是通過多線程同步編程模型來隱藏遠程訪問延遲,但這種模式下頻繁的線程切換不僅帶來調(diào)度開銷,還會破壞數(shù)據(jù)局部性,造成緩存失效和更多的CPU資源浪費。華為云提出一種新型分離式運行時框架Beehive[32],其基于協(xié)程的異步執(zhí)行模型,允許每個線程在遇到遠程內(nèi)存訪問時無需阻塞,并將代碼自動拆分為多個可異步調(diào)度的小單元,通過高效的協(xié)程調(diào)度機制實現(xiàn)遠程訪問的高并發(fā)和低開銷,以最大程度地保持數(shù)據(jù)局部性。Beehive進一步借助Rust語言的類型系統(tǒng)自動將傳統(tǒng)同步代碼轉(zhuǎn)換為異步代碼,極大簡化了開發(fā)者的編程負擔(dān)。通過這些創(chuàng)新,分離式運行時不僅讓應(yīng)用能夠像使用本地內(nèi)存一樣靈活高效地使用遠程內(nèi)存,也顯著提升了資源利用率和整體性能,為云數(shù)據(jù)中心的彈性計算和大規(guī)模數(shù)據(jù)處理提供了堅實的基礎(chǔ)。支持不同異構(gòu)硬件平臺之間無縫適配與高效執(zhí)行,提升AI系統(tǒng)可擴展性與兼容性的多級中間表示運行時框架。CPU、GPU、NPU、FPGA以及各類專用加速器的不斷涌現(xiàn),AI系統(tǒng)正面臨著通用場景中前所未有的異構(gòu)性挑戰(zhàn)。直接通過軟件框架適配不同硬件,開發(fā)成本高并且難以在不同平臺間保持性能的一致性。因此,需要構(gòu)建一個能夠承接計算圖并無感適配多類型后端的中間表示。MLIR(Multi-LevelIntermediateRepresentation)[50]提出了多級中間表示的設(shè)計,闡述了多級中間表示如何支持跨域優(yōu)化與可擴展編譯器基礎(chǔ)設(shè)施。ONNX-MLIR[51]將ONNX模型映射到MLIR中,利用MLIR與LLVM的協(xié)同作用,將統(tǒng)一的ONNX模型編譯到不同硬件架構(gòu)上,提升了跨平臺的兼容性和性能。通過多層IR優(yōu)化編譯方法,解決了FPGA等可重構(gòu)硬件的開發(fā)難度和優(yōu)化復(fù)雜性,提高了系統(tǒng)實現(xiàn)、調(diào)試和擴展的效率[52]。Google的開源項目[53]通過結(jié)合硬件特性和運算圖優(yōu)化,有效地提升了TensorFlow在各種硬件平臺上的執(zhí)行效率。Intel的開源項目[54]將MILR擴展到其硬件,使ML通用編譯器基礎(chǔ)設(shè)施能夠無縫兼容底層12硬件,是MLIR在工業(yè)硬件廠商端適配的典型實踐。1.3熱點方向二:面向AI場景的PaaS數(shù)據(jù)平臺層技術(shù)以大模型為代表的AI技術(shù)的飛速發(fā)展尤其是DeepSeek等模型的正式開源,驅(qū)動國內(nèi)外各家云廠商的平臺層技術(shù)投入重心逐步向AIPaaS傾斜。舉例來說,各大廠商正積極布局Serverless化的大模型推理服務(wù);此外,AI場景不僅需要對復(fù)雜數(shù)據(jù)進行大量的實時處理,也對海量數(shù)據(jù)的高性能、低成本存儲提出了更高要求,進而催生了諸多新的技術(shù)挑戰(zhàn)。圖1.9展示了Serverless計算、數(shù)據(jù)庫服務(wù)、存儲技術(shù)三者在智能時代的平臺層技術(shù)發(fā)展重心,表1.2總結(jié)了近年具有代表性的關(guān)鍵成果案例。面向智能計算的Serverless平臺技術(shù)AI智能應(yīng)用細粒度資源供給CPUGPU算力虛擬化函數(shù)編排冷啟動優(yōu)化GPU算力虛擬化面向大模型時代的智能數(shù)據(jù)平臺技術(shù) 只讀 只讀 計算 計算+共享存儲+云原生數(shù)據(jù)平臺AI數(shù)據(jù)庫AI數(shù)據(jù)庫TextText2SQL語義算子AI-Native數(shù)據(jù)庫支撐智能任務(wù)的高性能存儲平臺技術(shù)云數(shù)據(jù)池跨域數(shù)據(jù)放置冗余數(shù)據(jù)管理海量泛在數(shù)據(jù)智能負載均衡海量泛在數(shù)據(jù)圖1.9:面向AI場景的PaaS數(shù)據(jù)平臺層技術(shù)概覽1.3.1面向智能應(yīng)用的Serverless計算平臺技術(shù)在數(shù)字經(jīng)濟加速滲透、以大語言模型和AIAgent等為代表的智能應(yīng)用廣泛落地的當(dāng)下,云計算行業(yè)正處于向智能泛在云轉(zhuǎn)型的關(guān)鍵時期。天翼云作為國家云基礎(chǔ)設(shè)施建設(shè)與服務(wù)提供的主力軍,既要滿足海量的內(nèi)部業(yè)務(wù)(如智能客服、智能運維、用戶行為分析)與外部用戶(如中小微企業(yè)AI建模、智慧城市邊緣智能計算等)對GPU算力的多樣化需求,又面臨著傳統(tǒng)云計算服務(wù)模式下GPU算力供給的多重瓶頸?;诋?dāng)前流行的Serverless編程范式,各大云計算廠商紛紛推出了基于函數(shù)即服務(wù)FaaS(Function-as-a-Service)編程模型的AI云函數(shù)產(chǎn)品,旨在向用戶提供快速部署、高度彈性以及按需付費的智能應(yīng)用開發(fā)平臺服務(wù)。然而,AI智能應(yīng)用對GPU算力的需求呈現(xiàn)“多樣化、碎片化和動態(tài)化”的特征,AI模型較大的初始化加載時延也制約著服務(wù)彈性,使得Serverless平臺設(shè)計和優(yōu)化面臨新的問題挑戰(zhàn)。構(gòu)建面向AI工作負載優(yōu)化的Serverless運行時與資源編排體系,已成為主流云服務(wù)商重點關(guān)注的技術(shù)方向。構(gòu)建低成本、高彈性的GPU云函數(shù)沙箱,提供粗粒度算力分配能力。粗粒度的算力分配是當(dāng)前云計算GPU資源供給模型存在的首要不足。傳統(tǒng)物理GPU裸金屬服務(wù)器或GPU云主機多以整機、整卡為單位分配,盡管這種方式常用于AI模型的訓(xùn)練,但在推理場景下,以“百MB級顯存、分鐘級算力”為需求的中小型應(yīng)用往往占據(jù)業(yè)務(wù)主體。粗粒度的GPU算力供給方式不僅導(dǎo)致用戶側(cè)大量算力閑置浪費,也變相提高了算力計費成本,降低用戶黏性;一些FaaS云廠商例如阿里云,Microsoft推出了按需付費的GPU云函數(shù)[55],例如,MicrosoftAzure容器應(yīng)用在某些地區(qū)為Serverless模型訓(xùn)練和推理提供了NVIDIAA100GPU,阿里云函數(shù)計算支持以1GB設(shè)備內(nèi)存為單位為函數(shù)配置NVIDIAV100GPU[56]。然而,這些FaaS平臺中的GPU函數(shù)分配粒度仍然較粗,無法精確匹配許多小模型的需求,導(dǎo)致了嚴重的資源浪費。盡管先前大量研究廣泛采用MPS[79]技術(shù)來共享GPU設(shè)備從而改善利用率,但這些技術(shù)無法應(yīng)用于需1.3.熱點方向二:面向AI場景的PAAS數(shù)據(jù)平臺層技術(shù)13表1.2:頭部企業(yè)重點關(guān)注的數(shù)據(jù)平臺層關(guān)鍵技術(shù)研究領(lǐng)域研究點研究方向概述主要會議研究主要關(guān)注點與代表性工作面向智能應(yīng)用的Serverless計算平臺技術(shù)對傳統(tǒng)云計算GPU資源供給模型存在的粗粒度分配、彈性能力不足以及運行成本高昂等問題,業(yè)界正在探索面向智能應(yīng)用的FaaS平臺技術(shù)來滿足中小模型推理、邊緣智能等“泛在化、動態(tài)化和碎片化”的AI算力需求。EuroSys?GPU云函數(shù)沙箱:阿里云和Microsoft陸續(xù)推出了面向AI智能應(yīng)用的GPU云函數(shù)服務(wù),允許租戶利用FaaS函數(shù)部署推理、訓(xùn)練等服務(wù)[55,56]。?函數(shù)冷啟動問題:華為最新的數(shù)據(jù)中心Trace深入分析了Serverless計算平臺內(nèi)部的冷啟動發(fā)生頻率以及對函數(shù)性能的影響[57]。而阿里云的最新研究成果則通過延遲調(diào)度請求以提高函數(shù)實例的復(fù)用率[57],或利用Fork機制加速實例啟動過程[58],從而減少冷啟動開銷;中國電信云計算研究院同樣聚焦函數(shù)冷啟動問題提出了熱點競爭感知的函數(shù)分區(qū)緩存技術(shù)以改善緩存效率。?資源利用率與性能優(yōu)化:字節(jié)跳動和CorkrocachDB聚焦Serverless數(shù)據(jù)庫提出了高并發(fā)擴容技術(shù)和多核心間節(jié)能方法,用于改善特定垂直領(lǐng)域應(yīng)用的運行效率[59,60]。華為則面向Serverless大模型推理業(yè)務(wù)場景開展了大規(guī)模資源快速擴容技術(shù)研究[61]。面向大模型的智能數(shù)據(jù)平臺技術(shù)向量數(shù)據(jù)庫為大模型的外部知識庫的管理提供了極大的便捷;業(yè)界結(jié)合數(shù)據(jù)平臺的能力邊界。既可以內(nèi)置AI增強數(shù)據(jù)庫的交互形式,又可以加強對底層數(shù)據(jù)的理解能力。AI基礎(chǔ)設(shè)施的逐步普及也正在逐步改寫數(shù)據(jù)庫的架構(gòu)設(shè)計。?向量檢索:Apple公司采取倒排索引的技術(shù)路線提供了向量檢索的服務(wù)[51]。AlayaDB[62]推出了基于向量檢索的高效高質(zhì)量長文本LLM推理的數(shù)據(jù)基礎(chǔ)設(shè)施。?AIInside數(shù)據(jù)平臺:阿里云百煉開源面向Java開發(fā)者的NL2SQL智能體框架[63]。阿里云瑤池數(shù)據(jù)庫團隊推出的面向企業(yè)用戶的數(shù)據(jù)分析智能體,可以根據(jù)自然語言描述進行需求分析,自動完成數(shù)據(jù)理解,并基于數(shù)據(jù)理解提出分析需求。Oracle數(shù)據(jù)庫支持自動索引創(chuàng)建和銷毀的生命周期管理能力[64]。?AIInfra加速數(shù)據(jù)平臺:阿里云瑤池數(shù)據(jù)庫團隊基于推出了基于CXL2.0協(xié)議的Po-larCXLMem多寫數(shù)據(jù)庫一體機[65]。華為推出全球首個通用計算超節(jié)點TaiShan950SuperPoD,并結(jié)合GaussDB推出替代Exadata一體機的技術(shù)方案。NVIDIA持續(xù)推進各個數(shù)據(jù)庫廠商集成GPU加速分析的合作。?氛圍編程的數(shù)據(jù)庫新訴求:Microsoft推出針對數(shù)據(jù)庫高頻列變更管理技術(shù)[66]。支撐智能任務(wù)的高性能存儲平臺技術(shù)針對大模型訓(xùn)練與推理帶來的海量存儲及低延遲需求,傳統(tǒng)存儲架構(gòu)面臨語義、性能與成本的嚴峻挑戰(zhàn)。業(yè)界正聚焦于通過軟硬件協(xié)同、元數(shù)據(jù)優(yōu)化和成本控制等,旨在構(gòu)建支撐智能任務(wù)的下一代高性能存儲底座平臺。EuroSysSoCC?大模型訓(xùn)推中的存儲優(yōu)化:字節(jié)與阿里針對訓(xùn)練,利用增量與異步寫入技術(shù)構(gòu)建高效檢查點存儲降低阻塞[67,68];月之暗面針對推理,通過以KVCache為中心的分層與重用機制緩解顯存壓力[21],Microsoft則通過高效復(fù)用減少RAG場景下的推理開銷[69];?軟硬協(xié)同的數(shù)據(jù)加速:華為為突破I/O瓶頸,一方面利用GPU直通存儲技術(shù),消除CPU數(shù)據(jù)拷貝開銷[70],同時利用DPU卸載存儲索引[71],Samsung則通過新型SSD特性優(yōu)化文件系統(tǒng)日志與數(shù)據(jù)放置效率[72,73]。?極致性能與成本壓縮:百度為對象存儲設(shè)計高效的層級元數(shù)據(jù)管理,在路徑解析性能和擴展性之間取得較
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026湖南懷化國際陸港經(jīng)濟開發(fā)區(qū)內(nèi)國有企業(yè)招聘4人考試備考題庫附答案
- 2026玉溪師范學(xué)院附屬實驗學(xué)校、玉溪師范學(xué)院附屬小學(xué)區(qū)外人才引進(28人)備考題庫附答案
- 2026福建廈門市集美區(qū)雙嶺小學(xué)產(chǎn)假頂崗教師招聘1人備考題庫附答案
- 2026福建省網(wǎng)絡(luò)與信息安全測評中心招聘駕駛員2人備考題庫附答案
- 2026福建福州市中醫(yī)院招聘1名編外眼科護理考試備考題庫附答案
- 2026西安市某電力系統(tǒng)外包項目充電設(shè)施運維人員招聘備考題庫附答案
- 2026貴州湄潭縣紀(jì)委縣監(jiān)委選調(diào)事業(yè)單位工作人員備考題庫附答案
- 2026重慶兩江新區(qū)鴛鴦社區(qū)衛(wèi)生服務(wù)中心招聘1人參考題庫附答案
- 2026陜西寶雞市科技創(chuàng)新交流服務(wù)中心招聘高層次人才3人備考題庫附答案
- 2026陜西集團龍鋼公司供銷中心一般管理崗位競聘24人參考題庫附答案
- 勞動者個人職業(yè)健康監(jiān)護檔案
- 《兩角和與差的正弦、余弦、正切公式》示范公開課教學(xué)PPT課件【高中數(shù)學(xué)人教版】
- 治理現(xiàn)代化下的高校合同管理
- 境外宗教滲透與云南邊疆民族地區(qū)意識形態(tài)安全研究
- GB/T 28920-2012教學(xué)實驗用危險固體、液體的使用與保管
- GB/T 26389-2011衡器產(chǎn)品型號編制方法
- GB/T 16588-2009帶傳動工業(yè)用多楔帶與帶輪PH、PJ、PK、PL和PM型:尺寸
- 人大企業(yè)經(jīng)濟學(xué)考研真題-802經(jīng)濟學(xué)綜合歷年真題重點
- 建筑抗震鑒定標(biāo)準(zhǔn)課件
- 人教版二年級數(shù)學(xué)下冊《【全冊】完整版》優(yōu)質(zhì)課件
- 水庫工程施工測量方案
評論
0/150
提交評論