版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
智算運維產業(yè)發(fā)展2025年12月一、智算運維產業(yè)發(fā)展現狀 (一)政策環(huán)境與產業(yè)發(fā)展 (二)技術迭代與行業(yè)應用 2二、智算運維服務面臨的挑戰(zhàn) (一)多用戶多場景訓推并行,資源失衡制約算力利用效率 4(二)智算系統(tǒng)向超節(jié)點形態(tài)演進,對運維提出新要求 (三)運維語料多源異構難統(tǒng)一,智能運維大模型訓練受限 (四)系統(tǒng)與業(yè)務安全威脅,平臺可信保障面臨考驗 (五)節(jié)能調度優(yōu)化壓力大,連鎖失效風險多、損失大 6三、智算運維服務能力的建設 7 7(二)智能運維能力 四、未來趨勢預測和展望 20(一)技術層面,多要素協(xié)同演進,推動智算運維向縱深智能化發(fā)展 (二)市場層面,智算運維由“拼規(guī)模”向“拼效率、拼服務、拼價值”轉型 (三)生態(tài)層面,產業(yè)鏈協(xié)同形成開放、融合、共贏的智算運維新格局 五、智算運維落地實 2 22 26(三)科大訊飛智算運維AI節(jié)能實踐 圖1智算系統(tǒng)訓推技術棧 圖2制冷系統(tǒng)效率曲線圖 圖3節(jié)能優(yōu)化平臺 隨著“人工智能+”行動的深入推進,我國智能算力(智算)基礎所未有的挑戰(zhàn)。智算運維作為AIOps在算力領域的垂直深化,正益凸顯。析政策牽引與產業(yè)擴張的驅動力,并從微觀層面展現技術躍遷與應用后,報告面向未來3—5年,對智算運維產業(yè)的技術演進趨勢、市場格局變化以及生態(tài)發(fā)展趨勢進行了預測和展望,為決策者、技術研發(fā)及科大訊飛股份有限公司、聯想(北京)有限公司、興業(yè)銀行股份有限杜長斌、劉天偉、馮旭瀚、侯澄、鄭倚志、陳文春、余榮、羅勝濤、吳婷、鮑中帥、崔希琳、程文東、朱殿存、陳鋼、李海東、梁豐、羅俊杰、潘凌、汪海龍、葉榮春、趙建波、李聰、金開旭、張誠、盧甘禹、陳晨、王春陽、周守杰、方衛(wèi)國、邱超、秦鴻林、蔡國興、趙素本報告力求為智算運維研究與實踐提供參考,但難免有不足之處,懇請各位專家和讀者不吝指正。1當前智算運維產業(yè)發(fā)展整體呈現出“政策牽引、產業(yè)擴張、技術躍遷、應用深化”的態(tài)勢。政策牽引力度不斷增強,產業(yè)規(guī)模持續(xù)擴張,技術體系加速躍遷,應用場景全面深化,使運維成為支撐智算體系穩(wěn)定、高效、可信運行的核心基礎能力,并推動運維模式從人工運維加速向智能化、平臺化、自治化演進。這一發(fā)展態(tài)勢也為后續(xù)的算力調度管理能力、智能化運維能力、安全管理能力、能效管理能力等章節(jié)奠定了邏輯基礎。(一)政策環(huán)境與產業(yè)發(fā)展1.政策體系持續(xù)完善,國家與地方協(xié)同推動智算發(fā)展政策體系方面,智算產業(yè)的發(fā)展得到了國家戰(zhàn)略層面的強力驅動。2023年工信部等部門出臺《算力基礎設施高質量發(fā)展行動計劃》,提出優(yōu)化算力運載質量、探索構建算力互聯網等目標,旨在增強異構算力與網絡融合能力,實現計算與存儲資源的高效利用。各地方政府也積極響應,北京市、上海市、廣東省等地相繼出臺政策,2023年6月,北京發(fā)布《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施》,將新增算力建設項目納入算力合作伙伴計劃,加快推動智算中心建設,形成規(guī)模化先進算力供給能力。2025年3月,上海市經濟和信息化委員會印發(fā)《上海市關于促進智算云產業(yè)創(chuàng)新發(fā)展的實施意見(2025-2027年)》,提出到2027年,本市智算規(guī)模力爭達到200EFLOPS,其中自主可控算力占比超70%。這些政策不僅加速了智算運維的建設落地,也為智算運維市場的發(fā)展創(chuàng)造了廣闊空間。22.產業(yè)規(guī)模持續(xù)擴張,生態(tài)體系加速繁榮算力規(guī)模方面,隨著AI模型參數規(guī)模持續(xù)攀升、訓練成本快速上漲、推理需求高速增長,全球算力市場進入新一輪擴張周期。根據2025中國算力大會上公布的最新數據,截至2025年6月底,我國在用算力中心標準機架達1085萬架,智能算力規(guī)模達788EFLOPS(FP16),算力中心平均PUE(電能利用效率)降至1.42,預計到2028年中國智能算力規(guī)模將達到2,781.9EFLOPS。模型生態(tài)方面,大模型從通用能力邁向垂直行業(yè)深耕,開放模型、輕量模型、智能體生態(tài)蓬勃發(fā)展,訓練頻率提升、模型版本迭代加快、推理服務規(guī)模激增,均對底層運維體系提出全新要求。1.AI基礎設施加速演進,超節(jié)點架構驅動智算運維范式重構在科技飛速發(fā)展的當下,市場競爭日益激烈,用戶對于產品的性能、功能、能效等方面的要求不斷提高。為了滿足這些不斷變化的需求,保持產品的競爭力,企業(yè)需要不斷對產品進行升級換代。智算系統(tǒng)架構與代際持續(xù)快速演進,也是順應技術發(fā)展趨勢和市場需求變化,持續(xù)投入研發(fā)資源,推動產品創(chuàng)新和優(yōu)化的過程。相關演進不僅體現在產品性能的提升上,還涉及到產品架構、芯片、互聯方式以及散熱技術等多個關鍵領域的革新。同時,AI業(yè)務負載的變化正深刻重塑運維范式:大模型訓練呈現“長周期、高并發(fā)、強耦合”的特點,對網絡抖動、單卡故障和調度效率愈發(fā)敏感;推理側則從離線推理轉向高并發(fā)、低時延、彈性伸縮的實時服務,對資源碎片化治理、QoS保證和跨域調度提出更高要求?;A設施能力與業(yè)務負載形態(tài)的雙重變化,3智算運維產業(yè)發(fā)展研究報告(2025)使傳統(tǒng)以節(jié)點為中心的運維方式難以為繼,驅動智算運維向全鏈路可觀測、因果關聯分析、智能調度、數據驅動的AIOps與多智能體協(xié)同方向加速轉型。2.垂直行業(yè)應用加速落地,推理場景驅動智算運維需求升級大模型在政務、金融、醫(yī)療、制造、交通等行業(yè)深度滲透,AI從“模型能力突破”進入“規(guī)?;瘧寐涞亍彪A段。推理業(yè)務的爆發(fā)式增長,成為驅動算力需求與運維復雜度提升的關鍵力量。政務領域大規(guī)模上線行政助理、熱線助手等應用,對數據安全與服務連續(xù)性要求極高;金融行業(yè)的智能投研、智能風控強調低時延、高可靠;醫(yī)療行業(yè)的臨床輔助、影像分析推理量級持續(xù)上升,要求嚴格的多模態(tài)處理與合規(guī)審計。與此同時,人工智能生成內容(AIGC)、搜索增強生成 (RAG)、多模態(tài)交互等新型應用帶來高并發(fā)、強峰谷、突發(fā)性流量路可觀測、SLA管控、跨域容災提出更高要求。行業(yè)側需求的快速多樣化,使智算運維從傳統(tǒng)的資源管理和集群維護,逐步擴展到全鏈路性能保障、數據治理、成本優(yōu)化、安全可信等更廣闊的場景,推動運維體系不斷向精細化、智能化、業(yè)務化方向盡管市場前景廣闊,但當前智算運維仍面臨一系列嚴峻挑戰(zhàn)?;A設施多樣化、業(yè)務負載復雜化以及行業(yè)應用多元化,使智算運維工作面臨前所未有的復雜性和高要求。因此,構建面向大規(guī)模算力、異構架構和復雜業(yè)務場景的高效、智能、安全、綠色的運維體系,成為智算運維產業(yè)發(fā)展研究報告(2025)4支撐智算平臺穩(wěn)定運行、提升業(yè)務連續(xù)性和保障產業(yè)可持續(xù)發(fā)展的核心任務。本章將圍繞智算運維服務面臨的主要挑戰(zhàn)與能力需求進行系統(tǒng)梳理,為后續(xù)各能力模塊的分析奠定現實背景和邏輯基礎。(一)多用戶多場景訓推并行,資源失衡制約算力利用多用戶智算環(huán)境中,資源分配失衡是關鍵瓶頸。任務規(guī)模差異致部分節(jié)點閑置、部分超負荷,資源碎片化,拉低整體利用率?;旌险{度時,優(yōu)先大模型整節(jié)點訓練會限制其他任務,影響業(yè)務多樣性與靈活性。推理業(yè)務流量波動大,算力閑置浪費、超額申請難滿足需求。為提升利用率,需構建智能算力調度能力,實時感知任務與資源狀態(tài),實現算力動態(tài)分配和靈活調度,打破資源壁壘,讓閑置算力充分利用,保障任務運行,推動智算高效穩(wěn)定發(fā)展。(二)智算系統(tǒng)向超節(jié)點形態(tài)演進,對運維提出新要求當前國內外主流智算產品正在向超節(jié)點形態(tài)快速演進(英偉達、華為、曙光、浪潮、阿里等),智算超節(jié)點不僅是硬件的堆疊,更是對數據中心供電、散熱、網絡、軟件、運維流程的全方位重構。一方面,超節(jié)點功率密度更高,散熱需求及供電可靠性要求更高;另一方面,超節(jié)點超平面采用總線組網(IB、UB網絡等),器件、連接數相比原有智算形態(tài)增長7倍,多軌組網、邏輯超節(jié)點等形態(tài)疊加,導致業(yè)務運行更復雜、故障傳播機制變化更大,跨域跨層定界定位診斷更難?,F有運維能力難以匹配超節(jié)點穩(wěn)定運行的需求。同時,智算系統(tǒng)呈現技術棧緊耦合,無冗余、0容錯的特點。在訓練場景,算存網跨域故障頻發(fā)易引發(fā)訓練中斷,慢卡慢網絡等劣化導5智算運維場景下,不同設備廠商(GPU/NPUHCCL、GCCL)產生的數據格式、字段語義和事件結構高度不一致,隨著算力規(guī)模和數據價值的提升,智算平臺面或推理篡改。安全事件不僅影響業(yè)務連續(xù)性,還可能對企業(yè)聲理、異常行為檢測與快速響應能力,以保障6(五)節(jié)能調度優(yōu)化壓力大,連鎖失效風險多、損失大大規(guī)模算力集群功耗高,能效低問題突出。訓練任務長周期、高并發(fā),推理任務波峰波谷明顯,使得能耗管理和調度優(yōu)化成為核心挑戰(zhàn)。雖然節(jié)能調度技術已部分落地,但在大規(guī)模部署及運行過程中仍存在優(yōu)化空間、整體成本控制難度大。同時,智算中心高密度算力發(fā)熱巨大,液冷技術是必然選擇,但其復雜管路系統(tǒng)(串聯/并聯混合)導致冷媒分配與流量控制難度激增,引發(fā)多重疊加風險:任一節(jié)點故障(如管路阻塞或泄漏)都可能引發(fā)連鎖失效,造成局部“超溫”;冷液”風險倍增。一旦故障發(fā)生,將直接導致昂貴算力集群停機,損失巨大,對系統(tǒng)可靠性、可維護性提出極致要求。綜上所述,智算運維正處于從傳統(tǒng)模式向智能化、自動化轉型的關鍵時期。市場需求旺盛,政策支持有力,但技術和管理上的挑戰(zhàn)也同樣艱巨。解決資源利用率低、運維成本高、故障管理難等核心痛點,構建科學、高效的智算運維能力,已成為推動我國智算產業(yè)高質量發(fā)展的當務之急。(一)算力調度能力算力調度能力主要包括虛擬化、容器化、池化、異構算力適配與框架兼容以及調度算法。其目標是實現多用戶、多任務、多平臺的算力資源高效管理與調度,提升訓練和推理任務的整體算力利用率,降低資源碎片化和調度沖突。7智算運維產業(yè)發(fā)展研究報告(2025)將其劃分為多個獨立的虛擬計算單元(vGPU),實現單卡資源的多任務共享硬件資源。例如NVIDIA使用MPS(Multi-ProcessService)實現GPU的分時復用,提高單卡多任務的并發(fā)處理能力;使用MIG(Multi-InstanceGPU)實現GPU的硬件級算力切片與隔離,確保不同任務間的QoS可預測性。華為昇騰通過vNPU實現對物理NPU的切片享操作系統(tǒng)內核,對快速迭代、彈性伸縮的AI推理應用至關重要,顯著提升智算集群整體利用率。例如Docker與containerd作為主流容器的容器編排系統(tǒng),結合GPUOperator等組件,實現GPU/NPU等加速源重新整合,并通過統(tǒng)一接口供上層應用使用,實現了資源的高效調配。例如基于Kubernetes的統(tǒng)一資源池方案,再結合Volcano等調度增異構算力與框架兼容是前提。隨著國產AI芯片的崛起,異構算力調度成為關鍵。華為昇騰、海光DCU等國產芯片在硬件架構和軟件生態(tài)上與NVIDIAGPU存在差異,因此需要從編程模型、算子庫、運行8TensorFlow、MindSpore等主流框架,在底層采用插件化后端適配不同加速芯片,使模型可在多種硬件架構間透明遷移與跨芯片運行,有效解決了異構生態(tài)下的算子差異、調度不一致和優(yōu)化鏈路分裂等問題。調度策略算法是核心。訓練與推理場景對算力資源的時序、拓撲和負載特征需求不同,因此需要差異化的調度策略。在訓練場景中,通常采用Gang調度保證分布式訓練的所有Worker能夠同時就緒、同步啟動,避免部分節(jié)點等待導致的算力浪費。同時通過拓撲感知調度優(yōu)先將同一訓練作業(yè)調度到機架內或高帶寬互聯域內,最大化通信帶寬、降低All-Reduce代價,從而提升大規(guī)模分布式訓練效率。在推理場景中,則廣泛采用P/D分離調度(Prefill-DecodeSeparation)技術,將Prefill階段放在大算力、持續(xù)占用型的GPU/NPU上,保證高吞吐和長序列處理效率,將Decode階段調度到粒度更細的輕量GPU、空閑算力碎片或動態(tài)擴縮容Pod等設備上,實現更高資源利用率與更低尾時延。同時結合負載均衡調度、自適應擴縮容調度,系統(tǒng)能夠根據實時QPS和Token流量動態(tài)擴展Decode節(jié)點,避免熱點排隊與長尾延遲。更進一步,行業(yè)正在向基于預測模型的調度體系演進,通過預測訓練收斂趨勢、推理Token生成分布、跨模型流量波動等,實現從“靜態(tài)策略”走向“預判式調度”,成為下一代算力調度優(yōu)化的關鍵(二)智能運維能力智能運維是保障訓推業(yè)務穩(wěn)定運行的核心能力,主要包括可觀測性、故障根因分析、故障自愈及主動運維等核心工作。其目標是從被動響應向主動預防轉變,從人工排查向智能決策升級,從手動修復向自動自愈演進,提高系統(tǒng)穩(wěn)定性和業(yè)務連續(xù)性。Al模型-推理推理引擎計算節(jié)點存儲網絡AI模型-訓練Al訓練平臺可觀測性是基礎。在大規(guī)模智算集群中,可觀測性體系是主動式、閉環(huán)式智能運維的基礎能力。通過構建覆蓋日志(Logs)、指標(Metrics)、鏈路追蹤(Traces)與算子級Profiling的全棧觀測體系,運維人員能夠從硬件、節(jié)點、任務到模型服務形成統(tǒng)一視圖,實現對系統(tǒng)運行狀態(tài)的透明認知??捎^測性體系需要覆蓋訓練任務從“提交調度-數據加載-前向計算-反向傳播-梯度同步”全鏈路端到端呈現及性能瓶頸識別。智算運維產業(yè)發(fā)展研究報告(2025)一是訓練拓撲可視化,基于OpenTelemetry與PyTorch或MindSporeProfiler訓練框架事件流構建訓練DAG,展示算子執(zhí)行、通信占比與慢節(jié)點定位。二是GPU和NPU精細監(jiān)測,通過借助eBPF和芯片側Profiling工具NVIDIANsight和AscendProfiling,實現顯存碎片化監(jiān)控、算子級性能診斷、算力波動監(jiān)測。三是訓練質量可視化,實時展示Loss、吞吐(TFLOPS)、通信/計算比等指標,及時發(fā)現性能退化或異常停滯。這些能力可以幫助智算運維平臺在萬卡訓練實踐中有效識別算力浪費點,如“某一節(jié)點帶寬不足導致全局Barrier延遲”“數據加載性能退化導致GPU空轉”等。大模型推理具有短時高并發(fā)、多模型共存、調用鏈路復雜、對響應時延敏感的特點,因此可觀測性在推理場景應重點關注多租戶資源分配、模型服務鏈路、KVCache管理、業(yè)務端SLA等指標。一是推理鏈路追蹤,利用OpenTelemetry或Jaeger跟蹤“請求-API-模型服務-KVCache-返回”的全鏈路,定位延遲是否來自Decode、KVMiss或負載均衡策略。二是Prefill/Decode分階段指標,分別監(jiān)測Prefill/Decode的QPS、Token/s、延遲分布,支撐PD分離策略的調度優(yōu)化;三是模型服務Profilling,分析算子耗時、顯存占用與帶寬使用,識別推理模型是否存在低效算子或顯存瓶頸。這些能力可以幫助對推理服務的“時延指標異常升高”、“模型延遲抖動”等實現秒級定位。為了支撐訓練與推理雙場景的可觀測建設需求,尤其是在復雜的7層技術棧情況下,需要通過數字孿生技術,讓用戶通過與數字模型的交互,實現快速的精細化的定界定位,同時推動傳統(tǒng)人工運維向智能運維的全生命周期演進,提供以服務客戶和保障業(yè)務質量為核心的低成本試錯、高質量運維服務。需要從以下幾個方面實現數字孿生能力的構建:首先需要收集網絡相關的歷史數據,絡業(yè)務配置數據、各類性能數據和告警數據、日志等;其次將收集到的原始數據通過數據倉庫進行加工,建立多維多層模型,基于模型驅整個網絡數字化發(fā)展過程中提供基礎能力保障,以數字地圖還原ICT真相(拓撲、業(yè)務路徑、路況),進行控制閉環(huán),實現自優(yōu)化。統(tǒng)復雜度。智能化故障根因分析(RCA)旨在基于多源觀測數據、因RDMA延遲、GPU利用率等數據,通過退化、網絡瓶頸、顯存抖動還是掛載盤I/O波動引起。二是通信瓶頸診子編譯錯誤、驅動版本沖突、顯存泄漏、容器鏡像要聚焦實時性與鏈路級瓶頸定位。一是延遲抖動根因分析,利+指標關聯,明確延遲上升是否由Decode側算子抖動、KVCacheMiss、依賴拓撲和GNN模型識別跨節(jié)點、跨服務的因果鏈條。知識推理方面,結合故障知識庫、歷史案例、規(guī)則引擎和LLM-Agent,實現自動化根性。通過規(guī)則驅動、流程編排與智能決策相結合的方式,使系統(tǒng)能夠均恢復時間(MTTR)。規(guī)模任務整體失敗。當檢測到通信性能下降時,可自動觸發(fā)拓撲遷移或通信重路由,維持分布式訓練的集體通信性能。在推理場景中,自愈能力更加關注“高并發(fā)、低時延”的服務穩(wěn)定性。當某些Decode節(jié)點出現時延飆升、顯存泄漏或QPS異常時,可自動執(zhí)行實例替換、熱遷移、流量摘除與重分配,防止單節(jié)點異常導致全局尾延遲上升。對于LLM推理特有的Prefill-Decode異構算力鏈路,則可根據鏈路健康度與負載情況實現自動切換Prefill/Decode綁定節(jié)點,保障服務連續(xù)穩(wěn)定。為提升自愈決策的覆蓋范圍與復雜度,業(yè)內逐漸采用規(guī)則引擎、工作流編排和AIOps智能策略的混合方式。規(guī)則引擎用于處理高頻、可結構化的故障,編排引擎管理復雜恢復流程。智能策略則在部分場景中提供優(yōu)化動作建議,從而形成可擴展的自愈體系。面向未來,隨著大模型驅動的自治體(AutonomousAgent)與多智能體協(xié)同技術的使智算運維逐步邁向更高水平的自治化與自優(yōu)化。主動運維是保障。在傳統(tǒng)運維模式中,運維往往被動響應故障或告警,而主動預防能力通過提前識別潛在風險并干預操作,能夠顯著降低故障發(fā)生概率,保障訓練與推理業(yè)務的連續(xù)性和穩(wěn)定性。在智算場景中,這要求對關鍵指標(如GPU/NPU利用率、通信延遲、作業(yè)排隊時間、推理尾延遲等)進行動態(tài)監(jiān)測和趨勢分析,并結合歷史運行目前業(yè)內主流的做法一是預測性維護,利用時序數據和機器學習模型預測硬件或節(jié)點故障,例如NVIDIADGX系統(tǒng)結合DCGM監(jiān)控數據進行GPU健康預測;二是基于異常檢測的主動干預,通過監(jiān)測訓練/推理過程中的性能指標波動,使用LSTM、異常檢測算法等提前識別異常,并觸發(fā)作業(yè)遷移或資源擴縮容。該能力與故障自愈緊密關聯,但更側重于主動響應,形成閉環(huán)運維體系,使智算運維從“故障響應型”(三)數據治理能力隨著智算集群規(guī)模不斷擴大、運維場景持續(xù)復雜化、智算運維大模型需求顯著提升,運維數據語料已成為驅動智能運維能力升級的關鍵“燃料”。要破解“運維語料多源異構難統(tǒng)一、智能運維大模型訓練受限”的核心瓶頸,就必須構建一套面向智算中心特性的體系化的數據治理能力體系。其目標是將跨廠商、跨架構、跨組件的復雜運維數據進行規(guī)整、融合、語義對齊,并最終沉淀為可用于大模型訓練的高質量數據集。可從以下三個方面著手:統(tǒng)一數據規(guī)范體系。圍繞基礎設施、平臺軟件、模型服務等全域數據,建立統(tǒng)一的指標體系、事件模型、日志規(guī)范與標簽體系,明確定義命名規(guī)則、時間粒度、事件結構,使結構化指標、鏈路日志、模型運行態(tài)等多類數據具備統(tǒng)一的語義基礎。通過標準化促進不同平臺、不同架構之間的數據互通互讀,解決“同指標多口徑、同事件多格式”的行業(yè)痛點。數據融合與語義對齊。構建兼容GPU、NPU、CPU、加速卡等的跨架構語義對齊規(guī)則,統(tǒng)一算子名稱、告警事件、執(zhí)行階段等關鍵語義。引入多源時間戳對齊、鏈路級/算子級關聯分析、跨組件因果推斷等技術,打通模型執(zhí)行鏈路、調度路徑、節(jié)點運行態(tài)之間的關聯關系。場景化數據標注與增強。面向故障診斷、性能調優(yōu)、能效優(yōu)化等場景,構建半自動標注工具鏈,引入弱監(jiān)督、模式挖掘、LLM輔助標注、異常片段自動聚類等技術,降低人工標注成本。結合模擬注入、日志擾動、異常合成等方式進行數據增強,提升模型對長尾場景、未知異常的泛化能力。通過構建堅實的高質量智算運維數據集,企業(yè)能夠為上層智能運維應用的開發(fā)和迭代提供源源不斷的動力,真正實現從數據到洞察、從洞察到行動的價值閉環(huán)。(四)安全防護能力隨著算力規(guī)模不斷擴大、模型參數持續(xù)增長、數據資產價值顯著提升,智算平臺已成為高價值、強攻擊面的關鍵基礎設施。構建覆蓋“硬件-系統(tǒng)-數據-模型”全鏈路的安全管理能力體系,是保障智算平臺穩(wěn)定運行、保護業(yè)務和數據安全的基礎。物理安全是智算平臺整體安全的底座,其核心在于確保算力設備在受控、可信且環(huán)境穩(wěn)定的機房中運行。隨著GPU/NPU高功耗特性和機架密度的不斷提升,機房面臨的非法接入、環(huán)境異常、設備誤操作等風險同步增加,為此行業(yè)普遍采用智能門禁與視頻行為識別防止未授權人員進入,同時采用設備指紋、硬件可信校驗等手段防止非授權設備接入算力網絡,并結合遠程可信運維體系實現對關鍵操作的全程留痕與審計,從根本上提升物理層的可信運行能力。系統(tǒng)安全聚焦于操作系統(tǒng)、容器平臺、驅動與調度組件等關鍵軟件棧的保護,以應對算力劫持、容器逃逸、框架漏洞利用、越權訪問等常見威脅。業(yè)內實踐表明,通過統(tǒng)一身份與訪問控制(IAM/RBAC)、調度接口的API策略化管控,可以有效限制非法資等機制,能夠減少組件被篡改或被攻擊者利用的可能,從而保障算力挑戰(zhàn)既來自訓練語料價值高、泄漏風險大,也來自數據在多租戶環(huán)境發(fā)過程中的完整性,防止因篡改導致模型出現偏差或暗門。結模型安全旨在保護模型權重不被竊取、推理過程不被操控,以及等風險,行業(yè)普遍采用模型文件加密、簽名校驗、權限訪問控(五)能效保障能力隨著智算平臺算力密度持續(xù)攀升、GPU/NPU單柜功耗突破30-60kW達到100KW以上,萬卡集群散熱壓力成倍上升,因此,設施級能效管理成為影響算力供給效率和能源成本的關鍵環(huán)節(jié)。當前,智算通過自然冷源利用、間接蒸發(fā)冷卻、溫區(qū)精細化管理等手段降低制冷能耗,提升冷卻效率;另一方面,以液冷(冷板液冷、浸沒式液冷等)為代表的新一代先進制冷技術正在成為主流升級路徑,其在高熱流密度場景下顯著提升散熱能力、降低輔助能耗,可將機柜散熱能力從10kW級直接提升至50kW以上,使PUE從工程優(yōu)化走向結構性下降,通過“風冷+液冷”混合架構得以推廣應用,為高密度智算集群的穩(wěn)定運行提供基礎保障。在大規(guī)模智算集群中,GPU/NPU等算力芯片已成為能耗最高的設備類別,其功耗占比通常超過整機的60%-80%。業(yè)內主要通過三類路徑提升設備級能效。一是基于負載特征的實時功率調節(jié),通過精細化采集算子利用率、顯存帶寬壓力、算力需求等指標,動態(tài)調整GPU的功率上限、時鐘頻率和工作電壓,實現“按需供能”。二是基于調度協(xié)同的運行模式控制,將訓練啟動階段、通信等待環(huán)節(jié)、推理低負載窗口等階段主動切換至低功耗模式,并結合機架溫度、液冷出水溫等信息進行熱力調節(jié);三是以硬件感知為基礎的智能混部策略,通過任務排布降低跨設備通信帶寬開銷、減少熱斑形成,使設備處于更高能效點運行。整體來看,設備級能效管理已從“被動節(jié)能”邁向“軟硬件協(xié)同的主動優(yōu)化”,在不影響訓練吞吐和推理時延的前提下,使每瓦算力的產出持續(xù)提升。同時,由于板間液冷成為智算系統(tǒng)主流趨勢,這種情況下智算系統(tǒng)GPU/NPU的運行頻率和L1液冷制冷的溫差、壓差、工質液標準要求等方面存在極大的相關性。為系統(tǒng)性提升液冷系統(tǒng)的可靠性與可維護性,保障高密度算力集群的持續(xù)穩(wěn)定運行,需要構筑L1/L2協(xié)同運維的平臺,建立覆蓋全鏈路的深度巡檢能力,對關鍵連接點與管路進行常態(tài)化監(jiān)測,提前識別泄漏隱患;加強工質水質量檢測,預防因水質變化導致的腐蝕、結垢與微生物滋生問題;同時完善應急預案并定期演練,確保在發(fā)生漏液、超溫等突發(fā)故障時能快速隔離、恢復,最大限度降低損失。此外,以算電協(xié)同為核心的能效體系正在加速成型,通過算力調度與電力調度協(xié)同優(yōu)化,可有效實現負載均衡、峰谷錯峰和能耗最優(yōu)分配,從而提升整體算力中心的能效水平和運營效率。展望未來,在人工智能技術浪潮和國家“新基建”戰(zhàn)略的雙重驅動下,智算運維產業(yè)將迎來深刻的變革與高速發(fā)展。(一)技術層面,多要素協(xié)同演進,推動智算運維向縱深智能化發(fā)展隨著智算基礎設施和業(yè)務形態(tài)持續(xù)演進,智算運維正圍繞運維對象、運維能力和運維系統(tǒng)發(fā)生結構性變化。運維對象由單節(jié)點拓展至超節(jié)點集群,系統(tǒng)規(guī)模與耦合復雜度顯著提升;運維能力由規(guī)則和經驗驅動升級為模型與知識驅動,實現對性能劣化與故障風險的精準預測;運維系統(tǒng)由單點工具演進為多智能體協(xié)同體系,支撐跨層級、跨模塊的聯動優(yōu)化,推動智算運維從被動響應走向主動預測與智能決策。(二)市場層面,智算運維由“拼規(guī)?!毕颉捌葱省I原生業(yè)務快速增長,推動智算運維由“拼規(guī)模”向“拼效率、拼服務、拼價值”轉型。算力供給模式由單一IaaS向算力即服務、模型即服務、運營即服務等多形態(tài)延伸,服務質量、成本效率和能效水平成為核心競爭要素。面向金融、政務、醫(yī)療、制造等行業(yè)的垂直化、場景化運維能力逐步成為新的增長點,行業(yè)正從基礎設施投入驅動,邁向以精細化運營和商業(yè)化變現為導向的發(fā)展階段,運維能力的專業(yè)化程度將直接影響算力資源的價值實現效率。(三)生態(tài)層面,產業(yè)鏈協(xié)同形成開放、融合、共贏的標準體系建設持續(xù)完善,中國信息通信研究院等機構正聯合產業(yè)各方,加快制定智算運維相關標準。繼AIOps通用能力、可觀測性等系列標準后,《面向智算平臺的運維能力成熟度模型》《運維智能體技術能力要求》等新標準的制定,將為行業(yè)提供可量化、可落地的評估框架和技術規(guī)范,引導產業(yè)健康有序發(fā)展;產學研用深度融合,共同推動算法模型、調度策略、能效優(yōu)化、自治運維等關鍵技術突破,加速科研成果工程化、產品化和規(guī)?;涞亍?傮w來看,智算運維將在未來3-5年內經歷從工具化到體系化、從人工主導到智能自治、從成本中心到價值中心的全面躍遷。以高效能、高可靠、高能效、高安全為核心的智算運維體系,將成為支撐AI大規(guī)模應用持續(xù)落地的關鍵底座,并推動整個數字經濟進入一個更加智能、高效、綠色的新時代。(一)中國移動智算訓推資源池運維實踐隨著大模型技術的飛速演進,模型參數量呈指數級增長趨勢,萬卡規(guī)模的分布式訓練和千卡集群推理已成為支撐超大模型研發(fā)與應用的核心基礎設施需求;訓練長穩(wěn)及推理高穩(wěn)能力具有決定性意義,不僅直接關系到訓練周期的可控性與資源投入的性價比,更是保障模型迭代效率及推理性能穩(wěn)定的關鍵前提。本次案例為中國移動在黑龍江、內蒙古兩個萬卡智算中心以及廣東千卡推理集群運維的最佳實踐,通過建立技術與管理雙輪驅動的保障體系,最終實現千億參數級別模型在萬卡集群下的高效收斂,長穩(wěn)訓練時長以及主流模型推理性能達業(yè)內領先水平,并獲人民郵電報等權威媒體報道,為超大模型的工業(yè)化訓推提供了可復用的技術范式與(1)實踐慢卡慢網絡風險識別技術大模型訓練時除了訓練中斷影響訓練進程,如果集群出現慢卡慢網絡時,不但會導致大模型訓練進程受到影響,而且集群性能異常很難定位。中國移動在黑龍江智算萬卡訓練任務保障中,采用了動態(tài)采集通信算子、存儲IO類等算子信息,通過數據合并及統(tǒng)計學特征分析,完成所有算子信息進行聚合,還原出NPU-NPU之間的通信關系,根據通信時延反推計算耗時,找到疑似導致劣化的NPU卡。提取問題NPU卡和對應節(jié)點的關鍵KPI指標,基于時間序列異常分析方法,進一步定界鎖定故障部件,支撐現場運維人員深度定位和更換備件。在應用場景上,實時采集作業(yè)信息、作業(yè)性能數據,實時劣化感知后主動進行根因診斷。主動發(fā)起作業(yè)劣化診斷,進行未中斷作業(yè)的劣化診斷,操作過程同故障診斷。(2)構建進程級斷點續(xù)訓技術方案在解決智算萬卡訓練任務斷點續(xù)訓的過程中,創(chuàng)新提出訓練任務進程級重調度和進程級在線恢復能力,有效降低訓練恢復時間、縮短訓練回滾時間。針對NPU芯片的片上緩存故障,實現故障進程不退出,在線修復片上緩存的故障地址,同時保留HCCL集合通信建鏈狀態(tài),不需要重新建鏈,降低訓練恢復時間。復用訓練任務進程級重調度恢復的部分能力,故障節(jié)點的訓練進程直接通過參數面網絡從備份節(jié)點獲取模型副本,可以繼續(xù)使用當前Step的模型信息繼續(xù)訓練,縮短了訓練回滾時間。通過上述技術創(chuàng)新,預期可以將訓練任務恢復時間和訓練回滾時間從30min級別降低到5min以內,顯著提高AI集群可用(3)引入AI+智能體提升智算運維質效現階段網絡運維工作中存在諸多問題:告警數量眾多,海量告警淹沒,故障管理跨層跨域定界定位難,海量日志人工篩選運維效率低,一線支撐工作量大,處理效率低。鑒于此,中國移動創(chuàng)新借助人工智能技術實現通信網絡的智能化運維,實現故障檢測與處理、智能問數、報表生成等運維任務的智能化解決方案,同時也是首次實現智能體在智算運維生產環(huán)境中應用。通過多智能體協(xié)同,構建決策+操作智能體綜合分析故障定位架構,實現基礎設施層故障快速定界定位及處理,采用多Agent聯動,跨越模型訓練7層架構,實現模型訓練層故障根因分析,故障處理時長由原5小時壓縮至2分鐘,大幅提升運維效率。(4)打通L1&L2聯動實現算效能效雙優(yōu)冷板式液冷架構,通過模塊化分離與盲插技術實現了高效散熱和運維,適用于智算中心高功率密度場景。并基于集群能耗觀測,綜合能耗調優(yōu)模型,通過L1&L2運維協(xié)同,在基礎設施負載和IT設備負載間,尋找設備算力最佳&能耗最低的NPU運行溫度。在真實應用場景下調節(jié)L1的CDU二次側供水溫度降低5度,聯動調節(jié)L2側器件平均運行溫度降低10度,獲得更高算效和更優(yōu)功耗的最佳聯動平衡。同步引入AI節(jié)能調優(yōu)技術,基于AI智能監(jiān)控+元器件感知能力,實現感知智能節(jié)能調控,根據設備的不同狀態(tài)實施降頻降壓,休眠,模塊級下電等分級節(jié)能策略,降低無效能耗損失,最終實現L1&L2聯動節(jié)能提升10%以上。先后被評為“國家綠色數據中心”,并入選2023年(5)打造推理全棧監(jiān)控與跨域自動診斷能力全棧的統(tǒng)一監(jiān)控能力,幫助運維人員做到大模型推理運維孿生的故障快速識別。同時借助大模型自動撥測、集合通信算子級通信時延采集智算運維產業(yè)發(fā)展研究報告(2025)列、高時延等高頻故障場景的定界定位,故障定位時長由原4小時壓縮至10分鐘,大幅提升故障定界定位效率。通過上述技術創(chuàng)新與集省專協(xié)同,中國移動在智算訓推資源池實現了硬件劣化識別準確率90%,典型劣化場景定界定位準確率80%;訓練任務恢復時間和訓練回滾時間從30min級別降低到5min以內;故障處理時長由原4小時壓縮至10分鐘;數據中心PUE值進一步降低,有效保障了智算訓推業(yè)務的穩(wěn)定運行。中國移動智算萬卡池長穩(wěn)訓練時長的大幅度提升,標志著我國在超大規(guī)模智算集群管控領域已具備領先水平,為全球超大規(guī)模智算集群的訓練與運維提供了可借鑒方案。長穩(wěn)運行能力直接將大模型訓練周期縮短近三分之一,資源利用率顯著提升,推理性能得到有效保障,為AI技術工業(yè)化量產奠定基礎。穩(wěn)定的智算底座可支撐自動駕駛、生物醫(yī)藥、新材料研發(fā)等前沿領域的突破,加速科技創(chuàng)新與產業(yè)升級。未來,中國移動將大力推動算力基礎設施從“通算為主”向“云智算”轉變,支撐多樣化、個性化、極致化計算需求,構筑新一代智能算力服務體系,從支撐大模型研發(fā)到賦能實體經濟,以領先的智算基礎設施為我國人工智能產業(yè)加速升級提供堅實可靠的算力底座。本項目為甘肅慶陽國家綠色算力樞紐節(jié)點燧弘智算中心算力管理平臺項目。項目基于聯想智算云技術底座,由燧弘深度參與平臺的設計、技術把控及底層資源設備提供,雙方聯合研發(fā)智能算力管理平臺,以構建包含600臺GPU服務器的超大規(guī)模智算集群管理。平臺實現了算力資源的自動化創(chuàng)建、靈活調度與彈性分配,并通過實時監(jiān)控與智能運維保障了算力服務的高可用性與穩(wěn)定性。項目實現了多元算力規(guī)?;旌喜渴?,為最終客戶提供涵蓋算力資源定價、計量計費等功能的精細化運營管理能力,有效支撐甘肅乃至全國的算力租賃業(yè)務與AI訓練推理任務,是“東數西算”戰(zhàn)略下的標桿性案例。(1)異構智算實現多元算力的統(tǒng)一調度與高效管理本項目成功實現了對多種異構算力的統(tǒng)一納管與混合調度,在“東數西算”國家戰(zhàn)略核心場景下,突破了多元算力協(xié)同的技術瓶頸,為全國產化算力生態(tài)的建設提供了寶貴的實踐范例。(2)算模一體打造開箱即用的AI生產力平臺本項目超越了傳統(tǒng)的算力資源供給模式,創(chuàng)新性地實現了“算力”與“模型”的一體化融合交付。平臺為用戶提供了從模型選擇、一鍵部署、微調到推理服務的全鏈路能力。這種“算模一體”的模式極大地降低了AI應用的技術門檻和使用復雜度,用戶無需關心復雜的底層環(huán)境配置與模型部署細節(jié),即可快速獲得開箱即用的AI能力,將寶貴的精力聚焦于業(yè)務創(chuàng)新本身,從而顯著加速了AI技術在千行百業(yè)的落地與應用效率。(3)FinOps運營實現算力成本的精細化與價值最大化本項目將FinOps理念深度融入算力運營體系,構建了業(yè)界領先的智能運營平臺。平臺不僅支持包年包月、按卡時消耗等多種計費模式,更提供了從預算管理、成本分析、費用優(yōu)化到可視化報表的全鏈路(4)綠色低碳通過技術創(chuàng)新實現能耗的精準管控與降低過采用聯想自研的動態(tài)電源管理(DPM)技術,實現了對數據中心能PUE控制在優(yōu)異水平,實現了高性能計算與綠色集約的平衡,為國家(1)技術效能數據資源利用率顯著提升。通過智算云平臺提供的GPU池化、超分超賣及智能調度策略,集群的總體GPU資源利用率相比傳統(tǒng)模式整體顯發(fā)現與定位時間縮短了60%以上,自動化運維率超過80%,保障了算力服務的高可用性,整體算力服務的穩(wěn)定可靠性提升了50%。成功驗證對超大規(guī)模GPU集群的穩(wěn)定管理能力,并具備平滑擴容至萬(2)產業(yè)與經濟價值直接商業(yè)收益增長,借助精細化的運營與計費系統(tǒng),燧弘綠色算力的算力服務業(yè)務收益提升了35%,實現算力資源高效運營的價值轉戰(zhàn)略定位與產業(yè)生態(tài)構建,本項目助力燧弘綠色算力在慶陽這一國家樞紐節(jié)點內確立算力服務的市場領先地位,并完成從“高端算力服務器制造一智算中心建設一算力調度運營一行業(yè)應用消納”的全產業(yè)鏈閉環(huán)布局,形成覆蓋算力產業(yè)上中下游的核心競爭力。賦能區(qū)域數字化與智能化轉型,項目所打造的高性能、普惠算力底座,不僅為慶陽市提供了穩(wěn)定可靠的算力供給,更支撐了AI技術在政務、交通、醫(yī)療等城市場景的深度應用,加速慶陽向“全國AI城市”的戰(zhàn)略目標演進。綠色集約符合國家戰(zhàn)略,項目在建設與運營中充分貫徹綠色理念,通過先進的動態(tài)電源管理(DPM)等技術,使智算中心PUE控制在優(yōu)異水平,積極響應了國家“雙碳”戰(zhàn)略,為“東數西算”工程的綠色化實施樹立了典范。本案例所驗證的“異構統(tǒng)管、算模一體、智能運營、綠色節(jié)能”四大核心能力,共同構成了一套可復制的超大規(guī)模智算中心建設范式,具有可復制借鑒意義。該范式具有高度的標準化和模塊化特性,能夠快速適配于全國八大“東數西算”樞紐節(jié)點、政府主導的公共智算平臺、大型企業(yè)的私有智算中心以及科研院所的高性能計算平臺等多種場景。其成功實踐表明,通過平臺化的方式可以有效解決當前智算產業(yè)發(fā)展中面臨的算力調度難、使用門檻高、商業(yè)回報慢和能源消耗大等共性難題,具備極其廣泛的行業(yè)推廣價值和產業(yè)帶動效應,能夠為全國范圍內的智算基礎設施建設和智能化轉型提供一份高質量的標桿AIGC的快速發(fā)展,導致算力需求激增,同時帶動智算運維的大規(guī)模建設。大量新建的智算中心,消耗了大量的電力資源。優(yōu)秀的能耗2023年10月,訊飛建成第一個全國產算力集群“飛星一號”,智高、上架集中,上架后集群負載率高等特點。高負載率和高能耗,使得集群使用方對PUE變得敏感,PUE的提升,嚴重影響了集群的運營成本。以飛星一號為例,整
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年心理分享考試題庫參考答案
- 2026年江西省萍鄉(xiāng)市單招職業(yè)適應性測試題庫及答案1套
- 2026年新單招測試題附答案
- 2026年安徽汽車職業(yè)技術學院單招職業(yè)技能測試模擬測試卷及答案1套
- 2026年臺州職業(yè)技術學院單招職業(yè)適應性測試模擬測試卷及答案1套
- 2026年河南林業(yè)職業(yè)學院單招職業(yè)技能考試題庫附答案
- 2026年安慶醫(yī)藥高等??茖W校單招綜合素質考試模擬測試卷附答案
- 2026年廣東農工商職業(yè)技術學院單招職業(yè)技能考試題庫及答案1套
- 2026青海果洛州人民醫(yī)院自主招聘編外專技人員筆試備考題庫及答案解析
- 2026年心理學測試題期末有答案
- 2026屆川慶鉆探工程限公司高校畢業(yè)生春季招聘10人易考易錯模擬試題(共500題)試卷后附參考答案
- 醫(yī)療器械法規(guī)考試題及答案解析
- 2025年河南體育學院馬克思主義基本原理概論期末考試筆試題庫
- 2026年廣西出版?zhèn)髅郊瘓F有限公司招聘(98人)考試參考題庫及答案解析
- 2026年中國鐵路上海局集團有限公司招聘普通高校畢業(yè)生1236人備考題庫及答案詳解1套
- 2026年上海市普陀區(qū)社區(qū)工作者公開招聘備考題庫附答案
- 醫(yī)源性早發(fā)性卵巢功能不全臨床治療與管理指南(2025版)
- 甘肅省平涼市(2025年)輔警協(xié)警筆試筆試真題(附答案)
- 中國雙相障礙防治指南(2025版)
- 移動式工程機械監(jiān)理實施細則
- 買房分手協(xié)議書范本
評論
0/150
提交評論