ODCC-2025 算力時代的動環(huán)監(jiān)控TBOS_第1頁
ODCC-2025 算力時代的動環(huán)監(jiān)控TBOS_第2頁
ODCC-2025 算力時代的動環(huán)監(jiān)控TBOS_第3頁
ODCC-2025 算力時代的動環(huán)監(jiān)控TBOS_第4頁
ODCC-2025 算力時代的動環(huán)監(jiān)控TBOS_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

[編號ODCC-2025-06007]開放數(shù)據(jù)中心標準推進委員會ODCC2025年11月版權(quán)聲明ODCC(開放數(shù)據(jù)中心委員會)發(fā)布的各項成果,受《著作權(quán)法》保護,編制單位共同享有著作權(quán)。轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字或銷售、改編、匯編和翻譯出版等侵權(quán)行為,ODCC及有關(guān)單位將追究其法律責任,感謝各單位的配合與支持。I 2 2 3 5 6 7 9 9 3 4 6 7 22 前言合AI建模與預(yù)測能力,實現(xiàn)異常主動預(yù)警和故障預(yù)判,幫助企業(yè)從1一、背景性和綠色節(jié)能的要求日益嚴格,動環(huán)監(jiān)控系統(tǒng)作為基礎(chǔ)設(shè)施“安全哨一方面,數(shù)據(jù)中心的運維模式逐步由“人工巡檢”過渡到“遠程集中、難以滿足業(yè)務(wù)高速發(fā)展和復(fù)雜應(yīng)用場景的多2術(shù)創(chuàng)新和應(yīng)用升級正成為行業(yè)數(shù)字化轉(zhuǎn)型和基礎(chǔ)設(shè)施高質(zhì)量發(fā)展的二、當前面臨的主要問題(一)傳統(tǒng)集成式動環(huán)架構(gòu)的弊端3的系統(tǒng)可用性難以突破99.9%,與行業(yè)對于“零中斷、秒級故障響應(yīng)”遲。隨著單機柜功率逐步逼近100kW,設(shè)施規(guī)模持續(xù)擴展,傳統(tǒng)系(二)海量數(shù)據(jù)與監(jiān)控能力不足的矛盾環(huán)監(jiān)控面臨前所未有的挑戰(zhàn)。各類IDC機房模組涉及的采集點位極4“告警風(fēng)暴”,在短時間內(nèi)涌現(xiàn)大量異常數(shù)據(jù)推送,這種“一機多能”的設(shè)計導(dǎo)致其性能無暴時更容易“卡死”或延遲,嚴重影響監(jiān)控的實時性與可靠性。5尤其值得關(guān)注的是,隨著液冷技術(shù)和高性能GPU業(yè)務(wù)在數(shù)據(jù)中常規(guī)負載下,GPU服務(wù)器可能在1分鐘之內(nèi)因過熱被迫宕機,而高性能7納米工藝的GPU服務(wù)器,在滿載狀態(tài)下從異常升溫到宕機所8卡GPU機型也因卡數(shù)增多限制,關(guān)機過程本身依然需要數(shù)秒至十化要求。系統(tǒng)能力的全方位升級已成為行業(yè)發(fā)展(三)動環(huán)系統(tǒng)接入復(fù)雜度高61.設(shè)備與配置難以標準化建模進行定制適配,大幅提升開發(fā)、運維的人力投入和時72.南北向協(xié)議多樣化的行業(yè)困境u協(xié)議棧深度異構(gòu):基礎(chǔ)設(shè)施設(shè)備涵蓋超50種標準當前弱電傳輸協(xié)議普遍存在的碎片化問題直接影響機房弱電監(jiān)83.采集接入及系統(tǒng)運營效率問題老大難以上行業(yè)問題的存在,直接導(dǎo)致了新的IDC機房的弱電接入過9響。那么,對于整個監(jiān)控環(huán)網(wǎng)中的任何一個指標抖動,IT人員能否第一時間定位到故障點并快速給出根因分析,就直接關(guān)系到IDC基三、算力時代的動環(huán)監(jiān)控系統(tǒng)TBOS借助AI多維賦能,為超大規(guī)模數(shù)據(jù)中心構(gòu)建了算力時(一)動環(huán)整體架構(gòu)全面升級1.微服務(wù)分布式架構(gòu)設(shè)計諸多難題。與傳統(tǒng)架構(gòu)相比,TBOS通過功能模塊的微服務(wù)化拆分,2.三級監(jiān)控體系uFSU(端現(xiàn)場監(jiān)控單元,動環(huán)監(jiān)控系統(tǒng)的最小子系統(tǒng),面uLSC(邊本地監(jiān)控單元,連接區(qū)域內(nèi)所有FSU,實現(xiàn)區(qū)域準的Tlink協(xié)議連接多個LSC,部署于云上。3.分級存儲方案數(shù)據(jù)的高效流轉(zhuǎn)與靈活調(diào)取成為保障運維效率和安本地緩存機制,將所有采集器采集上來的近15分鐘數(shù)據(jù)進行高頻暫無(二)深度調(diào)優(yōu)數(shù)據(jù)告警鏈路u架構(gòu)層全局優(yōu)化:TBOS全鏈路采用高效的tRPC協(xié)議替換傳“閾值變化上報”機制,整體計算量有望降低至原來的1/40。(三)統(tǒng)一設(shè)備配置模型電、環(huán)境與能耗管理、IT算力設(shè)施及網(wǎng)絡(luò)基礎(chǔ)設(shè)施等多個方面。為被監(jiān)控設(shè)備(標準設(shè)備這類設(shè)備主要包括機房的1.標準設(shè)備標準化定義測點擴展靈活:標準測點采用“基礎(chǔ)+可配置”機制,既保證核心123456789123456789測點如何計算得到:如型2.采集設(shè)備及協(xié)議標準化定義數(shù)據(jù)難以統(tǒng)一、協(xié)議集成成本高、運維和擴123456789通過上述標準化定義,TBOS平臺打通了多廠商、多類型采集設(shè)為TBOS對采集設(shè)備和協(xié)議建模后應(yīng)用在監(jiān)控系統(tǒng)上的實際呈現(xiàn)效3.告警策略標準化定義TBOS平臺推出覆蓋全設(shè)備類型的告警標準化模型,規(guī)范告警描更具體來說,告警針對每一種標準設(shè)備在不同場景下配置了一個被定義一次泛化過程,下表為實例化后的設(shè)備告警策123456789上圖為TBOS上動環(huán)告警模塊的效果呈現(xiàn),所有告警都是根據(jù)上隨著數(shù)據(jù)中心及智能運維系統(tǒng)業(yè)務(wù)復(fù)雜度不斷提升,設(shè)備數(shù)量和針對以上挑戰(zhàn),TBOS平臺自研了高度定制化的組態(tài)視圖組件,1.AI驅(qū)動采集編碼在動環(huán)行業(yè)的實際運維場景中,隨著數(shù)據(jù)中心類型和品牌的不斷為應(yīng)對協(xié)議碎片化難題,TBOS在采集Agent架構(gòu)設(shè)計之初就引適配打下了基礎(chǔ)。在此基礎(chǔ)上,團隊積極探索AI賦能協(xié)議開發(fā)的新只需根據(jù)AI編寫的初稿進行少量補充和驗證即可,大大簡化了驅(qū)動頁,按傳統(tǒng)流程開發(fā)周期往往需兩到三周。而借助AI編碼方案,通過定義合理的prompt和TBOS接口上下文,iec103的采集驅(qū)動代碼周期大幅縮減,有效釋放了研發(fā)人力和時間投入。整體來看,AI驅(qū)2.AI助力弱電接入在數(shù)據(jù)中心及機房的持續(xù)擴建與設(shè)備增量過程中,弱電系統(tǒng)(包為解決這一痛點,TBOS平臺基于開放的系統(tǒng)架構(gòu),打造了一站式的AI弱電接入助手。在弱電設(shè)備接入流程中,通過引入AI技術(shù),小程序等手段快速上傳設(shè)備信息、對接資料,AI助手自動解析廠商文檔、識別設(shè)備模型,并歸納生成標準化的接入方案。同時,利用AI的語義理解和知識推理能力,對場景需求與設(shè)備參數(shù)進行自動對齊,智能生成完整的點位對照表和測試腳本。在功能調(diào)試階段,AI用的錄入、校驗、協(xié)議對接、功能驗證等工作均可由AI助手完成,隨著業(yè)務(wù)規(guī)模的不斷擴大,數(shù)據(jù)中心和動環(huán)運維系統(tǒng)面臨著愈發(fā)復(fù)雜的技術(shù)挑戰(zhàn)。傳統(tǒng)監(jiān)控方案趨于單一,系TBOS響應(yīng)這一挑戰(zhàn),依托智研平臺,系統(tǒng)性構(gòu)建了一套多維度多維度可觀測矩陣的建設(shè),徹底擺脫了傳統(tǒng)“黑盒”運維的局限,能力也為業(yè)務(wù)優(yōu)化、性能調(diào)優(yōu)、運營決策提供了堅實的數(shù)據(jù)支撐。四、TBOS動環(huán)系統(tǒng)未來展望(一)AI數(shù)據(jù)分析支持隨著數(shù)據(jù)中心及運維平臺信息化程度不斷提高,產(chǎn)生的數(shù)據(jù)量呈針對現(xiàn)有方案的局限,TBOS平臺計劃引入AI+MCP技術(shù),將自隨著云計算、物聯(lián)網(wǎng)和智能運維的持續(xù)發(fā)展,數(shù)據(jù)中心及其支撐當前,業(yè)內(nèi)主流的監(jiān)控系統(tǒng)一般采用分層式架構(gòu),將指標數(shù)據(jù)采該系統(tǒng)監(jiān)控大盤的建設(shè),將全面提升平臺在監(jiān)控和故障響應(yīng)上的五

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論