ODCC ETH-X 以太超節(jié)點(diǎn)系統(tǒng)運(yùn)維規(guī)范 2025_第1頁
ODCC ETH-X 以太超節(jié)點(diǎn)系統(tǒng)運(yùn)維規(guī)范 2025_第2頁
ODCC ETH-X 以太超節(jié)點(diǎn)系統(tǒng)運(yùn)維規(guī)范 2025_第3頁
ODCC ETH-X 以太超節(jié)點(diǎn)系統(tǒng)運(yùn)維規(guī)范 2025_第4頁
ODCC ETH-X 以太超節(jié)點(diǎn)系統(tǒng)運(yùn)維規(guī)范 2025_第5頁
已閱讀5頁,還剩97頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

[編號(hào)ODCC-2025-03001]ETH-X以太超節(jié)點(diǎn)系統(tǒng)運(yùn)維規(guī)范開放數(shù)據(jù)中心標(biāo)準(zhǔn)推進(jìn)委員會(huì)ODCC2025年9月版權(quán)聲明作權(quán)法》保護(hù),編制單位共同享有著作權(quán)。轉(zhuǎn)載、摘編或利用其它方式使用ODCC成果中的文字銷售、改編、匯編和翻譯出版等侵權(quán)行為,ODCC及有關(guān)單位將追究其法律責(zé)任,感謝各單位的配合與支持。機(jī)、電源、液冷單元等)構(gòu)成,其復(fù)雜的配置和依賴關(guān)系遠(yuǎn)超傳統(tǒng)服務(wù)器運(yùn)維。為了滿足超節(jié)點(diǎn)集群穩(wěn)定運(yùn)行,充分發(fā)揮高效算力,ETH-X以太超節(jié)點(diǎn)系統(tǒng)運(yùn)維規(guī)范構(gòu)建覆蓋硬件資產(chǎn)全生命周本規(guī)范只涉及超節(jié)點(diǎn)內(nèi)部相關(guān)運(yùn)維環(huán)節(jié),不覆蓋計(jì)算集群整體 2 8 8 8 40 41 42 43 44 45 45 46 47 47 1 2 3 5 6 7 11 12 17 20 20 21 23 28 28 29 30 30 35 36 37 37 38 39 40 41 42 44 45 46 47 471一、概述傳統(tǒng)的中數(shù)據(jù)中心架構(gòu)難以滿足大規(guī)模AI訓(xùn)練和推理的需求,由ODCC提出來的ETH-X超級點(diǎn)技術(shù)成為提升算力密度和互聯(lián)效率點(diǎn)/網(wǎng)絡(luò)節(jié)點(diǎn)/機(jī)柜控制單元需要在運(yùn)維規(guī)范統(tǒng)一,內(nèi)容涵蓋了EHT-X超節(jié)點(diǎn)的資產(chǎn)管理體系、分層監(jiān)控系統(tǒng)、告警2二、資產(chǎn)管理對其中各個(gè)硬件設(shè)備基本信息進(jìn)行管理,CMDB即配置管理數(shù)據(jù)庫(ConfigurationManagementDatab統(tǒng)、網(wǎng)絡(luò)設(shè)備、虛擬機(jī)等等配置信息。通過CMDB可以清晰了解以太超節(jié)點(diǎn)環(huán)境中各組件之間的關(guān)聯(lián)3例如,當(dāng)某個(gè)業(yè)務(wù)系統(tǒng)出現(xiàn)故障時(shí),可借助CMDB快速定位與之相統(tǒng)升級、擴(kuò)容等變更操作時(shí),CMDB能幫助評估變更可能帶來的影1.計(jì)算節(jié)點(diǎn)45NICmanufacturersNICModelNICBandwidthNICPortRate2.GPU基礎(chǔ)信息674.機(jī)柜控制單元81.信息錄入2.信息檢查信息錄入CMDB完成以后,在軟件系統(tǒng)安裝完成以后,針對實(shí)3.信息變更三、監(jiān)控系統(tǒng)1.交換節(jié)點(diǎn):9是一種現(xiàn)代化的網(wǎng)絡(luò)監(jiān)控技術(shù),通過實(shí)時(shí)流式傳輸(Streaming在某些場景下仍需要通過SSH登錄網(wǎng)絡(luò)設(shè)備,特別是進(jìn)行復(fù)雜2.計(jì)算節(jié)點(diǎn):是一種基于現(xiàn)代Web技術(shù)的開放標(biāo)準(zhǔn),專為大規(guī)模IT基礎(chǔ)設(shè)施(如服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備)的硬件管理而設(shè)計(jì)。(2)帶內(nèi)采集執(zhí)行管理指令,并與外部管理平臺(tái)(如監(jiān)控系統(tǒng)、配置工具)通信,常見的agent包括ZabbixAgent,PrometheusNodeExporter或者自用于監(jiān)控和管理計(jì)算單元的狀態(tài)、性能及配置,類似產(chǎn)品有3.機(jī)柜控制單元機(jī)柜控制單元中的電源一般采取帶外管理的方式,通過IPMI協(xié)是一種基于現(xiàn)代Web技術(shù)的開放標(biāo)準(zhǔn),專為大規(guī)模IT基礎(chǔ)設(shè)施(如服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備)的硬件管理而設(shè)計(jì)。(CDU),則需要將液冷單元納入管理。液冷單元的管理一般是通們是通過何種硬件方式進(jìn)行通信的。所以硬件接口可以是RS-232、1.計(jì)算節(jié)點(diǎn)NICCurrentBandwidthNodePowerNICError度別上率別上別上率別上別上別上別上別上別上度度別別別障別障障障別別別表示設(shè)備發(fā)送的PAUSE控制幀的數(shù)表示設(shè)備發(fā)送的全局PAUSE幀的數(shù)port_xmit_constraint_errorspacket_seq_errreq_remote_invalid_requresp_local_length_e表示設(shè)備處理的RP擁塞通知數(shù)據(jù)包表示設(shè)備忽略的RP擁塞通知數(shù)據(jù)包biasbias(4)XCCL在需要分析業(yè)務(wù)性能經(jīng)常使用的如下接口,使用Profiler采集如建議在集合通信初始化時(shí)采集相當(dāng)于以下XCCL的數(shù)據(jù),方便bootstrapNetIfAddrNumberNumbernvlsSupportNumberNumberNumberNumberNumberNumberNumber當(dāng)前rank所在節(jié)點(diǎn)的rank數(shù)量NumberNumberNumberlink/RoCEmaxQp/13NumberNumber與節(jié)點(diǎn)內(nèi)rank路徑,如"NVL"ring算法使用LL協(xié)議時(shí)計(jì)算得到各通信原ring算法使用LL128協(xié)議時(shí)計(jì)算得到各通信ring算法使用Simple協(xié)議時(shí)計(jì)算得到各通信NumberNumber與節(jié)點(diǎn)內(nèi)rank路徑,如"NVL"tree算法使用LL協(xié)議時(shí)計(jì)算得到各通tree算法使用LL128協(xié)議時(shí)計(jì)算得到各通信NANANANANANANANANA驗(yàn)檢測到的BIT跳變態(tài)計(jì)計(jì)powerNA度NA壓NA流NAstatusNAstatusNANodecurrentstatusNANodetemperatureNANodepowerNA3.超節(jié)點(diǎn)內(nèi)網(wǎng)絡(luò)質(zhì)量況,該系統(tǒng)需具備如下特點(diǎn):通用、穩(wěn)定可靠、負(fù)載小矩陣,來呈現(xiàn)故障點(diǎn),時(shí)延,及丟包。上報(bào)方式可采用G原理:基于ICMP協(xié)議發(fā)送EchoRequest報(bào)文至目標(biāo)主機(jī),通超時(shí)則返回ICMP超時(shí)消息。支持批量探測(如fping工具通過腳本自動(dòng)化掃描網(wǎng)段(如(2)RoCEv2Ping過TCP協(xié)議棧,減少資源消耗。報(bào)文攜帶高精度時(shí)間戳,計(jì)算端到4.機(jī)柜控制單元耗耗壓壓流流度態(tài)(2)液冷單元(CDU)5.信息看板描述超節(jié)點(diǎn)的重要描述性指標(biāo),如下表,NetworkDeviceCount(2)故障類NetworkDeviceErrorNetworkAdapterError1.計(jì)算節(jié)點(diǎn)故障診斷:通過日志定位系統(tǒng)崩潰、硬件故障或服務(wù)異常的原性能監(jiān)控:跟蹤C(jī)PU/GPU利用率、磁盤I/O、網(wǎng)絡(luò)延遲等指內(nèi)核日志(kern記錄操作系統(tǒng)內(nèi)核事件,如硬件檢測、中斷定時(shí)任務(wù)日志(cron):記錄系統(tǒng)計(jì)劃任務(wù)(如備份、清理腳發(fā)生故障時(shí),使用故障收集腳本,類似nvidia-bug-report.sh生nvidia-smi/--query-gpu=.../--format=csvXID是驅(qū)動(dòng)內(nèi)部的事件標(biāo)識(shí)符(EventID當(dāng)GPU發(fā)生不可恢復(fù)的錯(cuò)誤(例如顯存損壞、PCIe通信故障、驅(qū)動(dòng)程序崩潰)時(shí)觸(2)接口狀態(tài)日志(4)協(xié)議運(yùn)行日志(6)配置變更日志(7)系統(tǒng)性能日志3.機(jī)柜控制單元(2)液冷單元五、告警系統(tǒng)1.計(jì)算節(jié)點(diǎn)端口端口bgp3.機(jī)柜控制單元類?移交操作:通過“反確認(rèn)”理蔽警警則源實(shí)例或50個(gè)指標(biāo)則能作])則擾則六、故障處理1.計(jì)算節(jié)點(diǎn)使用故障檢測腳本進(jìn)行測試,根據(jù)生成的結(jié)果2.交換節(jié)點(diǎn)供應(yīng)商需要針對各類故障類型提供故障處理指南,包括但不限于3.機(jī)柜控制單元1.業(yè)務(wù)熱遷移2.業(yè)務(wù)冷遷移1.計(jì)算/交換節(jié)點(diǎn)系統(tǒng)上下電:按照ETH-x超節(jié)點(diǎn)中約定的操作規(guī)范,依次從軟2.機(jī)柜控制單元3.風(fēng)扇/液冷4.Ca

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論