版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
數(shù)智化重塑證券公司故障管理:構(gòu)建主動(dòng)防御新體系
周光杰2025-0410+年銀行核心系統(tǒng)、證券泛互聯(lián)網(wǎng)系統(tǒng)運(yùn)維及運(yùn)維平臺(tái)研發(fā)經(jīng)驗(yàn)。擅長持續(xù)交付、變更管控、統(tǒng)一監(jiān)控、日志分析等運(yùn)維領(lǐng)域運(yùn)維研發(fā)。親歷公司運(yùn)維體系從線上化到數(shù)字化轉(zhuǎn)型,并積極擁抱智能化。周光杰廣發(fā)證券資深SRE專家1
全生命周期的故障管理場景2
運(yùn)維左移:從被動(dòng)救火到主動(dòng)穩(wěn)定性保障3
變更管控:變更管控主要模塊設(shè)計(jì)與實(shí)踐4
應(yīng)急指揮:應(yīng)急資源協(xié)調(diào),應(yīng)急效率加速器5
智能化與場景融合目錄/CONTENTS全生命周期故障管理左移穩(wěn)定性保障重點(diǎn)切入點(diǎn)效能管理效能指標(biāo)指標(biāo)采控效能分析低效挖掘低效資源退出投入數(shù)字化容量管理容量指標(biāo)容量規(guī)劃容量評(píng)估容量監(jiān)測壓力測試容量擴(kuò)容設(shè)計(jì)及研發(fā)階段自動(dòng)化發(fā)布業(yè)務(wù)監(jiān)控應(yīng)急定位數(shù)字化部署架構(gòu)韌性設(shè)計(jì)容量評(píng)估變更風(fēng)險(xiǎn)管控主機(jī)環(huán)境配置應(yīng)用技術(shù)配置關(guān)鍵業(yè)務(wù)參數(shù)數(shù)據(jù)庫參數(shù)數(shù)據(jù)庫表結(jié)構(gòu)中間件配置應(yīng)用平臺(tái)配置網(wǎng)絡(luò)訪問配置穩(wěn)定性運(yùn)維保障關(guān)鍵能力為了確保復(fù)雜分布系統(tǒng)的穩(wěn)定性,廣發(fā)證券將穩(wěn)定性前移至系統(tǒng)設(shè)計(jì)與測試階段,圍繞6大核心能力--“故障可恢復(fù)、性能可擴(kuò)展、變更可管控、業(yè)務(wù)可監(jiān)控、問題可觀測、部署可感知”,強(qiáng)化軟件生命周期各環(huán)節(jié)的緊密協(xié)作GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站6大能力項(xiàng):故障可恢復(fù)、性能可擴(kuò)展、變更可管控、業(yè)務(wù)可監(jiān)控、問題可觀測、部署可感知
全生命周期故障管理-穩(wěn)定性保障全景業(yè)務(wù)指標(biāo)監(jiān)控業(yè)務(wù)狀態(tài)監(jiān)控業(yè)務(wù)鏈路監(jiān)控
數(shù)據(jù)正確性監(jiān)控
服務(wù)接口監(jiān)控業(yè)務(wù)撥測監(jiān)控上游依賴監(jiān)控定義容量指標(biāo)設(shè)計(jì)容量基線埋點(diǎn)容量指標(biāo)監(jiān)控容量策略水平擴(kuò)容方案資源擴(kuò)容方案依賴彈性平臺(tái)容量效能評(píng)估終端灰度服務(wù)端灰度程序發(fā)布配置發(fā)布數(shù)據(jù)庫腳本變更參數(shù)調(diào)整主機(jī)操作應(yīng)用配置操作依賴平臺(tái)操作運(yùn)行評(píng)估容災(zāi)風(fēng)險(xiǎn)評(píng)估高可用風(fēng)險(xiǎn)評(píng)估性能風(fēng)險(xiǎn)評(píng)估常態(tài)化健康巡檢智能風(fēng)險(xiǎn)檢測日志模式識(shí)別運(yùn)行趨勢分析變更管理變更場景變更事件變更防御變更控制變更定位變更驗(yàn)證架構(gòu)管理架構(gòu)評(píng)審日L1:基礎(chǔ)保障級(jí)L2:具備逃生通道L3:可熱操作止損L4:可止損隔離L5:跨系統(tǒng)間止損監(jiān)控管理
客戶體驗(yàn)監(jiān)控
業(yè)務(wù)功能監(jiān)控服務(wù)監(jiān)控平臺(tái)監(jiān)控服務(wù)器監(jiān)控網(wǎng)絡(luò)監(jiān)控安全監(jiān)控應(yīng)急管理應(yīng)急發(fā)現(xiàn)應(yīng)急響應(yīng)應(yīng)急指揮應(yīng)急定界應(yīng)急止損根因定位故障復(fù)盤風(fēng)險(xiǎn)治理配置治理最小計(jì)算單元軟件配置治理應(yīng)急預(yù)案管理演練管理混沌工程定位排障編排降級(jí)限流切換重啟熔斷隔離異步處理重試關(guān)鍵邏輯變更架構(gòu)調(diào)整依賴平臺(tái)變更上游系統(tǒng)變更
組件下線新組件或業(yè)務(wù)海量終端體驗(yàn)數(shù)據(jù)遷移關(guān)鍵配置變更可觀測看板
日志數(shù)據(jù)規(guī)范日志數(shù)據(jù)埋點(diǎn)鏈路id埋點(diǎn)監(jiān)控指標(biāo)埋點(diǎn)上游依賴清單下游影響清單上線
后持
續(xù)挖
掘并
防范線
上風(fēng)險(xiǎn)上線前的非功能性需求設(shè)計(jì)左移生產(chǎn)系統(tǒng)架構(gòu)韌性感知管理線上架構(gòu)評(píng)審混沌工程挖掘風(fēng)險(xiǎn)系統(tǒng)韌性能力故障發(fā)現(xiàn)與執(zhí)行數(shù)字化應(yīng)急預(yù)案故障的可恢復(fù)性指,當(dāng)系統(tǒng)因內(nèi)部或外部因素導(dǎo)致業(yè)務(wù)中斷或面臨故障風(fēng)險(xiǎn)時(shí),系統(tǒng)應(yīng)具備及時(shí)發(fā)現(xiàn)故障的能力,并能夠迅速采取降級(jí)、限流、切換、重置、隔離等韌性措施以恢復(fù)業(yè)務(wù)連續(xù)性GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
全生命周期故障管理-故障可恢復(fù)高可用異地容災(zāi)高可用微服務(wù)高可用熱備高可用負(fù)載均衡高可用db高可用集群緩存高可用設(shè)計(jì)切換應(yīng)用切換容災(zāi)切換依賴應(yīng)用平臺(tái)切換(db\中間件\應(yīng)用平臺(tái)
)其他韌性設(shè)計(jì)異步處理重試自愈策略彈性伸縮超時(shí)灰度隔離服務(wù)隔離策略資源隔離數(shù)據(jù)隔離進(jìn)程隔離網(wǎng)絡(luò)隔離重置主機(jī)重啟應(yīng)用重啟依賴平臺(tái)重啟程序回滾配置回滾數(shù)據(jù)回滾限流應(yīng)用限流接口限流業(yè)務(wù)限流用戶限流IP限流時(shí)間窗口限流降級(jí)業(yè)務(wù)整體降級(jí)非關(guān)鍵業(yè)務(wù)降級(jí)鏈路弱依賴降級(jí)調(diào)度任務(wù)降級(jí)功能或用戶降級(jí)接口降級(jí)L4:自愈或半自愈止損隔離L1:基礎(chǔ)保障級(jí)L2:具備逃生通道L3:可熱操作止損L5:跨系統(tǒng)間止損免疫故障全自愈半自愈工具異常監(jiān)控跟蹤閉環(huán)快速中止觀測可視化健康檢查接口故障注入分析不足演練計(jì)劃異常數(shù)據(jù)上報(bào)故障模擬庫業(yè)務(wù)操作構(gòu)建主動(dòng)變更防御和管控分析:提前發(fā)現(xiàn)解決故障風(fēng)險(xiǎn)GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
數(shù)智化重塑故障管理全過程混沌工程
可觀測工程
智能變更防御智能風(fēng)險(xiǎn)檢測智能巡檢智能變更定位智能排障應(yīng)急總線
AI+ChatOps
全生命周期故障管理變更事件感知操作標(biāo)準(zhǔn)化
變化感知技術(shù)驗(yàn)證壓力測試變更防御同步對齊功能驗(yàn)證
關(guān)鍵巡檢時(shí)序管控變更復(fù)核首筆驗(yàn)證變更評(píng)審變更自動(dòng)化首日保障變更管控運(yùn)維左移應(yīng)急管理左移內(nèi)建系統(tǒng)穩(wěn)定性:為應(yīng)急提供更多手段效能數(shù)據(jù)上報(bào)架構(gòu)韌性評(píng)審站會(huì)應(yīng)急發(fā)現(xiàn)應(yīng)急指揮應(yīng)急響應(yīng)應(yīng)急定界架構(gòu)評(píng)審上線評(píng)審可觀測埋點(diǎn)微服務(wù)治理應(yīng)急止損應(yīng)急預(yù)案根因定位應(yīng)急工具故障復(fù)盤風(fēng)險(xiǎn)揭示非功能規(guī)范依賴治理運(yùn)維左移?
架構(gòu)韌性模型?
左移工作機(jī)制?
左移工程性實(shí)踐“穩(wěn)定性是設(shè)計(jì)出來的!”n
了解“Designforfailure”思維n
不是架構(gòu)師,但需要懂架構(gòu)n
提前介入,主動(dòng)參與GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
運(yùn)維左移:架構(gòu)韌性模型L1
基礎(chǔ)保障級(jí)運(yùn)行可觀測性系統(tǒng)可運(yùn)維性故障可恢復(fù)性性能可擴(kuò)展性L2
具備逃生通道(可恢復(fù))L3
可熱操作止損(無單點(diǎn)風(fēng)險(xiǎn))L4
可止損隔離(自愈/半自愈)L5
跨系統(tǒng)間止損免疫架構(gòu)韌性L1~
L5模型降級(jí)日志規(guī)范冗余設(shè)計(jì)…自動(dòng)擴(kuò)容異步任務(wù)多級(jí)緩存…監(jiān)控指標(biāo)撥測支持冗余設(shè)計(jì)熔斷Tracing…故障隔離自動(dòng)化部署維護(hù)文檔回滾機(jī)制訪問控制配置管理…自動(dòng)故障轉(zhuǎn)移負(fù)載均衡數(shù)據(jù)庫性能n
新系統(tǒng)立項(xiàng)及上線,必須通過TC評(píng)審n
TC委員會(huì)包括各條線運(yùn)維專家,將非功能性需求和穩(wěn)定性保障要求納入評(píng)審范圍GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站技術(shù)架構(gòu)圖前端技術(shù)評(píng)審-緩存/CDN前后端技術(shù)棧中間件/開源組件治理Devops/CI/CD接入評(píng)審日志接入規(guī)范服務(wù)治理(狀態(tài)/順序/優(yōu)雅停止)云原生適配評(píng)估數(shù)據(jù)架構(gòu)圖數(shù)據(jù)對接評(píng)審(量/并發(fā))數(shù)據(jù)生命周期數(shù)據(jù)治理依賴治理
運(yùn)維左移:上線架構(gòu)評(píng)審部署架構(gòu)圖備份及容災(zāi)存儲(chǔ)容量評(píng)估運(yùn)維支撐及監(jiān)控
網(wǎng)絡(luò)流量業(yè)務(wù)連續(xù)性及應(yīng)急服務(wù)模塊內(nèi)部關(guān)鍵邏輯接口規(guī)范負(fù)載評(píng)估基礎(chǔ)能力復(fù)用關(guān)聯(lián)改造應(yīng)用架構(gòu)數(shù)據(jù)架構(gòu)技術(shù)架構(gòu)部署架構(gòu)
運(yùn)維左移:
架構(gòu)韌性評(píng)審站會(huì)n
開放、寬容的討論氛圍n
專注架構(gòu)韌性探討,定期開展持續(xù)提升運(yùn)維能力GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站系統(tǒng)架構(gòu)韌性評(píng)價(jià)表評(píng)審站會(huì)現(xiàn)場照片結(jié)合集群所在機(jī)房、主機(jī)存活狀態(tài)等信息:n
存在單點(diǎn)風(fēng)險(xiǎn)問題的應(yīng)用篩查n
機(jī)房級(jí)異常對所有應(yīng)用的影響評(píng)估以此為依據(jù)推動(dòng)架構(gòu)優(yōu)化或?qū)崟r(shí)監(jiān)控規(guī)劃:結(jié)合混沌工程,以工程化手段不斷推動(dòng)架構(gòu)優(yōu)化GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站應(yīng)用A應(yīng)用
B集群2
集群1集群2
運(yùn)維左移:
推動(dòng)應(yīng)用消除單點(diǎn)風(fēng)險(xiǎn)(達(dá)成架構(gòu)韌性L3)n
根據(jù)CMDB數(shù)據(jù)層級(jí)模型,抽象出篩查模型n
構(gòu)建篩查報(bào)表以及實(shí)時(shí)監(jiān)控工具應(yīng)用集群容災(zāi)模式:l
多活l
熱備l
冷備l
單數(shù)據(jù)中心集群角色:l
主l
備l
災(zāi)集群1主機(jī)1主機(jī)1系統(tǒng)…變更管控?
變更生命周期管控?
變更操作執(zhí)行痛點(diǎn)?
主動(dòng)變更防御?
變更感知與風(fēng)險(xiǎn)分析
變更管控變更是穩(wěn)定性的第一殺手對于證券公司更是絲毫不敢懈怠,因?yàn)樽兏髽I(yè)務(wù)流量很可能面臨上線即高峰的處境交易系統(tǒng)的變更一般有按周迭代、變后測試驗(yàn)證、首日重點(diǎn)保障的特點(diǎn)GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站同步實(shí)施驗(yàn)證評(píng)審變更實(shí)施功能測試關(guān)鍵時(shí)刻巡檢重要保障評(píng)估操作時(shí)序評(píng)審雙崗復(fù)核壓力測試保障集結(jié)系統(tǒng)內(nèi)評(píng)審CAB評(píng)審首筆驗(yàn)證最終確認(rèn)是否上線重點(diǎn)保障溝通變更內(nèi)容全局把控資源測試驗(yàn)證及記錄問題
重點(diǎn)保障
運(yùn)維團(tuán)隊(duì)間對齊變更后首日業(yè)務(wù)、操作復(fù)核規(guī)范遵循見單操作操作時(shí)間對齊盤后復(fù)盤多個(gè)場景工具為變更管理中多個(gè)環(huán)節(jié)開道護(hù)航n
變更驗(yàn)證表:自動(dòng)變更驗(yàn)證提醒督辦,確保開閘前完成驗(yàn)證閉環(huán)n
集結(jié)通知:自動(dòng)化通知相關(guān)人員集結(jié)保障n
巡檢推送:聚焦關(guān)鍵時(shí)刻時(shí)系統(tǒng)、數(shù)據(jù)狀態(tài),做到心里有數(shù)GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
變更管控關(guān)鍵時(shí)刻重要巡檢推送變更驗(yàn)證待辦集結(jié)通知關(guān)閉服務(wù)A測試環(huán)境關(guān)閉服務(wù)B測試環(huán)境恢復(fù)數(shù)據(jù)庫A&
BGO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站關(guān)閉服務(wù)A備份及切換數(shù)據(jù)庫
A
變更管控:大規(guī)??鐖F(tuán)隊(duì)變更時(shí)序管控恢復(fù)服務(wù)A恢復(fù)服務(wù)B時(shí)序工具,確保需要各崗位人員間協(xié)同的操作不早做、不晚做、不漏做測試系統(tǒng)A運(yùn)維系統(tǒng)
B運(yùn)維DBA8:00-9:0016:00-17:009:00-16:00測試驗(yàn)證備份及切換數(shù)據(jù)庫
B開啟服務(wù)A測試環(huán)境開啟服務(wù)B測試環(huán)境關(guān)閉服務(wù)BGO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
變更管控:大規(guī)??鐖F(tuán)隊(duì)變更時(shí)序管控提前溝通對齊信息與導(dǎo)入,時(shí)序工具自動(dòng)按時(shí)提醒
,逾期自動(dòng)升級(jí)督辦逾期升級(jí)督辦個(gè)人任務(wù)列表時(shí)序配置匯總GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站故障快速定位引發(fā)的變更難缺乏全局變更信息,無法定位什么變更導(dǎo)致故障變更流程無法準(zhǔn)確定位具體變更對象變化和操作事件操作不標(biāo)準(zhǔn)引發(fā)操作風(fēng)險(xiǎn)常規(guī)操作執(zhí)行動(dòng)作不統(tǒng)一,無沉淀復(fù)用關(guān)鍵步驟遺漏技術(shù)檢查與驗(yàn)證不到位變更操作行為無感知缺乏全局變更操作事件感知無法獲取跨團(tuán)隊(duì)關(guān)聯(lián)變更操作信息非預(yù)期操作行為無預(yù)警和事后審計(jì)分析變更對象關(guān)鍵變化無感知變更對象穩(wěn)定性因子通常引發(fā)故障無法有效感知穩(wěn)定性因子的異常變化無事后分析預(yù)警事前變更影響難評(píng)估審批依賴經(jīng)驗(yàn),難以全面評(píng)審審批依賴的信息與實(shí)際操作脫鉤跨團(tuán)隊(duì)跨系統(tǒng)關(guān)聯(lián)影響難評(píng)估高危變更無事中管控高危時(shí)段、高危變更場景無管控缺少阻斷機(jī)制,無法快速止損
變更管控:痛點(diǎn)分析010306020504變更對象及感知因子總線應(yīng)用部署devops一體化日常操作標(biāo)準(zhǔn)化GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站變更操作平臺(tái)其他平臺(tái)AOMPaaS平臺(tái)堡壘機(jī)日志平臺(tái)變更事件統(tǒng)一接入
變更前置校驗(yàn)
變更執(zhí)行(灰度)
變更后置檢查變更后風(fēng)險(xiǎn)預(yù)警變
更
正確
性
校
驗(yàn)業(yè)關(guān)務(wù)聯(lián)正變確更檢提查醒變更防御策略變
更
單
審
批
校
驗(yàn)變
更
窗
口校
驗(yàn)封
網(wǎng)
期
封
控合
規(guī)
要
素
校
驗(yàn)異常變更定位關(guān)
聯(lián)
變
更
追
蹤多
維
變
更
追
溯異
常
變
更
推
理變更影響面分析上下
游
應(yīng)
用
影
響接
口影
響
分
析依
賴
影
響
分
析相
似
風(fēng)
險(xiǎn)
匹配
變更管控:管控全景防控要素變更防控變更防御變更AI助手變更感知分析變更風(fēng)險(xiǎn)分析AI風(fēng)險(xiǎn)分析事件及感知數(shù)據(jù)處理豐富變更場景非常規(guī)操作單變更審批CMDB配置關(guān)系網(wǎng)絡(luò)撥測主機(jī)安裝基線環(huán)境準(zhǔn)備與恢復(fù)補(bǔ)丁升級(jí)安全掃描系統(tǒng)重啟CMDB配置項(xiàng)數(shù)據(jù)維護(hù)單變更單應(yīng)用配置數(shù)據(jù)庫腳本業(yè)務(wù)參數(shù)變更準(zhǔn)入多環(huán)境一致
性制品進(jìn)階灰度部署快速回滾應(yīng)用程序部署客戶端發(fā)布業(yè)務(wù)層中間層主機(jī)層敏感變更告警應(yīng)用層不合規(guī)操作發(fā)現(xiàn)變更健康檢查變更軌跡追蹤平臺(tái)層網(wǎng)絡(luò)層容器云應(yīng)用中間件數(shù)據(jù)庫主機(jī)關(guān)鍵參數(shù)表進(jìn)程配置參數(shù)Service靜態(tài)配置動(dòng)態(tài)配置工作負(fù)載網(wǎng)絡(luò)連接環(huán)境變量表結(jié)構(gòu)標(biāo)準(zhǔn)化存儲(chǔ)實(shí)時(shí)分析全域采集GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站變更管控-系統(tǒng)架構(gòu)GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
變更管控:建模-變更事件注:參考螞蟻?zhàn)兏芸亻_源項(xiàng)目AlterShield(https://altershield.io)工單CMDB配置等變更上下文變更事件采控管理采集系統(tǒng)采集應(yīng)用數(shù)據(jù)處理pipeline(字段豐富
/
自定義腳本)變更風(fēng)險(xiǎn)因子process_create_timecwd變更感知因子進(jìn)程文件掛載
變更管控:建模-變更感知因子變更感知因子:由變更操作導(dǎo)致的系統(tǒng)關(guān)聯(lián)IT對象部署運(yùn)行狀態(tài)變化的因素變更對象GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站可觀測指標(biāo)......支持?jǐn)U展支持?jǐn)U展變更對象
-感知項(xiàng)采集調(diào)度/手工采集全量采集/指定采集采集環(huán)境采集器選擇應(yīng)用主機(jī)容器云服務(wù)實(shí)例數(shù)據(jù)庫服務(wù)支持?jǐn)U展cmdlineprocess_nameprocess_ownerexe網(wǎng)絡(luò)連接路由cpu信息防火墻變更窗口檢查變更工單信息校驗(yàn)變更感知因子采集比對變更前置條件確認(rèn)l
能力原子化l
標(biāo)準(zhǔn)化編排l
主動(dòng)防御l
落實(shí)合規(guī)要求(雙人復(fù)核/線上留痕)l
工具共建共享GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站主動(dòng)防御
前置準(zhǔn)備
變更執(zhí)行
后置檢查
變更復(fù)核
變更管控:標(biāo)準(zhǔn)化變更操作工具變更對象感知因子采集監(jiān)控維護(hù)期設(shè)置變更完成通知復(fù)核待辦通知高危操作檢查自動(dòng)化流程3變更工具1變更工具2關(guān)閉維護(hù)期變更通知技術(shù)檢查復(fù)核操作。。。l
前置準(zhǔn)備:重啟前采集變更感知因子l
變更操作:發(fā)起重啟,輪詢至重啟完畢l
后置檢查:重啟后采集變更感知因子,完成2次采集結(jié)果比對GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
變更管控:標(biāo)準(zhǔn)化變更操作工具效果:l
基于變更事件(上下文)的規(guī)則防御l風(fēng)險(xiǎn)前置攔截:在變更執(zhí)行前識(shí)別潛在風(fēng)險(xiǎn)l過程強(qiáng)管控:約束高風(fēng)險(xiǎn)操作(如生產(chǎn)環(huán)境數(shù)據(jù)維護(hù))計(jì)劃:l
變中快速止血:異常變更實(shí)時(shí)阻斷或自動(dòng)回滾;l數(shù)據(jù)可追溯:記錄變更全鏈路數(shù)據(jù),輔助根因
分析。GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
變更管控:主動(dòng)防御GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
變更管控:變更感知采集邏輯統(tǒng)一感知因子命名計(jì)劃:感知因子自發(fā)現(xiàn)
可擴(kuò)展感知因子采集插件
GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
變更管控:變更感知比對策略主機(jī)?
10000+主機(jī)?10+感知因子,持續(xù)擴(kuò)展?
兼容windows/linux/信創(chuàng)os數(shù)據(jù)庫?表結(jié)構(gòu)?關(guān)鍵業(yè)務(wù)參數(shù)表?oracle/mysql/pgsql/goldendb/tdsql/…程序及配置?重要系統(tǒng)程序及關(guān)鍵配置?
測試+生產(chǎn)多環(huán)境比對?比對預(yù)警確認(rèn)閉環(huán)容器云資源?
200+系統(tǒng)?700+命名空間?8000+helm實(shí)例?Deployment/Service/Release/Pod/…GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
變更管控:數(shù)字化變更感知GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
變更管控:數(shù)字化變更感知場景主機(jī)進(jìn)程狀態(tài)比對清洗IP訪問關(guān)系關(guān)鍵配置文件比對標(biāo)準(zhǔn)變更工具?主機(jī)重啟?開閉市?
周末測試環(huán)境準(zhǔn)備恢復(fù)?主機(jī)基準(zhǔn)初始化?服務(wù)啟停應(yīng)急?數(shù)據(jù)維護(hù)平臺(tái)變更事件?容器云平臺(tái)?持續(xù)交付平臺(tái)?
自動(dòng)化平臺(tái)?
數(shù)據(jù)庫管控平臺(tái)?統(tǒng)一網(wǎng)關(guān)?
中間件云平臺(tái)非標(biāo)變更事件?堡壘機(jī)?業(yè)務(wù)系統(tǒng)管理端?
內(nèi)容管理平臺(tái)?
。。。GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
變更管控:變更事件態(tài)勢感知應(yīng)急指揮?
應(yīng)急保障體系?
一站式應(yīng)急總線?
事件處理流程?
數(shù)字化應(yīng)急預(yù)案IT運(yùn)營指揮中心(ECC)n
主要包括故障監(jiān)測、應(yīng)急指揮、數(shù)據(jù)運(yùn)營、重大演練等核心職能n
OnCall人員的值守、應(yīng)急作戰(zhàn)指揮室的線下場所應(yīng)急處置決策GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
應(yīng)急指揮:應(yīng)急保障體系OnCall值班經(jīng)理
&
一線IT運(yùn)營指揮中心ECC應(yīng)急響應(yīng)作戰(zhàn)室重大保障集結(jié)故障定界&
定位故障發(fā)現(xiàn)GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站值班經(jīng)理統(tǒng)籌管理二三線協(xié)同支撐
應(yīng)急指揮:應(yīng)急保障體系一線運(yùn)維值班崗快速恢復(fù)ChatOps人機(jī)協(xié)同監(jiān)控告警響應(yīng)機(jī)器人應(yīng)急管理輔助機(jī)器人值班經(jīng)理助手OnCall機(jī)器人巡檢機(jī)器人在線監(jiān)測、巡檢
異常申報(bào)應(yīng)急響應(yīng)診斷定位業(yè)務(wù)恢復(fù)二線運(yùn)維專家支持測試復(fù)現(xiàn)與驗(yàn)證研發(fā)代碼排查與修改產(chǎn)品業(yè)務(wù)邏輯分析項(xiàng)目資源協(xié)調(diào)統(tǒng)籌管理資源協(xié)調(diào)應(yīng)急指揮值班質(zhì)控盤后復(fù)盤深入技術(shù)分析,執(zhí)行故障診斷和修復(fù)操作,提供專業(yè)技術(shù)建議全面協(xié)調(diào)和管理整個(gè)故障響應(yīng)過程,做出關(guān)鍵決策,確保團(tuán)隊(duì)高效協(xié)作負(fù)責(zé)內(nèi)外部溝通,及時(shí)更新利益相關(guān)者,管理事故狀態(tài)頁面,協(xié)調(diào)跨團(tuán)隊(duì)合作OnCall
值班借鑒
&適配故障指揮官執(zhí)行官通訊官Incident
CommanderCommunications
LeadOperations
Lead值班管理服務(wù)臺(tái)ITSM事件管理每日盤ITSM問題管理后復(fù)盤統(tǒng)一告警巡檢撥測應(yīng)急集結(jié)應(yīng)急指揮場景操作工具版本回切事件復(fù)盤風(fēng)險(xiǎn)揭
示信息公告系統(tǒng)可觀測版本、參數(shù)、配置變化感知IMS分析看板超時(shí)告警BOT監(jiān)控發(fā)現(xiàn)輔助分析BOT識(shí)別與申報(bào)IMS應(yīng)急指揮BOT值班經(jīng)理輔助定界復(fù)盤分析BOT輔助機(jī)器人故障恢復(fù)事件復(fù)盤問題跟蹤l
建立一站式的應(yīng)急總線系統(tǒng),可以實(shí)時(shí)洞察應(yīng)急過程,連接與應(yīng)急相關(guān)的工具、數(shù)據(jù)、流程的指揮系統(tǒng)l
多角色:公司領(lǐng)導(dǎo)、技術(shù)部門領(lǐng)導(dǎo)、運(yùn)維值班經(jīng)理、運(yùn)維崗、研發(fā)崗、測試崗、產(chǎn)品需求崗、外聯(lián)崗等,且支持?jǐn)U展到上下游相關(guān)崗位l
多終端:PC、移動(dòng)、IM、大屏多端的在線協(xié)同l
多渠道:支持自動(dòng)與人工秒級(jí)啟動(dòng),包括集結(jié)、建群、機(jī)器人、電話、OA待辦等10+種豐富的資源調(diào)度手段l
人機(jī)協(xié)同:多種類型的專業(yè)性機(jī)器人輔助應(yīng)急指揮,連接可觀測數(shù)據(jù)
輔助應(yīng)急?持續(xù)提升:以各種“小事件”實(shí)戰(zhàn)提升團(tuán)隊(duì)面對復(fù)雜故障的應(yīng)急能力,在線數(shù)據(jù)賦能問題的發(fā)現(xiàn),提升應(yīng)急管理水平用戶能夠在秒級(jí)時(shí)間內(nèi)建立應(yīng)急連接,達(dá)到數(shù)據(jù)匯總、信息融合、運(yùn)行感知、人機(jī)協(xié)同、工具互聯(lián)的一站式協(xié)同“總線”作用,實(shí)現(xiàn)全面感知、精準(zhǔn)決策、協(xié)同高效、指揮有效GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
應(yīng)急指揮:
一站式應(yīng)急總線應(yīng)急預(yù)案應(yīng)急集中線上流程數(shù)據(jù)賦能ChatOps場景工具GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
應(yīng)急指揮:標(biāo)準(zhǔn)化事件處理流程黃金指標(biāo)日志輸出業(yè)務(wù)驗(yàn)證下游確認(rèn)n
原子化:打造可復(fù)用的預(yù)案,為預(yù)案流程的編排、更新、關(guān)聯(lián)自動(dòng)化提供便捷n
數(shù)字化:提供預(yù)案可編排、可演練、可統(tǒng)計(jì)、可遍歷、可自愈的能力,可持續(xù)擴(kuò)展應(yīng)急原子預(yù)案GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站處置動(dòng)作編排處置動(dòng)作編排主機(jī)異常策略處置動(dòng)作編排自動(dòng)化原子預(yù)案驗(yàn)證處置是否符合預(yù)期鏈接驗(yàn)證處置是否符合預(yù)期確認(rèn)表驗(yàn)證處置是否符合預(yù)期鏈接快速判斷是否能執(zhí)行處置動(dòng)作快速判斷是否能執(zhí)行處置動(dòng)作確認(rèn)表快速判斷是否能執(zhí)行處置動(dòng)作鏈接
應(yīng)急指揮:數(shù)字化應(yīng)急預(yù)案服務(wù)A
應(yīng)急處置驗(yàn)證組件
B應(yīng)急處置服務(wù)
C應(yīng)急處置 鏈接
確認(rèn)表
驗(yàn)證判斷處置階段鏈接應(yīng)用異常策略確認(rèn)表DB異常策略…主機(jī)異常策略
應(yīng)急卡片A01
應(yīng)急卡片A02
智能化與場景融合?
廣發(fā)證券對智能運(yùn)維理解?
運(yùn)維平臺(tái)智能化升級(jí)思路?
案例分享Gartner提出了AIOps的理念,定義為:
AIOps平臺(tái)的人工智能將大數(shù)據(jù),
AI機(jī)器學(xué)習(xí)和其他技術(shù)相結(jié)合,通過主動(dòng),
個(gè)性化和動(dòng)態(tài)的洞察力支持所有主要IT運(yùn)營功能。
AIOps平臺(tái)支持同時(shí)使用多個(gè)數(shù)據(jù)源,數(shù)據(jù)收集方法,
分析技術(shù)和可視化等技術(shù)。算法式的智能運(yùn)維主要應(yīng)用在指標(biāo)與日志數(shù)據(jù)分析,僅適用于部分應(yīng)用場景。隨著大模型的興起,
新增了生成式智能運(yùn)維發(fā)展路線,形成“傳統(tǒng)智能算法+專家經(jīng)驗(yàn)+平臺(tái)智能體+生成式算法”相結(jié)合的人機(jī)協(xié)同的智能運(yùn)維發(fā)展。GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
大模型給智能運(yùn)維帶來新突破GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站
對智能運(yùn)維的理解敏捷場景構(gòu)建智能運(yùn)維服務(wù)能力層3.將現(xiàn)有chatops機(jī)器人關(guān)聯(lián)大模型,并激發(fā)員工構(gòu)建機(jī)器人智能機(jī)器人中心4.激發(fā)全體
運(yùn)維專家沉淀運(yùn)維經(jīng)驗(yàn),同時(shí)將配置、關(guān)系等運(yùn)行數(shù)據(jù)進(jìn)行訓(xùn)練平臺(tái)運(yùn)維專家數(shù)據(jù)庫運(yùn)維專家基礎(chǔ)運(yùn)維專家運(yùn)維領(lǐng)域數(shù)據(jù)(廠商文檔/API文檔/技術(shù)文檔/系統(tǒng)運(yùn)行數(shù)據(jù)中心運(yùn)維Agent智能體能力中心2.將現(xiàn)有智能運(yùn)維工具以算法服務(wù)方式落地為可復(fù)用的智能算法GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深圳站公司智能化平臺(tái)現(xiàn)在運(yùn)維平臺(tái)監(jiān)控平臺(tái)場景平臺(tái)CMDB自動(dòng)化及CD平
臺(tái)現(xiàn)在通用技術(shù)平臺(tái)數(shù)據(jù)庫管理平臺(tái)
智能運(yùn)維建設(shè):整體思路
1.以場景驅(qū)動(dòng),將現(xiàn)有運(yùn)維平臺(tái)服務(wù),以智能體能力的方式,落地到公司Agent中智能算法中心智能專家知識(shí)中心大模型統(tǒng)一API及基礎(chǔ)設(shè)施知識(shí)庫智能體編排平臺(tái)大模型算力數(shù)千個(gè)機(jī)器人數(shù)千個(gè)聊天
群ITSM服務(wù)平臺(tái)運(yùn)維數(shù)據(jù)平臺(tái)中間件平臺(tái)大數(shù)據(jù)平臺(tái)容器云平臺(tái)專
家經(jīng)驗(yàn)運(yùn)維人員測試人員研發(fā)人員業(yè)務(wù)人員異常檢測根因分析風(fēng)險(xiǎn)預(yù)測智能排障應(yīng)用運(yùn)維專家
智能運(yùn)維建設(shè)全局智能助手?
動(dòng)態(tài)加載智能體?
頁面上下文感知?集成知識(shí)庫問答,智能體工作流編排無代碼AI+ChatOps?運(yùn)維知識(shí)庫管理:上傳更新?
基于知識(shí)庫問答?
企微聊天上下文感知智能體集成?
統(tǒng)一管理智能體?
工具復(fù)用?
敏捷場景復(fù)用GO
PS
全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 辦公樓外墻廣告位協(xié)議2025
- 項(xiàng)目融資的核心特征
- 2025年政府專職消防員入職考試復(fù)習(xí)參考題庫及答案(共70題)
- 2025年醫(yī)院三基知識(shí)考試試題庫及答案(共170題)
- 物理中考開放試題及答案
- 2025年陜西西安高考試題及答案
- 經(jīng)動(dòng)脈化療栓塞聯(lián)合系統(tǒng)靶免治療中晚期肝細(xì)胞癌的研究進(jìn)展2026
- 2025年期末試卷講解測試卷及答案
- 教玩具購銷合同范本
- 公墓清理垃圾合同范本
- 吸痰技術(shù)操作并發(fā)癥的預(yù)防及處理
- 支原體抗體診斷培訓(xùn)
- 軟件無線電原理與應(yīng)用(第3版)-習(xí)題及答案匯總 第1-9章 虛擬人-軟件無線電的新發(fā)展 認(rèn)知無線電
- 中級(jí)會(huì)計(jì)實(shí)務(wù)-存貨
- 機(jī)械電氣設(shè)備管理制度
- 簡單酒水購銷合同
- GB/T 41933-2022塑料拉-拉疲勞裂紋擴(kuò)展的測定線彈性斷裂力學(xué)(LEFM)法
- 高中語文 選修中冊 第四課時(shí) 展示強(qiáng)大思想力量 邏輯思維在著作中提升-《改造我們的學(xué)習(xí)》《人的正確思想是從哪里來的》
- 大學(xué)化學(xué)試題庫
- GCB發(fā)電機(jī)出口斷路器教育課件
- 柑桔周年管理工作歷第二版課件
評(píng)論
0/150
提交評(píng)論