版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
群核科技SaaS系統(tǒng)S
RE穩(wěn)定性保障實(shí)踐
降34%降26%降43%2021~2024年4年間,
P3以上總故障數(shù)從3位數(shù)降到2位數(shù),
降幅72%
以上系統(tǒng)穩(wěn)定性水平大幅提升GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站這幾年,都做了哪些措施,實(shí)現(xiàn)了故障數(shù)的大幅下降?降72%
前言1群
核
科
技
SaaS
系
統(tǒng)
穩(wěn)
定
性
保
障
特
點(diǎn)
及
要
求2
穩(wěn)
定
性
保
障
文
化、
制
度
建
設(shè)3穩(wěn)
定
性
保
障
的
產(chǎn)
品
體
系
以
及
建
設(shè)
路
徑4
降
低
故
障
數(shù)、
MT
TR
的
有
效
措
施5AI
及
大
模
型
技
術(shù)
在
群
核
科
技
穩(wěn)
定
性
保
障中
的
應(yīng)
用
和
展
望目錄/CONTENTS群核科技SaaS系統(tǒng)穩(wěn)定性保障特點(diǎn)用戶主動(dòng)投訴率高,
對(duì)MTTR要求高,
故障打斷對(duì)接生產(chǎn)工作流
、或丟失設(shè)計(jì)元件,
會(huì)直接造成經(jīng)濟(jì)損失微服務(wù)的架構(gòu),
底層的錯(cuò)誤和性能問題,向上放大,
會(huì)造成大面積故障,
影響到關(guān)鍵業(yè)務(wù),
定位難度高服務(wù)覆蓋國內(nèi)外,
架構(gòu)復(fù)雜,
覆蓋騰訊云
、
阿里云
、AWS
、自建渲染機(jī)房
、GPU集群
、公有云彈性云
、偏遠(yuǎn)小機(jī)房等10多個(gè)IDC及集群戰(zhàn)略客戶
、重點(diǎn)客戶需要特別保障,
對(duì)故障的容忍度極低用戶定制化功能多
、小數(shù)據(jù)的業(yè)務(wù)故障也需要監(jiān)控到
、需要高效處理,
確保每一個(gè)用戶優(yōu)質(zhì)服務(wù)設(shè)計(jì)類工具,
業(yè)務(wù)邏輯復(fù)雜
、鏈路長,
大量三維計(jì)算
、AI算法
、大對(duì)象
、大場景
、胖前端,
性能要求高,
故障難發(fā)現(xiàn)
、解決復(fù)雜GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
群核科技SaaS系統(tǒng)穩(wěn)定性保障特點(diǎn)SaaS用戶都是付費(fèi)用戶,
SaaS系統(tǒng)穩(wěn)定性保障要求高
、有其特別的地方群核科技穩(wěn)定性保障特點(diǎn)214635穩(wěn)定性保障文化與制度建設(shè)GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
穩(wěn)定性保障整體制度與文化
應(yīng)急流程與機(jī)制
穩(wěn)定性任務(wù)改進(jìn)機(jī)制
復(fù)盤機(jī)制與文化
故障分
、
指標(biāo)運(yùn)營機(jī)制
穩(wěn)
定
性
保
障風(fēng)險(xiǎn)防范與運(yùn)營機(jī)制故障緊急程度收入和客戶影響面應(yīng)急
、
MTTRP0
、
P1
、
P2
、
P3
、
P4故障客戶級(jí)別嚴(yán)重程度影響用戶的等級(jí)
、
功能的嚴(yán)重程度?S等級(jí)越高越要引起重視?
高等級(jí)S會(huì)影響大客戶的續(xù)約S0
、S1
、S2
、S3GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
故障等級(jí)定義
、故障分機(jī)制故障等級(jí)=故障緊急程度+故障嚴(yán)重程度不同故障級(jí)別
、
緊急程度統(tǒng)計(jì)不同的故障分,
通過故障分評(píng)估
、推動(dòng)各業(yè)務(wù)線故障穩(wěn)定性工作資損故障輿情壓力
故障的應(yīng)急分級(jí)制度從實(shí)踐中,
基于故障發(fā)現(xiàn)的來源,
故障來自于兩個(gè)方向:
客訴工單和監(jiān)控系統(tǒng)的告警GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站CTO也會(huì)參與GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站每年流量上升高風(fēng)險(xiǎn)期,
發(fā)起P0公司級(jí)穩(wěn)定性保障項(xiàng)目,
重點(diǎn)突破,
前后端對(duì)各自業(yè)務(wù)
、鏈路
、服務(wù)進(jìn)行全面盤點(diǎn)治理,
確保流量高峰期的穩(wěn)定性
風(fēng)險(xiǎn)防范:
三級(jí)責(zé)任制
、一把手工程
、穩(wěn)定性保障項(xiàng)目
研發(fā)經(jīng)理
服務(wù)Owner
研發(fā)總監(jiān)
前端盤點(diǎn)業(yè)務(wù)盤點(diǎn)對(duì)于高P故障,
CTO直接參與復(fù)盤穩(wěn)定性保障項(xiàng)目后端盤點(diǎn)應(yīng)用觀測及應(yīng)用(監(jiān)控
、SRE)質(zhì)量效能(測試
、技術(shù)支持
、客服)各業(yè)務(wù)線穩(wěn)定性負(fù)責(zé)人負(fù)責(zé)人1
負(fù)責(zé)人2
負(fù)責(zé)人3
負(fù)責(zé)人4服務(wù)Owner負(fù)責(zé)人1
負(fù)責(zé)人2
負(fù)責(zé)人3
負(fù)責(zé)人4負(fù)責(zé)穩(wěn)定性產(chǎn)品開發(fā),
整體質(zhì)量監(jiān)控
、匯報(bào),
穩(wěn)定性保障措施規(guī)劃
、運(yùn)營,
項(xiàng)目的輔助監(jiān)督執(zhí)行負(fù)責(zé)自身業(yè)務(wù)線的整體穩(wěn)定性保障,
監(jiān)
督業(yè)務(wù)線內(nèi)穩(wěn)定性保障措施的執(zhí)行,
保
障執(zhí)行質(zhì)量負(fù)責(zé)自身服務(wù)的穩(wěn)定性保障,
執(zhí)行穩(wěn)定
性保障措施CTO
、總監(jiān)
、架構(gòu)師
、研發(fā)經(jīng)理等接收研發(fā)管理層
、業(yè)務(wù)團(tuán)隊(duì)的信息,
制定保障政策
、監(jiān)督執(zhí)行;
組織發(fā)起的穩(wěn)定性項(xiàng)目/專項(xiàng)任務(wù),
各級(jí)經(jīng)理必須作為較高優(yōu)先級(jí)任務(wù)納入日常工作中GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
穩(wěn)定性委員會(huì)
-虛擬穩(wěn)定性保障組織結(jié)構(gòu)研發(fā)部管理層穩(wěn)定性委員會(huì)1.解決了“我們沒有收到告警
”的問題,
充分使
用告警應(yīng)急群的團(tuán)隊(duì),
基本沒有再抱怨沒有收
到告警的問題2.群內(nèi)告警基于業(yè)務(wù)線
、職能聚合
、分級(jí)推送,
解決了告警多
、無從入手問題3.告警處理信息群內(nèi)自動(dòng)推送,
解決了團(tuán)隊(duì)內(nèi)告
警應(yīng)急信息同步問題4.群內(nèi)告警處理,
總監(jiān)
、Leader監(jiān)督,
解決了告
警無人處理
、慢處理問題5.在公司級(jí)告警風(fēng)暴應(yīng)急群,
只推送大型有業(yè)務(wù)
影響的告警風(fēng)暴信息,
并實(shí)現(xiàn)自動(dòng)化根因定位,對(duì)應(yīng)急實(shí)現(xiàn)自動(dòng)獨(dú)立拉群,
保障了大型業(yè)務(wù)故
障快速處理企信告警處理群公司級(jí)告警風(fēng)暴處理群前端告警處理群核心業(yè)務(wù)指標(biāo)處理群全屋定制業(yè)務(wù)線處理群渲染業(yè)務(wù)線處理群...告警系統(tǒng)
告警分發(fā)基于業(yè)務(wù)線
、職能
、告警內(nèi)容分組聚合GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
基于群的告警處理應(yīng)急
-解決告警最后一分鐘問題n
告警群處理機(jī)制推廣以后,
應(yīng)急響應(yīng)速度明顯加快,
MTTR大幅降低、應(yīng)急次數(shù)大幅減少基于組織結(jié)構(gòu)
、業(yè)務(wù)場景
、職能等類別細(xì)分,
創(chuàng)建告警處理應(yīng)急群,
基于群處理告警拉群應(yīng)急群內(nèi)共享處理企信通知短信電話基于個(gè)人
、告警內(nèi)容分組聚合傳統(tǒng)接收模式每個(gè)人獨(dú)立處理舉例:某公有云專線故障,
導(dǎo)致整個(gè)渲染集群渲染服務(wù)不可用,
因?yàn)樯洗喂收细倪M(jìn)Action都很好的完成,
并且恢復(fù)預(yù)案進(jìn)行了線上演練,
故障時(shí)很快進(jìn)行線路切換,
很快恢復(fù)GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
復(fù)盤文化:
高質(zhì)量故障復(fù)盤復(fù)盤前必須認(rèn)真填寫完復(fù)盤文檔內(nèi)容:
時(shí)間線、故障發(fā)現(xiàn)情況、
故障Action
、故障根因
、為什么沒有避免...必須產(chǎn)出可執(zhí)行
、
可驗(yàn)收的Action
、故障恢復(fù)預(yù)案,
確定完成時(shí)間
、
責(zé)任人
、驗(yàn)收人對(duì)故障的恢復(fù)預(yù)案進(jìn)行線上演練,
確保改進(jìn)措施有效對(duì)每一個(gè)Action跟蹤生命周期,
確保改進(jìn)真正得到執(zhí)行復(fù)盤分級(jí)制,高P故障CTO直接參與對(duì)每一個(gè)故障進(jìn)行復(fù)盤
穩(wěn)定性任務(wù):
穩(wěn)定性白皮書
-確保改進(jìn)能被業(yè)務(wù)團(tuán)隊(duì)執(zhí)行“如果事情有變壞的可能,
不管這種可能性有多小,
它總會(huì)發(fā)生”------
墨菲定律敏捷小組穩(wěn)定性工作的優(yōu)先級(jí)原則發(fā)生下面情況時(shí),
敏捷小組應(yīng)該暫停手上的工作,工作重心轉(zhuǎn)向穩(wěn)定性工作:1.
發(fā)生P0/P1故障后2.
一個(gè)月連續(xù)發(fā)生2次S0故障的團(tuán)隊(duì)3.
無法做到穩(wěn)定性O(shè)KR中規(guī)定的SLA/MTTR目標(biāo)4.
故障分超出績效周期預(yù)期的5.
基礎(chǔ)設(shè)施等團(tuán)隊(duì),
在盤點(diǎn)中發(fā)現(xiàn)了重大的經(jīng)過判斷必須加固的穩(wěn)定性隱患GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站穩(wěn)定性白皮書讓大家在穩(wěn)定性任務(wù)的執(zhí)行策略上達(dá)成共識(shí)?
人員意識(shí)?
流程機(jī)制穩(wěn)定性保障產(chǎn)品體系及建設(shè)路徑?
穩(wěn)定性盤點(diǎn)系統(tǒng)?
前端盤點(diǎn)?
后端盤點(diǎn)?
基礎(chǔ)設(shè)施盤點(diǎn)?
中間件盤點(diǎn)?業(yè)務(wù)及故障定義管理系統(tǒng)?
巡檢系統(tǒng)?
變更管控系統(tǒng)?
混沌工程?
線下自動(dòng)化演練系統(tǒng)?
線上演練系統(tǒng)?
突襲演練系統(tǒng)?自動(dòng)化壓測系統(tǒng)?
全鏈路壓測?
單API故障壓測?Tetris實(shí)時(shí)監(jiān)控系統(tǒng)?
告警系統(tǒng)?自動(dòng)化根因定位系統(tǒng)?
鯤鵬診斷系統(tǒng)?
應(yīng)急協(xié)同系統(tǒng)?
預(yù)案系統(tǒng)?
預(yù)案管理?
預(yù)案推薦?
預(yù)案執(zhí)行?
前端診斷工具?
性能診斷?
崩潰診斷?
CDN鏈路診斷?
后端調(diào)用診斷?
埋點(diǎn)性能診斷GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站?
穩(wěn)定性任務(wù)管理系統(tǒng)?
告警改進(jìn)任務(wù)?
穩(wěn)定性盤點(diǎn)任務(wù)?
故障復(fù)盤Action?
故障復(fù)盤系統(tǒng)?
工單
、故障管理系統(tǒng)故障發(fā)生前,
風(fēng)險(xiǎn)防范故障發(fā)生時(shí),
應(yīng)急快速恢復(fù)故障恢復(fù)后,
復(fù)盤改進(jìn)自
穩(wěn)定性保障產(chǎn)品體系應(yīng)用架構(gòu)
、
依賴盤點(diǎn)盤點(diǎn)強(qiáng)弱依賴
、
中間件依賴
、
中間件異常
、資源使用率流量
、
限流
、
降級(jí)盤點(diǎn)盤點(diǎn)重要API流量
、錯(cuò)誤
、耗時(shí)
、超時(shí)
、
限流
、熔斷
、降級(jí)配置
、流量分布
、調(diào)用放大業(yè)務(wù)及架構(gòu)
、
業(yè)務(wù)監(jiān)控盤點(diǎn)盤點(diǎn)重要API的業(yè)務(wù)鏈路
、業(yè)務(wù)指標(biāo)、業(yè)務(wù)監(jiān)控告警及告警規(guī)則盤點(diǎn)盤點(diǎn)高P告警
、告警趨勢
、告警規(guī)則覆
蓋
、告警規(guī)則閾值錯(cuò)誤日志盤點(diǎn)盤點(diǎn)各個(gè)維度錯(cuò)誤日志的趨勢和TopN
數(shù)量壓測
、
容量評(píng)估
、
故障演練盤點(diǎn)盤點(diǎn)壓測情況
、對(duì)未來流量進(jìn)行預(yù)測,評(píng)估未來趨勢,
盤點(diǎn)演練情況是否達(dá)標(biāo)盤點(diǎn)
內(nèi)容GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
產(chǎn)品示例:
穩(wěn)定性自動(dòng)化盤點(diǎn)系統(tǒng)每天自動(dòng)盤點(diǎn)定期深度盤點(diǎn)自動(dòng)化跟蹤改進(jìn)任務(wù)創(chuàng)建改進(jìn)任務(wù)040103060205
產(chǎn)品示例:
穩(wěn)定性盤點(diǎn)n
自動(dòng)化盤點(diǎn)-每天晚上自動(dòng)對(duì)核心服務(wù)進(jìn)行全方位巡檢盤點(diǎn)GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站n
手動(dòng)深度盤點(diǎn)-
定期
(比如每周一次)
對(duì)核心服務(wù)人工方式深度盤點(diǎn)n
總體告警數(shù)大幅降低n
觸發(fā)限流頻率及告警大幅降低GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
產(chǎn)品示例:
穩(wěn)定性盤點(diǎn)治理直接效果n
觸發(fā)熔斷頻率及告警大幅降低產(chǎn)品示例:
故障發(fā)現(xiàn)
、自動(dòng)化定位
、應(yīng)急協(xié)同
、應(yīng)急評(píng)估系統(tǒng)客訴工單GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站1.故障發(fā)現(xiàn)
、公告
、
自動(dòng)分析負(fù)責(zé)人
、
自動(dòng)拉群5.應(yīng)急結(jié)束,
自動(dòng)化應(yīng)
急響應(yīng)評(píng)估6.基于根因分析自動(dòng)化創(chuàng)建改進(jìn)任務(wù)4.定時(shí)自動(dòng)推送應(yīng)急進(jìn)度和關(guān)鍵指標(biāo)趨勢3.
自動(dòng)化根因定位,實(shí)現(xiàn)一分鐘定位2.告警風(fēng)暴根因定位7.
自動(dòng)化跟蹤改進(jìn)任務(wù)進(jìn)度故障發(fā)現(xiàn)故障群公告自動(dòng)根因定位拉群應(yīng)急應(yīng)急協(xié)同預(yù)案止血應(yīng)急評(píng)估任務(wù)改進(jìn)告警系統(tǒng)客訴系統(tǒng)告警01
梳理業(yè)務(wù)場景02
梳理業(yè)務(wù)場景的故障定義03
梳理故障定義的監(jiān)控覆蓋確保所有故障定義都有監(jiān)控覆蓋,發(fā)生故障時(shí)有告警發(fā)現(xiàn)GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
產(chǎn)品示例:
業(yè)務(wù)及故障等級(jí)定義管理平臺(tái)GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站n業(yè)務(wù)邏輯
、
網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)復(fù)雜,
服務(wù)調(diào)用跨越多個(gè)區(qū)域
、集群,
通過業(yè)務(wù)鏈路系統(tǒng)進(jìn)行監(jiān)控和故障報(bào)告,
提升復(fù)雜業(yè)務(wù)鏈路故障的診斷能力
產(chǎn)品示例:
業(yè)務(wù)鏈路故障與監(jiān)控n業(yè)務(wù)鏈路發(fā)生故障時(shí),
直接推送到群點(diǎn)鏈接進(jìn)入排查具體的故障點(diǎn)01
線下演練實(shí)現(xiàn)自動(dòng)化線下演練實(shí)現(xiàn)了自動(dòng)化,
創(chuàng)建演練計(jì)劃和
流水線后,
定時(shí)
、變更時(shí)自動(dòng)觸發(fā),
演練結(jié)束自動(dòng)發(fā)送演練報(bào)告給對(duì)應(yīng)的負(fù)責(zé)人02
線上演練采用預(yù)約制
、
自動(dòng)化推進(jìn)一般在季度
、年度規(guī)劃期間,
推動(dòng)各業(yè)務(wù)方制定演練計(jì)劃,
并在線上預(yù)約時(shí)間,
到時(shí)系統(tǒng)將自動(dòng)拉群推動(dòng)演練的流程進(jìn)行03
安全
、
低成本的線上演練線上演練,
既要達(dá)到演練目的,
又需要低成本
、安全,
一般采用分流小流量到特定環(huán)境的方式進(jìn)行,
不對(duì)所有用戶產(chǎn)生影響04
突襲演練的保密性突襲演練確保私密性,
僅CTO
、少數(shù)突襲小組成員可知具體的突襲內(nèi)容和時(shí)間,
保障突襲的真實(shí)性,
讓被突襲業(yè)務(wù)方與遇到故障相同的場景
產(chǎn)品示例:
混沌工程
-演練系統(tǒng)建設(shè)演練系統(tǒng),
實(shí)現(xiàn)了線上
、
線下
、
突襲演練,
通過演練實(shí)現(xiàn)減少故障
、提升應(yīng)急能力GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站線上演練的信息同步線上演練預(yù)約一般在季度
、年度規(guī)劃期間推動(dòng)各業(yè)務(wù)線制定計(jì)劃、預(yù)約演練時(shí)間
產(chǎn)品示例:
混沌工程
-演練系統(tǒng)演練系統(tǒng)支持50多項(xiàng)故障項(xiàng)演練自動(dòng)拉群推進(jìn)演練流程
私有云與公有云統(tǒng)一化穩(wěn)定性保障-融合監(jiān)控
各個(gè)公有云都有自己的監(jiān)控,
每個(gè)人都去各個(gè)公有云查看
、處理告警異常,
是件非常麻煩低效的事。如何整合私有云自建監(jiān)控與公有云的監(jiān)控,
如何融合,
實(shí)現(xiàn)穩(wěn)定性保障的統(tǒng)一化
、
實(shí)現(xiàn)高效保障?彈性集群騰訊云AWS阿里云webhook
GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站監(jiān)控指標(biāo)系統(tǒng)告警系統(tǒng)渲染集群自建機(jī)房webhook騰訊云火山云...減少故障
、降低MTTR的有效措施GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
穩(wěn)定性保障重點(diǎn)治理工作歷史線突出問題為導(dǎo)向
、重點(diǎn)突破
、不斷迭代
、持續(xù)改進(jìn)架構(gòu)
、代碼問題?改造hbase存儲(chǔ)為tdsql,
拆分服務(wù),
大方案
、大場景隔離分流治理?dev
design
、代碼質(zhì)量
、
review文化建設(shè),推廣clean
code?架構(gòu)委
會(huì)
機(jī)制?
改造指標(biāo)系統(tǒng)
、告警系統(tǒng),
提升告警規(guī)則覆蓋率,
推動(dòng)業(yè)務(wù)監(jiān)控?
提升監(jiān)控覆蓋率,
全面
建設(shè)硬件
、
網(wǎng)絡(luò)
、
專線、中間件
、公有云全層級(jí)監(jiān)控?
建設(shè)戰(zhàn)略客戶專項(xiàng)監(jiān)控實(shí)現(xiàn)自動(dòng)定位?建設(shè)應(yīng)急協(xié)同
、鯤鵬診斷
、預(yù)案系統(tǒng)?提升復(fù)盤質(zhì)量,
自動(dòng)化追蹤復(fù)盤Action完成?建設(shè)公司級(jí)
、業(yè)務(wù)線級(jí)告警處理群雪崩
、穩(wěn)定性差?重點(diǎn)提升API限流、降級(jí)
、
流量放大
、調(diào)用超時(shí)
、異常處理
、循環(huán)依賴治理?提升UT覆蓋率計(jì)劃用戶體驗(yàn)
、
性能問題?建設(shè)前端性能診斷?建設(shè)國際化專項(xiàng)監(jiān)控?升級(jí)預(yù)案自愈系統(tǒng)?監(jiān)控AI全場景分析員
評(píng)審?建設(shè)后端自動(dòng)化盤點(diǎn)系統(tǒng)?建設(shè)線上演練系統(tǒng),對(duì)預(yù)案進(jìn)行梳理和演練?建設(shè)線下演練系統(tǒng),對(duì)強(qiáng)弱依賴
、預(yù)案進(jìn)行線下驗(yàn)證
、演練?建設(shè)全鏈路
、
單API鏈路壓測系統(tǒng)定位難
、定位慢
、恢
復(fù)慢?
建設(shè)自動(dòng)化定位系統(tǒng),四年故障數(shù)持續(xù)下降總量降72%故障數(shù)趨勢圖降43%告警缺失
、監(jiān)控故障發(fā)現(xiàn)率低降34%降26%20222023202120242025降低MTTR?故障發(fā)生前,
盤點(diǎn)業(yè)務(wù)場景
、故障定義
、
制定和演練驗(yàn)證快速恢復(fù)預(yù)案,
提升故障發(fā)現(xiàn)
、定位
、應(yīng)急
、預(yù)案工具能力?故障發(fā)生時(shí),
止血優(yōu)先,
快速發(fā)現(xiàn)、定位,
使用預(yù)案快速恢復(fù),
縮短故障發(fā)現(xiàn)
、定位
、恢復(fù)的時(shí)長?
故障發(fā)生后,
通過復(fù)盤分析故障中各個(gè)環(huán)節(jié),
分析耗時(shí)是否可以被降低,
產(chǎn)生改進(jìn)Action,
持續(xù)改進(jìn)減少故障?故障發(fā)生前,
通過穩(wěn)定性盤點(diǎn)
、減少Bug
、避免引入故障風(fēng)險(xiǎn)、提前解決故障風(fēng)險(xiǎn)
、
用戶客訴前解決故障的方式,
減少故障?
故障發(fā)生后,
通過復(fù)盤分析故障期間的各個(gè)場景,
是否有可改進(jìn)風(fēng)險(xiǎn)點(diǎn),
將風(fēng)險(xiǎn)徹底解決,
舉一反三,
避免同類故障再次發(fā)生GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
目標(biāo)明確:
一切圍繞減少故障
、降低MTTR穩(wěn)定性保障全層級(jí)監(jiān)控1.告警系統(tǒng)改造n
告警單元化改造,
提升可靠性n
告警梳理,
提升精準(zhǔn)性
、覆蓋全面2.
日志改造n
es遷移到CickHouse,日志可靠性提升n
日志與指標(biāo)
、調(diào)用鏈實(shí)現(xiàn)關(guān)聯(lián)分析3.調(diào)用鏈改造n
es遷移到CK,
性能提升
、成本降低n
實(shí)現(xiàn)調(diào)用鏈全保留,
定位不再缺調(diào)用鏈,小數(shù)據(jù)故障分析能力提升4.
指標(biāo)改造n
建設(shè)秒級(jí)
、分鐘
、小時(shí)
、天級(jí)指標(biāo)n
實(shí)現(xiàn)基于CK的原文埋點(diǎn)指標(biāo),
全文記
錄埋點(diǎn)原文,
埋點(diǎn)問題定位提效GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
全面高質(zhì)監(jiān)控
、打好基礎(chǔ)
-
監(jiān)控系統(tǒng)持續(xù)迭代近年來持續(xù)迭代改進(jìn)實(shí)現(xiàn)存儲(chǔ)從es向clickhouse的遷移,
先后實(shí)現(xiàn)了秒級(jí)
、長時(shí)段
、高基數(shù)指標(biāo)
、全保留調(diào)用鏈等告警
、根因分析與預(yù)案系統(tǒng)
近年來持續(xù)迭代改進(jìn)調(diào)用鏈
、
日志
、Clickhouse指標(biāo)系統(tǒng)
準(zhǔn)確而及時(shí)發(fā)現(xiàn)故障
-
告警及告警治理大型微服務(wù)系統(tǒng)往往告警很多,
故障時(shí)長產(chǎn)生告警風(fēng)暴,
定位難GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站基于業(yè)務(wù)線群和告警風(fēng)暴分級(jí)治理告警群
策
群
力
及
時(shí)
處
理
告
警
,
有
業(yè)
務(wù)
影
響
的
告
警
風(fēng)
暴
直
接
發(fā)
起應(yīng)急
基于告警
,
實(shí)現(xiàn)故障的自動(dòng)化定位基于告警定位故障,
既成本
低又精準(zhǔn)高效及時(shí)告警,
不誤報(bào)確保告警覆蓋全面覆蓋前端、
后端、
業(yè)務(wù)、
基礎(chǔ)設(shè)施
、
中間件等
。
如果發(fā)現(xiàn)缺失,
就加上減少告警數(shù)量?
提
升
設(shè)
計(jì)、
代
碼、
R
ev
i
ew水
平,
提
高
代
碼
質(zhì)
量?
減
少
誤
報(bào),
提
升
告
警準(zhǔn)確
率?創(chuàng)建
任
務(wù)
進(jìn)行跟蹤,
確
保觸發(fā)
根
因被
徹
底
解
決提升告警及時(shí)查看率?
統(tǒng)
計(jì)
1
-
5
-
10
分鐘
告
警
查看
率?
定
期通
曬?
進(jìn)行
分
類,
防
御
類、
性
能
故
障
類,
防
御
類
只
查看,僅
跟
蹤
性
能
故
障
、
誤
報(bào)
類
的
處
理
率?
告
警
聚合、
關(guān)
聯(lián),
支
持
批處
理,
通
過群處
理
告
警?
定
時(shí)
提
醒處
理、
通
曬處
理
率告
警
模
板
+
業(yè)
務(wù)
定
制
,自動(dòng)化定期盤點(diǎn)閾值業(yè)務(wù)、
代碼變化、
都可能讓原來的閾值不再精準(zhǔn),
需要定期盤點(diǎn)區(qū)分出有直接業(yè)務(wù)
影響的告警對(duì)
于
有
業(yè)
務(wù)
影
響
的
告
警
提
升
處
理
級(jí)
別
,
重
要
功
能
的
直
接
發(fā)起應(yīng)急以告警為核心如何治理告警?提升告警處理率確保告警精準(zhǔn)發(fā)現(xiàn)快建設(shè)提升自動(dòng)化故障發(fā)現(xiàn)能力和產(chǎn)品>定位快建設(shè)和提升自動(dòng)化定位能力,
魔方語言自動(dòng)化根因定位、大模型自動(dòng)化定位
、根因分析恢復(fù)快建設(shè)全面的預(yù)案,
對(duì)預(yù)案進(jìn)行線上
演練-
確保有效性;止血優(yōu)先,
先止血,
再去調(diào)查原因GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站
故障應(yīng)急:
唯快不破
-想盡一切辦法盡快止血治理快對(duì)于改進(jìn)實(shí)現(xiàn)進(jìn)行分級(jí)
、
限定完成時(shí)間,
對(duì)于高優(yōu)改進(jìn)任務(wù)嚴(yán)格管控完成>>GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站放大調(diào)用-泡沫流量治理
、大流量服務(wù)拆分超時(shí)
、錯(cuò)誤治理,盤點(diǎn)超時(shí)次數(shù)
、超時(shí)時(shí)長
、超時(shí)后處理案例
:
服務(wù)拆分對(duì)這種流量特別巨大
、實(shí)例數(shù)巨大的服務(wù),
進(jìn)行服務(wù)拆分,
解決自動(dòng)擴(kuò)縮容困難,
運(yùn)維困難的問題;基于業(yè)務(wù)重要性進(jìn)行拆分,
減少核心
、重保服務(wù)數(shù)量案
例
:
大方案治理常導(dǎo)致fullgc的大方案
、大場景,
獨(dú)立路由到特定的環(huán)境處理,
避免引起其它Pod頻繁fullgc
、影響所有請(qǐng)求-解決大方案
、大場景引發(fā)的大范圍故障案例
:
存儲(chǔ)改造hbase替換為騰訊云tdsql-->提升存儲(chǔ)的穩(wěn)定性-解決了hbase故障導(dǎo)致大規(guī)模高P故障的問題微服務(wù)限流
、降級(jí)、制定預(yù)案,
并線上演練驗(yàn)證循環(huán)依賴治理
減少故障:
穩(wěn)定性核心的基礎(chǔ)
-架構(gòu)治理依賴中間件的架構(gòu)重構(gòu)
、改造架構(gòu)治理緩存治理GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站好的設(shè)計(jì)dev
des
ig
n進(jìn)行評(píng)審高質(zhì)量的代碼Code
rev
iewA
I
rev
iew
減少故障:
穩(wěn)定性核心的基礎(chǔ)
-好的設(shè)計(jì)
、架構(gòu)
、代碼如何推動(dòng)文化建設(shè)-進(jìn)行獎(jiǎng)勵(lì)
、激勵(lì)好的架構(gòu)架構(gòu)委員會(huì)進(jìn)行評(píng)審舉行讀書活動(dòng):
clean-code
、整潔代碼優(yōu)秀codereviewer優(yōu)秀Devdesign優(yōu)秀代碼質(zhì)量與敏捷流程管理結(jié)合?
P0創(chuàng)建在進(jìn)行中迭代
、方便晨會(huì)看到,
其它在未規(guī)劃,
通過新迭代排期解決?
Refinement復(fù)盤未完成的穩(wěn)定性任務(wù),
通過指標(biāo)管控?
Sprint
plan規(guī)劃穩(wěn)定性任務(wù)?
考慮到每個(gè)人的輸入任務(wù)量,
如果太多,
按優(yōu)先級(jí)進(jìn)行分批次處理強(qiáng)制措施通過穩(wěn)定性委員會(huì)推動(dòng),
人員覆蓋核心業(yè)務(wù)線,
收集各方意見、制定流程、
推進(jìn)?
責(zé)
任
到
人、到團(tuán)隊(duì)、到
總
監(jiān)?
通
曬
機(jī)
制自身改進(jìn)?盤
點(diǎn)、改
進(jìn)
工
作
提
效:一
切
盡
量
自
動(dòng)
化、簡
化?
工
作由
易
到
難?評(píng)
估、
考
慮
到
各
個(gè)
業(yè)
務(wù)
線的
實(shí)際
工
作
量?盤
點(diǎn)
改
進(jìn)
任
務(wù)
進(jìn)
行
分
級(jí),
重
點(diǎn)
推
進(jìn)
高
優(yōu)GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站盤點(diǎn)系統(tǒng)
自動(dòng)化盤點(diǎn)
-提前發(fā)現(xiàn)所有風(fēng)險(xiǎn),
并有效治理每天
、
周進(jìn)行自動(dòng)化盤點(diǎn)
、
巡檢故障復(fù)盤,
不斷增加盤點(diǎn)巡檢規(guī)則務(wù),
并對(duì)任務(wù)進(jìn)行自動(dòng)化跟蹤直至問題解決如何更有效的保證風(fēng)險(xiǎn)改進(jìn)被執(zhí)行治理?前端
、
后端
、
業(yè)務(wù)360度
自動(dòng)
化
巡
檢自動(dòng)化創(chuàng)建改進(jìn)任1.每一次應(yīng)急對(duì)應(yīng)急行為進(jìn)行自動(dòng)化評(píng)估
,表揚(yáng)
優(yōu)秀者1.定期應(yīng)急能力演練
,刷新應(yīng)急能力
、應(yīng)急手冊
、預(yù)案2.
線上突襲演練1.
培養(yǎng)
、引導(dǎo)Leader穩(wěn)定性方面的意識(shí)和責(zé)任心2.
通曬
、獎(jiǎng)勵(lì)優(yōu)秀團(tuán)隊(duì)GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站故障多的團(tuán)隊(duì)容易應(yīng)急疲勞,
故障少的團(tuán)隊(duì)容易喪失應(yīng)急能力應(yīng)急能力包括:
快速響應(yīng)能力
、
Leader的應(yīng)急組織能力
、使用監(jiān)控SRE工具快速根因分析定位能力
、快速恢復(fù)能力
故障應(yīng)急:
應(yīng)急激勵(lì)
、應(yīng)急能力刷新保持團(tuán)隊(duì)高水平應(yīng)急能力應(yīng)急少的團(tuán)隊(duì)團(tuán)隊(duì)Leader應(yīng)急多的團(tuán)隊(duì)案
例
1
:
搜
索
服
務(wù)
故
障
快
速
恢
復(fù)某
次
搜
索
服
務(wù)
故
障,
因
為
之
前
實(shí)
現(xiàn)
了
降
級(jí)
ES
無
損提升預(yù)案,且組織了線上演練,故障發(fā)生時(shí),團(tuán)隊(duì)快速響應(yīng),第一時(shí)間定位問題按照預(yù)案止血,降
級(jí)
至
ES,有
效
控
制
了
影
響
面案
例2:
集
群
專
線
故
障
快
速
恢
復(fù)某次渲染小機(jī)房專線故障,導(dǎo)致渲染服務(wù)排隊(duì)嚴(yán)重,因?yàn)橐呀?jīng)有過線上演練,按照演練的預(yù)案快速進(jìn)行了機(jī)房隔離,業(yè)務(wù)切換到其它集群,并在新的集群進(jìn)行擴(kuò)容,故障很快恢復(fù)應(yīng)急能力
刷新線上演練參與人員包括技術(shù)支持、SRE
、開發(fā)測試、業(yè)務(wù)負(fù)責(zé)人,
鍛煉負(fù)責(zé)人的應(yīng)急組織能力,
真正故障到來時(shí)從容不破,
能快速止血操作變更導(dǎo)致預(yù)案失效代碼
、配置變更可能會(huì)使原來預(yù)案失效,
通過定期線上演練,
確保有效性GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站線上線下
不一致線上與線下可能有很大不同,
通過線上真實(shí)演練,
確保線上的預(yù)案和操作的有效性
線上演練驗(yàn)證
-保障預(yù)案線上有效性
、刷新團(tuán)隊(duì)?wèi)?yīng)急能力線下通過自動(dòng)化測試保障,
線上通過線上演練保障線上定期演練驗(yàn)證
故障復(fù)盤重在發(fā)現(xiàn)改進(jìn)Action及改進(jìn)Action的完成只有復(fù)盤的改進(jìn)Action完成了,
復(fù)盤才是真的完成了GO
PS全
球
運(yùn)
維
大
會(huì)
暨
研
運(yùn)
數(shù)
智
化
技
術(shù)
峰
會(huì)2
0
2
5·深
圳
站線上演練驗(yàn)證線上線下有時(shí)差異很大,線上驗(yàn)證才更有效撰寫復(fù)盤文檔故障修復(fù)后盡快撰寫復(fù)盤文檔,
使用統(tǒng)一模板故障記錄記
錄
變
更
、時(shí)間線、
服務(wù)、
業(yè)務(wù)狀態(tài)、
人員操作等復(fù)盤會(huì)議會(huì)議室現(xiàn)場復(fù)盤,
分析、記
錄
改
進(jìn)A
ct
i
o
n,
并任務(wù)化跟蹤復(fù)盤A
c
t
i
o
n自動(dòng)化跟蹤A
cti
o
n
任
務(wù)狀態(tài),
直至完成故障發(fā)生盡一切手段盡快止血,止血優(yōu)先,止血后再分析原因GO
PS全
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 審核業(yè)務(wù)合同范本
- 尊嚴(yán)的離開協(xié)議書
- 密云運(yùn)輸合同范本
- 合同更名協(xié)議書
- 對(duì)賭協(xié)議無名合同
- 壁紙店出兌協(xié)議書
- 大學(xué)招生協(xié)議書
- 春節(jié)照看協(xié)議合同
- 買賣車子協(xié)議書
- 土豆供購合同范本
- 鄉(xiāng)村振興戰(zhàn)略的理論與實(shí)踐智慧樹知到期末考試答案章節(jié)答案2024年華中師范大學(xué)
- 金屬硬度轉(zhuǎn)換表【HLD,HRC,HRB,HV,HB,HSD】
- 大慶一中、六十九中初四上學(xué)期期末質(zhì)量檢測物理試題
- 建材有限公司砂石卸車作業(yè)安全風(fēng)險(xiǎn)分級(jí)管控清單
- 小學(xué)生一、二、三年級(jí)家庭獎(jiǎng)罰制度表
- 中石化華北分公司鉆井定額使用說明
- 礦山壓力與巖層控制智慧樹知到答案章節(jié)測試2023年湖南科技大學(xué)
- 機(jī)加工車間主任年終總結(jié)3篇
- WB/T 1119-2022數(shù)字化倉庫評(píng)估規(guī)范
- GB/T 5125-1985有色金屬?zèng)_杯試驗(yàn)方法
- GB/T 4937.3-2012半導(dǎo)體器件機(jī)械和氣候試驗(yàn)方法第3部分:外部目檢
評(píng)論
0/150
提交評(píng)論