2025 GOPS 全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)·深圳站:群核科技SaaS系統(tǒng)SRE穩(wěn)定性保障實(shí)踐_第1頁
2025 GOPS 全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)·深圳站:群核科技SaaS系統(tǒng)SRE穩(wěn)定性保障實(shí)踐_第2頁
2025 GOPS 全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)·深圳站:群核科技SaaS系統(tǒng)SRE穩(wěn)定性保障實(shí)踐_第3頁
2025 GOPS 全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)·深圳站:群核科技SaaS系統(tǒng)SRE穩(wěn)定性保障實(shí)踐_第4頁
2025 GOPS 全球運(yùn)維大會(huì)暨研運(yùn)數(shù)智化技術(shù)峰會(huì)·深圳站:群核科技SaaS系統(tǒng)SRE穩(wěn)定性保障實(shí)踐_第5頁
已閱讀5頁,還剩40頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

群核科技SaaS系統(tǒng)S

RE穩(wěn)定性保障實(shí)踐

降34%降26%降43%2021~2024年4年間,

P3以上總故障數(shù)從3位數(shù)降到2位數(shù),

降幅72%

以上系統(tǒng)穩(wěn)定性水平大幅提升GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站這幾年,都做了哪些措施,實(shí)現(xiàn)了故障數(shù)的大幅下降?降72%

前言1群

SaaS

統(tǒng)

穩(wěn)

點(diǎn)

求2

穩(wěn)

化、

設(shè)3穩(wěn)

產(chǎn)

設(shè)

徑4

數(shù)、

MT

TR

施5AI

術(shù)

穩(wěn)

障中

應(yīng)

望目錄/CONTENTS群核科技SaaS系統(tǒng)穩(wěn)定性保障特點(diǎn)用戶主動(dòng)投訴率高,

對(duì)MTTR要求高,

故障打斷對(duì)接生產(chǎn)工作流

、或丟失設(shè)計(jì)元件,

會(huì)直接造成經(jīng)濟(jì)損失微服務(wù)的架構(gòu),

底層的錯(cuò)誤和性能問題,向上放大,

會(huì)造成大面積故障,

影響到關(guān)鍵業(yè)務(wù),

定位難度高服務(wù)覆蓋國內(nèi)外,

架構(gòu)復(fù)雜,

覆蓋騰訊云

、

阿里云

、AWS

、自建渲染機(jī)房

、GPU集群

、公有云彈性云

、偏遠(yuǎn)小機(jī)房等10多個(gè)IDC及集群戰(zhàn)略客戶

、重點(diǎn)客戶需要特別保障,

對(duì)故障的容忍度極低用戶定制化功能多

、小數(shù)據(jù)的業(yè)務(wù)故障也需要監(jiān)控到

、需要高效處理,

確保每一個(gè)用戶優(yōu)質(zhì)服務(wù)設(shè)計(jì)類工具,

業(yè)務(wù)邏輯復(fù)雜

、鏈路長,

大量三維計(jì)算

、AI算法

、大對(duì)象

、大場景

、胖前端,

性能要求高,

故障難發(fā)現(xiàn)

、解決復(fù)雜GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

群核科技SaaS系統(tǒng)穩(wěn)定性保障特點(diǎn)SaaS用戶都是付費(fèi)用戶,

SaaS系統(tǒng)穩(wěn)定性保障要求高

、有其特別的地方群核科技穩(wěn)定性保障特點(diǎn)214635穩(wěn)定性保障文化與制度建設(shè)GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

穩(wěn)定性保障整體制度與文化

應(yīng)急流程與機(jī)制

穩(wěn)定性任務(wù)改進(jìn)機(jī)制

復(fù)盤機(jī)制與文化

故障分

指標(biāo)運(yùn)營機(jī)制

穩(wěn)

障風(fēng)險(xiǎn)防范與運(yùn)營機(jī)制故障緊急程度收入和客戶影響面應(yīng)急

MTTRP0

、

P1

、

P2

、

P3

、

P4故障客戶級(jí)別嚴(yán)重程度影響用戶的等級(jí)

、

功能的嚴(yán)重程度?S等級(jí)越高越要引起重視?

高等級(jí)S會(huì)影響大客戶的續(xù)約S0

、S1

、S2

、S3GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

故障等級(jí)定義

、故障分機(jī)制故障等級(jí)=故障緊急程度+故障嚴(yán)重程度不同故障級(jí)別

、

緊急程度統(tǒng)計(jì)不同的故障分,

通過故障分評(píng)估

、推動(dòng)各業(yè)務(wù)線故障穩(wěn)定性工作資損故障輿情壓力

故障的應(yīng)急分級(jí)制度從實(shí)踐中,

基于故障發(fā)現(xiàn)的來源,

故障來自于兩個(gè)方向:

客訴工單和監(jiān)控系統(tǒng)的告警GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站CTO也會(huì)參與GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站每年流量上升高風(fēng)險(xiǎn)期,

發(fā)起P0公司級(jí)穩(wěn)定性保障項(xiàng)目,

重點(diǎn)突破,

前后端對(duì)各自業(yè)務(wù)

、鏈路

、服務(wù)進(jìn)行全面盤點(diǎn)治理,

確保流量高峰期的穩(wěn)定性

風(fēng)險(xiǎn)防范:

三級(jí)責(zé)任制

、一把手工程

、穩(wěn)定性保障項(xiàng)目

研發(fā)經(jīng)理

服務(wù)Owner

研發(fā)總監(jiān)

前端盤點(diǎn)業(yè)務(wù)盤點(diǎn)對(duì)于高P故障,

CTO直接參與復(fù)盤穩(wěn)定性保障項(xiàng)目后端盤點(diǎn)應(yīng)用觀測及應(yīng)用(監(jiān)控

、SRE)質(zhì)量效能(測試

、技術(shù)支持

、客服)各業(yè)務(wù)線穩(wěn)定性負(fù)責(zé)人負(fù)責(zé)人1

負(fù)責(zé)人2

負(fù)責(zé)人3

負(fù)責(zé)人4服務(wù)Owner負(fù)責(zé)人1

負(fù)責(zé)人2

負(fù)責(zé)人3

負(fù)責(zé)人4負(fù)責(zé)穩(wěn)定性產(chǎn)品開發(fā),

整體質(zhì)量監(jiān)控

、匯報(bào),

穩(wěn)定性保障措施規(guī)劃

、運(yùn)營,

項(xiàng)目的輔助監(jiān)督執(zhí)行負(fù)責(zé)自身業(yè)務(wù)線的整體穩(wěn)定性保障,

監(jiān)

督業(yè)務(wù)線內(nèi)穩(wěn)定性保障措施的執(zhí)行,

障執(zhí)行質(zhì)量負(fù)責(zé)自身服務(wù)的穩(wěn)定性保障,

執(zhí)行穩(wěn)定

性保障措施CTO

、總監(jiān)

、架構(gòu)師

、研發(fā)經(jīng)理等接收研發(fā)管理層

、業(yè)務(wù)團(tuán)隊(duì)的信息,

制定保障政策

、監(jiān)督執(zhí)行;

組織發(fā)起的穩(wěn)定性項(xiàng)目/專項(xiàng)任務(wù),

各級(jí)經(jīng)理必須作為較高優(yōu)先級(jí)任務(wù)納入日常工作中GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

穩(wěn)定性委員會(huì)

-虛擬穩(wěn)定性保障組織結(jié)構(gòu)研發(fā)部管理層穩(wěn)定性委員會(huì)1.解決了“我們沒有收到告警

”的問題,

充分使

用告警應(yīng)急群的團(tuán)隊(duì),

基本沒有再抱怨沒有收

到告警的問題2.群內(nèi)告警基于業(yè)務(wù)線

、職能聚合

、分級(jí)推送,

解決了告警多

、無從入手問題3.告警處理信息群內(nèi)自動(dòng)推送,

解決了團(tuán)隊(duì)內(nèi)告

警應(yīng)急信息同步問題4.群內(nèi)告警處理,

總監(jiān)

、Leader監(jiān)督,

解決了告

警無人處理

、慢處理問題5.在公司級(jí)告警風(fēng)暴應(yīng)急群,

只推送大型有業(yè)務(wù)

影響的告警風(fēng)暴信息,

并實(shí)現(xiàn)自動(dòng)化根因定位,對(duì)應(yīng)急實(shí)現(xiàn)自動(dòng)獨(dú)立拉群,

保障了大型業(yè)務(wù)故

障快速處理企信告警處理群公司級(jí)告警風(fēng)暴處理群前端告警處理群核心業(yè)務(wù)指標(biāo)處理群全屋定制業(yè)務(wù)線處理群渲染業(yè)務(wù)線處理群...告警系統(tǒng)

告警分發(fā)基于業(yè)務(wù)線

、職能

、告警內(nèi)容分組聚合GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

基于群的告警處理應(yīng)急

-解決告警最后一分鐘問題n

告警群處理機(jī)制推廣以后,

應(yīng)急響應(yīng)速度明顯加快,

MTTR大幅降低、應(yīng)急次數(shù)大幅減少基于組織結(jié)構(gòu)

、業(yè)務(wù)場景

、職能等類別細(xì)分,

創(chuàng)建告警處理應(yīng)急群,

基于群處理告警拉群應(yīng)急群內(nèi)共享處理企信通知短信電話基于個(gè)人

、告警內(nèi)容分組聚合傳統(tǒng)接收模式每個(gè)人獨(dú)立處理舉例:某公有云專線故障,

導(dǎo)致整個(gè)渲染集群渲染服務(wù)不可用,

因?yàn)樯洗喂收细倪M(jìn)Action都很好的完成,

并且恢復(fù)預(yù)案進(jìn)行了線上演練,

故障時(shí)很快進(jìn)行線路切換,

很快恢復(fù)GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

復(fù)盤文化:

高質(zhì)量故障復(fù)盤復(fù)盤前必須認(rèn)真填寫完復(fù)盤文檔內(nèi)容:

時(shí)間線、故障發(fā)現(xiàn)情況、

故障Action

、故障根因

、為什么沒有避免...必須產(chǎn)出可執(zhí)行

、

可驗(yàn)收的Action

、故障恢復(fù)預(yù)案,

確定完成時(shí)間

、

責(zé)任人

、驗(yàn)收人對(duì)故障的恢復(fù)預(yù)案進(jìn)行線上演練,

確保改進(jìn)措施有效對(duì)每一個(gè)Action跟蹤生命周期,

確保改進(jìn)真正得到執(zhí)行復(fù)盤分級(jí)制,高P故障CTO直接參與對(duì)每一個(gè)故障進(jìn)行復(fù)盤

穩(wěn)定性任務(wù):

穩(wěn)定性白皮書

-確保改進(jìn)能被業(yè)務(wù)團(tuán)隊(duì)執(zhí)行“如果事情有變壞的可能,

不管這種可能性有多小,

它總會(huì)發(fā)生”------

墨菲定律敏捷小組穩(wěn)定性工作的優(yōu)先級(jí)原則發(fā)生下面情況時(shí),

敏捷小組應(yīng)該暫停手上的工作,工作重心轉(zhuǎn)向穩(wěn)定性工作:1.

發(fā)生P0/P1故障后2.

一個(gè)月連續(xù)發(fā)生2次S0故障的團(tuán)隊(duì)3.

無法做到穩(wěn)定性O(shè)KR中規(guī)定的SLA/MTTR目標(biāo)4.

故障分超出績效周期預(yù)期的5.

基礎(chǔ)設(shè)施等團(tuán)隊(duì),

在盤點(diǎn)中發(fā)現(xiàn)了重大的經(jīng)過判斷必須加固的穩(wěn)定性隱患GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站穩(wěn)定性白皮書讓大家在穩(wěn)定性任務(wù)的執(zhí)行策略上達(dá)成共識(shí)?

人員意識(shí)?

流程機(jī)制穩(wěn)定性保障產(chǎn)品體系及建設(shè)路徑?

穩(wěn)定性盤點(diǎn)系統(tǒng)?

前端盤點(diǎn)?

后端盤點(diǎn)?

基礎(chǔ)設(shè)施盤點(diǎn)?

中間件盤點(diǎn)?業(yè)務(wù)及故障定義管理系統(tǒng)?

巡檢系統(tǒng)?

變更管控系統(tǒng)?

混沌工程?

線下自動(dòng)化演練系統(tǒng)?

線上演練系統(tǒng)?

突襲演練系統(tǒng)?自動(dòng)化壓測系統(tǒng)?

全鏈路壓測?

單API故障壓測?Tetris實(shí)時(shí)監(jiān)控系統(tǒng)?

告警系統(tǒng)?自動(dòng)化根因定位系統(tǒng)?

鯤鵬診斷系統(tǒng)?

應(yīng)急協(xié)同系統(tǒng)?

預(yù)案系統(tǒng)?

預(yù)案管理?

預(yù)案推薦?

預(yù)案執(zhí)行?

前端診斷工具?

性能診斷?

崩潰診斷?

CDN鏈路診斷?

后端調(diào)用診斷?

埋點(diǎn)性能診斷GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站?

穩(wěn)定性任務(wù)管理系統(tǒng)?

告警改進(jìn)任務(wù)?

穩(wěn)定性盤點(diǎn)任務(wù)?

故障復(fù)盤Action?

故障復(fù)盤系統(tǒng)?

工單

、故障管理系統(tǒng)故障發(fā)生前,

風(fēng)險(xiǎn)防范故障發(fā)生時(shí),

應(yīng)急快速恢復(fù)故障恢復(fù)后,

復(fù)盤改進(jìn)自

穩(wěn)定性保障產(chǎn)品體系應(yīng)用架構(gòu)

、

依賴盤點(diǎn)盤點(diǎn)強(qiáng)弱依賴

中間件依賴

、

中間件異常

、資源使用率流量

、

限流

、

降級(jí)盤點(diǎn)盤點(diǎn)重要API流量

、錯(cuò)誤

、耗時(shí)

、超時(shí)

限流

、熔斷

、降級(jí)配置

、流量分布

、調(diào)用放大業(yè)務(wù)及架構(gòu)

、

業(yè)務(wù)監(jiān)控盤點(diǎn)盤點(diǎn)重要API的業(yè)務(wù)鏈路

、業(yè)務(wù)指標(biāo)、業(yè)務(wù)監(jiān)控告警及告警規(guī)則盤點(diǎn)盤點(diǎn)高P告警

、告警趨勢

、告警規(guī)則覆

、告警規(guī)則閾值錯(cuò)誤日志盤點(diǎn)盤點(diǎn)各個(gè)維度錯(cuò)誤日志的趨勢和TopN

數(shù)量壓測

、

容量評(píng)估

故障演練盤點(diǎn)盤點(diǎn)壓測情況

、對(duì)未來流量進(jìn)行預(yù)測,評(píng)估未來趨勢,

盤點(diǎn)演練情況是否達(dá)標(biāo)盤點(diǎn)

內(nèi)容GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

產(chǎn)品示例:

穩(wěn)定性自動(dòng)化盤點(diǎn)系統(tǒng)每天自動(dòng)盤點(diǎn)定期深度盤點(diǎn)自動(dòng)化跟蹤改進(jìn)任務(wù)創(chuàng)建改進(jìn)任務(wù)040103060205

產(chǎn)品示例:

穩(wěn)定性盤點(diǎn)n

自動(dòng)化盤點(diǎn)-每天晚上自動(dòng)對(duì)核心服務(wù)進(jìn)行全方位巡檢盤點(diǎn)GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站n

手動(dòng)深度盤點(diǎn)-

定期

(比如每周一次)

對(duì)核心服務(wù)人工方式深度盤點(diǎn)n

總體告警數(shù)大幅降低n

觸發(fā)限流頻率及告警大幅降低GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

產(chǎn)品示例:

穩(wěn)定性盤點(diǎn)治理直接效果n

觸發(fā)熔斷頻率及告警大幅降低產(chǎn)品示例:

故障發(fā)現(xiàn)

、自動(dòng)化定位

、應(yīng)急協(xié)同

、應(yīng)急評(píng)估系統(tǒng)客訴工單GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站1.故障發(fā)現(xiàn)

、公告

、

自動(dòng)分析負(fù)責(zé)人

、

自動(dòng)拉群5.應(yīng)急結(jié)束,

自動(dòng)化應(yīng)

急響應(yīng)評(píng)估6.基于根因分析自動(dòng)化創(chuàng)建改進(jìn)任務(wù)4.定時(shí)自動(dòng)推送應(yīng)急進(jìn)度和關(guān)鍵指標(biāo)趨勢3.

自動(dòng)化根因定位,實(shí)現(xiàn)一分鐘定位2.告警風(fēng)暴根因定位7.

自動(dòng)化跟蹤改進(jìn)任務(wù)進(jìn)度故障發(fā)現(xiàn)故障群公告自動(dòng)根因定位拉群應(yīng)急應(yīng)急協(xié)同預(yù)案止血應(yīng)急評(píng)估任務(wù)改進(jìn)告警系統(tǒng)客訴系統(tǒng)告警01

梳理業(yè)務(wù)場景02

梳理業(yè)務(wù)場景的故障定義03

梳理故障定義的監(jiān)控覆蓋確保所有故障定義都有監(jiān)控覆蓋,發(fā)生故障時(shí)有告警發(fā)現(xiàn)GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

產(chǎn)品示例:

業(yè)務(wù)及故障等級(jí)定義管理平臺(tái)GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站n業(yè)務(wù)邏輯

網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)復(fù)雜,

服務(wù)調(diào)用跨越多個(gè)區(qū)域

、集群,

通過業(yè)務(wù)鏈路系統(tǒng)進(jìn)行監(jiān)控和故障報(bào)告,

提升復(fù)雜業(yè)務(wù)鏈路故障的診斷能力

產(chǎn)品示例:

業(yè)務(wù)鏈路故障與監(jiān)控n業(yè)務(wù)鏈路發(fā)生故障時(shí),

直接推送到群點(diǎn)鏈接進(jìn)入排查具體的故障點(diǎn)01

線下演練實(shí)現(xiàn)自動(dòng)化線下演練實(shí)現(xiàn)了自動(dòng)化,

創(chuàng)建演練計(jì)劃和

流水線后,

定時(shí)

、變更時(shí)自動(dòng)觸發(fā),

演練結(jié)束自動(dòng)發(fā)送演練報(bào)告給對(duì)應(yīng)的負(fù)責(zé)人02

線上演練采用預(yù)約制

、

自動(dòng)化推進(jìn)一般在季度

、年度規(guī)劃期間,

推動(dòng)各業(yè)務(wù)方制定演練計(jì)劃,

并在線上預(yù)約時(shí)間,

到時(shí)系統(tǒng)將自動(dòng)拉群推動(dòng)演練的流程進(jìn)行03

安全

、

低成本的線上演練線上演練,

既要達(dá)到演練目的,

又需要低成本

、安全,

一般采用分流小流量到特定環(huán)境的方式進(jìn)行,

不對(duì)所有用戶產(chǎn)生影響04

突襲演練的保密性突襲演練確保私密性,

僅CTO

、少數(shù)突襲小組成員可知具體的突襲內(nèi)容和時(shí)間,

保障突襲的真實(shí)性,

讓被突襲業(yè)務(wù)方與遇到故障相同的場景

產(chǎn)品示例:

混沌工程

-演練系統(tǒng)建設(shè)演練系統(tǒng),

實(shí)現(xiàn)了線上

、

線下

、

突襲演練,

通過演練實(shí)現(xiàn)減少故障

、提升應(yīng)急能力GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站線上演練的信息同步線上演練預(yù)約一般在季度

、年度規(guī)劃期間推動(dòng)各業(yè)務(wù)線制定計(jì)劃、預(yù)約演練時(shí)間

產(chǎn)品示例:

混沌工程

-演練系統(tǒng)演練系統(tǒng)支持50多項(xiàng)故障項(xiàng)演練自動(dòng)拉群推進(jìn)演練流程

私有云與公有云統(tǒng)一化穩(wěn)定性保障-融合監(jiān)控

各個(gè)公有云都有自己的監(jiān)控,

每個(gè)人都去各個(gè)公有云查看

、處理告警異常,

是件非常麻煩低效的事。如何整合私有云自建監(jiān)控與公有云的監(jiān)控,

如何融合,

實(shí)現(xiàn)穩(wěn)定性保障的統(tǒng)一化

實(shí)現(xiàn)高效保障?彈性集群騰訊云AWS阿里云webhook

GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站監(jiān)控指標(biāo)系統(tǒng)告警系統(tǒng)渲染集群自建機(jī)房webhook騰訊云火山云...減少故障

、降低MTTR的有效措施GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

穩(wěn)定性保障重點(diǎn)治理工作歷史線突出問題為導(dǎo)向

、重點(diǎn)突破

、不斷迭代

、持續(xù)改進(jìn)架構(gòu)

、代碼問題?改造hbase存儲(chǔ)為tdsql,

拆分服務(wù),

大方案

、大場景隔離分流治理?dev

design

、代碼質(zhì)量

、

review文化建設(shè),推廣clean

code?架構(gòu)委

會(huì)

機(jī)制?

改造指標(biāo)系統(tǒng)

、告警系統(tǒng),

提升告警規(guī)則覆蓋率,

推動(dòng)業(yè)務(wù)監(jiān)控?

提升監(jiān)控覆蓋率,

全面

建設(shè)硬件

、

網(wǎng)絡(luò)

、

專線、中間件

、公有云全層級(jí)監(jiān)控?

建設(shè)戰(zhàn)略客戶專項(xiàng)監(jiān)控實(shí)現(xiàn)自動(dòng)定位?建設(shè)應(yīng)急協(xié)同

、鯤鵬診斷

、預(yù)案系統(tǒng)?提升復(fù)盤質(zhì)量,

自動(dòng)化追蹤復(fù)盤Action完成?建設(shè)公司級(jí)

、業(yè)務(wù)線級(jí)告警處理群雪崩

、穩(wěn)定性差?重點(diǎn)提升API限流、降級(jí)

、

流量放大

、調(diào)用超時(shí)

、異常處理

、循環(huán)依賴治理?提升UT覆蓋率計(jì)劃用戶體驗(yàn)

性能問題?建設(shè)前端性能診斷?建設(shè)國際化專項(xiàng)監(jiān)控?升級(jí)預(yù)案自愈系統(tǒng)?監(jiān)控AI全場景分析員

評(píng)審?建設(shè)后端自動(dòng)化盤點(diǎn)系統(tǒng)?建設(shè)線上演練系統(tǒng),對(duì)預(yù)案進(jìn)行梳理和演練?建設(shè)線下演練系統(tǒng),對(duì)強(qiáng)弱依賴

、預(yù)案進(jìn)行線下驗(yàn)證

、演練?建設(shè)全鏈路

單API鏈路壓測系統(tǒng)定位難

、定位慢

、恢

復(fù)慢?

建設(shè)自動(dòng)化定位系統(tǒng),四年故障數(shù)持續(xù)下降總量降72%故障數(shù)趨勢圖降43%告警缺失

、監(jiān)控故障發(fā)現(xiàn)率低降34%降26%20222023202120242025降低MTTR?故障發(fā)生前,

盤點(diǎn)業(yè)務(wù)場景

、故障定義

、

制定和演練驗(yàn)證快速恢復(fù)預(yù)案,

提升故障發(fā)現(xiàn)

、定位

、應(yīng)急

、預(yù)案工具能力?故障發(fā)生時(shí),

止血優(yōu)先,

快速發(fā)現(xiàn)、定位,

使用預(yù)案快速恢復(fù),

縮短故障發(fā)現(xiàn)

、定位

、恢復(fù)的時(shí)長?

故障發(fā)生后,

通過復(fù)盤分析故障中各個(gè)環(huán)節(jié),

分析耗時(shí)是否可以被降低,

產(chǎn)生改進(jìn)Action,

持續(xù)改進(jìn)減少故障?故障發(fā)生前,

通過穩(wěn)定性盤點(diǎn)

、減少Bug

、避免引入故障風(fēng)險(xiǎn)、提前解決故障風(fēng)險(xiǎn)

、

用戶客訴前解決故障的方式,

減少故障?

故障發(fā)生后,

通過復(fù)盤分析故障期間的各個(gè)場景,

是否有可改進(jìn)風(fēng)險(xiǎn)點(diǎn),

將風(fēng)險(xiǎn)徹底解決,

舉一反三,

避免同類故障再次發(fā)生GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

目標(biāo)明確:

一切圍繞減少故障

、降低MTTR穩(wěn)定性保障全層級(jí)監(jiān)控1.告警系統(tǒng)改造n

告警單元化改造,

提升可靠性n

告警梳理,

提升精準(zhǔn)性

、覆蓋全面2.

日志改造n

es遷移到CickHouse,日志可靠性提升n

日志與指標(biāo)

、調(diào)用鏈實(shí)現(xiàn)關(guān)聯(lián)分析3.調(diào)用鏈改造n

es遷移到CK,

性能提升

、成本降低n

實(shí)現(xiàn)調(diào)用鏈全保留,

定位不再缺調(diào)用鏈,小數(shù)據(jù)故障分析能力提升4.

指標(biāo)改造n

建設(shè)秒級(jí)

、分鐘

、小時(shí)

、天級(jí)指標(biāo)n

實(shí)現(xiàn)基于CK的原文埋點(diǎn)指標(biāo),

全文記

錄埋點(diǎn)原文,

埋點(diǎn)問題定位提效GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

全面高質(zhì)監(jiān)控

、打好基礎(chǔ)

-

監(jiān)控系統(tǒng)持續(xù)迭代近年來持續(xù)迭代改進(jìn)實(shí)現(xiàn)存儲(chǔ)從es向clickhouse的遷移,

先后實(shí)現(xiàn)了秒級(jí)

、長時(shí)段

、高基數(shù)指標(biāo)

、全保留調(diào)用鏈等告警

、根因分析與預(yù)案系統(tǒng)

近年來持續(xù)迭代改進(jìn)調(diào)用鏈

日志

、Clickhouse指標(biāo)系統(tǒng)

準(zhǔn)確而及時(shí)發(fā)現(xiàn)故障

-

告警及告警治理大型微服務(wù)系統(tǒng)往往告警很多,

故障時(shí)長產(chǎn)生告警風(fēng)暴,

定位難GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站基于業(yè)務(wù)線群和告警風(fēng)暴分級(jí)治理告警群

時(shí)

,

業(yè)

務(wù)

風(fēng)

發(fā)

起應(yīng)急

基于告警

實(shí)現(xiàn)故障的自動(dòng)化定位基于告警定位故障,

既成本

低又精準(zhǔn)高效及時(shí)告警,

不誤報(bào)確保告警覆蓋全面覆蓋前端、

后端、

業(yè)務(wù)、

基礎(chǔ)設(shè)施

、

中間件等

。

如果發(fā)現(xiàn)缺失,

就加上減少告警數(shù)量?

設(shè)

計(jì)、

碼、

R

ev

i

ew水

平,

質(zhì)

量?

報(bào),

警準(zhǔn)確

率?創(chuàng)建

務(wù)

進(jìn)行跟蹤,

保觸發(fā)

因被

決提升告警及時(shí)查看率?

統(tǒng)

計(jì)

1

-

5

-

10

分鐘

查看

率?

期通

曬?

進(jìn)行

類,

類、

類,

查看,僅

報(bào)

率?

聚合、

關(guān)

聯(lián),

批處

理,

過群處

警?

時(shí)

醒處

理、

曬處

率告

+

業(yè)

務(wù)

,自動(dòng)化定期盤點(diǎn)閾值業(yè)務(wù)、

代碼變化、

都可能讓原來的閾值不再精準(zhǔn),

需要定期盤點(diǎn)區(qū)分出有直接業(yè)務(wù)

影響的告警對(duì)

業(yè)

務(wù)

級(jí)

發(fā)起應(yīng)急以告警為核心如何治理告警?提升告警處理率確保告警精準(zhǔn)發(fā)現(xiàn)快建設(shè)提升自動(dòng)化故障發(fā)現(xiàn)能力和產(chǎn)品>定位快建設(shè)和提升自動(dòng)化定位能力,

魔方語言自動(dòng)化根因定位、大模型自動(dòng)化定位

、根因分析恢復(fù)快建設(shè)全面的預(yù)案,

對(duì)預(yù)案進(jìn)行線上

演練-

確保有效性;止血優(yōu)先,

先止血,

再去調(diào)查原因GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

故障應(yīng)急:

唯快不破

-想盡一切辦法盡快止血治理快對(duì)于改進(jìn)實(shí)現(xiàn)進(jìn)行分級(jí)

、

限定完成時(shí)間,

對(duì)于高優(yōu)改進(jìn)任務(wù)嚴(yán)格管控完成>>GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站放大調(diào)用-泡沫流量治理

、大流量服務(wù)拆分超時(shí)

、錯(cuò)誤治理,盤點(diǎn)超時(shí)次數(shù)

、超時(shí)時(shí)長

、超時(shí)后處理案例

服務(wù)拆分對(duì)這種流量特別巨大

、實(shí)例數(shù)巨大的服務(wù),

進(jìn)行服務(wù)拆分,

解決自動(dòng)擴(kuò)縮容困難,

運(yùn)維困難的問題;基于業(yè)務(wù)重要性進(jìn)行拆分,

減少核心

、重保服務(wù)數(shù)量案

大方案治理常導(dǎo)致fullgc的大方案

、大場景,

獨(dú)立路由到特定的環(huán)境處理,

避免引起其它Pod頻繁fullgc

、影響所有請(qǐng)求-解決大方案

、大場景引發(fā)的大范圍故障案例

存儲(chǔ)改造hbase替換為騰訊云tdsql-->提升存儲(chǔ)的穩(wěn)定性-解決了hbase故障導(dǎo)致大規(guī)模高P故障的問題微服務(wù)限流

、降級(jí)、制定預(yù)案,

并線上演練驗(yàn)證循環(huán)依賴治理

減少故障:

穩(wěn)定性核心的基礎(chǔ)

-架構(gòu)治理依賴中間件的架構(gòu)重構(gòu)

、改造架構(gòu)治理緩存治理GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站好的設(shè)計(jì)dev

des

ig

n進(jìn)行評(píng)審高質(zhì)量的代碼Code

rev

iewA

I

rev

iew

減少故障:

穩(wěn)定性核心的基礎(chǔ)

-好的設(shè)計(jì)

、架構(gòu)

、代碼如何推動(dòng)文化建設(shè)-進(jìn)行獎(jiǎng)勵(lì)

、激勵(lì)好的架構(gòu)架構(gòu)委員會(huì)進(jìn)行評(píng)審舉行讀書活動(dòng):

clean-code

、整潔代碼優(yōu)秀codereviewer優(yōu)秀Devdesign優(yōu)秀代碼質(zhì)量與敏捷流程管理結(jié)合?

P0創(chuàng)建在進(jìn)行中迭代

、方便晨會(huì)看到,

其它在未規(guī)劃,

通過新迭代排期解決?

Refinement復(fù)盤未完成的穩(wěn)定性任務(wù),

通過指標(biāo)管控?

Sprint

plan規(guī)劃穩(wěn)定性任務(wù)?

考慮到每個(gè)人的輸入任務(wù)量,

如果太多,

按優(yōu)先級(jí)進(jìn)行分批次處理強(qiáng)制措施通過穩(wěn)定性委員會(huì)推動(dòng),

人員覆蓋核心業(yè)務(wù)線,

收集各方意見、制定流程、

推進(jìn)?

責(zé)

人、到團(tuán)隊(duì)、到

監(jiān)?

機(jī)

制自身改進(jìn)?盤

點(diǎn)、改

進(jìn)

效:一

動(dòng)

化、簡

化?

作由

難?評(píng)

估、

個(gè)

業(yè)

務(wù)

線的

實(shí)際

量?盤

點(diǎn)

進(jìn)

務(wù)

進(jìn)

級(jí),

點(diǎn)

進(jìn)

優(yōu)GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站盤點(diǎn)系統(tǒng)

自動(dòng)化盤點(diǎn)

-提前發(fā)現(xiàn)所有風(fēng)險(xiǎn),

并有效治理每天

、

周進(jìn)行自動(dòng)化盤點(diǎn)

巡檢故障復(fù)盤,

不斷增加盤點(diǎn)巡檢規(guī)則務(wù),

并對(duì)任務(wù)進(jìn)行自動(dòng)化跟蹤直至問題解決如何更有效的保證風(fēng)險(xiǎn)改進(jìn)被執(zhí)行治理?前端

、

后端

、

業(yè)務(wù)360度

自動(dòng)

檢自動(dòng)化創(chuàng)建改進(jìn)任1.每一次應(yīng)急對(duì)應(yīng)急行為進(jìn)行自動(dòng)化評(píng)估

,表揚(yáng)

優(yōu)秀者1.定期應(yīng)急能力演練

,刷新應(yīng)急能力

、應(yīng)急手冊

、預(yù)案2.

線上突襲演練1.

培養(yǎng)

、引導(dǎo)Leader穩(wěn)定性方面的意識(shí)和責(zé)任心2.

通曬

、獎(jiǎng)勵(lì)優(yōu)秀團(tuán)隊(duì)GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站故障多的團(tuán)隊(duì)容易應(yīng)急疲勞,

故障少的團(tuán)隊(duì)容易喪失應(yīng)急能力應(yīng)急能力包括:

快速響應(yīng)能力

、

Leader的應(yīng)急組織能力

、使用監(jiān)控SRE工具快速根因分析定位能力

、快速恢復(fù)能力

故障應(yīng)急:

應(yīng)急激勵(lì)

、應(yīng)急能力刷新保持團(tuán)隊(duì)高水平應(yīng)急能力應(yīng)急少的團(tuán)隊(duì)團(tuán)隊(duì)Leader應(yīng)急多的團(tuán)隊(duì)案

1

務(wù)

復(fù)某

務(wù)

障,

實(shí)

現(xiàn)

級(jí)

ES

損提升預(yù)案,且組織了線上演練,故障發(fā)生時(shí),團(tuán)隊(duì)快速響應(yīng),第一時(shí)間定位問題按照預(yù)案止血,降

級(jí)

ES,有

面案

例2:

復(fù)某次渲染小機(jī)房專線故障,導(dǎo)致渲染服務(wù)排隊(duì)嚴(yán)重,因?yàn)橐呀?jīng)有過線上演練,按照演練的預(yù)案快速進(jìn)行了機(jī)房隔離,業(yè)務(wù)切換到其它集群,并在新的集群進(jìn)行擴(kuò)容,故障很快恢復(fù)應(yīng)急能力

刷新線上演練參與人員包括技術(shù)支持、SRE

、開發(fā)測試、業(yè)務(wù)負(fù)責(zé)人,

鍛煉負(fù)責(zé)人的應(yīng)急組織能力,

真正故障到來時(shí)從容不破,

能快速止血操作變更導(dǎo)致預(yù)案失效代碼

、配置變更可能會(huì)使原來預(yù)案失效,

通過定期線上演練,

確保有效性GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站線上線下

不一致線上與線下可能有很大不同,

通過線上真實(shí)演練,

確保線上的預(yù)案和操作的有效性

線上演練驗(yàn)證

-保障預(yù)案線上有效性

、刷新團(tuán)隊(duì)?wèi)?yīng)急能力線下通過自動(dòng)化測試保障,

線上通過線上演練保障線上定期演練驗(yàn)證

故障復(fù)盤重在發(fā)現(xiàn)改進(jìn)Action及改進(jìn)Action的完成只有復(fù)盤的改進(jìn)Action完成了,

復(fù)盤才是真的完成了GO

PS全

運(yùn)

會(huì)

運(yùn)

數(shù)

術(shù)

會(huì)2

0

2

5·深

站線上演練驗(yàn)證線上線下有時(shí)差異很大,線上驗(yàn)證才更有效撰寫復(fù)盤文檔故障修復(fù)后盡快撰寫復(fù)盤文檔,

使用統(tǒng)一模板故障記錄記

、時(shí)間線、

服務(wù)、

業(yè)務(wù)狀態(tài)、

人員操作等復(fù)盤會(huì)議會(huì)議室現(xiàn)場復(fù)盤,

分析、記

進(jìn)A

ct

i

o

n,

并任務(wù)化跟蹤復(fù)盤A

c

t

i

o

n自動(dòng)化跟蹤A

cti

o

n

務(wù)狀態(tài),

直至完成故障發(fā)生盡一切手段盡快止血,止血優(yōu)先,止血后再分析原因GO

PS全

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論