2024基于業(yè)務(wù)穩(wěn)定性治理和故障應(yīng)急實踐_第1頁
2024基于業(yè)務(wù)穩(wěn)定性治理和故障應(yīng)急實踐_第2頁
2024基于業(yè)務(wù)穩(wěn)定性治理和故障應(yīng)急實踐_第3頁
2024基于業(yè)務(wù)穩(wěn)定性治理和故障應(yīng)急實踐_第4頁
2024基于業(yè)務(wù)穩(wěn)定性治理和故障應(yīng)急實踐_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于1-5-10的業(yè)務(wù)穩(wěn)定性治理和故障應(yīng)急實踐目錄應(yīng)急響應(yīng)中心建設(shè)基于故障的數(shù)據(jù)運營B站應(yīng)急響應(yīng)體系設(shè)計理念未來規(guī)劃與展望01B站應(yīng)急響應(yīng)體系設(shè)計理念為什么我們要建設(shè)應(yīng)急響應(yīng)體系?行業(yè)故障頻發(fā),引起高度重視行業(yè)故障頻發(fā),熱搜不斷B站也不例外,各種各樣case不斷…故障處理時效達不到預(yù)期故障處理時間長、應(yīng)急協(xié)同混亂多次出現(xiàn)熱搜類故障同樣類型的故障多次出現(xiàn)…故障處置數(shù)據(jù)難以追溯、衡量相比去年穩(wěn)定性做的好還是不好?缺乏量化數(shù) 據(jù)故障1-5-10數(shù)據(jù)怎么樣、如何提高?故障召回率低,客服和技術(shù)脫節(jié)?...GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

穩(wěn)定性保障面臨的挑戰(zhàn)定界、定位困難應(yīng)急響應(yīng)機制不健全、快恢能力薄弱預(yù)案少、新鮮度低,應(yīng)急手忙腳亂發(fā)現(xiàn)時間不穩(wěn)定,耗時難以預(yù)測服務(wù)語言多樣,監(jiān)控指標(biāo)不統(tǒng)一,關(guān)鍵監(jiān)控覆蓋不全、告警噪音多故障誘因多樣,入口多代碼變更、配置變更、定時策略、緩存過期、壓測、突發(fā)活動01GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

020403鏈路復(fù)雜變更難以對齊、根因分析不完善、缺乏可觀測B站應(yīng)急響應(yīng)體系發(fā)展歷程2019應(yīng)急響應(yīng)1.0時代建設(shè)故障平臺,側(cè)重于事后復(fù)盤基于告警、客訴的匆忙應(yīng)急被動響應(yīng)20232022應(yīng)急響應(yīng)2.0時代引入事中通告,故障訂閱能力建設(shè)SLO理念,基于SLO告警,群協(xié)同機制被動響應(yīng)應(yīng)急響應(yīng)3.0時代主動業(yè)務(wù)風(fēng)險摸排,風(fēng)險巡檢建設(shè)ERC中心,打通客服&SLO&內(nèi)部反饋打通ERC&可觀測,AIOps根因推薦故障應(yīng)急協(xié)同能力建設(shè)進行時故障全生命周期管理故障數(shù)據(jù)運營2024GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

B站應(yīng)急響應(yīng)體系故障應(yīng)急體系風(fēng)險摸排、安全生產(chǎn)代碼質(zhì)量變更管控1-5-10摸排變更阻斷客訴SLO故障召回業(yè)務(wù)指標(biāo)內(nèi)部反饋輿情定界、定位變更溯源根因分析可觀測快恢切流回滾降級 限流擴容復(fù)盤、待辦損失時間線故障原因定級待辦容量管理混沌工程故障預(yù)防故障發(fā)現(xiàn)故障定位故障恢復(fù)故障改進質(zhì)量控制應(yīng)急響應(yīng)GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

復(fù)盤反思總結(jié)02應(yīng)急響應(yīng)中心建設(shè)ERC:應(yīng)急響應(yīng)中心MT

T

R確認

止損

恢復(fù)

定界

定位

響應(yīng)

識別

發(fā)生

故障

MT

T

FMe

a

n

T

i

m

e

T

o

F

i

xMT

T

IMe

a

n

T

i

m

e

T

o

I

d

e

n

t

i

f

yMT

T

KMe

a

n

T

i

m

e

T

o

K

no

wMT

T

VMe

a

n

T

i

m

e

T

o

V

e

r

i

f

y定界:確定故障影響范圍和大概范圍,為了更加準(zhǔn)確的應(yīng)急GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

定位:找到故障的具體原因,問題根源例如:變更導(dǎo)致可用率下跌定界:通過可觀測找到應(yīng)用coredump定位:debug找到具體某行代碼止損:防止故障擴散,更快的處置行為恢復(fù)到可接受狀態(tài)恢復(fù):業(yè)務(wù)完全恢復(fù)到故障前的狀態(tài)例如:xx功能能異常止損:業(yè)務(wù)開啟熱降級,功能基本可用恢復(fù):業(yè)務(wù)完全可用Emergency

Response

Center:應(yīng)急響應(yīng)中心對故障全生命周期管理1分鐘發(fā)現(xiàn),5分鐘處置,10分鐘恢復(fù)防止能預(yù)見的問題快速恢復(fù)不能預(yù)防的問題不再重復(fù)已發(fā)生的問題面向故障建設(shè)平臺能力SLOERC(應(yīng)急響應(yīng)中心)客服系統(tǒng)應(yīng)急協(xié)同電話升級告警中心策略平臺策略下發(fā)客訴根因推薦低閾值內(nèi)部報障內(nèi)部反饋故障召回SLO工程低閾值指標(biāo)業(yè)務(wù)指標(biāo)客服單業(yè)務(wù)客訴>N客服和技術(shù)應(yīng)急打通內(nèi)部報障內(nèi)部人員反饋告警升級、輿情策略管理應(yīng)急協(xié)同策略管理SLO預(yù)定義、客服反饋&業(yè)務(wù)干系人關(guān)系故障升級策略聯(lián)動故障預(yù)案其他故障全生命周期管理故障訂閱GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

故障召回:故障預(yù)定義SLO低閾值、業(yè)務(wù)指標(biāo)應(yīng)用SLO、場景SLO故障閾值管理、持續(xù)時間管理自動創(chuàng)建應(yīng)急協(xié)同群、復(fù)用原有群干系人管理故障升級策略…客服召回:客訴業(yè)務(wù)域、客訴量客訴業(yè)務(wù)域、技術(shù)組織域關(guān)聯(lián)關(guān)系規(guī)約:首次客訴時間、客訴聚集性業(yè)務(wù)域故障通用話術(shù)…通用故障能力告警升級故障開放api,業(yè)務(wù)自定義故障,復(fù)用故障能力…GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

故障召回:客服痛點沒有故障優(yōu)先級,緊急故障容易被淹沒沒有緊急故障規(guī)約,緊急故障得不到高優(yōu)處理故障干系人拉不全,協(xié)同效率低沒有升級渠道消息觸達老板慢….客服&技術(shù)應(yīng)急響應(yīng)客訴反饋&技術(shù)組織業(yè)務(wù)樹打通,一鍵應(yīng)急響應(yīng)客訴>N,直接觸發(fā)故障應(yīng)急2分鐘無人響應(yīng),電話升級拉通干系人報障群客服老板ERC反饋客訴研發(fā)重大故障(升級)客服高優(yōu)客訴錄入客訴>N應(yīng)急協(xié)同老板&干系人故障通告故障處置線上客訴反饋故障,處理效率提升10倍客訴應(yīng)急響應(yīng)GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

故障召回:技術(shù)指標(biāo)故障處理研發(fā)&SRESLO老板應(yīng)急協(xié)同告警拉群重大故障(升級)ERC低閾值定為、定界老板&干系人故障通告預(yù)案執(zhí)行SLO&業(yè)務(wù)應(yīng)急響應(yīng)告警響應(yīng)SLO&業(yè)務(wù)指標(biāo)SLO&業(yè)務(wù)指標(biāo)應(yīng)急協(xié)同自動建故障應(yīng)急群、故障處理過程可視關(guān)注故障的同學(xué)一鍵入群一鍵故障通告:TC故障推送電話升級:3分鐘無人接手痛點面向告警的匆忙應(yīng)急,可能對用戶壓根沒影響核心場景缺乏電話告警故障干系人拉不全,協(xié)同效率低消息觸達老板慢….GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

應(yīng)急協(xié)同:故障過程可觀測根因推薦基于鏈路告警分析變更墻快速定位變更誘因基于鏈路故障下鉆、根因推薦…基礎(chǔ)分析下鉆可用區(qū)聚集性、錯誤碼分布、

Top占比實例鏈路變更可觀測可觀測大盤…處置過程可觀測故障發(fā)生、發(fā)現(xiàn)、響應(yīng)、進展更新、恢復(fù)過程可觀測止損、恢復(fù)方式可觀測操作記錄可觀測…GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

應(yīng)急協(xié)同:快恢多活快恢組建快恢分布式,具備基礎(chǔ)容災(zāi)限流:防止組建過載,SLB限流、DB限流、SQL黑名單,GW聯(lián)動

App流控故障切換:主從切換、SLB域名遷移、DCDN切換自建【三方】集群重建:一鍵重建SLB、緩存、MQ…微服務(wù)快恢連接數(shù)控制限流:0信任caller限流BBR:自我保護弱依賴熔斷、降級,ssr靜態(tài)降級擴容、回滾…業(yè)務(wù)快恢數(shù)據(jù)降級、復(fù)雜度降級玩法降級端上入口隱藏…01GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

020403東西向切量、南北向切流單可用區(qū)快彈能力…應(yīng)急協(xié)同:預(yù)案平臺建設(shè)原子預(yù)案故障召回新鮮度保持業(yè)務(wù)類預(yù)案平臺類預(yù)案限流回滾擴容多活切流Cache降級精排降級粗排降級動態(tài)預(yù)案(預(yù)案模版)靜態(tài)預(yù)案文檔預(yù)案預(yù)案決策模塊確認&執(zhí)行預(yù)案匹配預(yù)案推薦編排&執(zhí)行編排&執(zhí)行編排&執(zhí)行可觀測梯度控制結(jié)果驗收事件通知預(yù)案平臺要解決的問題?預(yù)案散落各地,內(nèi)部文檔、在線文檔、平臺類操作預(yù)案可執(zhí)行性:新鮮度保持依賴特定執(zhí)行人和故障、根因分析割裂,預(yù)案推薦、聯(lián)動、預(yù)案可觀測缺失…預(yù)案平臺能力建設(shè)對接內(nèi)部各個平臺,提供通用預(yù)案原子能力建設(shè)聯(lián)動根因分析,預(yù)案推薦、執(zhí)行預(yù)案編排:支持業(yè)務(wù)基于原子預(yù)案編排業(yè)務(wù)場景預(yù)案新鮮度保持:自定義執(zhí)行時間、灰度策略,預(yù)案執(zhí)行報告推送…GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

實踐中遇到的問題?一個故障,多個突發(fā)群?技術(shù)指標(biāo)、客服指標(biāo)召回相互獨立,缺乏聯(lián)動干系人拉的過多故障基于CMDB角色拉人,拉人容易放大非技術(shù)類故障也被召回了?產(chǎn)品、運營類問題也被召回了拉了不該拉的干系人客服選擇受損業(yè)務(wù)時選錯節(jié)點,導(dǎo)致干系人錯位)GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

我們的解法避免干擾、收斂人去除預(yù)期內(nèi)限流,限流以告警方式處置以結(jié)果指標(biāo)為導(dǎo)向支持基于值班組、固定人的應(yīng)急協(xié)同多渠道召回、收斂群打通各渠道召回,收斂群底層故障,基于組織收斂群群短時復(fù)用非技術(shù)類故障被召回?意料之外,情理之中,促進非技術(shù)類優(yōu)化,關(guān)注問題收斂干系人錯位加強客服宣導(dǎo)、優(yōu)化影響業(yè)務(wù)文字描述這個只是為了快速應(yīng)急,對聲譽真的沒影響GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

故障復(fù)盤:做有價值的復(fù)盤有效的故障復(fù)盤能避免故障重復(fù)發(fā)生GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

處理過程回溯時間階段用戶操作反思總結(jié)架構(gòu)設(shè)計、編碼層面暴露的問題變更類故障是否可阻斷、規(guī)避發(fā)現(xiàn)優(yōu)化、是否可召回處置優(yōu)化、量化

1-3-5-10定級定責(zé)損失統(tǒng)計故障等級責(zé)任方影響分析影響摘要影響面影響時間影響損失改進措施改進事項完成時間負責(zé)人驗收人優(yōu)先級03基于故障的數(shù)據(jù)運營故障運營思路風(fēng)險預(yù)防效果、故障恢復(fù)后的改進成果:故障數(shù)趨勢同類型故障重復(fù)發(fā)生率安全生產(chǎn)逃逸率故障分…故障自動召回覆蓋、準(zhǔn)確性:自動召回率召回準(zhǔn)確率技術(shù)指標(biāo)召回率…故障時效:1-3-5-10達成率,分位值MTTR均值、分位值根因分析準(zhǔn)確率預(yù)案執(zhí)行有效率…故障召回安全生產(chǎn)故障處置GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

故障召回:黃金指標(biāo)提升故障準(zhǔn)確率,避免狼來了平均故障準(zhǔn)確率80%+以結(jié)果指標(biāo)為導(dǎo)向,過程指標(biāo)通過告警方式處置就夠了預(yù)期內(nèi)限流不是故障!提升故障召回率,特別是技術(shù)指標(biāo)召回平均自動召回率80%+,其中技術(shù)指標(biāo)召回40%+業(yè)務(wù)指標(biāo)、基礎(chǔ)服務(wù)、數(shù)據(jù)鏈路召回加速覆蓋故障準(zhǔn)確率故障召回率黃金指標(biāo)GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

故障處置:1-3-5-10計算口徑總時長10min統(tǒng)計方式簡單各階段時長不直觀明了不利于持續(xù)改進串行統(tǒng)計,總時長19min統(tǒng)計方式較復(fù)雜每段時長清晰描述利于優(yōu)化改進累計統(tǒng)計分段統(tǒng)計GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

故障處置:量化故障處置質(zhì)量組織業(yè)務(wù)1-3-5-10達成率MTTR時效(平均+分位)數(shù)據(jù)量化GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會2024

·上海站

故障處置效率到底怎么樣?故障月報:數(shù)據(jù)通曬故障月報(技術(shù)全員)整體故障數(shù)、定級故障,環(huán)比上月變化部門故障Top、故障原因占比責(zé)任事故、變更類故障通曬故障處置質(zhì)量1-3-5-10達成情況故障召回率、準(zhǔn)確率根因分析準(zhǔn)確率1-3-5-10長尾case通曬待辦跟進季度待辦完成情況部門待辦分布本月新增待辦情況GO

P

S全球運維大會暨研運數(shù)智化技術(shù)峰會20

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論