傳統(tǒng)大型國企如何實施IT運(yùn)維SRE轉(zhuǎn)型_第1頁
傳統(tǒng)大型國企如何實施IT運(yùn)維SRE轉(zhuǎn)型_第2頁
傳統(tǒng)大型國企如何實施IT運(yùn)維SRE轉(zhuǎn)型_第3頁
傳統(tǒng)大型國企如何實施IT運(yùn)維SRE轉(zhuǎn)型_第4頁
傳統(tǒng)大型國企如何實施IT運(yùn)維SRE轉(zhuǎn)型_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大型國企如何實施IT運(yùn)維SRE轉(zhuǎn)型——暨北京移動IT運(yùn)維轉(zhuǎn)型實踐分享王霖信息系統(tǒng)部中臺能力運(yùn)營室經(jīng)理IT系統(tǒng)架構(gòu)委員會負(fù)責(zé)人背景與挑戰(zhàn)轉(zhuǎn)型頂層設(shè)計轉(zhuǎn)型分享:技術(shù)保障與容災(zāi)應(yīng)急轉(zhuǎn)型分享:數(shù)智化運(yùn)維平臺S

RE

未來思考目錄CONTENTS2345101背景與挑戰(zhàn)秉承公司“世界一流信息服務(wù)科技創(chuàng)新公司”發(fā)展定位,明確IT成為“世界一流的信息服務(wù)提供商”的核心戰(zhàn)略目標(biāo),

IT治理是重要的戰(zhàn)略舉措,需要企業(yè)從組織、技術(shù)、協(xié)同等方面進(jìn)行IT治理優(yōu)化,

其中運(yùn)維保障是業(yè)務(wù)目標(biāo)實現(xiàn)的基礎(chǔ),也是IT治理的核心。GO

PS全球運(yùn)維大會

2023

·

上海站企業(yè)架構(gòu)設(shè)計架構(gòu)原則、愿景和需求預(yù)備階段架構(gòu)愿景架構(gòu)需求 運(yùn)維保障已經(jīng)成為企業(yè)IT治理的核心業(yè)務(wù)架構(gòu)信息架構(gòu)技術(shù)架構(gòu)?TOGAF架構(gòu)設(shè)計的關(guān)鍵在于業(yè)務(wù)架構(gòu)、信息架構(gòu)(數(shù)據(jù)架構(gòu)、應(yīng)用架構(gòu))、技術(shù)架構(gòu)三個方面的規(guī)劃設(shè)計,并結(jié)合實現(xiàn)閉環(huán)治理;?聚焦于價值、體系、組織和流程等方面,持續(xù)優(yōu)化IT治理完善資源管理和制度流程,從提升管理到聚焦治理。中國移動規(guī)劃LEAD發(fā)展體系

:運(yùn)維保障是IT治理的核心TOGAF架構(gòu):

IT治理是架構(gòu)實現(xiàn)的重要基礎(chǔ)機(jī)會及解決方案、遷移規(guī)劃實施治理Togaf-ADM架構(gòu)治理數(shù)據(jù)業(yè)務(wù)技術(shù)架構(gòu)實現(xiàn)經(jīng)過二十多年的升級迭代,北京移動BSS系統(tǒng)已完成云化、微服務(wù)化、容器化等技術(shù)架構(gòu)升級,享受云原生技術(shù)紅利的同時,IT生產(chǎn)系統(tǒng)的組件規(guī)模和復(fù)雜性呈幾何級增長

,軟件交付和IT運(yùn)維面臨巨大挑戰(zhàn),迫切需要引入有效的IT運(yùn)維方法體系。GO

PS全球運(yùn)維大會

2023

·

上海站 云原生技術(shù)背景下,北京移動IT系統(tǒng)面臨的挑戰(zhàn)?復(fù)雜度:軟件交付及運(yùn)維復(fù)雜性成倍提升?萬級:服務(wù)器、容器、組件管理運(yùn)維難?

海量:復(fù)雜服務(wù)調(diào)用,故障難追溯?微服務(wù):高內(nèi)聚、低耦合,提升系統(tǒng)可靠性?秒級:極致彈性能力,提高資源利用率?分鐘級:靈活部署,提高需求支撐效率中心應(yīng)用產(chǎn)商品中心規(guī)則中心預(yù)受理中心積分中心后臺進(jìn)程應(yīng)急中心零庫中心攜號轉(zhuǎn)網(wǎng)京云匯VB6融合中心能力開放…中間件微服務(wù)框架、中間件等容器基礎(chǔ)平臺

容器平臺(磐基-聯(lián)創(chuàng)FOOT)

中心應(yīng)用配套

統(tǒng)規(guī)則中心預(yù)受理中心積分中心后臺進(jìn)程N(yùn)GCRM零庫中心攜號轉(zhuǎn)網(wǎng)京云匯VB6VB8能力開放能力展現(xiàn)

容器基礎(chǔ)平臺

容器平臺(磐基-自研)

6000+臺服務(wù)器,上萬容器實例億級:服務(wù)調(diào)用從單服務(wù)到2000+中臺能力沉淀萬級:容器實例運(yùn)維困局技術(shù)紅利中心1

中心2從單系統(tǒng)到100+平臺應(yīng)用千級:中臺能力全局F5+DNS全局F5+DNS數(shù)據(jù)庫主節(jié)點(diǎn)數(shù)據(jù)庫備節(jié)點(diǎn)微服務(wù)框架、中間件等資源管理產(chǎn)品管理客戶管理20000+微服務(wù),億級服務(wù)調(diào)用營業(yè)前臺客服三方接入百級:平臺應(yīng)用VS營業(yè)廳其他渠道短廳訂單管理營銷管理配套

統(tǒng)中間件酬金電商…酬金帳詳單支付中心結(jié)算文件接口支付中心文件接口電商N(yùn)GCRMVB8…帳詳單….結(jié)算前置機(jī)融合中心產(chǎn)商品中心賬戶中心訂單中心應(yīng)急中心前置機(jī)賬戶中心客戶中心訂單中心客戶中心CRM云化

BOSS開通CRM云化

…六大驅(qū)動力GO

PS全球運(yùn)維大會

2023

·

上海站北京移動IT系統(tǒng)運(yùn)營轉(zhuǎn)型的六大驅(qū)動力業(yè)務(wù)轉(zhuǎn)型多廠商服務(wù)組織復(fù)雜故障零容忍集團(tuán)戰(zhàn)略

集團(tuán)戰(zhàn)略“創(chuàng)世界一流跨規(guī)劃、建設(shè)、開發(fā)、運(yùn)維、

IAAS、

PAAS、大數(shù)據(jù)等8個部門近200人合計數(shù)十個廠商提供IT系統(tǒng)建設(shè)、開發(fā)、運(yùn)維服務(wù),服務(wù)團(tuán)隊合計近500人

轉(zhuǎn)向云計算、政企業(yè)務(wù)、家庭融合業(yè)務(wù)等市場

數(shù)智化營銷、數(shù)智化服務(wù)、內(nèi)部降本增效對IT生產(chǎn)故障帶來用戶和業(yè)務(wù)部門投訴零容忍數(shù)智化轉(zhuǎn)型信息服務(wù)科技企業(yè)”轉(zhuǎn)型環(huán)境02轉(zhuǎn)型頂層設(shè)計目標(biāo)驅(qū)動轉(zhuǎn)型?故障驅(qū)動?SLO驅(qū)動工作方式轉(zhuǎn)型?大量人工?項目驅(qū)動

?

自動工具?敏捷開發(fā)傳統(tǒng)IT運(yùn)維GO

PS全球運(yùn)維大會

2023

·

上海站 北京移動“四位一體”SRE工作思路經(jīng)歷四大轉(zhuǎn)型協(xié)同機(jī)制轉(zhuǎn)型?部門各自為政

?多部門流程協(xié)同?純運(yùn)維?不涉及生產(chǎn)

?產(chǎn)品+開發(fā)+運(yùn)維?生產(chǎn)架構(gòu)優(yōu)化職責(zé)與團(tuán)隊轉(zhuǎn)型前提技術(shù)支撐保障【基礎(chǔ)】目標(biāo)SRE能力圖譜【核心】四位一體運(yùn)維保障體系數(shù)智化運(yùn)維平臺【載體】容災(zāi)和應(yīng)急保障體系【可靠】業(yè)務(wù)運(yùn)營保障【價值】通道效能項目立項評審流程

+業(yè)務(wù)需求評審流程

建設(shè)可觀測性運(yùn)維平臺

優(yōu)化DevOps工作流程

+并固化到管理平臺

事件記錄標(biāo)準(zhǔn)模板

+事件閉環(huán)工作流程團(tuán)隊試點(diǎn)

+“微分享

+激勵機(jī)制風(fēng)險分級與預(yù)案流程

+

風(fēng)險預(yù)案執(zhí)行與迭代人工演練方案與執(zhí)行

+混沌試驗自動化演練建立技術(shù)架構(gòu)標(biāo)準(zhǔn)

+IT工程全生命周期參與機(jī)制GO

PS全球運(yùn)維大會

2023

·

上海站

明確北京移動實施SRE九大原則確立IT運(yùn)維九大原則,并在部門協(xié)同流程、崗位協(xié)同流程、部門考核要求、部門工作文化等方面進(jìn)行落地執(zhí)行。事件閉環(huán)原則?

故障事件全程精準(zhǔn)記錄、復(fù)盤、并落實執(zhí)行導(dǎo)到位SRE技術(shù)文化原則?

打造SRE專業(yè)團(tuán)隊,從“運(yùn)維”轉(zhuǎn)型“產(chǎn)品+技術(shù)+運(yùn)維”團(tuán)隊故障演練原則?

進(jìn)行日常故障演練

,提前發(fā)現(xiàn)和消滅風(fēng)險,熟練故障處理流程、培養(yǎng)故障處理技術(shù)能力;架構(gòu)設(shè)計原則?

系統(tǒng)架構(gòu)上要保證云原生、高可用標(biāo)準(zhǔn)要求被設(shè)計考慮運(yùn)維前置原則?

運(yùn)維部門在項目立項、需求評審期就要提前接入風(fēng)險預(yù)案原則?

風(fēng)險提前分級,設(shè)定預(yù)案流程,并嚴(yán)格執(zhí)行和持續(xù)迭代全生命周期參與原則?

SRE團(tuán)隊關(guān)注IT工程建設(shè)的全生命周期,而不僅僅是IT工程上線

前的測試驗收和系統(tǒng)交維;DevOps閉環(huán)原則?

形成CI(持續(xù)集成)、CD(持續(xù)部署)、CO(持續(xù)運(yùn)營)的

流程良性閉環(huán),而不要斷裂可觀測性原則?

所有運(yùn)維相關(guān)節(jié)點(diǎn)數(shù)據(jù)、拓?fù)滏溌?、風(fēng)險點(diǎn)等全部可觀測

項目立項方案模板包含高可用標(biāo)準(zhǔn)要求組織

?

成立架構(gòu)委員會,持續(xù)推動IT生產(chǎn)架構(gòu)演進(jìn)?與廠商成立SRE聯(lián)合專業(yè)小組,敏捷快速迭代IT運(yùn)維工具GO

PS全球運(yùn)維大會

2023

·

上海站?

SRE參與IT工程全生命周期流程制度?

SLO管理辦法?統(tǒng)一變更管理流程?統(tǒng)一監(jiān)控告警制度?......?724運(yùn)維日,運(yùn)維突破活動,領(lǐng)頭羊計劃,打造SRE文化?IT運(yùn)維團(tuán)隊意識轉(zhuǎn)型,“產(chǎn)品

+開發(fā)

+運(yùn)維”綜合能力以組織、流程和文化變革為牽引流程文化保障業(yè)務(wù)連續(xù)性SRE管理規(guī)范化→SRE能力標(biāo)準(zhǔn)化→SRE支撐平臺化數(shù)智化運(yùn)維能力數(shù)智化運(yùn)營平臺SRE運(yùn)維體系,采取SRE目標(biāo)驅(qū)動SRE管理、SRE管理驅(qū)動運(yùn)維的設(shè)計思路,由1+3+8+1構(gòu)成,以”保障業(yè)務(wù)連續(xù)性”為目標(biāo),遵循SRE管理規(guī)范化、

SRE能力標(biāo)準(zhǔn)化、

SRE支撐平臺化原則,基于SRE生命周期的運(yùn)維實踐,沉淀出8大能力,將管理和運(yùn)維下沉

到各能力中,統(tǒng)一由數(shù)智化運(yùn)維平臺提供支撐,覆蓋全生命周期,持續(xù)提升SRE能力建設(shè)。 與中移集團(tuán)、浙江移動合作制定的SRE能力模型標(biāo)準(zhǔn)GO

PS全球運(yùn)維大會

2023

·

上海站組織保障能力(

5)數(shù)智化運(yùn)維能力(

20)SRE成熟度模型SRE組織保障能力測試管理能力架構(gòu)設(shè)計能力測試管理能力

架構(gòu)設(shè)計

能力集成部署能力混沌演練能力發(fā)布變更能力運(yùn)行治理能力架構(gòu)設(shè)計入網(wǎng)控制發(fā)布上線運(yùn)行治理混沌演練

能力運(yùn)行治理

能力發(fā)布變更

能力集成部署

能力運(yùn)行治理發(fā)布上線入網(wǎng)控制架構(gòu)設(shè)計 SRE深度參與IT工程“全生命周期”,而非僅僅“上線前交維”

SRE團(tuán)隊轉(zhuǎn)變意識,跨IT組織所有部門建設(shè)“IT工程全生命周期參與”機(jī)制和工作流程,

主動出擊方為正道。GO

PS全球運(yùn)維大會

2023

·

上海站入網(wǎng)控制SLO定義非功能性驗收資產(chǎn)更新/資源管理可觀測性覆蓋可維護(hù)性覆蓋架構(gòu)設(shè)計新技術(shù)預(yù)研IT架構(gòu)技術(shù)標(biāo)準(zhǔn)DevOps接入標(biāo)準(zhǔn)可維護(hù)性接入標(biāo)準(zhǔn)自動化運(yùn)維/智能運(yùn)維等工具日志/BOMC/APM/各類觀測性工具發(fā)布上線代碼版本管理版本構(gòu)建管理部署發(fā)布管理變更管理日常運(yùn)維日常運(yùn)維機(jī)制事件響應(yīng)機(jī)制故障復(fù)盤機(jī)制變更管理機(jī)制運(yùn)行治理性能治理巡檢治理架構(gòu)治理故障演練故障復(fù)盤灰度/金絲雀發(fā)布功能回歸測試全鏈路生產(chǎn)壓測應(yīng)急系統(tǒng)災(zāi)備系統(tǒng)SRE工作臺技術(shù)手段控制

點(diǎn)03轉(zhuǎn)型分享:技術(shù)保障與容災(zāi)應(yīng)急 技術(shù)支撐保障:以制定IT生產(chǎn)系統(tǒng)架構(gòu)技術(shù)標(biāo)準(zhǔn)為出發(fā)點(diǎn)GO

PS全球運(yùn)維大會

2023

·

上海站系統(tǒng)安全數(shù)據(jù)安全數(shù)據(jù)模型數(shù)據(jù)資產(chǎn)合計126條架構(gòu)技術(shù)標(biāo)準(zhǔn)微服務(wù)劃分簡化迭代要實施IT生產(chǎn)系統(tǒng)的可靠性架構(gòu)演進(jìn),

第一步是制定相應(yīng)的架構(gòu)技術(shù)標(biāo)準(zhǔn),為可靠性演進(jìn)建立度量衡標(biāo)準(zhǔn),

否則很難開展。數(shù)據(jù)高可用彈性容錯開發(fā)規(guī)范云原生水平適應(yīng)變化過載保護(hù)適應(yīng)破/損壞中間件高可用容量性能IAAS高可用自主可控DevOps11條21條72條22條應(yīng)用架構(gòu)技術(shù)架構(gòu)數(shù)據(jù)架構(gòu)安全架構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)用安全消除耦合中臺沉淀網(wǎng)絡(luò)安全數(shù)據(jù)流繪制架構(gòu)初步評估策略建議方案設(shè)計繪制架構(gòu)繪制架構(gòu)短廳視角初步評估CBOSS視角繪制架構(gòu)繪制架構(gòu)后臺任務(wù)視角繪制架構(gòu)初步評估策略建議初步評估策略建議方案設(shè)計初步評估策略建議方案設(shè)計初步評估策略建議方案設(shè)計策略建議...營業(yè)廳視角...SRE往往是組織內(nèi)唯一具備

“IT生產(chǎn)系統(tǒng)全局視角”的團(tuán)隊,從系統(tǒng)高可用出發(fā),

結(jié)合云原生等技術(shù)實踐,采用循環(huán)迭代、漸進(jìn)深入方式進(jìn)行持續(xù)反復(fù)的可靠性評估,發(fā)現(xiàn)IT生產(chǎn)的架構(gòu)性問題并推進(jìn)改進(jìn),

對SRE能否成功實施是“重中之重”。 技術(shù)支撐保障:持續(xù)評估SRE可靠性風(fēng)險,并迭代演進(jìn)GO

PS全球運(yùn)維大會

2023

·

上海站

過載保護(hù)?

限流、熔斷、降級

可靠性評估5要素云原生水平?應(yīng)用云原生、中間件云原生、數(shù)據(jù)庫高可用彈性容錯?

控制爆炸半徑、故障隔離、故障轉(zhuǎn)移

隨需伸縮?

支持按業(yè)務(wù)量無限伸縮

架構(gòu)復(fù)雜性

?

松耦合、

單一職責(zé)方案設(shè)計方案設(shè)計持續(xù)迭代評估電渠視角能開視角......采用

“滾動迭代、持續(xù)演進(jìn)”的策略,

而非“一步到位”的策略,

對已存在10年以上的老舊系統(tǒng),

下定決心進(jìn)行技

術(shù)迭代,消除

“技術(shù)債務(wù)”,是SRE工程能夠?qū)嵤┏晒Φ挠忠粵Q定性因素。 技術(shù)支撐保障:下定決心,償還IT系統(tǒng)架構(gòu)性技術(shù)債務(wù)GO

PS全球運(yùn)維大會

2023

·

上海站第一階段(2023):整合/試點(diǎn)、基礎(chǔ)建設(shè)?老舊整合:NGCRMNG客服、OCRM?新架構(gòu)提升:政企智慧中臺、應(yīng)急中心第二階段(2024):相對獨(dú)立、部分核心?結(jié)合CHBN:考慮規(guī)則中心INTERUIP、預(yù)受理中心?新基線中心:考慮客戶中心、產(chǎn)商品中心?相對獨(dú)立應(yīng)用:考慮零庫、客戶交互中心第三階段(2025):核心業(yè)務(wù)、較為復(fù)雜?以訂單為基礎(chǔ)規(guī)整5個訂單中心能力、及架構(gòu)升級第四階段(2026):下游工程、完整遷移?CRM下游中心:賬管、對賬、資料同步中心新架構(gòu)建設(shè)時,滿足JDK17、IPv6、操作系統(tǒng)、芯片架構(gòu)、營業(yè)終端、數(shù)據(jù)庫國產(chǎn)化的要求。在SRE工程實施之初,為了快速提升系統(tǒng)高可用水平,優(yōu)先建設(shè)災(zāi)備和應(yīng)急系統(tǒng),

推行系統(tǒng)故障時“先恢復(fù)再修復(fù)”響應(yīng)策略,將會是IT組織能夠?qū)RE工程實施下去的信心之源。GO

PS全球運(yùn)維大會

2023

·

上海站 容災(zāi)和應(yīng)急:優(yōu)先實施,作為SRE工程信心之源中心1

中心2絕大部分情況下,

故障發(fā)生時,

依賴雙中心

切換,快速恢復(fù)系統(tǒng)運(yùn)行極少情況下(如:

數(shù)據(jù)被破壞)雙中心失效,

啟用應(yīng)急系統(tǒng)恢復(fù)應(yīng)急關(guān)鍵詞:物理解耦、版本穩(wěn)定、常態(tài)演練04轉(zhuǎn)型分享:數(shù)智化運(yùn)維平臺

SRE數(shù)智化運(yùn)維平臺框架從打造運(yùn)維基礎(chǔ)、

防患故障未然、

故障快速響應(yīng)、保障流程效率4方面打造SRE體系化運(yùn)維平臺。GO

PS全球運(yùn)維大會

2023

·

上海站OnCall輪值管理事件響應(yīng)管理故障復(fù)盤管理系統(tǒng)變更管理故障演練管理DevOps流程閉環(huán)CMDB配置管理庫防患故障未然快速恢復(fù)故障AIOPS算法平臺性能治理工具告警管理系統(tǒng)容量管理平臺生產(chǎn)巡檢平臺生產(chǎn)壓測平臺生產(chǎn)監(jiān)控平臺預(yù)案管理平臺持續(xù)發(fā)布平臺混沌實驗平臺可觀測性平臺保障流程效率打造運(yùn)維基礎(chǔ)運(yùn)維數(shù)據(jù)中心

SRE運(yùn)維平臺分享1:自動化閉環(huán)的Devops流程作為SRE前提SRE本質(zhì)上是DevOps理念的一種實踐方法,在DevOps流程自動化閉環(huán)的基礎(chǔ)上推進(jìn)SRE運(yùn)維能力提升是應(yīng)有之義。GO

PS全球運(yùn)維大會

2023

·

上海站05開發(fā)度量管理06IT資產(chǎn)管理01需求管理02AIDO任務(wù)管理基于jenkins定制,與AIDO結(jié)合實現(xiàn)CI/CD自動化流水線GIT代碼倉庫管理積累的IT資產(chǎn):服務(wù)、進(jìn)程、界面組件等03CMP

CI/CD平臺統(tǒng)一管理每年4000+業(yè)務(wù)支撐需求完成需求分析后,基于需求進(jìn)行任務(wù)分解開發(fā)測試研發(fā)效能在線統(tǒng)計與管理自動化回歸測試管理平臺,04智測云已囊括近千個測試案例瀑布模型

SRE運(yùn)維平臺分享2:工具開發(fā)從項目制到敏捷迭代變革SRE理念要求快速迭代IT運(yùn)維工具,傳統(tǒng)“瀑布模型”項目很難勝任SRE快速開發(fā)工具需求,

敏捷迭代是唯一王道。GO

PS全球運(yùn)維大會

2023

·

上海站制定沖刺計劃執(zhí)行每日沖刺沖刺回顧改進(jìn)團(tuán)隊轉(zhuǎn)型:運(yùn)維

=>產(chǎn)品+開發(fā)

+運(yùn)維管理轉(zhuǎn)型:項目

=》敏捷方案設(shè)計開發(fā)測試上線運(yùn)行SLO觀測三滾規(guī)劃nginx入口流量觀測業(yè)務(wù)量觀測敏捷迭代產(chǎn)品特性定義雙中心調(diào)用量項目立項故障調(diào)度小程端到端業(yè)雙中心一鍵切換務(wù)觀測觀測序......燃

燒率概念SLO告警示例:能開接口調(diào)用成功率

SRE運(yùn)維平臺分享3:將SLO作為運(yùn)維能力提升的核心點(diǎn)在原有指標(biāo)監(jiān)控的基礎(chǔ)上,增加SLO監(jiān)控,并配套可觀測能力,將會大大提升監(jiān)控查準(zhǔn)率、查全率的同時,驅(qū)動可觀測性平臺建設(shè),進(jìn)而最終實現(xiàn)IT運(yùn)維能力在整體上質(zhì)的跨越。GO

PS全球運(yùn)維大會

2023

·

上海站單純指標(biāo)監(jiān)控

(不考試時間窗)基于多個長+短時間窗,基于可用性等級,實現(xiàn)SLO錯誤預(yù)算量化監(jiān)控APMBOMC日志中心IAAS指標(biāo)監(jiān)控PAAS指標(biāo)監(jiān)控可觀測性建設(shè)SAAS指標(biāo)監(jiān)控各類日志監(jiān)控+推動SAASPAASIAAS

SRE運(yùn)維平臺分享4:跨IaaS/PaaS/SaaS統(tǒng)一告警等級和響應(yīng)GO

PS全球運(yùn)維大會

2023

·

上海站告警等級響應(yīng)機(jī)制升級機(jī)制重大7*24即時超30分鐘,升級二級領(lǐng)導(dǎo)嚴(yán)重5*12即時30分鐘升級三級;1小時升級二級一般48小時內(nèi)處理超過3天未處理,升級三級;告警等級響應(yīng)機(jī)制升級機(jī)制A7*24即時超30分鐘,升級二級領(lǐng)導(dǎo)B24小時內(nèi)處理超過3天未處理,升級三級;C5日內(nèi)處理不做要求告警等級響應(yīng)機(jī)制升級機(jī)制一級5*12即時超30分鐘,升級三級級領(lǐng)導(dǎo)二級24小時內(nèi)處理超過3天未確定原因,伙伴協(xié)助;統(tǒng)一定義告警等級和響應(yīng)升級機(jī)制,

對于跨IaaS/PaaS/SaaS各部門之間的故障響應(yīng)協(xié)同一致性來說至關(guān)重要。

實現(xiàn)PAAS監(jiān)控告警

實現(xiàn)IAAS監(jiān)控告警統(tǒng)

標(biāo)

準(zhǔn)各自為政的監(jiān)控告警等級和響應(yīng)機(jī)制統(tǒng)一定義的監(jiān)控告警等級和響應(yīng)機(jī)制SAAS運(yùn)維牽頭實現(xiàn)SAAS監(jiān)控告警統(tǒng)一告警等級定義及響應(yīng)流程統(tǒng)一執(zhí)行告警響應(yīng)機(jī)制制定SAASSLO統(tǒng)一實施SLO管理

分解PAASSLO分解IAASSLO

SRE運(yùn)維平臺分享5:常態(tài)化演練故障應(yīng)急響應(yīng)預(yù)案GO

PS全球運(yùn)維大會

2023

·

上海站光有應(yīng)急預(yù)案管理平臺、以及各種應(yīng)急預(yù)案在數(shù)量上的積累,并不能真正保障故障時有序高效響應(yīng),從應(yīng)急預(yù)案故障模擬度、運(yùn)維團(tuán)隊熟練度兩個角度,必須實施常態(tài)化應(yīng)急演練。應(yīng)急預(yù)案常態(tài)化演練應(yīng)急預(yù)案持續(xù)迭代應(yīng)急預(yù)案設(shè)計應(yīng)急預(yù)案實現(xiàn)預(yù)案流程配置預(yù)案流程改進(jìn)故障復(fù)盤總結(jié)故障注入開發(fā)混沌演練預(yù)案預(yù)案腳本改進(jìn)演練風(fēng)險預(yù)防演練進(jìn)度計劃重大事件保障運(yùn)維團(tuán)隊覆蓋操作腳本開發(fā)團(tuán)隊經(jīng)驗提升主要變化:l統(tǒng)一變更風(fēng)險等級標(biāo)準(zhǔn):重大、嚴(yán)重、中等、一般;l變更發(fā)起:明確割接方案、影響評估、風(fēng)險等級評估等內(nèi)容;l變更評審:經(jīng)評審管理小組與相關(guān)人員評審?fù)夂笊暇€;l變更實施:增加實施后檢查內(nèi)容:渠道全量指標(biāo)、開門測;l持續(xù)保障

:持續(xù)更新保障日歷

;l每日通報:1)十日變更內(nèi)容/進(jìn)展;2)當(dāng)晚變更內(nèi)容;3

)次日變更結(jié)果通報。

SRE運(yùn)維平臺分享6:基于DevOps驅(qū)動跨部門變更管理GO

PS全球運(yùn)維大會

2023

·

上海站將工程項目、業(yè)務(wù)需求、基礎(chǔ)設(shè)施等多角度的變更統(tǒng)一進(jìn)行在線管理,與變更發(fā)起部門合力降低變更風(fēng)險。依賴CMDB、AIOPS建設(shè),實現(xiàn)變更影響的量化自動分析。近期運(yùn)維前置,加強(qiáng)重點(diǎn)業(yè)務(wù)需求和工程項目的變更評審。通過灰度發(fā)布環(huán)境生產(chǎn)指標(biāo)測試等方式完善風(fēng)險評估。長期中期實現(xiàn)在線變更管理變更管控整體思路描述清晰?

詞匯表、量化指標(biāo)具體的行動項目?分組細(xì)化到負(fù)責(zé)人、任務(wù)ID、優(yōu)先級、可驗證成果;對事不對人?

沒有任何人或團(tuán)隊被指出;?

只描述故障相關(guān)技術(shù)細(xì)節(jié)、原因分析;深度剖析?

找到根本原因和觸發(fā)因素;?

事實和數(shù)據(jù)驅(qū)動;?

適當(dāng)圖表表達(dá);按時間線分析問題所在根本原因迅速復(fù)盤?

最遲一周內(nèi)完成;簡明扼要?

只給出總結(jié)和結(jié)論;?

原始記錄和日志提供鏈接或附件;GO

PS全球運(yùn)維大會

2023

·

上海站深度剖析總結(jié)根因調(diào)查關(guān)聯(lián)部分問題逐條根因提煉行動執(zhí)行并跟蹤行動好的復(fù)盤,滿足這6個要求:建立高效故障復(fù)盤流程和無責(zé)文化六步走進(jìn)行故障復(fù)盤調(diào)查事實畫出故事線SRE運(yùn)維平臺分享7完成分析付諸行動行動結(jié)束123564序號分類根本原因觸發(fā)因素1技術(shù)機(jī)房空調(diào)故障導(dǎo)致設(shè)備停機(jī)或損壞機(jī)房空調(diào)故障后2流程故障響應(yīng)流程化調(diào)度機(jī)制待完善涉及跨部門、跨廠

商、跨系統(tǒng)協(xié)作時3技術(shù)Redis集群切換方

案待完善超過半數(shù)Redis主

進(jìn)程同時宕機(jī)時4技術(shù)建設(shè)中的可觀測平臺應(yīng)用便捷性不足需快速確認(rèn)公司考核、用戶感知等關(guān)鍵影響范圍時5管理仍有單機(jī)房提供的服務(wù)短信查詢賬單和支

付中心故障時

SRE運(yùn)維平臺分享7:建立高效故障復(fù)盤流程和無責(zé)文化GO

PS全球運(yùn)維大會

2023

·

上海站某次單中心空調(diào)故障復(fù)盤根本原因識別故障故事線04SRE未來思考加快推進(jìn)數(shù)智化轉(zhuǎn)型落實國家關(guān)于加快轉(zhuǎn)型的需求,順應(yīng)數(shù)字化、

網(wǎng)絡(luò)化、智能化趨勢,在夯實網(wǎng)絡(luò)優(yōu)勢基礎(chǔ)上,打造數(shù)字化、智能化的業(yè)務(wù)、能力和組織體系,實現(xiàn)全方位、系統(tǒng)性變革。發(fā)展方式發(fā)展方式從資源要素驅(qū)動向創(chuàng)新驅(qū)動轉(zhuǎn)變,實現(xiàn)從運(yùn)營商向科技公司的歷史性跨越:

科技投入顯著提升,建成高水平專家隊伍;

引領(lǐng)產(chǎn)業(yè)技術(shù)和商業(yè)模式變革;

形成技術(shù)、數(shù)據(jù)要素驅(qū)動的持續(xù)創(chuàng)新動力。發(fā)展方向把握新一代信息技術(shù)深度融入經(jīng)濟(jì)社會民生大勢,拓寬主業(yè)邊界,積極拓展信息服務(wù)藍(lán)海:

基礎(chǔ)電信業(yè)

互聯(lián)網(wǎng)產(chǎn)業(yè)

軟件及信息技術(shù)服務(wù)業(yè)初心使命貫徹落實國家創(chuàng)世界一流示范企業(yè)要求,以強(qiáng)烈的責(zé)任感、使命感,當(dāng)好“創(chuàng)一流”排頭兵,實現(xiàn):

一流的規(guī)模增長;

一流的產(chǎn)品服務(wù);

一流的效率效益。GO

PS全球運(yùn)維大會

2023

·

上海站IT運(yùn)維響應(yīng)中移動集團(tuán)戰(zhàn)略定位信息服務(wù)創(chuàng)世界一流科技公司央企信任背書

發(fā)揮央企優(yōu)勢,基于自身SRE實踐,推出IT運(yùn)維產(chǎn)品體系和服務(wù)從產(chǎn)品服務(wù)體系、央企信任背書、

自身超大規(guī)模IT運(yùn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論