版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
大型國企如何實施IT運(yùn)維SRE轉(zhuǎn)型——暨北京移動IT運(yùn)維轉(zhuǎn)型實踐分享王霖信息系統(tǒng)部中臺能力運(yùn)營室經(jīng)理IT系統(tǒng)架構(gòu)委員會負(fù)責(zé)人背景與挑戰(zhàn)轉(zhuǎn)型頂層設(shè)計轉(zhuǎn)型分享:技術(shù)保障與容災(zāi)應(yīng)急轉(zhuǎn)型分享:數(shù)智化運(yùn)維平臺S
RE
未來思考目錄CONTENTS2345101背景與挑戰(zhàn)秉承公司“世界一流信息服務(wù)科技創(chuàng)新公司”發(fā)展定位,明確IT成為“世界一流的信息服務(wù)提供商”的核心戰(zhàn)略目標(biāo),
IT治理是重要的戰(zhàn)略舉措,需要企業(yè)從組織、技術(shù)、協(xié)同等方面進(jìn)行IT治理優(yōu)化,
其中運(yùn)維保障是業(yè)務(wù)目標(biāo)實現(xiàn)的基礎(chǔ),也是IT治理的核心。GO
PS全球運(yùn)維大會
2023
·
上海站企業(yè)架構(gòu)設(shè)計架構(gòu)原則、愿景和需求預(yù)備階段架構(gòu)愿景架構(gòu)需求 運(yùn)維保障已經(jīng)成為企業(yè)IT治理的核心業(yè)務(wù)架構(gòu)信息架構(gòu)技術(shù)架構(gòu)?TOGAF架構(gòu)設(shè)計的關(guān)鍵在于業(yè)務(wù)架構(gòu)、信息架構(gòu)(數(shù)據(jù)架構(gòu)、應(yīng)用架構(gòu))、技術(shù)架構(gòu)三個方面的規(guī)劃設(shè)計,并結(jié)合實現(xiàn)閉環(huán)治理;?聚焦于價值、體系、組織和流程等方面,持續(xù)優(yōu)化IT治理完善資源管理和制度流程,從提升管理到聚焦治理。中國移動規(guī)劃LEAD發(fā)展體系
:運(yùn)維保障是IT治理的核心TOGAF架構(gòu):
IT治理是架構(gòu)實現(xiàn)的重要基礎(chǔ)機(jī)會及解決方案、遷移規(guī)劃實施治理Togaf-ADM架構(gòu)治理數(shù)據(jù)業(yè)務(wù)技術(shù)架構(gòu)實現(xiàn)經(jīng)過二十多年的升級迭代,北京移動BSS系統(tǒng)已完成云化、微服務(wù)化、容器化等技術(shù)架構(gòu)升級,享受云原生技術(shù)紅利的同時,IT生產(chǎn)系統(tǒng)的組件規(guī)模和復(fù)雜性呈幾何級增長
,軟件交付和IT運(yùn)維面臨巨大挑戰(zhàn),迫切需要引入有效的IT運(yùn)維方法體系。GO
PS全球運(yùn)維大會
2023
·
上海站 云原生技術(shù)背景下,北京移動IT系統(tǒng)面臨的挑戰(zhàn)?復(fù)雜度:軟件交付及運(yùn)維復(fù)雜性成倍提升?萬級:服務(wù)器、容器、組件管理運(yùn)維難?
海量:復(fù)雜服務(wù)調(diào)用,故障難追溯?微服務(wù):高內(nèi)聚、低耦合,提升系統(tǒng)可靠性?秒級:極致彈性能力,提高資源利用率?分鐘級:靈活部署,提高需求支撐效率中心應(yīng)用產(chǎn)商品中心規(guī)則中心預(yù)受理中心積分中心后臺進(jìn)程應(yīng)急中心零庫中心攜號轉(zhuǎn)網(wǎng)京云匯VB6融合中心能力開放…中間件微服務(wù)框架、中間件等容器基礎(chǔ)平臺
容器平臺(磐基-聯(lián)創(chuàng)FOOT)
中心應(yīng)用配套
系
統(tǒng)規(guī)則中心預(yù)受理中心積分中心后臺進(jìn)程N(yùn)GCRM零庫中心攜號轉(zhuǎn)網(wǎng)京云匯VB6VB8能力開放能力展現(xiàn)
容器基礎(chǔ)平臺
容器平臺(磐基-自研)
6000+臺服務(wù)器,上萬容器實例億級:服務(wù)調(diào)用從單服務(wù)到2000+中臺能力沉淀萬級:容器實例運(yùn)維困局技術(shù)紅利中心1
中心2從單系統(tǒng)到100+平臺應(yīng)用千級:中臺能力全局F5+DNS全局F5+DNS數(shù)據(jù)庫主節(jié)點(diǎn)數(shù)據(jù)庫備節(jié)點(diǎn)微服務(wù)框架、中間件等資源管理產(chǎn)品管理客戶管理20000+微服務(wù),億級服務(wù)調(diào)用營業(yè)前臺客服三方接入百級:平臺應(yīng)用VS營業(yè)廳其他渠道短廳訂單管理營銷管理配套
系
統(tǒng)中間件酬金電商…酬金帳詳單支付中心結(jié)算文件接口支付中心文件接口電商N(yùn)GCRMVB8…帳詳單….結(jié)算前置機(jī)融合中心產(chǎn)商品中心賬戶中心訂單中心應(yīng)急中心前置機(jī)賬戶中心客戶中心訂單中心客戶中心CRM云化
BOSS開通CRM云化
…六大驅(qū)動力GO
PS全球運(yùn)維大會
2023
·
上海站北京移動IT系統(tǒng)運(yùn)營轉(zhuǎn)型的六大驅(qū)動力業(yè)務(wù)轉(zhuǎn)型多廠商服務(wù)組織復(fù)雜故障零容忍集團(tuán)戰(zhàn)略
集團(tuán)戰(zhàn)略“創(chuàng)世界一流跨規(guī)劃、建設(shè)、開發(fā)、運(yùn)維、
IAAS、
PAAS、大數(shù)據(jù)等8個部門近200人合計數(shù)十個廠商提供IT系統(tǒng)建設(shè)、開發(fā)、運(yùn)維服務(wù),服務(wù)團(tuán)隊合計近500人
轉(zhuǎn)向云計算、政企業(yè)務(wù)、家庭融合業(yè)務(wù)等市場
數(shù)智化營銷、數(shù)智化服務(wù)、內(nèi)部降本增效對IT生產(chǎn)故障帶來用戶和業(yè)務(wù)部門投訴零容忍數(shù)智化轉(zhuǎn)型信息服務(wù)科技企業(yè)”轉(zhuǎn)型環(huán)境02轉(zhuǎn)型頂層設(shè)計目標(biāo)驅(qū)動轉(zhuǎn)型?故障驅(qū)動?SLO驅(qū)動工作方式轉(zhuǎn)型?大量人工?項目驅(qū)動
?
自動工具?敏捷開發(fā)傳統(tǒng)IT運(yùn)維GO
PS全球運(yùn)維大會
2023
·
上海站 北京移動“四位一體”SRE工作思路經(jīng)歷四大轉(zhuǎn)型協(xié)同機(jī)制轉(zhuǎn)型?部門各自為政
?多部門流程協(xié)同?純運(yùn)維?不涉及生產(chǎn)
?產(chǎn)品+開發(fā)+運(yùn)維?生產(chǎn)架構(gòu)優(yōu)化職責(zé)與團(tuán)隊轉(zhuǎn)型前提技術(shù)支撐保障【基礎(chǔ)】目標(biāo)SRE能力圖譜【核心】四位一體運(yùn)維保障體系數(shù)智化運(yùn)維平臺【載體】容災(zāi)和應(yīng)急保障體系【可靠】業(yè)務(wù)運(yùn)營保障【價值】通道效能項目立項評審流程
+業(yè)務(wù)需求評審流程
建設(shè)可觀測性運(yùn)維平臺
優(yōu)化DevOps工作流程
+并固化到管理平臺
事件記錄標(biāo)準(zhǔn)模板
+事件閉環(huán)工作流程團(tuán)隊試點(diǎn)
+“微分享
”
+激勵機(jī)制風(fēng)險分級與預(yù)案流程
+
風(fēng)險預(yù)案執(zhí)行與迭代人工演練方案與執(zhí)行
+混沌試驗自動化演練建立技術(shù)架構(gòu)標(biāo)準(zhǔn)
+IT工程全生命周期參與機(jī)制GO
PS全球運(yùn)維大會
2023
·
上海站
明確北京移動實施SRE九大原則確立IT運(yùn)維九大原則,并在部門協(xié)同流程、崗位協(xié)同流程、部門考核要求、部門工作文化等方面進(jìn)行落地執(zhí)行。事件閉環(huán)原則?
故障事件全程精準(zhǔn)記錄、復(fù)盤、并落實執(zhí)行導(dǎo)到位SRE技術(shù)文化原則?
打造SRE專業(yè)團(tuán)隊,從“運(yùn)維”轉(zhuǎn)型“產(chǎn)品+技術(shù)+運(yùn)維”團(tuán)隊故障演練原則?
進(jìn)行日常故障演練
,提前發(fā)現(xiàn)和消滅風(fēng)險,熟練故障處理流程、培養(yǎng)故障處理技術(shù)能力;架構(gòu)設(shè)計原則?
系統(tǒng)架構(gòu)上要保證云原生、高可用標(biāo)準(zhǔn)要求被設(shè)計考慮運(yùn)維前置原則?
運(yùn)維部門在項目立項、需求評審期就要提前接入風(fēng)險預(yù)案原則?
風(fēng)險提前分級,設(shè)定預(yù)案流程,并嚴(yán)格執(zhí)行和持續(xù)迭代全生命周期參與原則?
SRE團(tuán)隊關(guān)注IT工程建設(shè)的全生命周期,而不僅僅是IT工程上線
前的測試驗收和系統(tǒng)交維;DevOps閉環(huán)原則?
形成CI(持續(xù)集成)、CD(持續(xù)部署)、CO(持續(xù)運(yùn)營)的
流程良性閉環(huán),而不要斷裂可觀測性原則?
所有運(yùn)維相關(guān)節(jié)點(diǎn)數(shù)據(jù)、拓?fù)滏溌?、風(fēng)險點(diǎn)等全部可觀測
項目立項方案模板包含高可用標(biāo)準(zhǔn)要求組織
?
成立架構(gòu)委員會,持續(xù)推動IT生產(chǎn)架構(gòu)演進(jìn)?與廠商成立SRE聯(lián)合專業(yè)小組,敏捷快速迭代IT運(yùn)維工具GO
PS全球運(yùn)維大會
2023
·
上海站?
SRE參與IT工程全生命周期流程制度?
SLO管理辦法?統(tǒng)一變更管理流程?統(tǒng)一監(jiān)控告警制度?......?724運(yùn)維日,運(yùn)維突破活動,領(lǐng)頭羊計劃,打造SRE文化?IT運(yùn)維團(tuán)隊意識轉(zhuǎn)型,“產(chǎn)品
+開發(fā)
+運(yùn)維”綜合能力以組織、流程和文化變革為牽引流程文化保障業(yè)務(wù)連續(xù)性SRE管理規(guī)范化→SRE能力標(biāo)準(zhǔn)化→SRE支撐平臺化數(shù)智化運(yùn)維能力數(shù)智化運(yùn)營平臺SRE運(yùn)維體系,采取SRE目標(biāo)驅(qū)動SRE管理、SRE管理驅(qū)動運(yùn)維的設(shè)計思路,由1+3+8+1構(gòu)成,以”保障業(yè)務(wù)連續(xù)性”為目標(biāo),遵循SRE管理規(guī)范化、
SRE能力標(biāo)準(zhǔn)化、
SRE支撐平臺化原則,基于SRE生命周期的運(yùn)維實踐,沉淀出8大能力,將管理和運(yùn)維下沉
到各能力中,統(tǒng)一由數(shù)智化運(yùn)維平臺提供支撐,覆蓋全生命周期,持續(xù)提升SRE能力建設(shè)。 與中移集團(tuán)、浙江移動合作制定的SRE能力模型標(biāo)準(zhǔn)GO
PS全球運(yùn)維大會
2023
·
上海站組織保障能力(
5)數(shù)智化運(yùn)維能力(
20)SRE成熟度模型SRE組織保障能力測試管理能力架構(gòu)設(shè)計能力測試管理能力
架構(gòu)設(shè)計
能力集成部署能力混沌演練能力發(fā)布變更能力運(yùn)行治理能力架構(gòu)設(shè)計入網(wǎng)控制發(fā)布上線運(yùn)行治理混沌演練
能力運(yùn)行治理
能力發(fā)布變更
能力集成部署
能力運(yùn)行治理發(fā)布上線入網(wǎng)控制架構(gòu)設(shè)計 SRE深度參與IT工程“全生命周期”,而非僅僅“上線前交維”
SRE團(tuán)隊轉(zhuǎn)變意識,跨IT組織所有部門建設(shè)“IT工程全生命周期參與”機(jī)制和工作流程,
主動出擊方為正道。GO
PS全球運(yùn)維大會
2023
·
上海站入網(wǎng)控制SLO定義非功能性驗收資產(chǎn)更新/資源管理可觀測性覆蓋可維護(hù)性覆蓋架構(gòu)設(shè)計新技術(shù)預(yù)研IT架構(gòu)技術(shù)標(biāo)準(zhǔn)DevOps接入標(biāo)準(zhǔn)可維護(hù)性接入標(biāo)準(zhǔn)自動化運(yùn)維/智能運(yùn)維等工具日志/BOMC/APM/各類觀測性工具發(fā)布上線代碼版本管理版本構(gòu)建管理部署發(fā)布管理變更管理日常運(yùn)維日常運(yùn)維機(jī)制事件響應(yīng)機(jī)制故障復(fù)盤機(jī)制變更管理機(jī)制運(yùn)行治理性能治理巡檢治理架構(gòu)治理故障演練故障復(fù)盤灰度/金絲雀發(fā)布功能回歸測試全鏈路生產(chǎn)壓測應(yīng)急系統(tǒng)災(zāi)備系統(tǒng)SRE工作臺技術(shù)手段控制
點(diǎn)03轉(zhuǎn)型分享:技術(shù)保障與容災(zāi)應(yīng)急 技術(shù)支撐保障:以制定IT生產(chǎn)系統(tǒng)架構(gòu)技術(shù)標(biāo)準(zhǔn)為出發(fā)點(diǎn)GO
PS全球運(yùn)維大會
2023
·
上海站系統(tǒng)安全數(shù)據(jù)安全數(shù)據(jù)模型數(shù)據(jù)資產(chǎn)合計126條架構(gòu)技術(shù)標(biāo)準(zhǔn)微服務(wù)劃分簡化迭代要實施IT生產(chǎn)系統(tǒng)的可靠性架構(gòu)演進(jìn),
第一步是制定相應(yīng)的架構(gòu)技術(shù)標(biāo)準(zhǔn),為可靠性演進(jìn)建立度量衡標(biāo)準(zhǔn),
否則很難開展。數(shù)據(jù)高可用彈性容錯開發(fā)規(guī)范云原生水平適應(yīng)變化過載保護(hù)適應(yīng)破/損壞中間件高可用容量性能IAAS高可用自主可控DevOps11條21條72條22條應(yīng)用架構(gòu)技術(shù)架構(gòu)數(shù)據(jù)架構(gòu)安全架構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)用安全消除耦合中臺沉淀網(wǎng)絡(luò)安全數(shù)據(jù)流繪制架構(gòu)初步評估策略建議方案設(shè)計繪制架構(gòu)繪制架構(gòu)短廳視角初步評估CBOSS視角繪制架構(gòu)繪制架構(gòu)后臺任務(wù)視角繪制架構(gòu)初步評估策略建議初步評估策略建議方案設(shè)計初步評估策略建議方案設(shè)計初步評估策略建議方案設(shè)計策略建議...營業(yè)廳視角...SRE往往是組織內(nèi)唯一具備
“IT生產(chǎn)系統(tǒng)全局視角”的團(tuán)隊,從系統(tǒng)高可用出發(fā),
結(jié)合云原生等技術(shù)實踐,采用循環(huán)迭代、漸進(jìn)深入方式進(jìn)行持續(xù)反復(fù)的可靠性評估,發(fā)現(xiàn)IT生產(chǎn)的架構(gòu)性問題并推進(jìn)改進(jìn),
對SRE能否成功實施是“重中之重”。 技術(shù)支撐保障:持續(xù)評估SRE可靠性風(fēng)險,并迭代演進(jìn)GO
PS全球運(yùn)維大會
2023
·
上海站
過載保護(hù)?
限流、熔斷、降級
可靠性評估5要素云原生水平?應(yīng)用云原生、中間件云原生、數(shù)據(jù)庫高可用彈性容錯?
控制爆炸半徑、故障隔離、故障轉(zhuǎn)移
隨需伸縮?
支持按業(yè)務(wù)量無限伸縮
架構(gòu)復(fù)雜性
?
松耦合、
單一職責(zé)方案設(shè)計方案設(shè)計持續(xù)迭代評估電渠視角能開視角......采用
“滾動迭代、持續(xù)演進(jìn)”的策略,
而非“一步到位”的策略,
對已存在10年以上的老舊系統(tǒng),
下定決心進(jìn)行技
術(shù)迭代,消除
“技術(shù)債務(wù)”,是SRE工程能夠?qū)嵤┏晒Φ挠忠粵Q定性因素。 技術(shù)支撐保障:下定決心,償還IT系統(tǒng)架構(gòu)性技術(shù)債務(wù)GO
PS全球運(yùn)維大會
2023
·
上海站第一階段(2023):整合/試點(diǎn)、基礎(chǔ)建設(shè)?老舊整合:NGCRMNG客服、OCRM?新架構(gòu)提升:政企智慧中臺、應(yīng)急中心第二階段(2024):相對獨(dú)立、部分核心?結(jié)合CHBN:考慮規(guī)則中心INTERUIP、預(yù)受理中心?新基線中心:考慮客戶中心、產(chǎn)商品中心?相對獨(dú)立應(yīng)用:考慮零庫、客戶交互中心第三階段(2025):核心業(yè)務(wù)、較為復(fù)雜?以訂單為基礎(chǔ)規(guī)整5個訂單中心能力、及架構(gòu)升級第四階段(2026):下游工程、完整遷移?CRM下游中心:賬管、對賬、資料同步中心新架構(gòu)建設(shè)時,滿足JDK17、IPv6、操作系統(tǒng)、芯片架構(gòu)、營業(yè)終端、數(shù)據(jù)庫國產(chǎn)化的要求。在SRE工程實施之初,為了快速提升系統(tǒng)高可用水平,優(yōu)先建設(shè)災(zāi)備和應(yīng)急系統(tǒng),
推行系統(tǒng)故障時“先恢復(fù)再修復(fù)”響應(yīng)策略,將會是IT組織能夠?qū)RE工程實施下去的信心之源。GO
PS全球運(yùn)維大會
2023
·
上海站 容災(zāi)和應(yīng)急:優(yōu)先實施,作為SRE工程信心之源中心1
中心2絕大部分情況下,
故障發(fā)生時,
依賴雙中心
切換,快速恢復(fù)系統(tǒng)運(yùn)行極少情況下(如:
數(shù)據(jù)被破壞)雙中心失效,
啟用應(yīng)急系統(tǒng)恢復(fù)應(yīng)急關(guān)鍵詞:物理解耦、版本穩(wěn)定、常態(tài)演練04轉(zhuǎn)型分享:數(shù)智化運(yùn)維平臺
SRE數(shù)智化運(yùn)維平臺框架從打造運(yùn)維基礎(chǔ)、
防患故障未然、
故障快速響應(yīng)、保障流程效率4方面打造SRE體系化運(yùn)維平臺。GO
PS全球運(yùn)維大會
2023
·
上海站OnCall輪值管理事件響應(yīng)管理故障復(fù)盤管理系統(tǒng)變更管理故障演練管理DevOps流程閉環(huán)CMDB配置管理庫防患故障未然快速恢復(fù)故障AIOPS算法平臺性能治理工具告警管理系統(tǒng)容量管理平臺生產(chǎn)巡檢平臺生產(chǎn)壓測平臺生產(chǎn)監(jiān)控平臺預(yù)案管理平臺持續(xù)發(fā)布平臺混沌實驗平臺可觀測性平臺保障流程效率打造運(yùn)維基礎(chǔ)運(yùn)維數(shù)據(jù)中心
SRE運(yùn)維平臺分享1:自動化閉環(huán)的Devops流程作為SRE前提SRE本質(zhì)上是DevOps理念的一種實踐方法,在DevOps流程自動化閉環(huán)的基礎(chǔ)上推進(jìn)SRE運(yùn)維能力提升是應(yīng)有之義。GO
PS全球運(yùn)維大會
2023
·
上海站05開發(fā)度量管理06IT資產(chǎn)管理01需求管理02AIDO任務(wù)管理基于jenkins定制,與AIDO結(jié)合實現(xiàn)CI/CD自動化流水線GIT代碼倉庫管理積累的IT資產(chǎn):服務(wù)、進(jìn)程、界面組件等03CMP
CI/CD平臺統(tǒng)一管理每年4000+業(yè)務(wù)支撐需求完成需求分析后,基于需求進(jìn)行任務(wù)分解開發(fā)測試研發(fā)效能在線統(tǒng)計與管理自動化回歸測試管理平臺,04智測云已囊括近千個測試案例瀑布模型
SRE運(yùn)維平臺分享2:工具開發(fā)從項目制到敏捷迭代變革SRE理念要求快速迭代IT運(yùn)維工具,傳統(tǒng)“瀑布模型”項目很難勝任SRE快速開發(fā)工具需求,
敏捷迭代是唯一王道。GO
PS全球運(yùn)維大會
2023
·
上海站制定沖刺計劃執(zhí)行每日沖刺沖刺回顧改進(jìn)團(tuán)隊轉(zhuǎn)型:運(yùn)維
=>產(chǎn)品+開發(fā)
+運(yùn)維管理轉(zhuǎn)型:項目
=》敏捷方案設(shè)計開發(fā)測試上線運(yùn)行SLO觀測三滾規(guī)劃nginx入口流量觀測業(yè)務(wù)量觀測敏捷迭代產(chǎn)品特性定義雙中心調(diào)用量項目立項故障調(diào)度小程端到端業(yè)雙中心一鍵切換務(wù)觀測觀測序......燃
燒率概念SLO告警示例:能開接口調(diào)用成功率
SRE運(yùn)維平臺分享3:將SLO作為運(yùn)維能力提升的核心點(diǎn)在原有指標(biāo)監(jiān)控的基礎(chǔ)上,增加SLO監(jiān)控,并配套可觀測能力,將會大大提升監(jiān)控查準(zhǔn)率、查全率的同時,驅(qū)動可觀測性平臺建設(shè),進(jìn)而最終實現(xiàn)IT運(yùn)維能力在整體上質(zhì)的跨越。GO
PS全球運(yùn)維大會
2023
·
上海站單純指標(biāo)監(jiān)控
(不考試時間窗)基于多個長+短時間窗,基于可用性等級,實現(xiàn)SLO錯誤預(yù)算量化監(jiān)控APMBOMC日志中心IAAS指標(biāo)監(jiān)控PAAS指標(biāo)監(jiān)控可觀測性建設(shè)SAAS指標(biāo)監(jiān)控各類日志監(jiān)控+推動SAASPAASIAAS
SRE運(yùn)維平臺分享4:跨IaaS/PaaS/SaaS統(tǒng)一告警等級和響應(yīng)GO
PS全球運(yùn)維大會
2023
·
上海站告警等級響應(yīng)機(jī)制升級機(jī)制重大7*24即時超30分鐘,升級二級領(lǐng)導(dǎo)嚴(yán)重5*12即時30分鐘升級三級;1小時升級二級一般48小時內(nèi)處理超過3天未處理,升級三級;告警等級響應(yīng)機(jī)制升級機(jī)制A7*24即時超30分鐘,升級二級領(lǐng)導(dǎo)B24小時內(nèi)處理超過3天未處理,升級三級;C5日內(nèi)處理不做要求告警等級響應(yīng)機(jī)制升級機(jī)制一級5*12即時超30分鐘,升級三級級領(lǐng)導(dǎo)二級24小時內(nèi)處理超過3天未確定原因,伙伴協(xié)助;統(tǒng)一定義告警等級和響應(yīng)升級機(jī)制,
對于跨IaaS/PaaS/SaaS各部門之間的故障響應(yīng)協(xié)同一致性來說至關(guān)重要。
實現(xiàn)PAAS監(jiān)控告警
實現(xiàn)IAAS監(jiān)控告警統(tǒng)
一
標(biāo)
準(zhǔn)各自為政的監(jiān)控告警等級和響應(yīng)機(jī)制統(tǒng)一定義的監(jiān)控告警等級和響應(yīng)機(jī)制SAAS運(yùn)維牽頭實現(xiàn)SAAS監(jiān)控告警統(tǒng)一告警等級定義及響應(yīng)流程統(tǒng)一執(zhí)行告警響應(yīng)機(jī)制制定SAASSLO統(tǒng)一實施SLO管理
分解PAASSLO分解IAASSLO
SRE運(yùn)維平臺分享5:常態(tài)化演練故障應(yīng)急響應(yīng)預(yù)案GO
PS全球運(yùn)維大會
2023
·
上海站光有應(yīng)急預(yù)案管理平臺、以及各種應(yīng)急預(yù)案在數(shù)量上的積累,并不能真正保障故障時有序高效響應(yīng),從應(yīng)急預(yù)案故障模擬度、運(yùn)維團(tuán)隊熟練度兩個角度,必須實施常態(tài)化應(yīng)急演練。應(yīng)急預(yù)案常態(tài)化演練應(yīng)急預(yù)案持續(xù)迭代應(yīng)急預(yù)案設(shè)計應(yīng)急預(yù)案實現(xiàn)預(yù)案流程配置預(yù)案流程改進(jìn)故障復(fù)盤總結(jié)故障注入開發(fā)混沌演練預(yù)案預(yù)案腳本改進(jìn)演練風(fēng)險預(yù)防演練進(jìn)度計劃重大事件保障運(yùn)維團(tuán)隊覆蓋操作腳本開發(fā)團(tuán)隊經(jīng)驗提升主要變化:l統(tǒng)一變更風(fēng)險等級標(biāo)準(zhǔn):重大、嚴(yán)重、中等、一般;l變更發(fā)起:明確割接方案、影響評估、風(fēng)險等級評估等內(nèi)容;l變更評審:經(jīng)評審管理小組與相關(guān)人員評審?fù)夂笊暇€;l變更實施:增加實施后檢查內(nèi)容:渠道全量指標(biāo)、開門測;l持續(xù)保障
:持續(xù)更新保障日歷
;l每日通報:1)十日變更內(nèi)容/進(jìn)展;2)當(dāng)晚變更內(nèi)容;3
)次日變更結(jié)果通報。
SRE運(yùn)維平臺分享6:基于DevOps驅(qū)動跨部門變更管理GO
PS全球運(yùn)維大會
2023
·
上海站將工程項目、業(yè)務(wù)需求、基礎(chǔ)設(shè)施等多角度的變更統(tǒng)一進(jìn)行在線管理,與變更發(fā)起部門合力降低變更風(fēng)險。依賴CMDB、AIOPS建設(shè),實現(xiàn)變更影響的量化自動分析。近期運(yùn)維前置,加強(qiáng)重點(diǎn)業(yè)務(wù)需求和工程項目的變更評審。通過灰度發(fā)布環(huán)境生產(chǎn)指標(biāo)測試等方式完善風(fēng)險評估。長期中期實現(xiàn)在線變更管理變更管控整體思路描述清晰?
詞匯表、量化指標(biāo)具體的行動項目?分組細(xì)化到負(fù)責(zé)人、任務(wù)ID、優(yōu)先級、可驗證成果;對事不對人?
沒有任何人或團(tuán)隊被指出;?
只描述故障相關(guān)技術(shù)細(xì)節(jié)、原因分析;深度剖析?
找到根本原因和觸發(fā)因素;?
事實和數(shù)據(jù)驅(qū)動;?
適當(dāng)圖表表達(dá);按時間線分析問題所在根本原因迅速復(fù)盤?
最遲一周內(nèi)完成;簡明扼要?
只給出總結(jié)和結(jié)論;?
原始記錄和日志提供鏈接或附件;GO
PS全球運(yùn)維大會
2023
·
上海站深度剖析總結(jié)根因調(diào)查關(guān)聯(lián)部分問題逐條根因提煉行動執(zhí)行并跟蹤行動好的復(fù)盤,滿足這6個要求:建立高效故障復(fù)盤流程和無責(zé)文化六步走進(jìn)行故障復(fù)盤調(diào)查事實畫出故事線SRE運(yùn)維平臺分享7完成分析付諸行動行動結(jié)束123564序號分類根本原因觸發(fā)因素1技術(shù)機(jī)房空調(diào)故障導(dǎo)致設(shè)備停機(jī)或損壞機(jī)房空調(diào)故障后2流程故障響應(yīng)流程化調(diào)度機(jī)制待完善涉及跨部門、跨廠
商、跨系統(tǒng)協(xié)作時3技術(shù)Redis集群切換方
案待完善超過半數(shù)Redis主
進(jìn)程同時宕機(jī)時4技術(shù)建設(shè)中的可觀測平臺應(yīng)用便捷性不足需快速確認(rèn)公司考核、用戶感知等關(guān)鍵影響范圍時5管理仍有單機(jī)房提供的服務(wù)短信查詢賬單和支
付中心故障時
SRE運(yùn)維平臺分享7:建立高效故障復(fù)盤流程和無責(zé)文化GO
PS全球運(yùn)維大會
2023
·
上海站某次單中心空調(diào)故障復(fù)盤根本原因識別故障故事線04SRE未來思考加快推進(jìn)數(shù)智化轉(zhuǎn)型落實國家關(guān)于加快轉(zhuǎn)型的需求,順應(yīng)數(shù)字化、
網(wǎng)絡(luò)化、智能化趨勢,在夯實網(wǎng)絡(luò)優(yōu)勢基礎(chǔ)上,打造數(shù)字化、智能化的業(yè)務(wù)、能力和組織體系,實現(xiàn)全方位、系統(tǒng)性變革。發(fā)展方式發(fā)展方式從資源要素驅(qū)動向創(chuàng)新驅(qū)動轉(zhuǎn)變,實現(xiàn)從運(yùn)營商向科技公司的歷史性跨越:
科技投入顯著提升,建成高水平專家隊伍;
引領(lǐng)產(chǎn)業(yè)技術(shù)和商業(yè)模式變革;
形成技術(shù)、數(shù)據(jù)要素驅(qū)動的持續(xù)創(chuàng)新動力。發(fā)展方向把握新一代信息技術(shù)深度融入經(jīng)濟(jì)社會民生大勢,拓寬主業(yè)邊界,積極拓展信息服務(wù)藍(lán)海:
基礎(chǔ)電信業(yè)
互聯(lián)網(wǎng)產(chǎn)業(yè)
軟件及信息技術(shù)服務(wù)業(yè)初心使命貫徹落實國家創(chuàng)世界一流示范企業(yè)要求,以強(qiáng)烈的責(zé)任感、使命感,當(dāng)好“創(chuàng)一流”排頭兵,實現(xiàn):
一流的規(guī)模增長;
一流的產(chǎn)品服務(wù);
一流的效率效益。GO
PS全球運(yùn)維大會
2023
·
上海站IT運(yùn)維響應(yīng)中移動集團(tuán)戰(zhàn)略定位信息服務(wù)創(chuàng)世界一流科技公司央企信任背書
發(fā)揮央企優(yōu)勢,基于自身SRE實踐,推出IT運(yùn)維產(chǎn)品體系和服務(wù)從產(chǎn)品服務(wù)體系、央企信任背書、
自身超大規(guī)模IT運(yùn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 互聯(lián)網(wǎng)廣告管理規(guī)范與審核(標(biāo)準(zhǔn)版)
- 2025年醫(yī)療保險理賠服務(wù)規(guī)范
- 職業(yè)健康管理規(guī)范與操作流程
- 會議考勤與出勤考核制度
- 合同管理流程操作指南(標(biāo)準(zhǔn)版)
- 保密及知識產(chǎn)權(quán)保護(hù)制度
- 辦公室員工離職手續(xù)辦理制度
- 2026年鄭州新鄭天佑中醫(yī)院(原新鄭市中醫(yī)院)招聘備考題庫及答案詳解一套
- 2026年陵水黎族自治縣數(shù)字投資有限公司招聘備考題庫及一套答案詳解
- 養(yǎng)老院入住老人管理制度
- 2025屆央國企校招筆試真題及答案
- 2025年新蘇教版七上生物知識點(diǎn)歸納
- 鋁單板幕墻施工工藝與鋁單板幕墻施工方案
- 2025教育機(jī)構(gòu)全職教師勞動合同(示范文本)
- 安全協(xié)議責(zé)任書模板
- 卵巢顆粒細(xì)胞瘤的診治進(jìn)展2025
- 2025甘肅慶陽正寧縣公安局招聘警務(wù)輔助人員40人考試參考試題及答案解析
- 供貨方案及保證措施
- 高速公路交叉口交通組織方案
- 新一代能源管理系統(tǒng)建設(shè)方案
- 小型手持式采茶機(jī)
評論
0/150
提交評論