服務(wù)器集群大規(guī)模宕機(jī)應(yīng)急預(yù)案_第1頁(yè)
服務(wù)器集群大規(guī)模宕機(jī)應(yīng)急預(yù)案_第2頁(yè)
服務(wù)器集群大規(guī)模宕機(jī)應(yīng)急預(yù)案_第3頁(yè)
服務(wù)器集群大規(guī)模宕機(jī)應(yīng)急預(yù)案_第4頁(yè)
服務(wù)器集群大規(guī)模宕機(jī)應(yīng)急預(yù)案_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第第PAGE\MERGEFORMAT1頁(yè)共NUMPAGES\MERGEFORMAT1頁(yè)服務(wù)器集群大規(guī)模宕機(jī)應(yīng)急預(yù)案一、總則1、適用范圍本預(yù)案針對(duì)企業(yè)核心業(yè)務(wù)系統(tǒng)服務(wù)器集群發(fā)生大規(guī)模宕機(jī)事件制定,涵蓋數(shù)據(jù)存儲(chǔ)、計(jì)算、網(wǎng)絡(luò)等關(guān)鍵基礎(chǔ)設(shè)施故障導(dǎo)致的業(yè)務(wù)中斷。適用范圍包括但不限于:企業(yè)內(nèi)部生產(chǎn)、銷(xiāo)售、客服等核心業(yè)務(wù)系統(tǒng)因硬件故障、軟件崩潰、網(wǎng)絡(luò)攻擊等原因引發(fā)的集群級(jí)服務(wù)不可用狀態(tài)服務(wù)器硬件故障率超過(guò)5%且影響超過(guò)30臺(tái)核心服務(wù)器的事件導(dǎo)致核心數(shù)據(jù)庫(kù)RPO(恢復(fù)點(diǎn)目標(biāo))超過(guò)30分鐘的業(yè)務(wù)中斷場(chǎng)景因第三方供應(yīng)商服務(wù)中斷引發(fā)的內(nèi)部集群連鎖故障2、響應(yīng)分級(jí)根據(jù)事件影響程度劃分三級(jí)響應(yīng)機(jī)制:一級(jí)響應(yīng):宕機(jī)服務(wù)器數(shù)量超過(guò)70%且核心業(yè)務(wù)系統(tǒng)完全不可用,如財(cái)務(wù)系統(tǒng)、ERP系統(tǒng)同時(shí)癱瘓,需跨區(qū)域資源協(xié)調(diào)。觸發(fā)條件包括:30分鐘內(nèi)核心數(shù)據(jù)庫(kù)事務(wù)日志損失超過(guò)50GB全部三層交換機(jī)出現(xiàn)主備切換失敗二級(jí)響應(yīng):宕機(jī)服務(wù)器占比40%70%,單個(gè)業(yè)務(wù)系統(tǒng)可用性低于60%,如訂單系統(tǒng)部分功能中斷。需啟動(dòng)同城災(zāi)備切換流程。典型場(chǎng)景為:虛擬化平臺(tái)CPU使用率持續(xù)超過(guò)90%并發(fā)起40次告警關(guān)鍵存儲(chǔ)陣列出現(xiàn)塊級(jí)故障導(dǎo)致IOPS下降80%三級(jí)響應(yīng):宕機(jī)服務(wù)器占比低于40%,僅影響非核心業(yè)務(wù)或單節(jié)點(diǎn)故障,如報(bào)表服務(wù)臨時(shí)不可用。執(zhí)行標(biāo)準(zhǔn)化模塊化恢復(fù)流程。常見(jiàn)情況為:?jiǎn)闻_(tái)K1Power服務(wù)器內(nèi)存過(guò)熱觸發(fā)保護(hù)機(jī)制云數(shù)據(jù)庫(kù)實(shí)例因配置錯(cuò)誤導(dǎo)致連接數(shù)驟降分級(jí)原則:響應(yīng)級(jí)別與宕機(jī)規(guī)模、業(yè)務(wù)影響時(shí)長(zhǎng)、資源需求量正相關(guān),需動(dòng)態(tài)評(píng)估。當(dāng)事件升級(jí)時(shí),上一級(jí)響應(yīng)自動(dòng)生效,跨級(jí)別聯(lián)動(dòng)需管理層審批。二、應(yīng)急組織機(jī)構(gòu)及職責(zé)1、應(yīng)急組織形式及構(gòu)成單位成立服務(wù)器集群應(yīng)急指揮部,實(shí)行扁平化管理,成員單位包括:總指揮由信息技術(shù)部總監(jiān)擔(dān)任,負(fù)責(zé)統(tǒng)籌資源協(xié)調(diào)副總指揮設(shè)兩人,分別由網(wǎng)絡(luò)運(yùn)維部與數(shù)據(jù)庫(kù)管理部負(fù)責(zé)人兼任執(zhí)行層下設(shè)四個(gè)專(zhuān)項(xiàng)工作組:1)技術(shù)診斷組:由系統(tǒng)架構(gòu)師帶隊(duì),成員來(lái)自網(wǎng)絡(luò)、存儲(chǔ)、虛擬化平臺(tái)團(tuán)隊(duì)2)數(shù)據(jù)恢復(fù)組:核心成員為DBA團(tuán)隊(duì)骨干,需具備Oracle/SQLServer雙認(rèn)證3)業(yè)務(wù)切換組:包含各業(yè)務(wù)系統(tǒng)接口人及開(kāi)發(fā)中心支持工程師4)外部協(xié)調(diào)組:由供應(yīng)商管理部牽頭,對(duì)接云服務(wù)商或硬件廠(chǎng)商技術(shù)支持2、各小組職責(zé)分工及行動(dòng)任務(wù)技術(shù)診斷組:負(fù)責(zé)在10分鐘內(nèi)完成全鏈路巡檢,使用Zabbix+Prometheus監(jiān)控系統(tǒng)采集CPU/內(nèi)存/磁盤(pán)IOPS數(shù)據(jù)需在30分鐘內(nèi)定位故障層級(jí),區(qū)分是物理層故障(如光纖通道中斷)還是應(yīng)用層問(wèn)題(如中間件JVM內(nèi)存溢出)維護(hù)《服務(wù)器健康度評(píng)分表》,評(píng)分低于3分(滿(mǎn)分5分)即啟動(dòng)應(yīng)急響應(yīng)數(shù)據(jù)恢復(fù)組:主備數(shù)據(jù)庫(kù)切換需嚴(yán)格遵循RPO要求,冷備恢復(fù)時(shí)限不超過(guò)120分鐘擁有直接執(zhí)行數(shù)據(jù)庫(kù)截?cái)嗖僮鳈?quán)限,但需先通知業(yè)務(wù)方確認(rèn)最新業(yè)務(wù)時(shí)間點(diǎn)對(duì)接災(zāi)備中心時(shí)需同步執(zhí)行DNS切換操作,切換成功率目標(biāo)達(dá)99.9%業(yè)務(wù)切換組:負(fù)責(zé)非核心業(yè)務(wù)臨時(shí)下線(xiàn)決策,如將CRM系統(tǒng)切換至只讀模式需在2小時(shí)內(nèi)完成訂單系統(tǒng)內(nèi)存數(shù)據(jù)庫(kù)TempDB擴(kuò)容預(yù)案維護(hù)《業(yè)務(wù)系統(tǒng)優(yōu)先級(jí)清單》,按降序執(zhí)行資源傾斜外部協(xié)調(diào)組:負(fù)責(zé)管理SLA(服務(wù)水平協(xié)議)執(zhí)行情況,要求硬件廠(chǎng)商8小時(shí)到場(chǎng)率需在1小時(shí)內(nèi)確認(rèn)備件到貨窗口,優(yōu)先保障存儲(chǔ)控制器等關(guān)鍵組件定期更新《供應(yīng)商應(yīng)急響應(yīng)能力評(píng)估表》,每年考核一次三、信息接報(bào)1、應(yīng)急值守電話(huà)及事故信息接收設(shè)立24小時(shí)應(yīng)急熱線(xiàn)(內(nèi)線(xiàn)12345,外線(xiàn)075512345678),由信息技術(shù)部值班室專(zhuān)人值守。接報(bào)流程:接線(xiàn)員需記錄事件發(fā)生時(shí)間、影響范圍、現(xiàn)象描述等要素立即通知技術(shù)診斷組核心成員,同時(shí)調(diào)取NMS(網(wǎng)絡(luò)管理系統(tǒng))實(shí)時(shí)監(jiān)控畫(huà)面重要故障需在5分鐘內(nèi)同步至總指揮手機(jī)短訊內(nèi)部通報(bào)通過(guò)企業(yè)IM系統(tǒng)@所有應(yīng)急小組成員,關(guān)鍵信息同步發(fā)送至總指揮郵箱2、內(nèi)部通報(bào)程序、方式和責(zé)任人通報(bào)方式:初級(jí)故障通過(guò)IM系統(tǒng)廣播嚴(yán)重事件啟動(dòng)對(duì)講機(jī)群組呼叫特別重大事件在30分鐘內(nèi)通過(guò)OA系統(tǒng)發(fā)布全局公告責(zé)任人劃分:值班工程師負(fù)責(zé)首次信息傳遞,準(zhǔn)確度要求100%總指揮在2小時(shí)內(nèi)完成二次確認(rèn)通報(bào)通報(bào)內(nèi)容模板需包含:事件簡(jiǎn)述、受影響系統(tǒng)清單、預(yù)估恢復(fù)時(shí)間3、向上級(jí)報(bào)告事故信息流程、時(shí)限和責(zé)任人報(bào)告流程:一級(jí)響應(yīng)事件需在30分鐘內(nèi)通過(guò)政務(wù)專(zhuān)網(wǎng)上報(bào)至市工信局同時(shí)抄送集團(tuán)總部應(yīng)急辦,使用加密郵件傳輸附件重大故障需在1小時(shí)內(nèi)準(zhǔn)備《事故簡(jiǎn)報(bào)》,附上根因分析初步結(jié)論報(bào)告內(nèi)容要素:企業(yè)基本信息、事件發(fā)生時(shí)間節(jié)點(diǎn)系統(tǒng)停機(jī)范圍及業(yè)務(wù)影響數(shù)據(jù)(如日訂單量損失預(yù)估)已采取控制措施及下一步計(jì)劃責(zé)任人:技術(shù)診斷組組長(zhǎng)負(fù)責(zé)內(nèi)容撰寫(xiě),總指揮最終審核簽發(fā)4、向外部單位通報(bào)方法、程序和責(zé)任人通報(bào)對(duì)象及方式:云服務(wù)商需在故障發(fā)生后2小時(shí)內(nèi)獲得《服務(wù)中斷通報(bào)函》合作銀行通過(guò)加密傳真接收《支付系統(tǒng)異常說(shuō)明》物流供應(yīng)商通過(guò)短信平臺(tái)獲取《訂單系統(tǒng)恢復(fù)時(shí)間通知》程序要求:所有外部通報(bào)需經(jīng)法務(wù)部審核協(xié)議條款關(guān)鍵供應(yīng)商需在通報(bào)后30分鐘內(nèi)收到技術(shù)支持會(huì)商會(huì)晤邀請(qǐng)責(zé)任人:外部協(xié)調(diào)組負(fù)責(zé)人統(tǒng)一管理對(duì)外溝通,使用《外部溝通授權(quán)清單》規(guī)范權(quán)限四、信息處置與研判1、響應(yīng)啟動(dòng)程序和方式響應(yīng)啟動(dòng)分為自動(dòng)觸發(fā)和決策啟動(dòng)兩種模式:自動(dòng)觸發(fā):當(dāng)監(jiān)控系統(tǒng)檢測(cè)到核心指標(biāo)觸發(fā)預(yù)設(shè)閾值時(shí),系統(tǒng)自動(dòng)啟動(dòng)響應(yīng)典型場(chǎng)景:監(jiān)控平臺(tái)連續(xù)收到100臺(tái)以上服務(wù)器CPU使用率超95%的告警,且自動(dòng)觸發(fā)擴(kuò)容失敗啟動(dòng)方式:系統(tǒng)自動(dòng)生成《應(yīng)急響應(yīng)啟動(dòng)通知》推送至各小組郵箱及對(duì)講機(jī)決策啟動(dòng):由應(yīng)急領(lǐng)導(dǎo)小組根據(jù)事態(tài)評(píng)估結(jié)果決定響應(yīng)級(jí)別啟動(dòng)程序:技術(shù)診斷組提交《故障分析報(bào)告》→應(yīng)急領(lǐng)導(dǎo)小組召開(kāi)15分鐘緊急會(huì)商→總指揮簽發(fā)《應(yīng)急響應(yīng)令》方式:通過(guò)企業(yè)內(nèi)網(wǎng)公告、短信集群、對(duì)講機(jī)廣播同步發(fā)布2、預(yù)警啟動(dòng)與準(zhǔn)備狀態(tài)當(dāng)事故信息尚未達(dá)到正式響應(yīng)條件,但可能發(fā)展為較嚴(yán)重事件時(shí),啟動(dòng)預(yù)警機(jī)制:?jiǎn)?dòng)條件:核心系統(tǒng)響應(yīng)時(shí)間超過(guò)正常值3倍且持續(xù)15分鐘,但宕機(jī)服務(wù)器不足40%行動(dòng)任務(wù):技術(shù)診斷組每30分鐘提交《事態(tài)發(fā)展趨勢(shì)報(bào)告》提前預(yù)冷備用機(jī)房設(shè)備至開(kāi)機(jī)狀態(tài)業(yè)務(wù)方同步進(jìn)行數(shù)據(jù)備份檢查責(zé)任人:預(yù)警由總指揮指定一名副職牽頭,持續(xù)72小時(shí)3、響應(yīng)級(jí)別動(dòng)態(tài)調(diào)整機(jī)制響應(yīng)啟動(dòng)后建立分級(jí)動(dòng)態(tài)調(diào)整機(jī)制:升級(jí)條件:在級(jí)響應(yīng)狀態(tài)持續(xù)4小時(shí)仍未恢復(fù)50%以上服務(wù)能力嚴(yán)重?cái)?shù)據(jù)丟失(如超過(guò)100GB事務(wù)日志未恢復(fù))降級(jí)條件:核心業(yè)務(wù)系統(tǒng)可用性達(dá)90%以上,非關(guān)鍵服務(wù)完全恢復(fù)災(zāi)備切換成功且RPO達(dá)標(biāo)調(diào)整程序:小組提出申請(qǐng)→技術(shù)診斷組復(fù)核數(shù)據(jù)→應(yīng)急領(lǐng)導(dǎo)小組審批特別注意:響應(yīng)調(diào)整需在2小時(shí)內(nèi)完成,避免長(zhǎng)時(shí)間處于不匹配狀態(tài)五、預(yù)警1、預(yù)警啟動(dòng)預(yù)警發(fā)布遵循分級(jí)管理原則,通過(guò)以下渠道同步推送:企業(yè)IM系統(tǒng)全員廣播紅色預(yù)警標(biāo)識(shí)安全部門(mén)向所在社區(qū)物業(yè)發(fā)送《網(wǎng)絡(luò)設(shè)備異常告警函》通過(guò)監(jiān)控平臺(tái)彈窗向值班工程師展示受影響設(shè)備拓?fù)鋱D預(yù)警信息必須包含:預(yù)警級(jí)別(如黃級(jí)/橙級(jí))初步判斷的故障范圍(如核心交換機(jī)區(qū)域)建議避讓操作(如禁止新增業(yè)務(wù)流量)預(yù)計(jì)發(fā)布時(shí)間窗口(需考慮供應(yīng)商響應(yīng)時(shí)長(zhǎng))2、響應(yīng)準(zhǔn)備預(yù)警發(fā)布后立即開(kāi)展以下準(zhǔn)備工作:隊(duì)伍準(zhǔn)備:技術(shù)診斷組核心成員必須在30分鐘內(nèi)到崗,執(zhí)行《人員到崗確認(rèn)表》物資準(zhǔn)備:物流部啟動(dòng)《應(yīng)急備件包》調(diào)配程序,確保存儲(chǔ)硬盤(pán)、電源模塊2小時(shí)內(nèi)到位裝備準(zhǔn)備:?jiǎn)?dòng)備用防火墻、核心交換機(jī)等設(shè)備預(yù)冷程序,檢查環(huán)境控制設(shè)備(空調(diào)、UPS)狀態(tài)后勤保障:食堂開(kāi)設(shè)應(yīng)急餐窗口,財(cái)務(wù)部預(yù)撥50萬(wàn)元應(yīng)急資金至專(zhuān)項(xiàng)賬戶(hù)通信保障:建立應(yīng)急通訊錄電子版,測(cè)試對(duì)講機(jī)頻段干擾情況,準(zhǔn)備衛(wèi)星電話(huà)作為備用方案3、預(yù)警解除預(yù)警解除需同時(shí)滿(mǎn)足以下條件:技術(shù)診斷組確認(rèn)故障點(diǎn)已修復(fù)或風(fēng)險(xiǎn)可控(如網(wǎng)絡(luò)環(huán)路已隔離)核心系統(tǒng)監(jiān)控指標(biāo)持續(xù)30分鐘內(nèi)穩(wěn)定在正常閾值±15%范圍內(nèi)備用系統(tǒng)切換完成且業(yè)務(wù)影響降至可接受水平(如核心交易延遲小于5秒)解除程序:小組提出解除申請(qǐng)→總指揮現(xiàn)場(chǎng)核查確認(rèn)→通過(guò)同一渠道發(fā)布解除通知責(zé)任人:總指揮對(duì)預(yù)警解除負(fù)有最終審核責(zé)任,需在30分鐘內(nèi)完成確認(rèn)流程六、應(yīng)急響應(yīng)1、響應(yīng)啟動(dòng)響應(yīng)啟動(dòng)遵循快速?zèng)Q策原則,啟動(dòng)后立即開(kāi)展系統(tǒng)性工作:確定響應(yīng)級(jí)別:由技術(shù)診斷組在接報(bào)后20分鐘內(nèi)提交《事件影響評(píng)估表》,包含受影響系統(tǒng)數(shù)量、關(guān)鍵數(shù)據(jù)丟失量、資源消耗預(yù)估等要素,領(lǐng)導(dǎo)小組同步判定級(jí)別應(yīng)急會(huì)議:級(jí)別確認(rèn)后30分鐘內(nèi)召開(kāi),采用視頻會(huì)議與現(xiàn)場(chǎng)會(huì)相結(jié)合方式,總指揮主持,記錄員同步生成會(huì)議紀(jì)要信息上報(bào):?jiǎn)?dòng)后1小時(shí)內(nèi)完成政務(wù)專(zhuān)網(wǎng)、集團(tuán)系統(tǒng)雙通道上報(bào),內(nèi)容需匹配上級(jí)部門(mén)要求的《事件報(bào)告模板》資源協(xié)調(diào):?jiǎn)?dòng)《應(yīng)急資源調(diào)配表》,調(diào)用備品備件庫(kù)、災(zāi)備中心資源,調(diào)用時(shí)需經(jīng)總指揮授權(quán)信息公開(kāi):通過(guò)官網(wǎng)、APP發(fā)布《服務(wù)狀態(tài)通告》,每30分鐘更新恢復(fù)進(jìn)度,避免信息空白導(dǎo)致輿情發(fā)酵后勤保障:?jiǎn)?dòng)應(yīng)急食堂,每日保障三餐;財(cái)務(wù)部開(kāi)辟綠色通道,確保采購(gòu)資金秒到賬;法律顧問(wèn)組準(zhǔn)備《第三方責(zé)任評(píng)估表》2、應(yīng)急處置事故現(xiàn)場(chǎng)處置措施:警戒疏散:核心機(jī)房區(qū)域設(shè)置警戒線(xiàn),疏散路線(xiàn)圖張貼在所有樓層安全出口,使用對(duì)講機(jī)引導(dǎo)人員至臨時(shí)集合點(diǎn)人員搜救:針對(duì)長(zhǎng)時(shí)間未登錄系統(tǒng)賬號(hào),由業(yè)務(wù)方協(xié)助排查是否為員工操作異常醫(yī)療救治:配備急救箱,聯(lián)系附近醫(yī)院建立綠色通道,啟動(dòng)時(shí)需報(bào)備總指揮現(xiàn)場(chǎng)監(jiān)測(cè):部署臨時(shí)監(jiān)控點(diǎn),記錄環(huán)境溫濕度、電力波動(dòng)等數(shù)據(jù),每小時(shí)匯總一次技術(shù)支持:供應(yīng)商遠(yuǎn)程支持需同步準(zhǔn)備現(xiàn)場(chǎng)工具,優(yōu)先解決物理層問(wèn)題工程搶險(xiǎn):遵循“先外圍后核心”原則,如先修復(fù)網(wǎng)絡(luò)接入設(shè)備再處理服務(wù)器硬件環(huán)境保護(hù):廢棄物如損壞硬盤(pán)按危險(xiǎn)品處理,由專(zhuān)業(yè)機(jī)構(gòu)回收人員防護(hù)要求:所有現(xiàn)場(chǎng)人員必須佩戴防靜電手環(huán),核心操作人員穿戴過(guò)濾式防毒面具,使用一次性手套和護(hù)目鏡3、應(yīng)急支援外部支援請(qǐng)求程序:觸發(fā)條件:內(nèi)部資源無(wú)法在4小時(shí)內(nèi)恢復(fù)核心業(yè)務(wù)80%可用性請(qǐng)求流程:應(yīng)急領(lǐng)導(dǎo)小組會(huì)商→總指揮簽發(fā)《支援請(qǐng)求函》→通過(guò)供應(yīng)商管理部發(fā)送至服務(wù)商要求:需明確提供故障信息、現(xiàn)場(chǎng)條件、所需資源清單,要求對(duì)方4小時(shí)內(nèi)提供解決方案聯(lián)動(dòng)程序:與外部力量對(duì)接時(shí),原總指揮轉(zhuǎn)為協(xié)調(diào)角色,由對(duì)方技術(shù)專(zhuān)家擔(dān)任現(xiàn)場(chǎng)總指揮,但重大決策需報(bào)備集團(tuán)總部外部力量到達(dá)后:設(shè)立聯(lián)合指揮中心,明確職責(zé)分工,建立信息共享機(jī)制,原應(yīng)急隊(duì)伍轉(zhuǎn)為執(zhí)行小組4、響應(yīng)終止響應(yīng)終止需同時(shí)滿(mǎn)足:所有宕機(jī)系統(tǒng)恢復(fù)服務(wù),核心業(yè)務(wù)系統(tǒng)連續(xù)監(jiān)控6小時(shí)穩(wěn)定運(yùn)行數(shù)據(jù)恢復(fù)組確認(rèn)數(shù)據(jù)一致性,無(wú)重大丟失事件業(yè)務(wù)方確認(rèn)服務(wù)影響降至可接受水平(如客服投訴量下降至正常值5%以下)終止程序:恢復(fù)組提交《系統(tǒng)恢復(fù)報(bào)告》→總指揮組織最終驗(yàn)收→在24小時(shí)內(nèi)通過(guò)多渠道發(fā)布《應(yīng)急響應(yīng)終止公告》責(zé)任人:總指揮對(duì)終止決策負(fù)總責(zé),需經(jīng)至少三分之二成員同意七、后期處置1、污染物處理事故處置過(guò)程中如產(chǎn)生電子廢棄物或有害環(huán)境物質(zhì),需按以下流程處理:現(xiàn)場(chǎng)分類(lèi)收集:損壞的硬盤(pán)、電池等部件由專(zhuān)人集中存放于鉛制容器內(nèi),記錄數(shù)量及型號(hào)專(zhuān)業(yè)機(jī)構(gòu)處置:聯(lián)系有環(huán)保資質(zhì)的回收企業(yè),簽訂《電子廢棄物處置協(xié)議》,確保鈷、鉛等元素回收率大于95%環(huán)境監(jiān)測(cè):在清理完畢后委托第三方機(jī)構(gòu)對(duì)機(jī)房環(huán)境進(jìn)行檢測(cè),指標(biāo)需達(dá)標(biāo)后才可重新進(jìn)入2、生產(chǎn)秩序恢復(fù)恢復(fù)工作遵循“先恢復(fù)、后優(yōu)化”原則,具體措施包括:系統(tǒng)加固:對(duì)所有恢復(fù)的系統(tǒng)進(jìn)行安全掃描,補(bǔ)齊漏洞,核心系統(tǒng)啟用雙因素認(rèn)證業(yè)務(wù)驗(yàn)證:按功能模塊逐項(xiàng)開(kāi)展壓力測(cè)試,記錄性能數(shù)據(jù),恢復(fù)生產(chǎn)后持續(xù)監(jiān)控7天流程優(yōu)化:復(fù)盤(pán)事件處置過(guò)程,修訂《服務(wù)器集群運(yùn)維手冊(cè)》,增加異常檢測(cè)規(guī)則,如設(shè)置CPU熱插拔自動(dòng)觸發(fā)預(yù)警人員培訓(xùn):組織全員開(kāi)展應(yīng)急演練,重點(diǎn)培訓(xùn)新員工對(duì)應(yīng)急預(yù)案的掌握程度3、人員安置針對(duì)因事件導(dǎo)致工作受影響的人員,采取以下措施:心理疏導(dǎo):聯(lián)系EAP(員工援助計(jì)劃)服務(wù)商,為受影響員工提供一對(duì)一咨詢(xún)工作調(diào)整:對(duì)因系統(tǒng)恢復(fù)導(dǎo)致崗位空缺的員工,由人力資源部統(tǒng)籌調(diào)配至臨時(shí)崗位經(jīng)濟(jì)補(bǔ)償:對(duì)因事件錯(cuò)過(guò)調(diào)休的員工,按公司制度給予調(diào)休補(bǔ)償或現(xiàn)金補(bǔ)助信息通報(bào):定期向受影響員工通報(bào)事件處理進(jìn)展及后續(xù)改進(jìn)措施,避免謠言傳播八、應(yīng)急保障1、通信與信息保障建立多元化通信網(wǎng)絡(luò),確保應(yīng)急期間指令暢通:通信聯(lián)絡(luò)單位:信息技術(shù)部負(fù)責(zé)網(wǎng)絡(luò)通信,行政部負(fù)責(zé)外部協(xié)調(diào),法務(wù)部負(fù)責(zé)協(xié)議單位聯(lián)絡(luò)人員聯(lián)系方式:總指揮部建立《應(yīng)急通訊錄電子版》,包含所有成員手機(jī)、對(duì)講機(jī)編號(hào)、IM賬號(hào),每日更新并加密存儲(chǔ)通信方式:主用線(xiàn)路為政務(wù)光纖,備用為衛(wèi)星電話(huà)和移動(dòng)基站,緊急時(shí)采用對(duì)講機(jī)短波通信備用方案:當(dāng)主網(wǎng)絡(luò)中斷時(shí),啟動(dòng)《移動(dòng)通信保障方案》,由行政部調(diào)配車(chē)載基站,信息技術(shù)部負(fù)責(zé)線(xiàn)路鋪設(shè)保障責(zé)任人:行政部經(jīng)理對(duì)通信設(shè)備維護(hù)負(fù)責(zé),信息技術(shù)部總監(jiān)對(duì)網(wǎng)絡(luò)暢通負(fù)責(zé),責(zé)任人在應(yīng)急狀態(tài)下?lián)碛兄苯诱{(diào)動(dòng)資源權(quán)限2、應(yīng)急隊(duì)伍保障建立三級(jí)應(yīng)急人力資源體系:專(zhuān)家?guī)欤喊?名外部系統(tǒng)架構(gòu)師、3名數(shù)據(jù)庫(kù)權(quán)威專(zhuān)家、2名網(wǎng)絡(luò)安全顧問(wèn),通過(guò)協(xié)議方式合作,需提前支付30%服務(wù)費(fèi)專(zhuān)兼職隊(duì)伍:信息技術(shù)部30名骨干為專(zhuān)職隊(duì)員,負(fù)責(zé)日常演練和一級(jí)響應(yīng);各業(yè)務(wù)部門(mén)10名接口人為兼職隊(duì)員,負(fù)責(zé)二級(jí)響應(yīng)信息傳遞協(xié)議隊(duì)伍:與3家云服務(wù)商簽訂應(yīng)急支援協(xié)議,明確故障發(fā)生2小時(shí)內(nèi)必須派出技術(shù)專(zhuān)家到達(dá)現(xiàn)場(chǎng),與同方、華為等硬件廠(chǎng)商建立備件快速通道3、物資裝備保障建立標(biāo)準(zhǔn)化物資臺(tái)賬,確保關(guān)鍵時(shí)刻調(diào)得出用得上:類(lèi)型與數(shù)量:①核心設(shè)備:10臺(tái)冗余服務(wù)器(配置同現(xiàn)有主力機(jī)架)、5套存儲(chǔ)陣列(總?cè)萘?00TB)、3臺(tái)核心交換機(jī)(40G端口)②備件庫(kù):500塊服務(wù)器內(nèi)存、200塊SSD硬盤(pán)、100套電源模塊、50臺(tái)筆記本電腦(預(yù)裝系統(tǒng)恢復(fù)工具)③工具設(shè)備:10套網(wǎng)絡(luò)測(cè)試儀、5臺(tái)便攜式空調(diào)、3套UPS備用電池(20KVA)、1臺(tái)衛(wèi)星電話(huà)性能與存放:所有設(shè)備標(biāo)注條形碼,存放在地下二層恒溫恒濕庫(kù),由專(zhuān)人雙鑰匙管理,每月檢查一次狀態(tài)運(yùn)輸與使用:應(yīng)急物資使用需總指揮簽批,運(yùn)輸由物流部協(xié)調(diào),需確保4小時(shí)車(chē)程內(nèi)可到達(dá)任何故障點(diǎn)更新與補(bǔ)充:每年根據(jù)設(shè)備折舊情況補(bǔ)充20%備件,每半年檢驗(yàn)一次電池容量,更新記錄錄入《應(yīng)急物資管理臺(tái)賬》管理責(zé)任人:信息技術(shù)部運(yùn)維經(jīng)理為第一責(zé)任人,行政部采購(gòu)專(zhuān)員為第二責(zé)任人,雙方需定期核對(duì)實(shí)物與臺(tái)賬一致性九、其他保障1、能源保障優(yōu)先保障應(yīng)急照明和核心設(shè)備供電:建立雙路供電系統(tǒng),配置200KVA備用發(fā)電機(jī),確保市電中斷時(shí)30秒內(nèi)切換,核心機(jī)房UPS容量滿(mǎn)足4小時(shí)滿(mǎn)載運(yùn)行,每月進(jìn)行一次發(fā)電機(jī)滿(mǎn)負(fù)荷測(cè)試,行政部負(fù)責(zé)燃料儲(chǔ)備,信息技術(shù)部負(fù)責(zé)發(fā)電機(jī)維護(hù)2、經(jīng)費(fèi)保障設(shè)立2000萬(wàn)元應(yīng)急專(zhuān)項(xiàng)基金,由財(cái)務(wù)部管理,需專(zhuān)款專(zhuān)用,日常儲(chǔ)備1000萬(wàn)元,用于設(shè)備采購(gòu)和臨時(shí)維修,重大事件時(shí)經(jīng)總指揮授權(quán)可追加2000萬(wàn)元,所有支出需附應(yīng)急審批單3、交通運(yùn)輸保障預(yù)留3輛應(yīng)急運(yùn)輸車(chē)輛,配備GPS定位,可快速運(yùn)送人員和物資,行政部負(fù)責(zé)車(chē)輛維護(hù)和油料儲(chǔ)備,信息技術(shù)部維護(hù)應(yīng)急物資運(yùn)輸清單,需標(biāo)注優(yōu)先級(jí)和預(yù)計(jì)到達(dá)時(shí)間4、治安保障聯(lián)合安保公司建立應(yīng)急巡邏小組,在事件期間加密巡邏頻次,重點(diǎn)區(qū)域如數(shù)據(jù)中心入口設(shè)置臨時(shí)管控點(diǎn),法務(wù)部準(zhǔn)備《臨時(shí)管控授權(quán)書(shū)》,安保部負(fù)責(zé)與屬地公安機(jī)關(guān)聯(lián)絡(luò)5、技術(shù)保障持續(xù)維護(hù)實(shí)驗(yàn)室環(huán)境,配備10套虛擬化平臺(tái)恢復(fù)工具、5套數(shù)據(jù)庫(kù)脫機(jī)恢復(fù)軟件,信息技術(shù)部負(fù)責(zé)軟件更新,每月組織一次恢復(fù)演練,檢驗(yàn)工具有效性6、醫(yī)療保障與就近三甲醫(yī)院簽訂綠色通道協(xié)議,預(yù)留10個(gè)急診床位,建立應(yīng)急醫(yī)療聯(lián)絡(luò)員制度,行政部負(fù)責(zé)聯(lián)絡(luò)醫(yī)生,配備急救藥箱和常用藥品,每年采購(gòu)一次并檢查效期7、后勤保障設(shè)立應(yīng)急食堂,可同時(shí)提供100人用餐,行政部負(fù)責(zé)食材采購(gòu)和人員調(diào)配,準(zhǔn)備50套應(yīng)急住宿床鋪,后勤部維護(hù)《應(yīng)急物資申領(lǐng)表》,需經(jīng)行政部審核十、應(yīng)急預(yù)案培訓(xùn)1、培訓(xùn)內(nèi)容培訓(xùn)涵蓋理論知識(shí)和實(shí)操技能兩大模塊:理論模塊:預(yù)案體系框架、響應(yīng)分級(jí)標(biāo)準(zhǔn)、信息報(bào)告流程、跨部門(mén)協(xié)調(diào)機(jī)制、相關(guān)法律法規(guī)(如《網(wǎng)絡(luò)安全法》)、應(yīng)急裝備使用規(guī)范實(shí)操模塊:故障診斷工具(如Wireshark、Nagios)操作、系統(tǒng)恢復(fù)步驟(數(shù)據(jù)庫(kù)截?cái)?、集群?/p>

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論