服務(wù)器硬件故障應(yīng)急預(yù)案(核心服務(wù)器宕機)_第1頁
服務(wù)器硬件故障應(yīng)急預(yù)案(核心服務(wù)器宕機)_第2頁
服務(wù)器硬件故障應(yīng)急預(yù)案(核心服務(wù)器宕機)_第3頁
服務(wù)器硬件故障應(yīng)急預(yù)案(核心服務(wù)器宕機)_第4頁
服務(wù)器硬件故障應(yīng)急預(yù)案(核心服務(wù)器宕機)_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第第PAGE\MERGEFORMAT1頁共NUMPAGES\MERGEFORMAT1頁服務(wù)器硬件故障應(yīng)急預(yù)案(核心服務(wù)器宕機)一、總則1、適用范圍本預(yù)案適用于公司核心服務(wù)器硬件故障導(dǎo)致系統(tǒng)宕機的事件。具體包括但不限于因磁盤陣列故障、電源模塊失效、主板損壞、網(wǎng)絡(luò)接口卡損壞等硬件問題引發(fā)的系統(tǒng)服務(wù)中斷,影響范圍涵蓋ERP系統(tǒng)、CRM系統(tǒng)、生產(chǎn)控制系統(tǒng)(PCS)及財務(wù)系統(tǒng)等關(guān)鍵業(yè)務(wù)應(yīng)用。以去年第三季度某工廠ERP系統(tǒng)因RAID控制器故障導(dǎo)致全廠生產(chǎn)計劃系統(tǒng)停擺為例,故障發(fā)生時直接造成日均產(chǎn)值損失超200萬元,系統(tǒng)恢復(fù)耗時達(dá)8小時,這種情況完全符合本預(yù)案的適用場景。2、響應(yīng)分級根據(jù)事故危害程度和處置能力,應(yīng)急響應(yīng)分為三級:一級響應(yīng)適用于單臺核心服務(wù)器硬件故障,導(dǎo)致關(guān)鍵業(yè)務(wù)應(yīng)用不可用,但影響范圍局限在單一業(yè)務(wù)模塊。例如數(shù)據(jù)庫服務(wù)器內(nèi)存損壞使訂單管理功能中斷,此時需立即切換至備用服務(wù)器,響應(yīng)時間控制在30分鐘內(nèi)。二級響應(yīng)適用于兩臺以上核心服務(wù)器故障,造成跨部門業(yè)務(wù)系統(tǒng)癱瘓。以某次兩個財務(wù)數(shù)據(jù)庫節(jié)點同時宕機事件為參照,此時需啟動數(shù)據(jù)中心級備份恢復(fù)方案,響應(yīng)時間不超過4小時。三級響應(yīng)適用于整組核心服務(wù)器集群故障,導(dǎo)致全公司業(yè)務(wù)中斷。參考去年數(shù)據(jù)中心供電模塊集體失效案例,此時必須動用外部云資源接管業(yè)務(wù),響應(yīng)時間以24小時為基準(zhǔn)。分級原則是故障規(guī)模與業(yè)務(wù)影響成正比,處置能力與響應(yīng)級別成正比,確保資源優(yōu)先用于最高優(yōu)先級事件。二、應(yīng)急組織機構(gòu)及職責(zé)1、應(yīng)急組織形式及構(gòu)成單位公司成立服務(wù)器硬件故障應(yīng)急指揮部,由分管IT的副總裁擔(dān)任總指揮,下設(shè)技術(shù)實施組、網(wǎng)絡(luò)保障組、數(shù)據(jù)恢復(fù)組、后勤支持組和外部協(xié)調(diào)組。各小組構(gòu)成單位如下:技術(shù)實施組由IT部核心技術(shù)人員組成;網(wǎng)絡(luò)保障組包含網(wǎng)絡(luò)運維和數(shù)據(jù)中心值班人員;數(shù)據(jù)恢復(fù)組由數(shù)據(jù)庫管理員和業(yè)務(wù)部門數(shù)據(jù)接口人構(gòu)成;后勤支持組來自行政部和采購部;外部協(xié)調(diào)組負(fù)責(zé)與供應(yīng)商及第三方服務(wù)商對接。2、應(yīng)急處置職責(zé)技術(shù)實施組職責(zé)包括:5分鐘內(nèi)完成故障硬件檢測,30分鐘內(nèi)完成故障隔離,2小時內(nèi)實施備用切換或硬件更換。以去年某次交換機端口故障為例,技術(shù)人員通過熱備鏈路自動切換,在故障發(fā)現(xiàn)后25分鐘恢復(fù)服務(wù)。網(wǎng)絡(luò)保障組需確保備用鏈路帶寬不低于80%,配置雙歸屬路由策略,定期測試網(wǎng)狀網(wǎng)絡(luò)連通性。數(shù)據(jù)恢復(fù)組任務(wù)是為業(yè)務(wù)部門提供數(shù)據(jù)一致性驗證,去年某次磁盤損壞事件中,通過日志序列重建,數(shù)據(jù)恢復(fù)率高達(dá)98%。后勤支持組負(fù)責(zé)調(diào)配備件庫存,協(xié)調(diào)第三方服務(wù)商上門時限,備件周轉(zhuǎn)周期控制在6小時以內(nèi)。外部協(xié)調(diào)組需建立供應(yīng)商SLA考核機制,去年與核心設(shè)備供應(yīng)商簽訂的服務(wù)協(xié)議中,12小時到場承諾響應(yīng)率達(dá)到了95%。3、工作小組構(gòu)成及任務(wù)技術(shù)實施組下設(shè)硬件排查小組(IT部資深工程師3人)、系統(tǒng)部署小組(系統(tǒng)管理員2人),行動任務(wù)包括制定備用服務(wù)器切換腳本、維護虛擬化平臺資源池。網(wǎng)絡(luò)保障組包含核心網(wǎng)管小組(網(wǎng)絡(luò)工程師4人)和監(jiān)控小組(2人),需建立服務(wù)器宕機自動告警機制,去年部署的Zabbix監(jiān)控系統(tǒng)在故障發(fā)生時5秒內(nèi)觸發(fā)告警。數(shù)據(jù)恢復(fù)組分為結(jié)構(gòu)化數(shù)據(jù)小組(DBA2人)和文檔數(shù)據(jù)小組(業(yè)務(wù)接口人3人),必須維護全量數(shù)據(jù)備份鏈路,某次財務(wù)系統(tǒng)恢復(fù)中,通過Veeam備份恢復(fù)虛擬機,耗時僅1.5小時。后勤支持組配備備件庫管理員(1人)和運輸協(xié)調(diào)員(1人),核心備件包括服務(wù)器主板、電源模塊、RAID卡,庫存周轉(zhuǎn)率需保持在每周一次。外部協(xié)調(diào)組由采購專員(1人)和供應(yīng)商經(jīng)理(1人)組成,需建立備選供應(yīng)商目錄,包括3家主流硬件服務(wù)商。三、信息接報1、應(yīng)急值守電話及事故信息接收公司設(shè)立724小時應(yīng)急值守?zé)峋€95558,由IT部值班人員負(fù)責(zé)接聽。所有硬件故障報告必須通過該熱線接收,記錄內(nèi)容包括故障設(shè)備型號、發(fā)生時間、現(xiàn)象描述、影響業(yè)務(wù)等。去年某次凌晨電源故障就是通過該熱線在故障發(fā)生后的3分鐘內(nèi)接報的。2、內(nèi)部通報程序與方式值班人員接報后5分鐘內(nèi)通過企業(yè)內(nèi)部通訊系統(tǒng)@所有應(yīng)急小組成員,同時生成工單系統(tǒng)記錄。技術(shù)實施組負(fù)責(zé)人在接收到通報后10分鐘內(nèi)完成初步診斷,通過公司釘釘群組向各部門IT接口人發(fā)布影響通告。某次內(nèi)存故障就是通過釘釘群在故障后的15分鐘通知到全公司各部門的。3、向上級報告流程與時限一級響應(yīng)事件需在故障發(fā)生30分鐘內(nèi)向公司分管副總裁報告,2小時內(nèi)向集團應(yīng)急辦提交書面報告,報告內(nèi)容包含故障詳情、影響評估和處置方案。去年某次數(shù)據(jù)庫集群故障就是按照這個流程,在故障發(fā)生1.5小時后得到集團批復(fù)的。4、向上級單位報告要求二級響應(yīng)事件需在2小時內(nèi)向市工信局報送簡報,內(nèi)容需包含故障參數(shù)和處置進度。三級響應(yīng)若影響外網(wǎng)服務(wù),需在4小時內(nèi)向網(wǎng)信辦備案。去年某次網(wǎng)絡(luò)中斷事件就是按照規(guī)定時限完成上報的。5、外部通報程序與方法影響外部用戶的服務(wù)中斷需在1小時內(nèi)通過官方公告欄發(fā)布停機通知,同時向主要客戶發(fā)送短信通知。某次云存儲故障就是通過微信公眾號發(fā)布停機通告的。外部通報責(zé)任人為公關(guān)部經(jīng)理,需確保信息口徑與IT部一致。四、信息處置與研判1、響應(yīng)啟動程序與方式公司應(yīng)急指揮部實行分級授權(quán)啟動機制。達(dá)到二級響應(yīng)條件的,由IT部總監(jiān)現(xiàn)場確認(rèn)后即時啟動;達(dá)到三級響應(yīng)條件的,需經(jīng)分管副總裁批準(zhǔn)后啟動。自動啟動機制適用于核心系統(tǒng)5分鐘內(nèi)完全中斷的情況,此時監(jiān)控系統(tǒng)自動觸發(fā)預(yù)案執(zhí)行。去年某次網(wǎng)絡(luò)設(shè)備故障就是通過自動啟動機制在故障確認(rèn)后的8分鐘內(nèi)完成服務(wù)的。2、應(yīng)急啟動決策與發(fā)布應(yīng)急領(lǐng)導(dǎo)小組由總指揮牽頭,成員包括各小組負(fù)責(zé)人。當(dāng)事故信息顯示可能達(dá)到二級響應(yīng)時,領(lǐng)導(dǎo)小組在30分鐘內(nèi)召開遠(yuǎn)程會商,作出啟動決策。決策通過公司內(nèi)部應(yīng)急廣播系統(tǒng)發(fā)布,同時抄送管理層成員。某次存儲陣列故障就是通過視頻會議在故障后的35分鐘完成啟動的。3、預(yù)警啟動機制對于可能升級的故障,應(yīng)急領(lǐng)導(dǎo)小組可作出預(yù)警啟動決策。此時技術(shù)實施組需提前2小時完成備用資源預(yù)冷,網(wǎng)絡(luò)保障組檢查應(yīng)急鏈路狀態(tài)。去年某次空調(diào)故障預(yù)警啟動后,提前更換了2臺備用UPS,避免后續(xù)故障升級。4、響應(yīng)級別動態(tài)調(diào)整響應(yīng)啟動后每30分鐘進行一次事態(tài)研判。若通過臨時措施將影響范圍控制在單一業(yè)務(wù)模塊,二級響應(yīng)可降級為一級;若外部供應(yīng)商介入使處置能力提升,三級響應(yīng)可提前終止。某次RAID控制器故障中,通過緊急補丁使系統(tǒng)恢復(fù)后,二級響應(yīng)在故障后2小時被取消。5、響應(yīng)終止與復(fù)盤當(dāng)系統(tǒng)恢復(fù)服務(wù)2小時后,由技術(shù)實施組提交終止申請,經(jīng)領(lǐng)導(dǎo)小組批準(zhǔn)后解除應(yīng)急狀態(tài)。故障處置完成后需在24小時內(nèi)完成復(fù)盤,分析響應(yīng)有效性,修訂相關(guān)流程。去年某次主板故障復(fù)盤后,將備件更換周期從72小時縮短至48小時。五、預(yù)警1、預(yù)警啟動預(yù)警信息通過公司專用應(yīng)急APP、短信總發(fā)系統(tǒng)及數(shù)據(jù)中心告警大屏發(fā)布。預(yù)警內(nèi)容必須包含潛在故障描述(如"核心交換機某端口流量異常")、影響范圍預(yù)估("可能影響ERP及CRM系統(tǒng)")、建議措施("請相關(guān)部門準(zhǔn)備備用賬號")。去年某次內(nèi)存異常預(yù)警就是通過這種格式發(fā)布的,使受影響部門提前15分鐘完成數(shù)據(jù)備份。2、響應(yīng)準(zhǔn)備預(yù)警啟動后立即開展以下準(zhǔn)備工作:技術(shù)實施組進入24小時待命狀態(tài),網(wǎng)絡(luò)保障組檢查備用鏈路狀態(tài),數(shù)據(jù)恢復(fù)組更新恢復(fù)腳本,后勤支持組確認(rèn)備件庫存,通信組測試應(yīng)急通訊設(shè)備。各小組需在預(yù)警發(fā)布1小時內(nèi)完成準(zhǔn)備狀態(tài)確認(rèn),并通過系統(tǒng)打卡記錄。某次電源模塊預(yù)警后,相關(guān)備件已提前2小時運抵倉庫。3、預(yù)警解除預(yù)警解除由技術(shù)實施組提出申請,需滿足三個條件:故障診斷確認(rèn)無實質(zhì)性隱患,備用資源測試合格,監(jiān)控系統(tǒng)連續(xù)30分鐘無異常告警。領(lǐng)導(dǎo)小組在收到申請后1小時內(nèi)完成評估,通過應(yīng)急廣播系統(tǒng)發(fā)布解除通知。預(yù)警解除責(zé)任人為技術(shù)實施組負(fù)責(zé)人,需確保解除條件完全滿足。去年某次風(fēng)扇故障預(yù)警就是在確認(rèn)加固后2小時解除的。六、應(yīng)急響應(yīng)1、響應(yīng)啟動響應(yīng)啟動程序遵循"分級負(fù)責(zé)、逐級提升"原則。達(dá)到一級響應(yīng)條件的,由IT部總監(jiān)在15分鐘內(nèi)啟動;升級為二級需分管副總裁批準(zhǔn),30分鐘內(nèi)完成;三級響應(yīng)由副總裁提議,董事會批準(zhǔn)后執(zhí)行。啟動后立即開展以下工作:10分鐘內(nèi)召開應(yīng)急處置會,同步上報集團應(yīng)急辦;30分鐘內(nèi)協(xié)調(diào)各業(yè)務(wù)部門資源;1小時內(nèi)通過官網(wǎng)發(fā)布臨時公告;技術(shù)實施組獲得跨部門協(xié)調(diào)權(quán)限。去年某次數(shù)據(jù)庫故障就是按照這個流程,在故障確認(rèn)后50分鐘完成啟動的。2、應(yīng)急處置現(xiàn)場處置措施包括:設(shè)立10米警戒范圍,疏散非必要人員;由安全部門檢查現(xiàn)場電氣安全;技術(shù)實施組佩戴防靜電手環(huán)進行硬件操作;嚴(yán)重故障時啟動醫(yī)療聯(lián)絡(luò)協(xié)議。去年某次雷擊事故中,通過及時疏散避免了設(shè)備短路擴大?,F(xiàn)場監(jiān)測由網(wǎng)絡(luò)保障組每15分鐘記錄網(wǎng)絡(luò)參數(shù),數(shù)據(jù)恢復(fù)組每小時評估數(shù)據(jù)完整性。技術(shù)支持小組需確保備用機房環(huán)境達(dá)標(biāo),工程搶險按預(yù)案路線更換故障模塊。環(huán)境保護方面要求所有廢棄物按電子垃圾規(guī)范處置,某次鉛酸電池泄漏就是按此要求處理的。3、應(yīng)急支援當(dāng)核心備件不足時,通過供應(yīng)商協(xié)調(diào)平臺(如Compugen)向第三方申請支援,需提供故障照片、序列號和SLA要求。聯(lián)動程序遵循"統(tǒng)一指揮、專業(yè)協(xié)同"原則,外部力量到達(dá)后由應(yīng)急指揮部指定現(xiàn)場聯(lián)絡(luò)員,原則上由技術(shù)實施組負(fù)責(zé)人統(tǒng)一指揮。去年某次備用電源故障時,通過此機制調(diào)用了2臺移動UPS,在8小時后恢復(fù)雙路供電。4、響應(yīng)終止響應(yīng)終止需同時滿足三個條件:系統(tǒng)核心功能恢復(fù)72小時穩(wěn)定運行,受影響業(yè)務(wù)完全恢復(fù),備用資源庫存恢復(fù)90%。由技術(shù)實施組提交終止申請,經(jīng)領(lǐng)導(dǎo)小組2小時會商后發(fā)布終止令。責(zé)任人由總指揮擔(dān)任,需確保處置方案經(jīng)業(yè)務(wù)部門確認(rèn)。某次集群故障終止就是按照這個流程執(zhí)行的,終止后72小時未出現(xiàn)異常。七、后期處置1、污染物處理若應(yīng)急處置中發(fā)現(xiàn)有害物質(zhì)(如冷卻液泄漏),需立即由后勤支持組疏散周邊人員,設(shè)置警戒區(qū),并聯(lián)系專業(yè)環(huán)保公司進行回收處理。技術(shù)實施組需記錄污染物類型、污染范圍,配合環(huán)保部門進行環(huán)境檢測。處理完畢后需形成書面報告,存檔備查。去年某次硬盤失效導(dǎo)致密封損壞,就是按此流程處理了制冷劑泄漏的。2、生產(chǎn)秩序恢復(fù)系統(tǒng)恢復(fù)后由各業(yè)務(wù)部門牽頭,技術(shù)支持配合,開展業(yè)務(wù)功能驗證。制定分階段恢復(fù)計劃,優(yōu)先保障核心交易系統(tǒng),逐步恢復(fù)輔助系統(tǒng)。恢復(fù)后72小時內(nèi)增加巡檢頻次,某次ERP系統(tǒng)恢復(fù)后就是分三批次恢復(fù)模塊的。同時建立問題清單,跟蹤遺留問題解決進度,確保系統(tǒng)穩(wěn)定運行。3、人員安置受影響人員由人力資源部負(fù)責(zé)安撫,提供必要的心理疏導(dǎo)。對受影響較大的崗位,由IT部組織專項培訓(xùn),彌補技能缺口。去年某次數(shù)據(jù)庫恢復(fù)后,就是為相關(guān)崗位員工安排了3次系統(tǒng)操作補訓(xùn)的。同時更新應(yīng)急預(yù)案,降低類似事件發(fā)生概率,減少對人員的影響。八、應(yīng)急保障1、通信與信息保障建立應(yīng)急通信專網(wǎng),包括內(nèi)部釘釘超級應(yīng)用群組、外部聯(lián)絡(luò)熱線95558、備用衛(wèi)星電話(型號北斗三號,存放位置:通信機房B區(qū)柜)。所有關(guān)鍵人員配備對講機(頻率4.0GHz,電池存放位置:應(yīng)急物資間),每月測試一次通訊鏈路。備用方案包括:主網(wǎng)中斷時切換至電信5G專網(wǎng),數(shù)據(jù)傳輸速率不低于50Mbps。保障責(zé)任人為通信組張工,需確保所有通訊設(shè)備24小時充電。2、應(yīng)急隊伍保障組建三級應(yīng)急隊伍體系:核心專家?guī)欤?人,含1名外聘院士級專家,聯(lián)系方式存檔于保密柜)、專職隊伍(IT部20人)、兼職隊伍(各業(yè)務(wù)部門接口人30人,每月演練1次)、協(xié)議隊伍(與Compugen簽訂應(yīng)急服務(wù)協(xié)議,響應(yīng)時間≤4小時)。去年某次芯片短缺時,就是通過協(xié)議隊伍緊急調(diào)用了備用處理板卡的。3、物資裝備保障應(yīng)急物資包括:服務(wù)器備件庫(含10塊主板、20塊電源、5套RAID卡,存放于數(shù)據(jù)中心備件間,每季度抽檢),發(fā)電機組(300kW,存放于東區(qū)空置廠房,每月運行測試),便攜式電腦(20臺,存放于行政部,需預(yù)裝系統(tǒng)恢復(fù)軟件)。所有物資建立電子臺賬,記錄型號、數(shù)量、有效期。管理責(zé)任人王工,負(fù)責(zé)每季度補充備件,確保庫存周轉(zhuǎn)率不低于2次/年。九、其他保障1、能源保障建立雙路供電系統(tǒng),配備2臺300kW應(yīng)急發(fā)電機,確保核心區(qū)域供電。與電力公司簽訂事故搶修協(xié)議,承諾4小時到達(dá)現(xiàn)場。每月聯(lián)合電力部門開展一次聯(lián)合演練。2、經(jīng)費保障設(shè)立應(yīng)急專項基金(額度500萬元),由財務(wù)部管理,需確保每月提取10萬元。重大事件超出預(yù)算時,由副總裁審批追加。3、交通運輸保障配備3輛應(yīng)急運輸車(含GPS定位),用于轉(zhuǎn)運備件和人員。與出租車公司簽訂應(yīng)急協(xié)議,提供50輛出租車支持。4、治安保障與公安部門建立聯(lián)動機制,制定數(shù)據(jù)中心安保方案。故障發(fā)生時由安保部負(fù)責(zé)現(xiàn)場秩序維護,必要時請求交警協(xié)助交通管制。5、技術(shù)保障建立虛擬化平臺備份(VMwarevSphere),實現(xiàn)核心系統(tǒng)5分鐘內(nèi)切換。與云服務(wù)商(阿里云)簽訂災(zāi)備協(xié)議,每月開展一次切換演練。6、醫(yī)療保障與附近醫(yī)院(市中心醫(yī)院)簽訂綠色通道協(xié)議,提供應(yīng)急救護車2輛。對行動不便的員工,行政部安排專車送醫(yī)。7、后勤保障設(shè)立應(yīng)急物資間(容量200平方米,位于地下一層),儲備食品、水、藥品等。行政部負(fù)責(zé)每日檢查物資有效期,每月更新一次。十、應(yīng)急預(yù)案培訓(xùn)1、培訓(xùn)內(nèi)容培訓(xùn)內(nèi)容涵蓋應(yīng)急預(yù)案體系、各小組職責(zé)、應(yīng)急處置流程、設(shè)備操作規(guī)范、安全防護知識等。重點培訓(xùn)內(nèi)容包括:服務(wù)器硬件識別與故障診斷、備用系統(tǒng)切換操作、數(shù)據(jù)備份恢復(fù)流程、應(yīng)急通訊使用方法。結(jié)合公司實際案例,講解不同故障場景的處置

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論