服務器故障應急響應方案_第1頁
服務器故障應急響應方案_第2頁
服務器故障應急響應方案_第3頁
服務器故障應急響應方案_第4頁
服務器故障應急響應方案_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、.服務器故障應急措施方案部門版本編號Ver_1.0日期密級公司內部使用文檔信息文檔名稱服務器故障應急措施方案日期版本號更新說明2014-03-14Ver_1.0建立文檔、初始化方案概述導致服務器出現(xiàn)故障的問題是一個龐大的集合,可以分成很多種導致服務器出現(xiàn)故障的原因,根據服務器故障出現(xiàn)的狀況進行分類,確定故障屬于哪一個級別,根據相應的故障級別對故障做對應的處理,確保故障的處理流程是標準化的。如果沒有一套故障處理的標準,工程師只能靠經驗去判斷,但是依靠經驗判斷并不是不可以,有時候這種處理方式會很高效,但是大多數這種處理方式都是不太合理的,如果更換了運維工程師,顯然每一個工程師通過經驗去判斷故障原因

2、的方式都不盡相同,這樣的差異將會使故障處理事后不能夠得到很好的記錄與存檔,以供其他工程師以后借鑒故障處理案例。故障處理標準化的優(yōu)點:根據流程可以確定哪些故障應該立即匯報上級,哪些可以自行解決后,再寫故障處理報告匯報上級,這樣做有助于提高故障處理效率。對于工程師經驗判斷,可能出現(xiàn)判斷失誤的情況,根據故障判斷流程,可以不遺漏任何可能的情況對服務器故障進行排除。有時候工程師處理了故障之后只是簡單的做了一下匯報,并沒有一些故障處理過程的記錄,以及故障處理的詳細時間記錄,這樣對需要追溯以前的具體情況的時候就束手無策了。劃分故障等級級緊急當系統(tǒng)出現(xiàn)下列相當嚴重的現(xiàn)象時,屬一級故障:系統(tǒng)整體癱瘓,全部操作失

3、去響應;系統(tǒng)崩潰,關鍵硬件或文件系統(tǒng)損壞無法自動修復;發(fā)生間歇性、隨機性、重復性的啟動或應用退出,無法保障公司業(yè)務的正常處理。立即匯報上級級重要當系統(tǒng)出現(xiàn)下列比較嚴重的現(xiàn)象時,屬二級故障:關鍵部件含軟、硬件停止工作,導致系統(tǒng)降低運行狀態(tài),客戶業(yè)務受到嚴重影響;系統(tǒng)整體性能嚴重下降,無法自動恢復正常運行狀態(tài);重要數據、參數和配置信息損壞,無恢復,導致客戶數據及業(yè)務記錄嚴重損失;立即匯報上級級關鍵當系統(tǒng)出現(xiàn)下列現(xiàn)象時,屬三級故障:部分設備或軟件異常,局部功能受限,系統(tǒng)整體仍可正常工作,對客戶業(yè)務影響不大或存在隱患;關鍵備用設施因故障離線,主用設施仍能正常工作;系統(tǒng)運行指標例如: I/O 效率、 C

4、PU 效率受到直接或間接影響,客戶業(yè)務處理緩慢;立即匯報上級級告警當系統(tǒng)出現(xiàn)下列情況而不影響客戶業(yè)務時,屬四級故障:不在運行狀態(tài)的線路、端口損壞;出于安全考慮并且是受保護的軟件降級或應用重啟;因存儲空間不足導致的性能下降;系統(tǒng)硬件、軟件產品功能、安裝、或配置方面的支援;業(yè)務仍然可以正常運作,但是服務器報出故障信息的;故障排錯判斷故障分類一機房網絡故障1、骨干網光纖切割;2、機房網絡升級;3、機房網絡設備調試;4、機房網絡設備損壞;二政府部門封網1、服務器沒有備案;2、域名備案存在問題;3、黑客入侵導致服務器違法行為;4、違規(guī)代理服務器;5、服務器轉發(fā)違禁網站;6、服務器放置的網站內容不符合當地

5、的政府法例法規(guī);三機房鋪助設備故障1、機房空調故障問題;2、機房灰塵過多問題;3、機房電力供應問題;四機房機柜遷移1、機柜擴容;2、機柜移位;3、服務器遷移機柜;五服務器硬件故障1、電源線損環(huán);2、服務器電源損壞;3、服務器非人為硬盤損壞;4、服務器受黑客入侵攻擊時導致硬盤損壞;5、 CPU溫度過高燒毀;6、內存使用中損壞;7、主板在電源損壞時容易燒毀;六服務器系統(tǒng)故障1、黑客攻擊導致系統(tǒng)癱瘓;2、緩存日志過多沒有整理;3、人為配置不當導致系統(tǒng)崩潰;4、硬盤損壞導致系統(tǒng)崩潰;七服務器應用故障1、服務器放置的應用程序存在bug后門等;2、服務器環(huán)境配置問題;3、黑客攻擊導致應用程序崩潰;4、硬盤

6、、內存的兼容性差導致應用程序崩潰;5、應用程序沒有優(yōu)化占用服務器硬件資源過高導致崩潰;6、用戶負載過多導致應用程序崩潰;八服務器硬件超負荷1、數據超過硬盤讀寫負載能力導致應用程序崩潰;2、 CPU使用率跑滿導致服務器宕機;3、使用內存cache占用過多導致宕機;4、硬盤空間使用滿導致宕機;九服務器網絡超負荷1、用戶量過多,服務器帶寬不足,導致卡頓,用戶訪問程序故障;2、系統(tǒng)連接數過多造成系統(tǒng)擁堵網絡帶寬使用不上;3、數據庫數據讀寫占用過多服務器連接數,達不到預期的服務器帶寬;十人為違規(guī)操作1、人為違規(guī)關機;2、人為違規(guī)操作更改或刪除服務器應用;3、機房人為關機或斷電;十一服務器受到攻擊1、服務

7、拒絕攻擊導致系統(tǒng)崩潰,如常見的UDP洪水攻擊等;2、利用型攻擊導致黑客入侵系統(tǒng),如特洛伊木馬、口令猜測等;3、信息收集型攻擊,如體系結構探測、DNS域轉換等4、假消息攻擊,如DNS高速緩存污染、偽造電子郵件等十二不可預知因素1、機房遭遇火災事故;2、機房遭遇地震事故;服務器出現(xiàn)故障故障應急處理流程服務器出現(xiàn)故障判斷故障級別判斷故障級別匯報上級匯報上級匯報上級級緊急級重要匯報上級匯報上級匯報上級級緊急級重要級關鍵級警告記錄發(fā)生時間記錄發(fā)生時間記錄發(fā)生時間故障排錯流程故障排錯流程記錄發(fā)生時間記錄發(fā)生時間記錄發(fā)生時間記錄發(fā)生時間故障排錯流程故障排錯流程記錄發(fā)生時間故障排錯流程故障排錯流程故障排錯流程

8、故障排錯流程問題處理完成問題處理完成故障處理報告故障處理報告發(fā)送郵件給相關人員發(fā)送郵件給相關人員服務器故障處理完畢服務器故障處理完畢故障排錯流程故障排錯開始故障排錯開始是否有備用服務器判斷故障等級是否屬于是否有備用服務器判斷故障等級是否屬于級或級啟用備用服務器啟用備用服務器是是否否檢查當前故障服務器檢查當前故障服務器執(zhí)行數據備份與日志備份的腳本執(zhí)行數據備份與日志備份的腳本查看報錯日志,根據故障分類確定故障范圍,逐條排除查看報錯日志,根據故障分類確定故障范圍,逐條排除嘗試修復故障,并且驗證是否解決問題嘗試修復故障,并且驗證是否解決問題否是故障處理完成故障處理完成數據與日志備份在進行故障修復的時候

9、,需要對服務器系統(tǒng)以及軟件的配置文件進行修改,這些修改可能造成的風險是很大的,這時保存?zhèn)浞菖渲梦募畔?、應用數據、系統(tǒng)日志信息會很重要,可以直接通過shell腳本對服務器重要的數據進行備份。故障處理報告故障處理報告文件命名規(guī)則文件名前綴故障級別服務器名稱故障類型故障處理報告級緊急Linux服務器名稱終端#前面的字符故障分類詳細內容級重要級關鍵級告警例如:故障處理報告_級緊急_squid-chendu_系統(tǒng)崩潰故障處理報告內容故障發(fā)現(xiàn)時間Xxxx 年 xx 月 xx 日 xx:xx 24小時制處理完成時間如果處理一次就解決的直接寫:Xxxx 年 xx 月 xx 日 xx:xx 24小時制如果多次處理后才解決,按下面格式寫:Xxxx 年 xx 月 xx 日 xx:xx 24小時

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論