數據中心運維管理建設方案_第1頁
數據中心運維管理建設方案_第2頁
數據中心運維管理建設方案_第3頁
數據中心運維管理建設方案_第4頁
數據中心運維管理建設方案_第5頁
已閱讀5頁,還剩33頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數據中心運維管理建設方案第一章某數據中心基礎運維概述 4第二章數據中心運維分類 42.1基礎環(huán)境運維管理 42.2網絡運維管理 62.3服務器和存儲運維管理 62.3.1服務器運行情況及性能監(jiān)測 62.3.2服務器軟硬件兼容性檢查 72.3.3磁盤陣列設備管理 72.3.4機柜、電源、網線布局管理 82.3.5協(xié)助第三方維護 82.4基礎軟件運維管理 82.4.1操作系統(tǒng) 82.4.2數據庫 92.4.3中間件 2.4.4備份系統(tǒng) 2.4.5應用系統(tǒng) 第三章運維工作內容 3.1日常維護工作 3.2系統(tǒng)性能監(jiān)控管理 3.3系統(tǒng)維護管理 3.4系統(tǒng)配置與支持維護 3.5系統(tǒng)容量管理 3.6巡檢工作 3.7定期服務報告 3.7.1設備配置檔案 3.7.2服務文檔 3.7.3服務總結 3.8運行維護優(yōu)化評估 3.9應急保障措施和組織 3.9.1應急響應系統(tǒng) 203.9.2應急響應過程 203.9.3制定應急保障預案及演練 213.10IT運維服務工具 3.10.1運維監(jiān)控平臺 23第一章某數據中心基礎運維概述以及由這些設備組成的所有網絡,需要監(jiān)控網絡運行情況并提出網絡風估,定期對網絡進行優(yōu)化配置,提高網絡運行效率第三部分服務器和存儲部分,包含整個數據中心的小型機、服務器、存第四部分為基礎軟件部分,包括各種操作系統(tǒng)、數據庫、中間件、備份軟件等等。要求這些軟件可以正常工作,并服務,當這些軟件出現問題時,能發(fā)現并提出解決第二章數據中心運維分類通過主動性、預防性維護,執(zhí)行日常維護作態(tài)進行檢查分析,及時進行數據備份,并定證,對系統(tǒng)運行質量進行分析,并進行維護題及時處理,消除隱患,保障平臺的穩(wěn)定運行。我1)機房機柜擺放規(guī)劃和機柜管理;2)服務器和網絡設備擺放規(guī)劃和日常管理;3)設備出入機房審批登記管理;4)內部人員出入機房審批登記管理;5)外部來賓機房參觀審批登記管理;6)機房電力系統(tǒng)監(jiān)控、問題及時上報;7)消防監(jiān)控系統(tǒng)監(jiān)控、接收報警短信和聯(lián)系第三方;8)空調報警系統(tǒng)監(jiān)控、接收報警短信和聯(lián)系9)溫濕度報警監(jiān)控、接受報警短信和聯(lián)系專業(yè)第三方;10)漏水報警系統(tǒng)監(jiān)控、接受報警短信和聯(lián)系專業(yè)第三方;12)視頻監(jiān)控系統(tǒng)日常運維;14)機房資產管理系統(tǒng)(CMDB)。15)機房環(huán)境。清理機房的雜物,將機房物品定置。清潔機房門窗、地面。定期清潔電池室的地面;檢查機房所有堵,嚴密防鼠;檢查機房玻璃、地板、天花16)巡視電池間;檢查電池工作狀態(tài)。17)確認機房照明良好,出現問題及時報告。18)視頻網絡播放系統(tǒng)。定期檢查可用性,有問題及時與專業(yè)第三方公19)填寫巡檢記錄。針對數據中心的網絡部分,運維內容主要包含以下內容:1)測試網絡接入速度,監(jiān)控網絡訪問可用性和訪問質量,出現問題第一時間直接聯(lián)系接入商解決。2)網絡接入商變化時,配合網絡接入商對網絡變更方案的可行性審查、問題審查。配合網絡接入商更替施工。3)局域網。本地局域網日常管理和維護;VLAN劃分;網絡性能優(yōu)化;故障排除;網絡節(jié)點周期性檢查,發(fā)現潛在問題,并解決。4)無線局域網。負責無線局域網的日常管理和維護;客戶端不能正常接入網絡的故障排除;網絡性能優(yōu)化;故障排除;網絡節(jié)點周期性檢查,發(fā)現潛在問題并解決。5)遠程接入。制定VPN使用策略,實施VPN用戶日常遠程接入服務器的管理,以及性能優(yōu)化和故障排除等。6)網絡病毒查殺和網絡安全保護。7)根據實際項目或安排而產生的其他工作。2.3服務器和存儲運維管理2.3.1服務器運行情況及性能監(jiān)測數據中心運維團隊將通過綜合監(jiān)控系統(tǒng)實施7*24小時平臺設備監(jiān)控,發(fā)現告警,并進行處理,解決問題。對系統(tǒng)運行進行實時檢查。對監(jiān)控或維護中發(fā)現的問題及時處理,消除隱患,保障平臺的穩(wěn)定運行。并且還提供針對各服務器物理資源的使用情況和操作系統(tǒng)的運行情況、進行實時監(jiān)控,提供服務器安全監(jiān)測報告。主機性能監(jiān)控的檢查列表包括:>內存使用情況>交換區(qū)使用情況>磁盤I/O情況>關鍵文件系統(tǒng)的狀態(tài)>重要進程的運行情況(例程數量、消耗CPU、占用內存)>操作系統(tǒng)的各類日志文件>網絡、端口信息運維團隊需根據檢查列表進行日常檢查,并不斷地改進日常檢查列表,以滿足對系統(tǒng)監(jiān)控的需要。2.3.2服務器軟硬件兼容性檢查數據中心運維團隊在維護系統(tǒng)穩(wěn)定運行的同時,需主動收集系統(tǒng)關鍵補丁、軟件補丁、硬件微碼等信息,在通過數據中心專家評審的前提下,對相關設備進行升級服務,并在升級完成后配合應用方對系統(tǒng)進行測試。升級前后需要和應用方及時做好溝通確認工作,確保不會產生兼容性導致的故障。運維團隊需要對磁盤陣列設備及其相關的部件(如硬盤、控制器等)進行編號,并記錄在案,對軟件設置中的參數也要進行詳細的記錄,并在每次變更后及時更新相關的信息。除此之外,運維團隊定期(暫定每半年)對于每個服務器的系統(tǒng)容量監(jiān)測的審核,并制定相應的容量規(guī)劃,主要監(jiān)測文件系統(tǒng)的空間、數據庫的空間資源利用情況,分析資源利用趨勢,并提供資源情況報表。文件系統(tǒng)空間管理>定期檢查文件系統(tǒng)的空間使用情況,根據業(yè)務發(fā)展需求和新業(yè)務的增加,制定合理的空間分配方案,新增、修改或刪除空間。>對文件系統(tǒng)空間的使用進行監(jiān)控,發(fā)現空間使用不合理或需要清理的協(xié)調數據庫空間管理>應實時監(jiān)測數據存儲空間的使用情況,根據業(yè)務數據的數據量、數據結構以及增長速度,制定合適的數據存儲和結構優(yōu)化策略,動態(tài)增加新的空間>定期檢查數據存儲空間的使用情況,根據實際情況規(guī)劃增加新的空間,填寫數據庫空間新增/修改/刪除申請表,經審核后實施,并更新數據庫配置2.3.4機柜、電源、網線布局管理運維團隊對于新上架安裝的設備,需要進行拍照留檔,確認各線路位置,并對服務器的電源部分進行編號整理,最終登記在冊。2.3.5協(xié)助第三方維護對于由專業(yè)第三方提供運維的設備,設備出現問題后運維團隊需及時通知第三方并告知采購人,視情況嚴重性,決定是否啟動應急預案;配合第三方服務商一起排查和解決問題,實施為了解決故障而進行的系統(tǒng)軟硬件的補丁、升級及維護工作。獨立處理初級系統(tǒng)故障,與第三方廠商或服務商配合解決高級別系統(tǒng)故障。記錄問題、故障的解決辦法及解決過程。做出臨時的配置變更以排除故障,在必要的時候,提出永久性配置變更建議。2.4基礎軟件運維管理運維團隊充分保障服務器操作系統(tǒng)的穩(wěn)定運行,將提供以下服務內容:1)系統(tǒng)升級運維團隊在維護系統(tǒng)穩(wěn)定運行的同時,需主動收集系統(tǒng)關鍵補丁、軟件補丁等信息,在通過數據中心專家評審的前提下,對相關系統(tǒng)進行升級服務,并在升級完成后配合應用方對系統(tǒng)進行測試。升級前后需要和應用方及時做好溝通確認工作,確保不會產生兼容性導致的故障。2)操作系統(tǒng)穩(wěn)定性監(jiān)控定時查看操作系統(tǒng)日志及IIS日志,查看CPU、內存3)權限與文件管理服務器應明確責任人及管理帳號持有人,不應出現多人單帳戶,單人多帳戶的情況,不利于在服務器出現問題后,對服務器進行操作維護、查找問4)定期檢查磁盤空間進行磁盤文件排列的優(yōu)化和錯誤掃描,并處理錯誤;安全地刪除系統(tǒng)各路徑下存放的臨時文件、無用文件、備份文件等等,完全釋放磁盤空間。5)維護系統(tǒng)注冊表。6)系統(tǒng)配置。優(yōu)化系統(tǒng)配置,關閉無用服務和端口,以最適合系統(tǒng)運行方式,最小化安裝等。維護系統(tǒng)配置文檔。7)負責系統(tǒng)用戶管理,如增加、刪除用戶、重置用戶密碼、管理用戶權限等。進行系統(tǒng)用戶管理時,記錄所有相關的系統(tǒng)變更。8)對于新安裝的服務器,運維團隊應負責安裝必要的應用軟件:如遠程監(jiān)控工具、備份工具、防病毒軟件等。運維團隊將對數據進行日常維護,在數據庫性能監(jiān)控的檢查列表包括:>資源使用情況>運行情況>數據庫進程狀態(tài)>數據庫連接狀態(tài)>數據庫進程使用資源>數據庫的表空間(數據表空間、索引空間、臨時表空間等等)使用情況;>數據庫日志空間>回滾段使用情況>數據庫鎖的數量>死鎖的發(fā)生、死鎖資源>數據庫碎片的數量>磁盤I/0>數據庫運行日志>數據庫用戶登錄情況>監(jiān)控結果應做登記管理,如實記錄系統(tǒng)日常運行狀況及異常情況,填寫日常運行情況記錄表;除此之外,數據庫的運維工作還包含一些其他工作,如:1)數據庫備份和恢復2)做好備份計劃,工程師定時完成,因備份占用內存較大,在訪問量大的情況下進行。當出現數據問題時,向采購人管理部門通報,說明數據情況,后3)訪問性能優(yōu)化及數據庫同步4)服務器管理人員需記錄詳細的設置;數據庫如需要同步,應明確同步時間或實時同步等方式。5)數據庫日志和表空間,定期進行整理,問題解決。運維團隊針對中間件的運維工作,內容如下:1)OracleWeblogic,輔助開發(fā)公司進行配置,保留配置文檔。模塊配置與更新,配合第三方配置.java及wls的版本及更新工作。操作系統(tǒng)模塊配置與更新,配合第三方配置操作系統(tǒng)到可用的版本及更新。配合反饋第三方解決服務錯誤日志中的問題。2)新軟件安裝,收集安裝光盤、安裝合同(可復印學習)、使用說明書、授權書(Liscense)。紙質版文件掃描后入庫,電子版文件進入配置庫。為保證在系統(tǒng)崩潰或停止運行時能盡快恢復系統(tǒng),將制定相關的數據備份制度。應針對不同系統(tǒng)制定備份方案,應包括備份方法、頻率等。數據備份包括定期和不定期備份。重要數據應每月進行全備份和增量備份;不定期備份應該在數據變更后立即進行,更新前的備份按需要保存一定時間。當前的應用系統(tǒng)及相關的開發(fā)工作由第三方公司負責,運維團隊主要起配合作用,相關的工作內容如下:1)當應用出現問題,及時聯(lián)系第三方解決,并做問題記錄。2)配合第三方進行操作系統(tǒng)、數據庫和中間件的系統(tǒng)配置,并做配置記錄,在有授權運維的系統(tǒng)中,熟悉應用系統(tǒng)維護方法。3)配合第三方新應用系統(tǒng)上線,需收集安裝文件,源代碼,部署文檔、運維文檔。掃描后,入配置庫。與合同庫相關聯(lián),記錄維護期間聯(lián)系人,原公司質保期。4)每日上班后、下班前檢查可用性,確認無災難性問題、黑客篡改問題。5)其他待完成工作,根據實際情況來處理。第三章運維工作內容運維團隊的值班安排分三班,保持7x24小時的人員安排,在任何時間數據中心都由值班人員。運維團隊根據數據中心的運維管理制度,通過主動性、預防性維護,執(zhí)行日常維護作業(yè)計劃,對告警、性能、運行狀態(tài)進行檢查分析,及時進行數據備份,并定期對備份數據進行恢復性測試驗證,對系統(tǒng)運行質量進行分析,并進行維護記錄。對監(jiān)控或維護中發(fā)現的問題及時處理,消除隱患,保障平臺的穩(wěn)定運行。3.2系統(tǒng)性能監(jiān)控管理運維團隊通過綜合監(jiān)控系統(tǒng)等實施7*24a小時平臺設備監(jiān)控,發(fā)現告警,并進行處理,解決問題。使用綜合監(jiān)控系統(tǒng)對系統(tǒng)運行進行實時檢查。對監(jiān)控或維護中發(fā)現的問題及時處理,消除隱患,保障平臺的穩(wěn)定運行。3.3系統(tǒng)維護管理運維團隊負責故障發(fā)現、故障分析、故障處理工作,在規(guī)定時間內,處理完成故障,同時負責調查故障原因,最后編寫詳細的《故障報告》,包括故障發(fā)生的起止時間、原因、現象、處理過程、處理結果和處理經驗。如果故障設備或組件為第三方維保,值班工程師負責和第三方對接,迅速解決問軟件和補丁維護操作系統(tǒng)級別的軟件和補丁服務:>運維團隊對于維保設備提供所有軟件補丁,提供預警服務,對于軟件的維護版本提供補丁,并按穩(wěn)定性和安全性的要求,提供是否升級的建議,評估風險和制作實施方案。>故障經工程師的分析表明它是由一個軟件錯誤所引起的,那么運維團隊需提供相應的軟件版本和補丁。>對于軟件版本和補丁的安裝,運維團隊首先將確認是否可以在對應平臺上進行裝載。若確認可實施,運維團隊則將提供補丁升級服務,升級前要配合相關應用方做好測試。應急預案及演練為加強風險管理意識,提高應急預案相關人員的應急處置能力,及時發(fā)現應急預案可能存在的問題,確保在緊急情況下,應急預案能夠真正發(fā)揮作用,需要通過周期性的演習演練來不斷檢驗應急體系應急預案的可靠性、有效性和可操作性。應急預案的演習演練方式、演習演練頻度等內容明確如下:1、演練分為桌面演練和實戰(zhàn)演練兩種方式,每次演練都應該有相關技術人員3、每次演練結束之后應進行分析和總結,及時完成應急預案的更新、優(yōu)化和協(xié)助第三方維護在服務期內,運維團隊將配合第三方或服務商進行系統(tǒng)的升級、替換、新部件(模塊)安裝等,并在實施完成后確認工作正常。為保證在系統(tǒng)崩潰或停止運行時能盡快恢復系統(tǒng),將制定相關的數據備份制度。應針對不同系統(tǒng)制定備份方案,應包括備份方法、頻率等。數據備份包括定期和不定期備份。重要數據應每月進行全備份和增量備份;不定期備份應該在數據變更后立即進行,更新前的備份按需要保存一定時間。系統(tǒng)優(yōu)化對于巡檢或日常維護過程中發(fā)現的系統(tǒng)隱患或系統(tǒng)不是處于滿意狀態(tài),提供相關系統(tǒng)優(yōu)化的報告。對于運行情況跟蹤,預防性診斷設備存在的隱患,提供系統(tǒng)優(yōu)化建議,提供系統(tǒng)規(guī)范和流程的建議,提供系統(tǒng)優(yōu)化概要。硬件設備統(tǒng)計運維團隊將定期對參保設備進行統(tǒng)計。質量分析報告運維團隊建立數據中心平臺的質量分析報告。每月匯總設備運行質量、系統(tǒng)性能等指標,進行數據中心平臺運行質量分析,排除質量隱患,不斷提高網絡運行質量和服務質量。運維工程師應每周和每月對于數據中心在網系統(tǒng)運行情況作分析,數據采集、統(tǒng)計和分析系統(tǒng)設備的運行數據,形成系統(tǒng)運行周報和月報。分析報告,包括優(yōu)化設備運行的績效,提高系統(tǒng)穩(wěn)定性的建議,對于系統(tǒng)擴容和優(yōu)化投資的建議,提供系統(tǒng)運行情況概要,系統(tǒng)中關鍵設備的運行情況分析,并能識別和解決潛在問題,做好預警,制定并實施相應的優(yōu)化措施,并對于系統(tǒng)的擴容和項目投資提供建議報告。3.4系統(tǒng)配置與支持維護運維團隊的日常工作中,在系統(tǒng)配置和支持方面的工作內容如下:>維護系統(tǒng)軟硬件配置文檔;>進行系統(tǒng)用戶管理時必須遵循數據中心的賬戶命名規(guī)則及賬戶密碼策略,并文檔記錄所有相關的系統(tǒng)變更;>每月提交系統(tǒng)賬戶變更月報;>配合第三方進行升級、安裝系統(tǒng),及時更新操作系統(tǒng)補丁,進行系統(tǒng)軟件>根據運維報告及統(tǒng)計報表,每月制定維護作業(yè)計劃,并提交日常維護報告;3.5系統(tǒng)容量管理運維團隊至少每半年進行一次對于每個服務器的系統(tǒng)容量監(jiān)測的審核,并制定相應的容量規(guī)劃,主要監(jiān)測文件系統(tǒng)的空間、數據庫的空間資源利用情況,分析資源利用趨勢,并提供資源情況月報表。文件系統(tǒng)空間管理>定期檢查文件系統(tǒng)的空間使用情況,根據業(yè)務發(fā)展需求和新業(yè)務的增加,制定合理的空間分配方案,新增、修改或刪除空間。>對文件系統(tǒng)空間的使用進行監(jiān)控,發(fā)現空間使用不合理或需要清理的協(xié)調數據庫空間管理>應實時監(jiān)測數據存儲空間的使用情況,根據業(yè)務數據的數據量、數據結構以及增長速度,制定合適的數據存儲和結構優(yōu)化策略,動態(tài)增加新的空間>定期檢查數據存儲空間的使用情況,根據實際情況規(guī)劃增加新的空間,填寫數據庫空間新增/修改/刪除申請表,經審核后實施,并更新數據庫配置除了依靠數據中心的監(jiān)控軟件,還要求運維團隊對服務器、存儲、操作系統(tǒng)、數據庫、中間件等基礎設施進行巡檢,并編寫巡檢報告。通過巡檢可以對當前系統(tǒng)的運行狀況有一個詳細的了解,對巡檢中發(fā)現的問題可以及時采取預防性措施,降低故障發(fā)生的概率,提高系統(tǒng)的可靠性。>設備清潔:對相關設備進行維護保潔工作,使設備保持良好的運行狀態(tài);機房環(huán)境服務是為機房設備如小型機、網絡設備安全可靠的物理環(huán)境,確保機房設備不會因為環(huán)境因素導致不能正常運行或>確保機房溫度在24+2℃之間,最大溫度變化率不超過10℃/小時;>確保機房電壓在220V+5%之間,電壓頻率在壓不超過220V+/-15%,總諧波不高于5%;徑至少為3.5mm,系統(tǒng)接地電阻在電源插座連線與地線間不大于2歐姆,在電源輸出座連線與地線間電壓小于1V,在接地線的接地端測的接地電阻不大于1歐姆;>確保機房為網絡設備、空調、視頻等提供獨立的冗余雙電源供應系統(tǒng),杜絕電源公用現象,確保網絡設備電源無隱患;>確保機房整潔干凈,避免機房在陽光直射之下;>確保機房無線電雜波干擾低于0.5V/米;2.服務器、存儲、操作系統(tǒng)、數據庫、中間件巡檢及巡檢報告內容針對服務器、存儲、操作系統(tǒng)、數據庫、中間件等比較重要的組件,數據中心制定了按月巡檢的計劃,需要按照巡檢報告的模板進行檢查,巡檢報系統(tǒng)維護檔案,詳細記錄數據中心相關的設備信息和項目管理信息。在日常運維中,服務報告和技術文檔由運維團隊的相關人員負責維護和更新。系統(tǒng)維護檔案將分為以下四個部分:3.7.2服務文檔3.7.3服務總結運維團隊根據自身的工作內容,在每季度需要對自己的工作進行匯總,并生成《季度運維總結》。報告中的具體內容包括:>故障處理及備件更換情況匯總;>設備狀況分析及評價;>人員出勤情況,工作量,或資源使用情況,包括第三方供應商服務情況;>重大事件和變更情況;>配置管理相關信息;>趨勢信息;>下一步工作計劃;3.8運行維護優(yōu)化評估(1)建立基于數據中心的基礎運維服務管理框架體系及運維團隊,根據網絡的現狀提出整體安全規(guī)劃,包括日常維護計劃、安全風險控制計劃、應急響應計劃等(2)提供風險評估、災難恢復、應急響應、安全培訓服務并提供報告每季度定期對服務范圍內的對網絡設備、服務器操作系統(tǒng)、數據庫系統(tǒng)、應用軟件系統(tǒng)的安全策略和安全配置進行檢查和測試,從中獲得相關的信息、發(fā)現系統(tǒng)面臨的威脅以及存在的安全性。每季度對服務范圍內的整體網絡系統(tǒng)進行全面、統(tǒng)一的系統(tǒng)性的安全風險評估,識別和控制網絡中的關鍵資產及可能會產生的安全風險,并對所發(fā)現的問題提供優(yōu)化、改進建議。并根據評估的結果為關鍵資產建立應急響應預案以及細微調整其后安全維護服務所要監(jiān)控的內容。根據安全評估的結果每半年對系統(tǒng)策略及網絡系統(tǒng)進行優(yōu)化設計,制定調整系統(tǒng)策略優(yōu)化、網絡拓撲優(yōu)化、安全域規(guī)劃與配置、IP規(guī)劃、VLAN優(yōu)化等策略,并根據實際情況調整與實施。(6)應急預案與演練根據數據中心的現狀,模擬實際災難發(fā)生場景,提供各種應急預案,經過采購人討論,協(xié)助采購人實施演練。運維服務期內,安排以運維管理、安全為主題的培訓,數量為4~5人次,按要求制定相應的培訓計劃。(8)資料收集存檔參與機房運維涉及的專業(yè)第三方機構合同的起草、談判,與采購人一起對第三方機構進行管理。整理收集涉及到的第三方合同,中間文檔、過程記錄,備查,按照采購人規(guī)定進行提交。3.9應急保障措施和組織3.9.1應急響應系統(tǒng)運維團隊在處理緊急情況和重大事項時,會啟用應急指揮系統(tǒng):接口人:應用系統(tǒng)下,各個相關方的固定接口人,一般為項目經理運維團隊:事故發(fā)生期間提供直接的技術咨詢、指導服務,負責直接處理故二線專家:嚴重事件由承保的第三方服務商或原廠商的二線專家最快速度到達現場處理事故。a)應急準備階段的工作包括:組建應急響應組織,確定應急響應制度,系統(tǒng)性識別運行維護服務對象及運行維護活動中可能出現的風險,定義應急事件級別,制定預案,開展培訓和演練;b)監(jiān)測與預警階段的工作包括:進行日常監(jiān)測,及時發(fā)現應急事件并有效預警,進行核實和評估,以規(guī)定的策略和程序啟動預案,并保持對應急事件的c)應急處置階段的工作包括:采取必要的應急調度手段,基于預案開展故障提供持續(xù)性服務保障,進行結果評價,關閉事件;d)總結改進階段的工作包括:對應急事件發(fā)生原因、處理過程和結果進行總結分析,持續(xù)改進應急工作,完善信息系統(tǒng)。3.9.3制定應急保障預案及演練為了應對業(yè)務系統(tǒng)可能出現的緊急故障,運維團隊將定期模擬故障演練服務。運維團隊有一套整體的應急方案,以確保數據中心在系統(tǒng)發(fā)生突發(fā)事件或災難情況下能夠迅速恢復IT服務,從而保證系統(tǒng)業(yè)務的持續(xù)運行。根據普遍認可的最佳實踐指導原則,IT應急和IT災難恢復的定義應該是:“計算機系統(tǒng)災難是指任何造成計算機系統(tǒng)不能處理業(yè)務的時間超過了可容忍程度的事故。應急方案是指計算機系統(tǒng)災難發(fā)生后,按照既定的應急恢復方案在一定時間內恢復系統(tǒng)運行和業(yè)務處理的過程?!睘榱藨獙ιa系統(tǒng)可能出現的緊急故障(重大、嚴重故障),數據中心將從事前預防和事后處理兩個方面制定緊急故障應處理預案。>應急涉及到多個層面的配合,每方都需要指定專人負責在緊急故障發(fā)生時及時溝通>數據中心專家支持團隊進行系統(tǒng)風險評估,提出系統(tǒng)整改建議,制定緊急故障應急處理預案>進行一定次數的實際演練,包括后備系統(tǒng)切換測試、備份數據還原測試>對流程進行持續(xù)性跟蹤,系統(tǒng)出現變更后,重新評估流程的有效性>響應時間:由工程師立即做出響應>故障修復:由經驗豐富的專家支持團隊提供專人支持,包括搭建測試環(huán)境、遠程和現場故障診斷和排除;同時啟動緊急故障處理流程,按既定程序做應急處理內容補充說明1服務范圍急處理預案,并對預案進行持續(xù)性改進2服務時間緊急故障預案制定:雙方協(xié)商緊急故障處理:全年7×24小時3遠程或現場4由數據中心負責人提出服務請求5緊急故障應軟件介質、安裝文檔、系統(tǒng)配置文檔完備,并由雙急處理流程涵蓋范圍方專人保管,隨時可以查閱有完善的數據恢復流程文檔6實際演練演練內容包括:的順暢運行業(yè)務替代演練:定期進行冷備機啟動業(yè)務替代演的可用性所有測試和演練的結果應當依據事先確定好的標準,來判斷測試和演練在測試完成后應記錄下結果,并根據需要對應急恢復運維服務事件管理系統(tǒng)是支撐運維管理組織中各運維角色按照規(guī)定的運要支持運維服務提供者按照商定的服務級別協(xié)議方便地向運維服務使用者提供運維服務;同時,要支持運維服務管理者對整個運維服務事件的考核、監(jiān)督和評估。運維服務事件管理工具是構成運行管理體系不可缺少的元素,從被動管理向主動管理轉化的重要部分,為整個運行管理體系的高效實施奠定監(jiān)控拓撲當前數據中心采用了某運維監(jiān)控平臺,對數據中心設備進行監(jiān)測。用戶通過客戶端登錄運維監(jiān)控平臺,查看所有被監(jiān)控設備的運行情況。當前監(jiān)控平臺支持機房環(huán)境、網絡設備、存儲設備、服務器設備、系統(tǒng)和數據庫等組件的監(jiān)控,支持故障預警等服務。電視墻市局一級平臺服務器服務器服務器警坐席客戶端查詢終端磁整陣列磁商陣到網絡傳輸鏈路磁整陣列網絡傳輸鏈路流煤體服務器工作站視分屬二級平臺網絡傳輸鏈路下作站流碳體服務器工作站下作站派出所三級平臺聚字視頻服務卷派出所三級平臺派出所三級平臺數字視頻服務器派出所三級平臺器防水音柱拾音員報警枝鈕高速球機防水音柱報警按鈕高速球機拾!拾!器報警按鈕高速球機防水音柱拾音器報警按鈕高速球機防水音柱拾音器報警按鈕高速球機的木音其拾音縣報警校鈕重報警按鈕拾音景防水音桂拾音是報警按鈕高速球機主機監(jiān)控為確保數據中心服務器高速、穩(wěn)定運轉,運維監(jiān)控平臺從多個方面對主機服務器的硬件設備及操作系統(tǒng)進行監(jiān)控管理和性能管理。它通過采集服務器的CPU、內存、硬盤、網卡等硬件的關鍵運行參數,以及軟件和應用程序的進程、服務、端口等的運行狀況,對系統(tǒng)日志進行分類掃描查詢。通過數據采集和分析,運維監(jiān)控平臺能夠及時對影響用戶服務器運行性能的故障事件發(fā)送報警,并采取相應的故障處理措施,保證服務器的正常安全運行。方式,方便不同用戶對服務器全面監(jiān)控的需求。運維監(jiān)控平臺服務器主要監(jiān)測指標如下包成功率(%)數據往返時間(ms)狀態(tài)值(200表示成功300表示出錯)CPU.使用率(%)列速度/次數每秒(次數)處理器數量(個數)內存使用率(%)可用內存量(M)總內存空間(M)內存使用率(%)內存可用太小(M)總內存量(M)Top-5CPU使用CPU使用率(%)cpuTop1-使用率(%)cpuTop2-使用率(%)cpuTop4-使用率(%)cpuTop5-使用率(%)Top-5虛擬內存使用內存總使用量(M)MemTop1-進程名()MemTop1-內存使用(M)MemTop2-進程名()MemTop2-內存使用(M)MemTop3-進程名()MemTop3-內存使用(M)MemTop4-進程名()MemTop4-內存使用(M)MemTop5-進程名()Top5-物理內存使用內存總是用量(M)MemTop1-進程名()MemTop1-物理內存使用(M)MemTop2-進程名()MemTop2-物理內存使用(M)MemTop3-進程名()MemTop3-物理內存使用(M)MemTop4-進程名()MemTop4-物理內存使用(M)MemTop5-進程名()MemTop5-物理內存使用(M)Disk使用率(%)磁盤總量(MB)剩余突間(MB)賬戶個數()系統(tǒng)賬戶()匹配狀態(tài)()進程總數(個)服務總數(個)網卡流曩接收流量(Kbit/s)接受流量百分比(%)發(fā)送流量(Kbit/s)發(fā)送流量百分比(%)接收包數(packets/s)發(fā)送包數(packets/s)端只平均響應時間(ms)CPU.使用率(%)Linux服務器監(jiān)控Telnet非代理三大方式,方便不同用戶對服務器全面監(jiān)控的需求。運維監(jiān)控平臺Linux服務器主要監(jiān)測指標如下服務成功率(%)平均響應時間(%)CPU使用率(%)Disk.使用率(%)剩余空間(MB)交換分區(qū)內存使用率(%)可用內存量(M)總內存量(M)內存指標Memorx使用率(%)剩余空間(MB)錯誤頁/秒(頁/秒)內存總量(MB)監(jiān)測Linux事件日志檢真的總行數(行)匹配行數(行)Linux進程監(jiān)測運行實例個數(個)端只平均響應時間(ms)Top-5CPU使用cpuTop1-使用率(%)cpuTop2-使用率(%)cpuTop4-使用率(%)cpuTop5-使用率(%)Top-5虛擬內存使用()內存總使用量(M)MemTop1-進程名()MemTop1-內存使用(M)MemTop2-進程名()MemTop2-內存使用(M)MemTop3-進程名()MemTop3-內存使用(M)MemTop4-進程名()MemTop4-內存使用(M)MemTop5-進程名()MemTop5-內存使用(M)Top5-物理內存使用內存總晨用量(M)MemTop1-進程名()MemTop1-物理內存使用(M)MemTop2-進程名()MemTop2-物理內存使用(M)MemTop3-進程名()MemTop3-物理內存使用(M)MemTop4-進程名()MemTop4-物理內存使用(M)MemTop5-進程名()MemTop5-物理內存使用(M)運維監(jiān)控平臺可以從各個方面對數據中心的網絡設備進行監(jiān)測和管理,內容包括網絡設備的可用性、設備性能、流量管理等等。運維監(jiān)控平臺的網絡設備管理系統(tǒng)支持的網絡設備,包括各種類型的交換機、路由器、防火墻、VoIP網關設備和其他啟用了SNMP協(xié)議的網絡設備。運維監(jiān)控平臺監(jiān)測對象主要包括網絡設備(路由器、交換機、防火墻)的狀態(tài),如端口,路由器CPU負載等,支持Cisco、華為、港灣、Juniper等各主流廠家的路由器、交換機,支持Netscreen、Cisco、天融信等主流廠商的防火墻等網絡安全設備。>網絡設備監(jiān)控cpu使用率(5秒)(%)內存內存使用率(%)服務成功率(%)平均響應時間(ms)設備運行時間運行時間()接只信息接收流量(kbit/s)發(fā)送流量(kbit/s)每秒發(fā)送數據包(個/s)每秒接收數據包

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論