2022年IT監(jiān)控運維管理平臺建設方案_第1頁
2022年IT監(jiān)控運維管理平臺建設方案_第2頁
2022年IT監(jiān)控運維管理平臺建設方案_第3頁
2022年IT監(jiān)控運維管理平臺建設方案_第4頁
2022年IT監(jiān)控運維管理平臺建設方案_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、IT監(jiān)控運維管理平臺建設方案PART 01IT監(jiān)控運維現狀及痛點對企業(yè)IT監(jiān)控運維的基本認識IT系統(tǒng)架構機房環(huán)境硬件設備網絡中間件業(yè)務數據系統(tǒng)應用IT監(jiān)控運維業(yè)務運營人員方法流程工具可用性成本連續(xù)性性能體驗設備故障系統(tǒng)異常系統(tǒng)故障系統(tǒng)變更企業(yè)IT監(jiān)控運維的核心使命就是保證企業(yè)業(yè)務的正常與高效運轉系統(tǒng)監(jiān)控維修更新業(yè)務保障應用反饋企業(yè)信息與數字化的迅猛發(fā)展,給IT運維帶來了全新的挑戰(zhàn)故障類型越來越多業(yè)務變化越來越快CIO業(yè)務中斷容忍度更低用戶體驗要求越來越高系統(tǒng)變更越來越頻故障排查、修復更難系統(tǒng)架構越來越復雜系統(tǒng)負載更大、故障風險高新系統(tǒng)上線越來越多業(yè)務訪問量快速增長業(yè)務處理時效性更高高層對IT部

2、門考核更嚴技術快速演進與新技術應用人員技術能力與經驗不足人員成本越來越高知識經驗無法沉淀構建主動式的IT監(jiān)控與運維將成為必然所趨被動救火式維護主動巡防式監(jiān)控定時粗略巡查等待故障報告人工故障處理實時全面監(jiān)控分散維護系統(tǒng)集中監(jiān)控系統(tǒng)自動故障處理提前故障預警隨著業(yè)務對IT運維提出的要求越來越高,原來傳統(tǒng)的被動救火式的IT運維模式已經不能滿足企業(yè)的要求,無法為業(yè)務的發(fā)展提供保障只有借助當前先進的技術,構建主動巡防式的IT監(jiān)控與運維體系,能夠提前預防并智能化處理系統(tǒng)的各類故障,才為業(yè)務的快速發(fā)展保駕護航,滿足企業(yè)對IT的要求高風險低評價離散化人工化低風險高價值一體化智能化企業(yè)當前IT監(jiān)控的現狀及痛點1應

3、用現狀復雜的智慧社區(qū),其次是WLAN,其他基本是單體應用2監(jiān)控現狀目前,基于zabbix,做了硬件資源和中間件調用缺少應用層監(jiān)控3異常處理現狀異常發(fā)現方式通過人工撥測 應用級異常無監(jiān)控形式數據庫監(jiān)控缺少手段、內存泄露被動式維護模式故障發(fā)現不及時故障處理效率低故障對業(yè)務影響大系統(tǒng)運行風險高運維工作量大服務滿意度不高PART 02IT監(jiān)控運維解決方案總體思路全面性從基礎設施、主機、虛擬機、容器集群、日志、調用鏈全面具備監(jiān)控能力提供多種的監(jiān)控指標的采集能力及辦法自動化具備監(jiān)控腳本部署的自動化部署監(jiān)控主機的監(jiān)控端口自動發(fā)現能力平臺化加強平臺化,所有監(jiān)控指標統(tǒng)一處理簡化監(jiān)控技術棧,降低運維難度業(yè)務視角從

4、業(yè)務視角分析故障從業(yè)務的視角來分析故障帶來的影響解決方案構建智能化IT監(jiān)控平臺,建立主動式IT監(jiān)控運維模式人員支撐運維工程師技術工程師CIO業(yè)務主管運維主管信息推送工作支撐數據采集故障探測采集信息應用服務中間件底層系統(tǒng)基礎設施業(yè)務狀態(tài)連接系統(tǒng)移動應用智慧社區(qū)視頻監(jiān)控WLAN系統(tǒng)數據采集異常檢測主動預警信息通知郵件通知聲音告警報告推送大屏展示可視展示主動告警智能IT監(jiān)控運維管理平臺數據采集探傷檢測規(guī)則配置智能監(jiān)控主動告警自動修復數據分析可視展示構建主動式IT監(jiān)控運維模式的核心思路與方法目標:保障業(yè)務 & 提升能力 & 降低成本 & 彰顯IT價值一體化建立統(tǒng)一的IT監(jiān)控與運維體系平臺化-集中監(jiān)控精

5、細化全面、精細的監(jiān)控提供多種的監(jiān)控指標的采集能力及辦法多維度從多維視角開展IT系統(tǒng)的監(jiān)控與運維技術/業(yè)務/管理智能化故障定義標準化故障分析模型化故障巡檢算法化自主化故障主動探測預警故障自動修復部署自動執(zhí)行可視化實現可視化監(jiān)控故障告警、處理、分析可視化展示基于統(tǒng)一平臺,打造一體化監(jiān)控運維體系,全面提升運維能力統(tǒng)一智能IT監(jiān)控運維管理平臺統(tǒng)一策略統(tǒng)一告警統(tǒng)一操作集中展示全面分析集中監(jiān)控所有系統(tǒng)都納入到統(tǒng)一個平臺進行監(jiān)控監(jiān)控信息集中管理統(tǒng)一故障與指標定義故障的分析策略設置故障監(jiān)控與預測策略統(tǒng)一告警能力支持統(tǒng)一告警規(guī)范設置集中告警策略配置統(tǒng)一故障告警處理統(tǒng)一故障自動修復處理統(tǒng)一自動部署操作統(tǒng)一信息可視

6、化展示統(tǒng)一的信息發(fā)布集中數據存儲與管理集中的IT故障分析全面的故障與預警報告分析,優(yōu)化IT運維知識沉淀、經驗傳遞、能力提升精細化的監(jiān)控是主動并全面識別、預防、處理各類故障的基礎統(tǒng)一智能IT監(jiān)控與運維平臺Hypervisor虛擬化網絡SNMPSDK中間件JMX/CLI存儲SNMP/SMI-S服務器SNMPAgent數據庫JDBC新資源協議操作系統(tǒng)網絡流量流量分析硬件監(jiān)控存儲監(jiān)控基礎設施系統(tǒng)層中間層應用層業(yè)務層vCenteNagiosCactiZabbixPRTG對象內容層級工具對IT系統(tǒng)所包含的對象、資源與內容進行細致的分層與分類全面連接、監(jiān)控各類IT資源與內容,全面采集數據不同類型資源使用不同

7、的監(jiān)控與管理工具通過精細化的數據采集,實現對It系統(tǒng)的多維度、全面監(jiān)控與運維細致的結構化內容分層,是實現精細化IT監(jiān)控的前提業(yè)務層前端渲染、交易量、訪問量、成功率、響應時間、響應筆數等應用層資源占用、服務存活時間、日志大小、端口存活、API調用情況、線程數等中間件層隊列服務、數據庫服務、緩存服務、配置中心服務等系統(tǒng)層CPU、內存、磁盤、進程數等基礎設施層機房、網絡、硬件等在精細化基礎上從多個維度監(jiān)控系統(tǒng),保障業(yè)務的可用與連續(xù)T從技術角度發(fā)現故障從技術的角度來對系統(tǒng)運行狀態(tài)進行分析,識別、預測并排除故障,保障系統(tǒng)可用。B從業(yè)務視角排除故障從業(yè)務的視角來分析故障帶來的影響,排除故障,確保系統(tǒng)業(yè)務的

8、可用與連續(xù)性。M從管理視角分析故障從管理的視角來檢查使用狀態(tài)與分析故障,確保系統(tǒng)使用符合企業(yè)管理要求與規(guī)范。智能化的監(jiān)控分析,識別故障并預測風險,構建主動運維能力智能化標準化算法化模型化建立故障識別模型基于體系標準庫建立定義故障的數據模型確定每個故障、風險、問題的識別數學模型可以從不同維度(技術/業(yè)務/管理)建立多種故障識別模型梳理故障指標體系標準基于保障業(yè)務,確保系統(tǒng)正常運行的目標,梳理出金阿卡指標與故障體系標準構建監(jiān)控指標庫構建故障與風險類型庫構建事件、問題與任務類型庫設計故障分析算法基于故障模型設計自動故障與風險分析的算法創(chuàng)建IT監(jiān)控與分析任務(監(jiān)控的系統(tǒng)與內容)設置自動化算法的執(zhí)行與調

9、度策略自動執(zhí)行算法,識別、預測故障與風險基于實際效果技術優(yōu)化、調整算法標準化程度、故障模型與算法設計的合理性直接決定項目成效標準化模型化算法化監(jiān)控指標庫風險故障庫問題事件庫模型庫任務算法庫調度引擎監(jiān)控需求采集數據項定義故障定義風險調用關聯設計加載NN建立標準、細致的IT監(jiān)控指標庫,實現一體化、精細化IT監(jiān)控監(jiān)控指標庫主機監(jiān)控CPU使用率內存使用率網絡寫入I/O磁盤使用率磁盤寫入I/O網絡丟包率前端監(jiān)控頁面性能監(jiān)控接口性能監(jiān)控數據庫/中間件監(jiān)控mysqlredismongonginxtomcathttpsoracle日志查詢應用日志應用錯誤日志組件日志服務器日志主動的故障探測與自動的故障修復,極

10、大提升效率并降低風險主動探測+預防主動進行系統(tǒng)應用巡檢和探傷檢測主動預測故障風險進行潛在故障干預自動告警+運維自動告知相關人員故障與風險信息自動執(zhí)行故障修復或系統(tǒng)部署等任務自主化監(jiān)控運維平臺在全面采集系統(tǒng)各項運行數據后,進行智能化的分析,可以及時識別出各類故障和故障風險,基于此平臺會進一步采取自主化的處理方式,及時修復故障,提前解除風險,以保障業(yè)務的可用性和連續(xù)性。平臺會主動對系統(tǒng)進行各項指標的探測和巡檢,以便及時發(fā)現系統(tǒng)故障平臺會基于智能化數據風險,給出故障風險預測提前判斷潛在的故障,并進行主動干預,降低系統(tǒng)運行風險任何故障或風險信息,平臺都會及時給予告警(支持郵件、短信、信息、聲音、警燈等

11、方式),通知相關人員平臺支持對(部分)故障進行自動的修復處理平臺支持自動執(zhí)行系統(tǒng)部署圖文監(jiān)控數據采集主動巡檢探測自主化IT監(jiān)控與運維總體流程平臺具備了自主化IT監(jiān)控與運維能力,不僅可以進行主動的傷探檢測,還可以在發(fā)現故障或潛在故障風險后,進行主動的故障修復處理,實現整個IT故障檢測與處理的全自動化。潛在故障風險自動告警智能引擎監(jiān)控模型任務調度讀取數據信息反饋IT故障問題主動故障修復主動干預處理預測識別監(jiān)測發(fā)現處理日志報告基于告警策略自動進行告警基于策略配置基于策略配置執(zhí)行修復任務部分故障無法直接進行修復處理,則平臺會自動生成故障處理任務并指派給相應人員生成故障工單生成故障修復任務生成風險消除任

12、務部分故障直接分派人工處理故障過程結果反饋部分風險可以自主修復主動式的IT故障探測與系統(tǒng)狀態(tài)巡檢,保障業(yè)務的可用性可以利用自動化測試腳本,命令執(zhí)行,調用接口、模擬操作等方式,主動對IT的各項資源以及業(yè)務系統(tǒng)的運行狀況進檢測,主動發(fā)現存在的故障與潛在風險,改變被動等待故障發(fā)生的IT監(jiān)控運維工作模式,保證業(yè)務的可用性。IT故障的主動探測、系統(tǒng)狀態(tài)自動巡檢、業(yè)務可用性保障業(yè)務可用測試網卡主機磁盤交換機端口進程serverApp中間件數據庫負載設備App發(fā)現問題主動巡檢快速修復告警通知智能故障分析業(yè)務影響范圍解決告警硬件可用探測系統(tǒng)狀態(tài)巡檢硬件狀態(tài)巡檢執(zhí)行測試腳本執(zhí)行檢測命令調用服務接口模擬操作告警策

13、略配置告警內容模版告警聯系人告警方式告警事件統(tǒng)一的告警策略配置,自動化監(jiān)控告警,集中歷史事件管理歷史告警事件管理監(jiān)控運維智能引擎可以在平臺上配置統(tǒng)一的事件告警策略,包括:告警事情、告警內容、告警方式與告警聯系人。平臺在監(jiān)控過程中,一旦發(fā)現符合告警策略的事件,即會自動發(fā)出告警,并將告警事件進行統(tǒng)一管理與分析。實時監(jiān)控數據讀取數據實時計算加載觸發(fā)告警發(fā)現故障風險事件事件管理集中分析優(yōu)化策略可以定義不同事件/風險的等級,然后根據事件/風險等級,設置不同的告警策略可以定義事件的告警方式,告警聯系人員范圍,告警內容等可以集中配置、更新、管理告警策略實現自動化IT運維,簡化IT運維工作,提高運維效率利用平

14、臺的自動化運維工具,可以將傳統(tǒng)枯燥、重復的運維工作逐漸用機器自動化代替,例如磁盤自動清理據、數據定時備份、定期服務重啟、應用自動部署等,無需人為參與,大大減輕了IT運維工作量。自動運維日志管理監(jiān)控運維任務調度加載任務執(zhí)行任務觸發(fā)執(zhí)行日志日志報告任務統(tǒng)計自動運維策略維護任務生效周期執(zhí)行觸發(fā)設置任務執(zhí)行腳本任務目標定義加載臨時運維任務手工新增任務使用策略自動生成周期性的運維任務系統(tǒng)巡檢磁盤清理計劃維護數據備份重啟服務關閉服務應用部署快照恢復系統(tǒng)體檢系統(tǒng)發(fā)布支持各種IT運維作業(yè)提供可視化的監(jiān)控與故障數據分析及展示平臺具備強大的大數據分析能力與展示能力平臺將整合當前與歷史監(jiān)控數據進行深度分析,分析故障

15、特征,輔助發(fā)現問題根源平臺將對IT監(jiān)控數據全面的分析,定期輸出分析報告,支持企業(yè)從傳統(tǒng)運維統(tǒng)計轉向智能運維分析平臺具備強大的圖形化數據展示開發(fā)能力,支持個性化數據展示開發(fā)平臺支持各類圖形化的數據展示并支持大屏設備提供數據與信息推送功能,支持各種方式的數據推送方式數據分析信息展示信息推送方案應用全景示意圖打造主動式IT巡檢運維模式智能IT監(jiān)控運維管理平臺IT物聯網大數據云計算基礎設施網絡存儲服務器數據庫中間件應用服務業(yè)務應用WLAN視頻監(jiān)控智慧社區(qū)移動應用智能故障分析大屏統(tǒng)一監(jiān)控快速故障修復信息推送與告警故障報告數據匯集深度分析發(fā)現故障/風險數據分析可視化展示信息推送報表管理指標配置故障模型算法

16、引擎監(jiān)控任務故障處理調整算法查收報告整體監(jiān)控信息配置處理告警處理故障設置任務數據采集主動探測告警、修復識別、預測實時任務定時全面多維智能方案應用價值示意圖支撐企業(yè)IT監(jiān)控運維的智能化升級搭建智能化IT監(jiān)控運維平臺以大數據分析能力支撐的智能化IT監(jiān)控運維平臺機器數據分析傳統(tǒng)ITSM、APM、NPM、SOC、Cloud Management保障業(yè)務、降低風險、提升效率構建智能化運維體系自主化智能化多維度精細化一體化可視化本解決方案對于企業(yè)的核心價值被動式維護模式主動式監(jiān)控模式離散一體局部滯后人工緩慢快速全面提前自動監(jiān)控內容故障發(fā)現運維方式故障處理保障業(yè)務提升IT價值提升效率降低成本監(jiān)控模式PART 03IT監(jiān)控運維管理平臺建設方案系統(tǒng)建設目標與內容優(yōu)先監(jiān)控四大平臺:WLAN、智慧社區(qū)、視頻監(jiān)控、移動辦公。視頻監(jiān)控和WLAN實現與硬件對接實現自動采集、自動監(jiān)控、自動告警、自動運維修復、自動部署實現巡檢規(guī)則配置,自動執(zhí)行巡檢,生成巡檢報告搭建智能IT監(jiān)控平臺:搭建部一套智能化的IT系統(tǒng)監(jiān)控運維平臺,基于該平臺實現對各IT系統(tǒng)集中監(jiān)控與維護平臺總體架構管理控制臺大屏統(tǒng)一監(jiān)控自動告警統(tǒng)一采集平臺統(tǒng)一處理平臺自動采集智慧社區(qū)WLAN視頻監(jiān)控移動辦公自動監(jiān)控平臺功能架構數據源層數據采集層業(yè)務處理層展示層基礎設施服務器虛擬機數據

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論