版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、技術(shù)創(chuàng)新 變革未來大型企業(yè)智能運維架構(gòu)探索與實踐全景業(yè)務(wù) 服務(wù)管理日志采集 監(jiān)控告警知識庫 故障自治目 錄構(gòu)建新IT運維管理體系01構(gòu)建新IT運維管理體系傳統(tǒng)運維軟件逐漸不適應(yīng)運維需求所有的運維軟件大多是事后報 警,此時損失已經(jīng)造成,晚了!事后智能化程度差,以監(jiān)控和報表為主,不具 備大數(shù)據(jù)關(guān)聯(lián)分析和深度數(shù)據(jù)挖掘功能“弱智”由于無法發(fā)揮實質(zhì)性的作用,且運行時間長之后性能影 響顯著,最終被棄用。無用零散一種軟件監(jiān)控一類設(shè)備,無法提供整體的運維監(jiān)控解決方案單一針對不同的用戶提供的是 相同的界面和視圖,不能 滿足用戶不同崗位、不同 業(yè)務(wù)的運維要求數(shù)據(jù)分散,不利于故障分析和問題跟蹤不同的數(shù)據(jù)存儲在不同的
2、運維系統(tǒng)中,無法關(guān)聯(lián)數(shù)據(jù)格式、時間戳等各不相同,不利于問題排查要的功能沒有,沒用的數(shù)據(jù)重復(fù)采集,影響正常業(yè)務(wù)每個運維軟件都有特長部分,同時也采集其他數(shù)據(jù),造成重復(fù)影響有些甚至相互影響,干擾正常業(yè)務(wù)運行投資浪費,增加運維壓力采購多種運維軟件,在功能上、設(shè)備上存在投資浪費沒有減輕運維壓力,還增加了多種軟件的維護(hù)工作傳統(tǒng)運維存在的突出問題運維技術(shù)在持續(xù)升級升級為設(shè)備數(shù)據(jù)以設(shè)備為中心的維護(hù)以數(shù)據(jù)為中心的運營升級的3個原因: 技術(shù)進(jìn)步運維事故 運維壓力運維的理想維護(hù) -運營幫助用戶將以設(shè)備為中心的維護(hù) 升級為以數(shù)據(jù)為中心的運營?!盎钪?- 健康將運維質(zhì)量的標(biāo)準(zhǔn),從保證系統(tǒng)“活著”,升級為 確保系統(tǒng)始終
3、運行在最佳狀態(tài)。合規(guī) - 敏捷將用戶的運維管理,從滿足流 程要求的合規(guī)管理,升級為以 事件響應(yīng)為特點的敏捷管理。運維應(yīng)做到無論云上云下,保障業(yè)務(wù)系統(tǒng)穩(wěn)定運行都是最重要的工作。通過部署智能運維系統(tǒng),能夠顯著提升運維效率,大大增強(qiáng)運維團(tuán)隊的能力和價值;通過部署智能運維系統(tǒng),能夠顯著增加運維透明度,使管理和運維人員增加主動權(quán)和掌控力;通過部署智能運維系統(tǒng),能夠顯著降低故障頻率,使運維更省心。AIOps解析AIOps:即Algorithmic IT Operations,是由Gartner定義的新類別,基于算法的IT運維。通俗來說,就是將 人工智能數(shù)據(jù)科學(xué)和算法用于傳統(tǒng)運維領(lǐng)域,基于已有的運維數(shù)據(jù)(日
4、志、監(jiān)控信息、應(yīng)用信息等),通過機(jī)器學(xué)習(xí)的方式來進(jìn)一步解決自動化運維所未能解決的問題,提高系統(tǒng)的智能化、穩(wěn)定性、降低IT成本, 并提高企業(yè)的競爭力。科學(xué)規(guī)劃、分階段實現(xiàn)02 全景業(yè)務(wù)服務(wù)管理IT業(yè)務(wù)服務(wù)管理特點01監(jiān)控的粒度細(xì)02面向業(yè)務(wù)管理03面向用戶管理易用性數(shù)據(jù)全面擴(kuò)充性040506業(yè)務(wù)視角管理資源的視圖從業(yè)務(wù)的視角進(jìn)行 IT 基礎(chǔ)資源的管理與維護(hù),一旦某個資源發(fā)生故障或者問題,都可以從業(yè)務(wù)視 圖中直觀地了解到這個資源的故障將影響什么業(yè)務(wù),影響哪些服務(wù),進(jìn)而了解到影響哪些用戶。業(yè)務(wù)視角的全方位分析業(yè)務(wù)應(yīng)用性能監(jiān)控-發(fā)現(xiàn)瓶頸和故障數(shù)據(jù)采集:1、客戶端:主動式探測和被動式監(jiān)測2、服務(wù)端:旁路
5、監(jiān)聽和應(yīng)用探針幾種技術(shù)的對比業(yè)務(wù)問題整體診斷分析03 大數(shù)據(jù)日志采集與監(jiān)控告警基于大數(shù)據(jù)平臺,提供日志采集和聚合處理日志關(guān)聯(lián)分析幫助準(zhǔn)確全面定位,提升效能和滿意度智能預(yù)測與預(yù)警,為精細(xì)管理,科學(xué)決策提供量化依據(jù) 基于大數(shù)據(jù)平臺的日志采集分析各種日志的采集分析網(wǎng)絡(luò)設(shè)備SNMP操作系統(tǒng)Agent數(shù)據(jù)庫Agent中間件Agent應(yīng)用日志AgentHbase/HDFS大數(shù)據(jù)分析管理平臺APPServer WebServer采集器1采集器N網(wǎng)頁1網(wǎng)頁NAPP跨層采集與監(jiān)控T1 設(shè)備層對機(jī)房內(nèi)的各種設(shè)備進(jìn)行監(jiān)控,如:交換機(jī)、路由器、安全設(shè)備、服務(wù)器、UPS、精密空調(diào)等,實現(xiàn)物理層的實時監(jiān)控和數(shù)據(jù)采集。T2
6、系統(tǒng)層以系統(tǒng)作為單位,對數(shù)據(jù)中心的主機(jī)(Linux主機(jī)和X86服務(wù)器)、操作系統(tǒng)(LINUX/Winwdos)、數(shù)據(jù)庫(Oracle、Mysql等主流)、中間件、存儲系統(tǒng)、應(yīng)用軟件API、HTTP端口、備份系統(tǒng)、容災(zāi)系統(tǒng)、數(shù)據(jù)同步系統(tǒng),虛擬化系 統(tǒng),云平臺進(jìn)行實時監(jiān)控、預(yù)警分析和故障定位。T3業(yè)務(wù)層在條件許可的情況下,采集一定的業(yè)務(wù)數(shù)據(jù),如用戶數(shù)、連接數(shù)、業(yè)務(wù)并發(fā)量、日志量等等,通過多維關(guān)聯(lián)和分析,對未來的業(yè)務(wù)運行進(jìn)行分析和預(yù)測。整個數(shù)據(jù)中心范圍內(nèi)的配置變更跟蹤C(jī)MDB數(shù)據(jù)處理自動發(fā)現(xiàn)錄入、導(dǎo)入變 更 管 理關(guān)鍵動作:整合、調(diào)和、同步、映射和可視化資產(chǎn)配置管理-CMDB的數(shù)據(jù)管理數(shù)據(jù)大集中-P
7、MDB數(shù)據(jù)統(tǒng)一分析引擎和智能閾值日志處理的幾個問題日志沒有集中處理登陸每一臺服務(wù)器,使用腳本命令或程序查看日志被刪除磁盤滿了刪日志黑客刪除日志,抹除入侵痕跡日志只做事后追查沒有實時監(jiān)控、分析使用數(shù)據(jù)庫存儲日志無法適應(yīng)TB級海量日志數(shù)據(jù)庫的schema無法適應(yīng)千變?nèi)f化的日志格式無法提供全文檢索事件和時序關(guān)聯(lián)分析事件診斷一直是運維領(lǐng)域一 個很重要的工作,事件和時 序數(shù)據(jù)的相關(guān)性不僅可以為 事件診斷提供很好的啟發(fā), 而且在幫助進(jìn)行根因分析等 都能提供很好的線索。數(shù)據(jù)匯聚處理:高性能事件分析引擎高性能規(guī)則引擎3600條事件/分?jǐn)?shù)據(jù)導(dǎo)入通道全量HDFS增量Kafka數(shù)據(jù)分析的應(yīng)用開源算法的選擇DataI
8、DE阿里云數(shù)加(MaxCompute)StreamComputeAIOps數(shù)據(jù)平臺能力體系04 知識庫與故障自治管理告警海洋短信告警8000條/天單人最高750條/天郵件最多900封/天如何從錯綜復(fù)雜的運維數(shù)據(jù)中形成知識庫要實現(xiàn)的目標(biāo)深簡智IT運維管理化繁為簡機(jī)器學(xué)習(xí)智數(shù)據(jù)標(biāo)注工具應(yīng)用判斷分析自決知識庫基于架構(gòu) 基于經(jīng)驗 基于概率收斂告警事件基于規(guī)范 基于分工產(chǎn)生告警事件基于數(shù)據(jù) 基于模型提高事件處理能力策略知識庫的構(gòu)建深企業(yè)內(nèi)部知識庫構(gòu)建申請發(fā)布發(fā)布設(shè) 計發(fā)布測 試分發(fā)和安裝結(jié)束發(fā)布管理制定計 劃新建問題評估調(diào)查原因制定解決方案解決問題結(jié)束問題管理新建變更經(jīng)理審核變更實施申請關(guān)閉結(jié)束CAB審核變更管理新建一線處理二線處理事件關(guān)閉結(jié)束事件管理升級到問題觸發(fā)變更轉(zhuǎn)化為知識自動關(guān)聯(lián)知識轉(zhuǎn)化為知識轉(zhuǎn)化為知識知識庫CMDB自動更 新配置 庫申請發(fā)布完成實施效率提升方
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026屆河南省濮陽市臺前一高數(shù)學(xué)高二上期末學(xué)業(yè)水平測試模擬試題含解析
- 內(nèi)鄉(xiāng)介紹教學(xué)課件
- 烘焙培訓(xùn)機(jī)構(gòu)的管理制度(3篇)
- 美術(shù)功能室管理制度小學(xué)(3篇)
- 轉(zhuǎn)運司機(jī)的閉環(huán)管理制度(3篇)
- 采樣儀器維護(hù)和管理制度(3篇)
- 中學(xué)學(xué)生社團(tuán)活動成果展示制度
- 養(yǎng)老院消毒隔離制度
- 企業(yè)企業(yè)文化與團(tuán)隊建設(shè)制度
- 2026湖南邵陽市邵東市人才引進(jìn)62人參考題庫附答案
- 英語A級常用詞匯
- 四川省成都市八年級上學(xué)期物理期末考試試卷及答案
- 中醫(yī)學(xué)的刮痧療法課件
- 國際象棋的規(guī)則和走法
- GB/T 38697-2020塊菌(松露)鮮品質(zhì)量等級規(guī)格
- 三菱FX3U系列PLC編程技術(shù)與應(yīng)用-第二章課件
- RoHS培訓(xùn)資料課件
- 蒙古酒文化課件
- 《傭金協(xié)議》word版
- 協(xié)調(diào)控制系統(tǒng)
- 消防報警系統(tǒng)線路設(shè)計檢查和安裝質(zhì)量檢查記錄
評論
0/150
提交評論