風險感知場景解讀:監(jiān)控、撥測、巡檢、可觀測性_第1頁
風險感知場景解讀:監(jiān)控、撥測、巡檢、可觀測性_第2頁
風險感知場景解讀:監(jiān)控、撥測、巡檢、可觀測性_第3頁
風險感知場景解讀:監(jiān)控、撥測、巡檢、可觀測性_第4頁
風險感知場景解讀:監(jiān)控、撥測、巡檢、可觀測性_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

我們經常會從監(jiān)控、撥測、巡檢、可觀測性、演練、混沌工程等角度發(fā)現風險,本文對“監(jiān)控、撥測、巡檢、可觀測性”4點以及風險感知場景的切入點進行解讀。1.監(jiān)控監(jiān)控是在線監(jiān)測、處理IT對象運行狀況的工具與過程管理。監(jiān)控相當于給運維團隊分配了成千上萬的機器人,這些機器人駐扎在硬件、平臺軟件、應用系統(tǒng)等對象中,7*24不間斷的采集指標數據,并將指標的異常情況,甚至故障點信息實時觸達到正確的人,確保異常信息得到響應。監(jiān)控是運維組織發(fā)現潛在風險與異常的主要手段,推動監(jiān)控發(fā)現的覆蓋面、準確率、告警觸達能力的提升,是縮短故障發(fā)現時長的關鍵舉措。監(jiān)控的目標是“不漏報、少誤報、高響應”?!安宦﹫蟆敝饕獊碓从诠ぞ吣芰Σ蛔闩c工具應用不到位,前者關注平臺能力建設,重點是選擇一個可擴展性的監(jiān)控技術平臺、監(jiān)控生態(tài),以及持續(xù)完善的監(jiān)控研發(fā)能力;后者重點是建立最小監(jiān)控覆蓋面基面、主動式的監(jiān)控覆蓋面治理,以及圍繞監(jiān)控覆蓋面治理的流程機制的完善。“少誤報”主要解決大量反復誤報告警讓運維人員麻木、消極,進而忽視監(jiān)控告警,錯過了真正的監(jiān)控告警的處理的問題,主要從從報警策略與報警管理入手,前者關注源端監(jiān)控工具策略的精準度、統(tǒng)一告警對告警的收斂與抑制,后者關注告警處置涉及的維護管理、告警數據治理?!案唔憫敝副O(jiān)控告警出現后的處理時效性管理,關注告警分級、觸達、升級、治理,以及響應管理要求。從工具角度看,監(jiān)控工具是一個能力集合,行業(yè)主要的解決方案包括涉及基礎設施、平臺軟件、應用軟件、應用功能、客戶體驗等層面的源端監(jiān)控工具,以及集中式的統(tǒng)一告警管理組成。如果組織監(jiān)控工具投入資源可以得到保證,還會建立監(jiān)控性能指標數據的集中管理,這個解決方案目前越來越受一些中大型運維組織的青睞。2.撥測撥測是一種主動性的監(jiān)控測試方式,主要利用跨區(qū)域的監(jiān)控網絡,以真實終端用戶使用場景為視角,對目標應用進行功能可用性、性能管理、網絡性能角度的監(jiān)控,先于最終用戶挖掘故障隱患。撥測通常是模擬用戶訪問域名、URL、API等方式,監(jiān)測網絡鏈路質量,監(jiān)控web的事務可用性,主動感知用戶端應用訪問體驗,先于客戶發(fā)現問題。撥測的目標是“模擬客戶行為,先于客戶發(fā)現風險”。這個風險可能是業(yè)務與服務可用性,也可能是客戶體驗問題。在技術手段上,借助一些傳統(tǒng)對于頁面、接口的撥測工具一個廣泛使用的方法,也可以考慮以下思路擴展:一是借鑒全鏈路的思路,從用戶旅程角度建立端到端的撥測方案。二是將自動化撥測的方案轉為即時質檢的思路,落地運行健康度切面信息。當然,對于海量的實時交易,真實客戶行為本身也是撥測源頭,如何在第一撥少量用戶遇到問題時快速發(fā)現,并進行處理是實現撥測目標的擴展要求。由于撥測涉及模擬客戶行為操作,組織可以根據政策、風險、成本等維度考慮選擇不同的解決方案。3.可觀測可觀測性概念并非源于計算機軟件領域,在控制理論中可觀測是指系統(tǒng)可以由其外部輸出推斷其內部狀態(tài)的程度。要理解可觀測最近兩年火熱的背景,要理解復雜,即IT運行環(huán)境與技術架構復雜性,以及IT對生產對象掌握能力加深訴求兩個因素導致。尤其是在云原生環(huán)境下,企業(yè)大規(guī)模地部署容器,應用節(jié)點呈指數級增長,故障可能發(fā)生在任意節(jié)點,無法感知與預測的因素越來越多,而傳統(tǒng)監(jiān)控、日志、可視化等工具只能看到單個環(huán)節(jié)、整體性問題,無法建立更細化的評估、分析運維掌控能力??捎^測理念的提出,是運維需要從原來只負責可用性被動保障的角色跳出來,站在白盒角度看系統(tǒng)運行狀況,剖析應用層面的運行信息。因為復雜,運維組織對于IT系統(tǒng)的掌控力越來越小,傳統(tǒng)監(jiān)控的思路對IT對象風險點的發(fā)現,在復雜架構下,只能回答當前發(fā)現了問題,但是運維的目標是恢復連續(xù)性??捎^測的目標是“發(fā)現風險并協(xié)助排障”,至少應達到故障定界。下面一圖很好的解釋可觀測與監(jiān)控的區(qū)別,自上而下看代表:告警、概況、排錯、剖析、依賴分析,可以理解為處理監(jiān)控告警的幾個步驟:系統(tǒng)異常引發(fā)監(jiān)控告警;受理監(jiān)控告警,查看告警豐富后概述、關鍵系統(tǒng)運行指標,了解系統(tǒng)整體運行狀態(tài),根據專家意見做出故障識別與診斷;識別異常后,逐層下鉆,進行運行分析,調取日志、數據庫流水、報文等詳細信息對異常進行進一步的分析排錯;進一步深入到接口、方法、功能、性能層面進行異常分析診斷;調取模塊與模塊間的交互狀態(tài),通過鏈路追蹤,建立生產對象上下游關系進行分析,建立關聯(lián)分析能力,輔助判斷問題根因?!翱捎^測性”能力是結合云原生架構下對故障發(fā)現與排障需求的一個最佳實踐,并在工具層面提出圍繞在日志(logs)、指標(metrics)、鏈路(trace)三個要素。分別代表的意義是:日志記錄(logs),軟件在執(zhí)行過程中產出的信息。日志數據很豐富,包含正常程序處理過程、異常報錯等信息,詳細解釋系統(tǒng)的運行狀況,但由于日志格式不統(tǒng)一,通常需要先進行加工處理以更好的消費。追蹤鏈路(trace),處理請求范圍內的信息,可以包括從終端到服務端、到上游關聯(lián)系統(tǒng)服務節(jié)點,甚至細化到接口、方法、函數等多個維度的鏈路關系。鏈路關系能夠幫助更全面的了解請求生命周期中系統(tǒng)各個組件的健康情況等。指標信息(metrics)。指標是反映某個主題的量化、聚合性數據,是一個可度量數值,監(jiān)控策略就是建立在一個個評價系統(tǒng)健康情況的指標之上,智能異常檢測、系統(tǒng)感知、效能評估、IT服務管理等也同樣是基于指標構建。構建可觀測系統(tǒng),是為了讓運維在復雜架構下具備深入剖析問題的能力。相比傳統(tǒng)監(jiān)控平臺,可觀測是一項綜合整合多種數據的、解決“未知”問題的解決方案,監(jiān)控是針對“已知”故障的監(jiān)控,傳統(tǒng)監(jiān)控數據是可觀測系統(tǒng)應用的一部分。監(jiān)控需要提前了解系統(tǒng)數據,建立針對運行數據的監(jiān)控策略,而可觀測是從全局角度分析數據,良好的可觀測能力需要在設計階段進行非功能性前移,當系統(tǒng)異常時能夠讓運維快速了解問題的現狀和影響,并能夠深入探索、跟蹤問題的根因。另外,可觀測與以往的運行可視化也有一些區(qū)別??捎^測系統(tǒng)不是一個簡單整合數據可視化或落地好看的儀表板,而是要在異常發(fā)現、診斷、定位過程中發(fā)揮作用。相比以往構建的可視化,可觀測系統(tǒng)不僅需要整合更豐富的鏈路、日志、指標數據,還需要更加標準的數據內容才能達成整合效果。要得到滿足條件的數據,需要運維、研發(fā)通力協(xié)作,在軟件設計過程中考慮相關數據埋點。所以,在構建可觀測之前務必要分別調動研發(fā)、測試、管理決策層的興趣,挖掘各方的痛點與期望,即不僅僅要考慮運維工程師希望實現的快速故障定界、診斷的作用,還要考慮可觀測如何解決研發(fā)、測試工程師的架構失控、性能管理、變更后驗證、了解生產運行環(huán)境、基礎設施、了解程序上線后運行狀況等問題。以及,如何解決管理決策層建立穿透式的量化運行狀況掌控力,并進行指揮決策。4.巡檢巡檢是主動對IT運行風險的評估發(fā)現,包括常規(guī)巡檢與深度巡檢,前者是高頻、例行的分析,通常融入到常規(guī)運維流程;后者主要從成本角度區(qū)別于常規(guī)巡檢,比如加大評估分析面、分析深度、預測分析、協(xié)同范圍、問題跟蹤等,通常深度巡檢帶有一定的風險分析主題。巡檢的目標是“主動評估風險”,強調的是一種主動發(fā)現風險的數字化思維模式與組織協(xié)同文化。在數字化運維階段,巡檢需在操作上要進行升級,將巡檢從常規(guī)操作性例行工作與監(jiān)控管理區(qū)別開,不斷鼓勵、促進運維專家轉變被動工作方式,建立巡檢的管理機制,不斷的固化巡檢規(guī)則、任務、報告、數據感知等解決方案,是主動運營的一個轉變表現方式。比如:圍繞業(yè)務連續(xù)性保障相關的重要系統(tǒng)性能&容量&質量管理主題的數據運營、平臺軟件性能&容量&質量管理主題的數據運營、重系統(tǒng)運行狀態(tài)感知、重要系統(tǒng)上下游看板、交易終端交易分布、客戶訂單感知、功能號運行感知、業(yè)務品種分析、清算過程管理等主題分析,以及擴展到IT服務管理相關的監(jiān)控告警處置效率、生產變更發(fā)布風險、應急處置效率、生產已知缺陷看板、故障應急過程管理、配置管理等主題分析。5.風險感知百度百科對“感知”的定義是“對內外界信息的覺察、感覺、注意、知覺的一系列過程”。風險感知包括對客觀風險信息的“知覺”,與運維專家經驗知識的“感覺”。我對“感知”一詞的認識來源于幾年前《全數字化賦能》一書。書中定義了數字化的感知力,是指通過收集數據與見解,察覺企業(yè)所處環(huán)境的重要變化,感知力包括行為感知與情景感知,行為感知是指深入了解員工、客戶的行為與想法,情景感知是對商業(yè)環(huán)境與運營環(huán)境的感知。“感知”與“決策、執(zhí)行”共同組成了我對數據智能思維框架的三要素,打造數字化IT風險管理的風險感知場景將是數字化運維體系的重要方向。風險感知場景關鍵的三點是:影響風險的客觀信息組合、專家知識的融入、擴展到決策與執(zhí)行的閉環(huán)。風險感知是場景,將整合上述監(jiān)控、撥測、可觀測、巡檢的一些基本能力,并基于場景需要構建工具需要具備的功能、流程機制,配套組織角色。風險感知之所以能成為場景,在于風險感知在運維體系中是一個既能獨立運作,又能與其他場景相結合產生更全面與深度的效能。在組織、流程、平臺、場景四位一體的體系方案中,場景接近用戶工作,包括“人、事、時間、協(xié)同、環(huán)境”5要素,提升場景價值不是重復造輪子,要善用、組合已有的平臺能力??偨Y一下前面提到的監(jiān)控、撥測、可觀測、巡檢四項能力的目標:監(jiān)控:目標是“不漏報、少誤報、高響應”,從風險角度重點關注即時發(fā)現風險,包括眾多風險監(jiān)測的“點”,偏被動。撥測:目標是“模擬客戶行為,先于客戶發(fā)現風險”,從風險角度重點關注業(yè)務層面的風險發(fā)現,是以終為始的風險發(fā)現,由業(yè)務風險帶動其他風險的發(fā)現,專注業(yè)務層面風險的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論