百度智能持續(xù)交付的設計架構_第1頁
百度智能持續(xù)交付的設計架構_第2頁
百度智能持續(xù)交付的設計架構_第3頁
百度智能持續(xù)交付的設計架構_第4頁
百度智能持續(xù)交付的設計架構_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、百度智能持續(xù)交付的設計架構目錄在百度做變更面臨的挑戰(zhàn)1百度智能持續(xù)交付的思路百度智能持續(xù)交付的實踐 總結質量效率成本種類繁多,規(guī)模龐大,架構復雜業(yè)務迭代速度快服務穩(wěn)定性要求高減少異常變更對服務穩(wěn)定的影響控制運維人力投入滿足業(yè)務快速迭代要求在保障服務質量的前提下,減少成本,提高變更效率在百度做變更面臨的挑戰(zhàn)傳統(tǒng)交付方案與困境配置變更 內容配置執(zhí)行 策略服務器滾動 部署全部部署 完成交付完成檢查是否 符合預期中止并恢復服務自動化變更平臺交付流程將智能運維引入持 續(xù)交付流程,增強 交付自動化,保證 質量同時提升效率線上報警 緊急回滾等待上線 周期太長程序功能不 符預期流程復雜頻 繁中斷配置錯誤 變更

2、異常目錄在百度做變更面臨的挑戰(zhàn)百度智能持續(xù)交付的思路2百度智能持續(xù)交付的實踐總結2007開放運維平臺基礎運維平臺智能運維平臺腳本工具20122014人工執(zhí)行命令 腳本運維操作WEB 運維平臺提供 API 接口 可配置可定制智能工程框架 智能算法策略敏捷半自動運維無人全自動運維運維理念百度運維發(fā)展史Gartner 的理解Algorithmic IT OperationsBig Data + Machine Learning驅動三大場景AutomationMonitoringService DeskSource:Gartner ReportIT Operations Analytics Must

3、Be Placed Within an AIOps Context. Will Cappelli (Research VP) | 26 August 2016我們對AIOps的理解我們的理解Artificial Intelligence IT Operations數(shù)據(jù) + 策略 + 工程應用場景故障管理變更管理容量管理服務咨詢Intelligent Agent智能運維工程思想運維知識庫(OKB)運維操作抽象層(OPAL)運維機器人(Guardian)書同文:統(tǒng)一運維“語言”車同軌:統(tǒng)一運維“方法”應用、服務、機房、集群、鏡像、機器.統(tǒng)一接口PAAS 1NoahPAAS2PAAS 3PAAS4.

4、適配不同平臺的“驅動”.行同倫:統(tǒng)一運維“模式”SOP/Runbook asCode分場景定義運維模式;思路一致Code,Not Doc;行為一致個性化模型、配置、參數(shù)、數(shù)據(jù)提倡“復用”智 能 運 維 平 臺智 能 解 決 方 案異常檢測根因診斷止損決策容量預測故障管理場景服務咨詢場景容量管理場景故障診斷&決策故障自愈故障發(fā)現(xiàn)&感知FAQChatbot自動壓測容量規(guī)劃自動擴縮容變更管理場景程序上線配置分發(fā)命令執(zhí)行計算框架執(zhí)行框架工具鏈狀態(tài)管理運維開發(fā)框架ETLSchema管理查詢&計算關聯(lián)分析運維知識庫運維策略庫百度AIOps整體架構基礎設施和生產(chǎn)環(huán)境核心思路:系統(tǒng)代替人的決策,根據(jù)人制定的目

5、標,自主執(zhí)行變更,執(zhí) 行過程中根據(jù)服務狀態(tài)反饋,動態(tài)進行調整,實現(xiàn)無人值守交付智能持續(xù)交付系統(tǒng)思路配置變更 內容配置執(zhí)行策略服務器滾動部 署全部部署 完成交付完成檢查是否符合預期中止并恢復 服務配置變更 內容配置執(zhí)行策 略服務器滾動部 署全部部署 完成交付完成檢查是否符 合預期中止并恢復 服務智能變更平臺交付流程自動化變更平臺交付流程智能化目錄在百度做變更面臨的挑戰(zhàn)百度智能持續(xù)交付的思路百度智能持續(xù)交付的實踐3總結系統(tǒng)架構:使用框架構建變更機器人,整合變更數(shù)據(jù),開發(fā)變更策略, 聯(lián)動多場景基礎設施能力進度展示查詢狀態(tài)改變狀態(tài)任務下發(fā)運維知識庫展現(xiàn)層運維數(shù)據(jù)目標集群數(shù)據(jù)采集服務實 時指標遠程執(zhí)行任

6、務干預變更機器人模板生成控制層變更檢查運行框架變更消息執(zhí)行結果智能持續(xù)交付系統(tǒng)實踐數(shù)據(jù)訓練監(jiān)控采集系統(tǒng)集群控制系統(tǒng)基礎設施運維策略庫運維策略執(zhí)行歷史執(zhí)行干預什么是模板明確變更執(zhí)行的原則說明變更執(zhí)行的步驟對模板的要求保證交付的安全高效盡量全面的描述細節(jié)智能生成模板Stage-0沙盒環(huán)境Stage-11% IDC-1Stage-2 99% IDC-1Stage-31%rest IDCsStage-499%rest IDCs智能檢查智能檢查智能檢查原則:分級發(fā)布智能檢查機房間順序機器內順序失敗容忍度失敗重試策略機房并發(fā)度執(zhí)行超時粒度:單臺機器,明確的順序、并發(fā)度、容錯策略機器并發(fā)度智能生成模板如何自

7、動生成模板原始數(shù)據(jù)運維知識庫中全面的服務信息生成策略服務信息規(guī)則映射為模板數(shù)據(jù) 生產(chǎn) 過程分類映射服務管理模型和規(guī)范存儲:MetaDB,TSDB,EventDB關聯(lián)挖掘查詢和視圖反饋干預raw 數(shù)據(jù) 清洗消歧權限和配額質量控制核心數(shù)據(jù)中間數(shù)據(jù)擇優(yōu)計算數(shù)據(jù) 源管理類平臺監(jiān)控類平臺操作類平臺統(tǒng) 一 數(shù) 據(jù) 模 型AppHost元數(shù)據(jù)ProductServiceIDCPersonInstance.狀態(tài)數(shù)據(jù)事件數(shù)據(jù)throughputcpumem bandwidthlatencyiortt.error diskanomalychangeroot causeremediation.運 維 知 識 庫 整

8、 體 架 構模板參數(shù)元數(shù)據(jù)產(chǎn)品信息應用信息服務信息實例信息狀態(tài)數(shù)據(jù)服務狀態(tài)服務流量系統(tǒng)資源請求耗時事件數(shù)據(jù)變更發(fā)起事件變更干預事件服務異常事件智能生成模板服務順序:bj nj gz機器并發(fā)度: 4機器順序s, a ,b產(chǎn)品信息映射到模板的示例事件數(shù)據(jù)變更發(fā) 起事件狀態(tài)數(shù)據(jù)、元數(shù)據(jù)應用對應服務列表服務下的實例列表 各服務流量占比 各服務下實例數(shù)量 各服務最小可用度實例標識變更機器人開發(fā)難點功能復雜運維平臺差異很大難以復用組件化開發(fā)感知器Sensor決策器DM執(zhí)行器Executor可擴展運行框架運維對象(變更應用)變更發(fā)起事件分級執(zhí)行模板生成決策執(zhí)行決策感知接口操作接口變更控制機器人感知自動/人工

9、干預事件檢查干預決策Sensor多事件源支持推拉等方式訪問事件源事件可聚合后再處理Decision-Maker規(guī)則匹配決策樹基于狀態(tài)的決策Executor多任務并發(fā)執(zhí)行通過狀態(tài)機、工作流兩種模 式執(zhí)行運維操作長流程支持長流程斷點續(xù)起高性能控制系統(tǒng)遠程執(zhí)行是影響變更性能的關鍵環(huán)節(jié)高性能完整策略支持可干預能力REST API任務調度層任務緩存層任務下發(fā)結果匯報支持變更策略語 義支持暫停、中 止、跳過、重 做、撤銷集群控制系統(tǒng)指標數(shù)據(jù)規(guī)模數(shù)十萬臺并發(fā)度萬臺并發(fā)下發(fā)延遲秒級任務量數(shù)千萬/天支持快速回滾分機房部署智能變更檢查如何檢查服務狀態(tài)指標多樣性系統(tǒng)指標:CPU、MEM、NETIN/OUT業(yè)務指標:

10、請求資源召回個數(shù)可用性指標:請求拒絕數(shù)、請求成功率系統(tǒng)資源消耗增加召回資源變少系統(tǒng)請求成功率降低閾值上界閾值下界使用固定閾值自動化人工配置指標閾值自動判斷指標異常情況指標異常則發(fā)送攔截消息指標閾值配置困難閾值選擇困難準確率低,影響變更效率召回率低,影響可用性閾值需要不斷更新類似程度下跌經(jīng)常出現(xiàn)閾值下界閾值上界智能變更檢查智能檢查算法度量變更前后指標變化與歷史變更是否相似與同模塊未變更實例是否相似實驗組(變更實例)對照組(未變更實例)歷史變更實驗組檢查結果指標正常指標正常指標異常智能變更檢查正常異常正常發(fā)起 變更否否與歷史 變更表 現(xiàn)一致是與對照 組表現(xiàn) 一致是檢查流程目錄在百度做變更面臨的挑戰(zhàn)百度智能持續(xù)交付的思路 百度智能持續(xù)交付的實踐總結4總結一鍵交付智能檢查召回故障集人工檢查召回集80%故障召回率變更引入故障全集全面指標覆蓋設計思路系統(tǒng)代替人的決策交付過程無人值守實踐要點模板模板滿足分級發(fā)布原則依據(jù)知識庫生成變更模板執(zhí)行基于框架開發(fā)變更機器人集群控制系統(tǒng)遠程控

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論