版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
從“救火”走向“防火”——商業(yè)平臺(tái)業(yè)務(wù)運(yùn)維實(shí)踐第一頁(yè),共三十七頁(yè)。救火防火第二頁(yè),共三十七頁(yè)。時(shí)間都去哪兒了救火防火?
越是做到高級(jí)階段,防火的工作所占的
比重就會(huì)越高。?
從救火到防火,不是一蹴而就的事情,
應(yīng)該是個(gè)逐漸演進(jìn)的過程第三頁(yè),共三十七頁(yè)。思考點(diǎn)發(fā)生發(fā)現(xiàn)響應(yīng)全部恢復(fù)時(shí)間故障發(fā)現(xiàn)故障響應(yīng)故障修復(fù)開始處理故障定位提升故障
發(fā)現(xiàn)率提升故障處理速度降低故障率目標(biāo)故障預(yù)防過程第四頁(yè),共三十七頁(yè)。
Agenda如何提升故障處理速度如何提升故障發(fā)現(xiàn)率如何降低故障率123第五頁(yè),共三十七頁(yè)。故障響應(yīng)規(guī)范應(yīng)急處理預(yù)案這些都做了,還有提升的空間嗎?
準(zhǔn)確識(shí)別故障響應(yīng)時(shí)間目標(biāo)與措施
快速判斷
故障定位時(shí)間
快速執(zhí)行故障修復(fù)時(shí)間?????7*24值班規(guī)范?
分析數(shù)據(jù)及圖表
?
流量切換工具
?報(bào)警內(nèi)容
?
服務(wù)降級(jí)工具職責(zé)與分工
?
故障運(yùn)維手冊(cè)
?數(shù)據(jù)修復(fù)工具故障預(yù)演?
任務(wù)修復(fù)工具?
回滾工具?數(shù)據(jù)提取工具?
……第六頁(yè),共三十七頁(yè)。主要受哪些影響因素
影響因素
1、新手2、故障處理步驟繁雜
應(yīng)對(duì)方法優(yōu)化報(bào)警內(nèi)容,使報(bào)警內(nèi)容變得可依賴。報(bào)警內(nèi)容除了報(bào)告問題,還將故障的判斷和處理方法附在其中。
利用數(shù)據(jù)任務(wù)調(diào)度管理系統(tǒng),
對(duì)數(shù)據(jù)任務(wù)進(jìn)行統(tǒng)一管理第七頁(yè),共三十七頁(yè)。優(yōu)化報(bào)警內(nèi)容該報(bào)警對(duì)應(yīng)的運(yùn)維專員聯(lián)系方式該報(bào)警對(duì)應(yīng)的開發(fā)人員聯(lián)系方式減少對(duì)運(yùn)維人員經(jīng)驗(yàn)的依賴,使得新人和值班人員都可以快速處理第八頁(yè),共三十七頁(yè)。靈活配置報(bào)警內(nèi)容降低維護(hù)成本,提升工作效率第九頁(yè),共三十七頁(yè)。繁雜數(shù)據(jù)故障處理存在的問題:?
不能快速識(shí)別哪些任務(wù)失敗了,影響了誰(shuí)?一個(gè)任務(wù)失敗會(huì)導(dǎo)致多個(gè)任務(wù)失敗,每個(gè)任務(wù)的任務(wù)都會(huì)發(fā)一個(gè)報(bào)警?
處理多個(gè)任務(wù)失敗時(shí),需要人工確認(rèn)修復(fù)順序,還要等待每個(gè)任務(wù)執(zhí)
行完成后再人工執(zhí)行下一個(gè)?
如果所需數(shù)據(jù)源存在短暫延遲到位,會(huì)導(dǎo)致任務(wù)執(zhí)行失敗并報(bào)警,有
時(shí)會(huì)對(duì)運(yùn)維人員產(chǎn)生干擾ABCDEFGHIJKLM…第十頁(yè),共三十七頁(yè)。繁雜數(shù)據(jù)故障處理數(shù)據(jù)任務(wù)調(diào)度管理系統(tǒng):?實(shí)時(shí)自動(dòng)的可視化數(shù)據(jù)任務(wù)關(guān)系圖?
能快速識(shí)別哪些執(zhí)行失敗及影響范圍?
父節(jié)點(diǎn)任務(wù)失敗后報(bào)警,子任務(wù)節(jié)點(diǎn)不再執(zhí)行(也不會(huì)報(bào)警)?
恢復(fù)關(guān)鍵路徑節(jié)點(diǎn)任務(wù)時(shí),只需選擇帶依賴執(zhí)行,后續(xù)子節(jié)點(diǎn)任務(wù)會(huì)
自動(dòng)執(zhí)行,無需人工干預(yù),等待?
支持每個(gè)任務(wù)自定義重試次數(shù)和間隔,如果任務(wù)所需數(shù)據(jù)源存在延遲
提供現(xiàn)象,不會(huì)馬上報(bào)警,直到達(dá)到最大重試次數(shù)為止,降低對(duì)運(yùn)維
人員的干擾ABCDEFGHIJMLK……第十一頁(yè),共三十七頁(yè)。繁雜數(shù)據(jù)故障處理第十二頁(yè),共三十七頁(yè)。
Agenda如何提升故障處理速度如何提升故障發(fā)現(xiàn)率如何降低故障率123第十三頁(yè),共三十七頁(yè)。????????網(wǎng)絡(luò)連通性機(jī)器存活遠(yuǎn)程可達(dá)丟包檢測(cè)容量監(jiān)控磁盤故障磁盤壞道內(nèi)存條檢測(cè)基礎(chǔ)資源類完善監(jiān)控指標(biāo)
常規(guī)業(yè)務(wù)類自定義業(yè)務(wù)類????端口進(jìn)程Curl工作日志????????任務(wù)始止類關(guān)鍵組件監(jiān)控一致性類跨界類監(jiān)控?cái)?shù)據(jù)流監(jiān)控超時(shí)/延時(shí)類失敗率/成功率……第十四頁(yè),共三十七頁(yè)。自定義業(yè)務(wù)類監(jiān)控…………第十五頁(yè),共三十七頁(yè)。監(jiān)控項(xiàng)低位警界線
業(yè)務(wù)系統(tǒng)健康度趨勢(shì)
高位警界線
監(jiān)
控
項(xiàng)加強(qiáng)關(guān)注!
加強(qiáng)關(guān)注!第十六頁(yè),共三十七頁(yè)。導(dǎo)致
全面短信報(bào)警過多產(chǎn)生麻木心理第十七頁(yè),共三十七頁(yè)。
降噪?監(jiān)控的系統(tǒng):300+?監(jiān)控的實(shí)例:20000+?運(yùn)維人員短信接收:人均每天6條?報(bào)警策略?報(bào)警分層?精準(zhǔn)下發(fā)取得的效果采用的手段第十八頁(yè),共三十七頁(yè)。報(bào)警分層網(wǎng)段可用機(jī)器存活遠(yuǎn)程可達(dá)業(yè)務(wù)類ABCDEFGHIJMLK……數(shù)據(jù)依賴任務(wù)第十九頁(yè),共三十七頁(yè)。報(bào)警精準(zhǔn)下發(fā)運(yùn)維值班1運(yùn)維值班2運(yùn)維專員1運(yùn)維專員2運(yùn)維專員3運(yùn)維專員4運(yùn)維專員N開發(fā)人員1開發(fā)人員2開發(fā)人員N第二十頁(yè),共三十七頁(yè)。第二十一頁(yè),共三十七頁(yè)。
Agenda如何提升故障處理速度如何提升故障發(fā)現(xiàn)率如何降低故障率123第二十二頁(yè),共三十七頁(yè)。它山之石,可以攻玉第二十三頁(yè),共三十七頁(yè)。數(shù)據(jù)說話有針對(duì)性的推動(dòng)改進(jìn)!
避免重復(fù)性故障!第二十四頁(yè),共三十七頁(yè)。代碼發(fā)布是故障的導(dǎo)火索
上線次數(shù)趨勢(shì)圖異常處理趨勢(shì)圖推動(dòng)開發(fā)人員有針對(duì)性解決
?
程序Bug
?
設(shè)計(jì)缺陷
?
代碼配置
?部署問題第二十五頁(yè),共三十七頁(yè)。變更操作是故障的導(dǎo)火索?????業(yè)務(wù)模塊新增機(jī)器機(jī)房遷移,變更IP機(jī)器故障更換下線業(yè)務(wù)模塊……??????維護(hù)系統(tǒng)配置部署相關(guān)監(jiān)控維護(hù)應(yīng)用環(huán)境及配置維護(hù)訪問控制關(guān)系更新代碼配置(研發(fā)人員)……常見運(yùn)維變更涉及哪方面的操作涉及大量的IP、訪問關(guān)系等信息,操作繁雜!第二十六頁(yè),共三十七頁(yè)。機(jī)器
1機(jī)器
2…機(jī)器N……………………系統(tǒng)配置監(jiān)控策略訪問關(guān)系其他
操作繁雜,易出錯(cuò)某個(gè)業(yè)務(wù)抽象運(yùn)維對(duì)象減少人工干預(yù)優(yōu)化技術(shù)架構(gòu)第二十七頁(yè),共三十七頁(yè)。抽象運(yùn)維對(duì)象機(jī)器
1機(jī)器
2…機(jī)器N系統(tǒng)配置監(jiān)控策略訪問關(guān)系系統(tǒng)配置監(jiān)控策略訪問關(guān)系A(chǔ)ppID機(jī)器1機(jī)器2…機(jī)器N……………………其他運(yùn)維人員之前之后級(jí)別等
……第二十八頁(yè),共三十七頁(yè)。配置策略服務(wù)管理……報(bào)警策略監(jiān)控策略…自動(dòng)機(jī)制機(jī)器列表
新機(jī)器發(fā)現(xiàn)
自動(dòng)生成監(jiān)控項(xiàng)
基礎(chǔ)監(jiān)控部署
App1機(jī)器1
…
機(jī)器N策略變更嗅探
通用配置分發(fā)
私有監(jiān)控部署
……
App2
機(jī)器1
…
機(jī)器N自動(dòng)生成配置策略樹
私有配置分發(fā)自動(dòng)更新發(fā)布目的地
AppN
機(jī)器1
…
機(jī)器N機(jī)器規(guī)模越大效果越明顯1.
當(dāng)某App中有新機(jī)器
到位時(shí),會(huì)對(duì)該機(jī)器
自動(dòng)部署相關(guān)的系統(tǒng)
配置、監(jiān)控項(xiàng),同時(shí)
自動(dòng)更新對(duì)應(yīng)App的
代碼發(fā)布地址列表2.
當(dāng)某個(gè)App有系統(tǒng)配
置更新、監(jiān)控策略更
新時(shí),會(huì)下發(fā)到所有
相關(guān)的機(jī)器
減少人工干預(yù)只需針對(duì)Appid設(shè)置一次相關(guān)策略,其他工作全部自動(dòng)完成第二十九頁(yè),共三十七頁(yè)。…………機(jī)器11機(jī)器12…機(jī)器1NApp1機(jī)器21機(jī)器22…機(jī)器2NApp2機(jī)器31機(jī)器32…機(jī)器3NApp3機(jī)器41機(jī)器42…機(jī)器4NApp4機(jī)器51機(jī)器52…機(jī)器5NApp5機(jī)器61機(jī)器62…機(jī)器6NApp6機(jī)器71機(jī)器72…機(jī)器7NApp7機(jī)器81機(jī)器82…機(jī)器8NApp8
應(yīng)用間復(fù)雜且不透明的訪問關(guān)系服務(wù)端要確認(rèn)被哪些客戶端訪問,才能保證正確的開通訪問白名單:機(jī)器+接口+方法機(jī)器11、機(jī)器12……機(jī)器1N機(jī)器31、機(jī)器32……機(jī)器3N機(jī)器61、機(jī)器62……機(jī)器6N客戶端需要訪問服務(wù)端:機(jī)器11、機(jī)器12……機(jī)器1N機(jī)器21、機(jī)器22……機(jī)器2N第三十頁(yè),共三十七頁(yè)。規(guī)范化后的開發(fā)架構(gòu)
客戶端(服務(wù)使用者)
服務(wù)端(服務(wù)提供者)1.2.3.4.5.人工在管理界面中進(jìn)行服務(wù)注冊(cè)與維護(hù),管理服務(wù)端及接口,以及客戶端對(duì)哪些接口訪問等客戶端啟動(dòng)時(shí)獲取服務(wù)端機(jī)器及URL列表服務(wù)端啟動(dòng)時(shí)獲取訪問控制列表服務(wù)端及接口發(fā)生變更時(shí)自動(dòng)推送給客戶端,更新調(diào)用服務(wù)器的機(jī)器及URL列表客戶端及接口發(fā)生變化時(shí)自動(dòng)推送給服務(wù)端更新訪問控制列表
RPC協(xié)議客戶端代理
RPC協(xié)議客戶端代理…
RPC協(xié)議服務(wù)端代理客戶端代理負(fù)載均衡器并發(fā)訪問攔截器
白名單攔截器
服務(wù)對(duì)象代理3524
管理UI
1
服務(wù)注冊(cè)
中心服務(wù)治理框架層RPC協(xié)議層業(yè)務(wù)層第三十一頁(yè),共三十七頁(yè)?!瓩C(jī)器11機(jī)器12…機(jī)器1NApp1機(jī)器21機(jī)器22…機(jī)器2NApp2機(jī)器31機(jī)器32…機(jī)器3NApp3…機(jī)器5N
App5機(jī)
機(jī)器
器5
51
2…機(jī)器6N
App6機(jī)
機(jī)器
器6
61
2小范圍試點(diǎn),效果顯著,推廣使用訪問控制、自動(dòng)路由、負(fù)載均衡
如果App1有新機(jī)器到位:
?
框架會(huì)自動(dòng)通知App5、App6的所有機(jī)器,
App1已有新機(jī)器為他們提供服務(wù),各機(jī)器
自動(dòng)將請(qǐng)求均衡落到App1的各臺(tái)機(jī)器上
?
同時(shí),自動(dòng)通知App2的所有機(jī)器,有新機(jī)
器需要納入到他們的訪問白名單
自動(dòng)容錯(cuò)、負(fù)載均衡如果App2有機(jī)器宕機(jī):?框架會(huì)自動(dòng)通知訪問它的App1、App3、
App6的所有機(jī)器,App2有機(jī)器故障已不能
提供服務(wù)?
各機(jī)器的訪問請(qǐng)求不再向故障機(jī)器發(fā)送,并
自動(dòng)將請(qǐng)求均衡落到App2存活的機(jī)器上第三十二頁(yè),共三十七頁(yè)。
War
OrRPM標(biāo)準(zhǔn)化發(fā)布方式App1機(jī)器
1機(jī)器
1機(jī)器N機(jī)器N機(jī)器分組A
機(jī)
…
器
2機(jī)器分組B
機(jī)
…
器
2
自動(dòng)部署重啟
回滾
檢查一致性安裝
卸載啟動(dòng)
停止主任務(wù)子任務(wù)
War
OrRPMApp2………………第三十三頁(yè),共三十七頁(yè)。第三十四頁(yè),共三十七頁(yè)。從救火走向防火發(fā)生發(fā)現(xiàn)響應(yīng)全部恢復(fù)時(shí)間故障發(fā)現(xiàn)時(shí)間故障響應(yīng)時(shí)間故障修復(fù)時(shí)間開始處理故障定位時(shí)間
提升故障發(fā)現(xiàn)率(及時(shí)全面準(zhǔn)確)提升故障處理速度
(快速有效)
降低故障率(有效防御)數(shù)據(jù)修復(fù)工具流量切換工具服務(wù)降級(jí)工具回滾工具數(shù)據(jù)提取工具……職責(zé)與分工7*24值班規(guī)范故障響應(yīng)規(guī)范故障處理預(yù)案故障預(yù)演量化問題管理抽象運(yùn)維對(duì)象減少人工干預(yù)優(yōu)化技術(shù)架構(gòu)目標(biāo)措施預(yù)防故障發(fā)生
完善監(jiān)控指標(biāo)
建立業(yè)務(wù)健康
度分析體系
降低誤報(bào)率,
提升準(zhǔn)確度
故障運(yùn)維手冊(cè)
分析數(shù)據(jù)及圖表
報(bào)警內(nèi)容可依賴準(zhǔn)確識(shí)別快速判斷快速執(zhí)行第三十五頁(yè),共三十七頁(yè)。后續(xù)努力方向?
更智能–
智能監(jiān)控–
智能故障修復(fù)–
智能健康度評(píng)估?
更輕量–
簡(jiǎn)單易控–隨時(shí)隨地第三十六頁(yè),共三十七頁(yè)。內(nèi)容總結(jié)從“救火”走向“防火”。?越是做到高級(jí)階段,防火的工作所占的。?從
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《音階歌(唱游、發(fā)現(xiàn))》教學(xué)設(shè)計(jì)-2025-2026學(xué)年接力版(新教材)小學(xué)音樂一年級(jí)下冊(cè)
- 甲殼類養(yǎng)殖工安全實(shí)操測(cè)試考核試卷含答案
- 氣體凈化工崗前理論技能考核試卷含答案
- 碾泥工安全檢查測(cè)試考核試卷含答案
- 我國(guó)上市公司治理結(jié)構(gòu)的理性構(gòu)建之路
- 我國(guó)上市公司并購(gòu)重組盈利補(bǔ)償機(jī)制:實(shí)踐、問題與優(yōu)化路徑
- 丁苯橡膠裝置操作工安全應(yīng)急知識(shí)考核試卷含答案
- 苗木培育工崗前安全理論考核試卷含答案
- 鎢絞絲加熱子制造工安全綜合考核試卷含答案
- 水工混凝土維修工達(dá)標(biāo)能力考核試卷含答案
- 完整工資表模板(帶公式)
- 家長(zhǎng)要求學(xué)校換老師的申請(qǐng)書
- 奇瑞汽車QC小組成果匯報(bào)材料
- 闌尾腫瘤-課件
- CTT2000LM用戶手冊(cè)(維護(hù)分冊(cè))
- 川2020J146-TJ 建筑用輕質(zhì)隔墻條板構(gòu)造圖集
- 正式員工派遣單
- 新員工入職申請(qǐng)表模板
- 中外新聞事業(yè)史課程教學(xué)大綱
- LY/T 1357-2008歧化松香
- 化工廠常見隱患危害因素及防范措施
評(píng)論
0/150
提交評(píng)論