版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
華為云卓越架構(gòu)技術(shù)框架與實踐文檔版本01發(fā)布日期2026-01-05華為技術(shù)有限公司HUAWE版權(quán)所有?華為技術(shù)有限公司2026。保留一切權(quán)利。非經(jīng)本公司書面許可,任何單位和個人不得擅自摘抄、復(fù)制本文檔內(nèi)容的部分或全部,并不得以任何形式傳播。HUAWEl和其他華為商標均為華為技術(shù)有限公司的商標。本文檔提及的其他所有商標或注冊商標,由各自的所有人擁有。您購買的產(chǎn)品、服務(wù)或特性等應(yīng)受華為公司商業(yè)合同和條款的約束,本文檔中描述的全部或部分產(chǎn)品、服務(wù)或特性可能不在您的購買或使用范圍之內(nèi)。除非合同另有約定,華為公司對本文檔內(nèi)容不做任何明示或暗示的聲明或保證。由于產(chǎn)品版本升級或其他原因,本文檔內(nèi)容會不定期進行更新。除非另有約定,本文檔僅作為使用指導(dǎo),本文檔中的所有陳述、信息和建議不構(gòu)成任何明示或暗示的擔保。文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司i文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司ii安全聲明華為公司對產(chǎn)品漏洞管理的規(guī)定以“漏洞處理流程”為準,該流程的詳細內(nèi)容請參見如下網(wǎng)址:/cn/psirt/vul-response-process如企業(yè)客戶須獲取漏洞信息,請參見如下網(wǎng)址:/enterprise/cn/security-advisory文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司iii華為云卓越架構(gòu)技術(shù)框架與實踐目錄 目錄 2.1韌性支柱簡介 42.2基本概念 4 52.2.2什么是應(yīng)用韌性 52.2.3責任共擔模式 62.2.4可用性目標定義 可用度及SLO RTO與RPO 8數(shù)據(jù)持久度 92.2.5可用性需求 92.3設(shè)計原則 92.4問題和檢查項 112.5高可用設(shè)計 132.5.1RES01冗余 13概述 13RES01-01應(yīng)用組件高可用部署 13RES01-02應(yīng)用組件多位置部署 15RES01-03云服務(wù)器反親和 152.5.2RES02備份 15概述 15RES02-01識別和備份應(yīng)用中所有需要備份的關(guān)鍵數(shù)據(jù) 16RES02-02自動數(shù)據(jù)備份 16RES02-03定期進行備份數(shù)據(jù)恢復(fù) 172.5.3RES03跨AZ容災(zāi) 17概述 17RES03-01集群跨AZ部署 17RES03-02跨AZ數(shù)據(jù)同步 18RES03-03對接容災(zāi)仲裁,支持自動切換 19RES03-04支持容災(zāi)管理 192.5.4RES04跨Region/跨云容災(zāi) 19概述 19文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司iv華為云卓越架構(gòu)技術(shù)框架與實踐目錄RES04-01定義應(yīng)用系統(tǒng)的容災(zāi)目標RPO與RTO RES04-02部署容災(zāi)系統(tǒng)以滿足容災(zāi)目標 RES04-03容災(zāi)恢復(fù)過程自動化 RES04-04定期進行容災(zāi)演練,以檢查恢復(fù)能否滿足容災(zāi)目標 212.5.5RES05網(wǎng)絡(luò)高可用 概述 RES05-01網(wǎng)絡(luò)連接高可用 RES05-02避免暴露不必要的網(wǎng)絡(luò)地址 23RES05-03不同流量模型業(yè)務(wù)的網(wǎng)絡(luò)共享帶寬隔離 RES05-04預(yù)留IP資源以便擴展及高可用 232.6故障全面檢測 242.6.1RES06故障檢測 概述 RES06-01故障模式分析 24RES06-02面向所有故障進行檢測 RES06-03支持亞健康檢測 2.6.2RES07監(jiān)控告警 概述 RES07-01定義關(guān)鍵指標與閾值并監(jiān)控 27RES07-02日志統(tǒng)計監(jiān)控 28RES07-03監(jiān)控到異常后發(fā)送消息通知 28RES07-04監(jiān)控數(shù)據(jù)存儲和分析 29RES07-05端到端跟蹤請求消息 292.7故障快速恢復(fù) 292.7.1RES08依賴減少與降級 概述 30RES08-01減少強依賴項 RES08-02依賴松耦合 30RES08-03減少被依賴項故障的影響 312.7.2RES09故障重試 31概述 31RES09-01API及命令調(diào)用需要設(shè)計為可重試 31RES09-02客戶端需要根據(jù)綜合評估是否要重試 32RES09-03重試需要避免造成流量壓力 322.7.3RES10故障隔離 32概述 32RES10-01應(yīng)用控制平面與數(shù)據(jù)平面隔離 32RES10-02應(yīng)用系統(tǒng)多位置部署 33RES10-03采用Grid架構(gòu) 33RES10-04健康檢查與自動隔離 352.7.4RES11可靠性測試 35概述 35文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司v華為云卓越架構(gòu)技術(shù)框架與實踐目錄RES11-01混沌測試 35RES11-02壓力負載測試 36RES11-03長穩(wěn)測試 37RES11-04災(zāi)難演練 37RES11-05紅藍攻防 372.7.5RES12應(yīng)急恢復(fù)處理 37概述 38RES12-01組建應(yīng)急恢復(fù)團隊 38RES12-02制定應(yīng)急預(yù)案 RES12-03定期應(yīng)急恢復(fù)演練 38RES12-04出現(xiàn)問題后盡快恢復(fù)業(yè)務(wù) 39RES12-05應(yīng)急恢復(fù)回溯 392.8過載控制 392.8.1RES13過載保護 39概述 39RES13-01采用自動彈性擴縮容 40RES13-02應(yīng)用系統(tǒng)負載均衡,避免流量不均勻 41RES13-03過載檢測與流量控制 41RES13-04支持主動擴容 RES13-05資源自動擴容考慮了配額限制 42RES13-06壓力負載測試 422.9變更防差錯 422.9.1RES14配置防差錯 43概述 43RES14-01變更防呆檢查 RES14-02自動化變更 43RES14-03變更前數(shù)據(jù)備份 44RES14-04提供runbook進行標準化變更 442.9.2RES15升級不中斷業(yè)務(wù) 44概 44RES15-01自動化部署和升級 44RES15-02自動化檢查 44RES15-03自動化回滾 45RES15-04灰度部署和升級 452.10參考架構(gòu) 452.10.1概述 462.10.2內(nèi)部工具或公測類應(yīng)用典型部署架構(gòu)(99%) 462.10.3內(nèi)部知識管理類應(yīng)用典型部署架構(gòu)(99.9%) 472.10.4信息管理類應(yīng)用典型部署架構(gòu)(99.95%) 492.10.5電商類應(yīng)用典型部署架構(gòu)(99.99%) 51單Region方案 51雙Region方案 53文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司vi華為云卓越架構(gòu)技術(shù)框架與實踐目錄2.10.6金融類核心應(yīng)用典型部署架構(gòu)(99.999%) 542.10.7跨云場景典型部署架構(gòu)(99.99%) 56概述 56跨云容災(zāi)方案 57跨云雙活方案 582.11云服務(wù)可靠性介紹 2.11.1概述 2.11.2ECS彈性云服務(wù)器 可靠性功能 62常見故障模式 632.11.3BMS裸金屬服務(wù)器 64可靠性功能 64常見故障模式 652.11.4CCE云容器引擎 65可靠性功能 66常見故障模式 672.11.5ELB彈性負載均衡 67可靠性功能 68常見故障模式 2.11.6AS彈性伸縮 可靠性功能 68常見故障模式 2.11.7DCS分布式緩存服務(wù) 可靠性功能 69常見故障模式 702.11.8DMS分布式消息服務(wù) 71可靠性功能 71常見故障模式 712.11.9RDS云數(shù)據(jù)庫 72可靠性功能 72常見故障模式 732.11.10云數(shù)據(jù)庫TaurusDB云數(shù)據(jù)庫 73可靠性功能 73常見故障模式 742.11.11OBS對象存儲服務(wù) 75可靠性功能 75常見故障模式 76 773.1概述 773.1.1安全性支柱簡介 773.1.2責任共擔模型 783.2基本概念 78文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司vii華為云卓越架構(gòu)技術(shù)框架與實踐目錄3.2.1概念表 793.2.2概念模型 803.3設(shè)計原則 813.4問題和檢查項 833.5云安全治理策略 843.5.1SEC01云安全治理策略 84SEC01-01建立安全管理團隊 84SEC01-02建立安全基線 SEC01-03梳理資產(chǎn)清單 SEC01-04分隔工作負載 86SEC01-05實施威脅建模分析 87SEC01-06識別并驗證安全措施 883.6基礎(chǔ)設(shè)施安全 883.6.1SEC02身份認證 88SEC02-01對賬號進行保護 89SEC02-02安全的登錄機制 89SEC02-03安全管理及使用憑證 90SEC02-04一體化身份管理 903.6.2SEC03權(quán)限管理 91SEC03-01定義權(quán)限訪問要求 91SEC03-02按需分配合適的權(quán)限 SEC03-03定期審視權(quán)限 92SEC03-04安全共享資源 923.6.3SEC04網(wǎng)絡(luò)安全 93SEC04-01對網(wǎng)絡(luò)劃分區(qū)域 93SEC04-02控制網(wǎng)絡(luò)流量的訪問 SEC02-03網(wǎng)絡(luò)訪問權(quán)限最小化 943.6.4SEC05運行環(huán)境安全 SEC05-01云服務(wù)安全配置 95SEC05-02實施漏洞管理 96SEC05-03減少資源的攻擊面 96SEC05-04密鑰安全管理 97SEC05-05證書安全管理 97SEC05-06使用托管云服務(wù) 983.7應(yīng)用安全 993.7.1SEC06應(yīng)用安全性 99SEC06-01安全合規(guī)使用開源軟件 99SEC06-02建立安全編碼規(guī)范 99SEC06-03實行代碼白盒檢視 100SEC06-04應(yīng)用安全配置 101SEC06-05執(zhí)行滲透測試 1013.8數(shù)據(jù)安全與隱私保護 101文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司viii華為云卓越架構(gòu)技術(shù)框架與實踐目錄3.8.1SEC07通用數(shù)據(jù)安全 101SEC07-01識別工作負載內(nèi)的數(shù)據(jù) 102SEC07-02數(shù)據(jù)保護控制 102SEC07-03對數(shù)據(jù)操作實施監(jiān)控 103SEC07-04靜態(tài)數(shù)據(jù)的加密 103SEC07-05傳輸數(shù)據(jù)的加密 1043.8.2SEC08數(shù)據(jù)隱私保護 104SEC08-01明確隱私保護策略和原則 105SEC08-02主動通知數(shù)據(jù)主體 106SEC08-03數(shù)據(jù)主體的選擇和同意 106SEC08-04數(shù)據(jù)收集合規(guī)性 107SEC08-05數(shù)據(jù)使用、留存和處置合規(guī)性 107SEC08-06向第三方披露個人數(shù)據(jù)合規(guī)性 108SEC08-07數(shù)據(jù)主體有權(quán)訪問其個人隱私數(shù)據(jù) 1083.9安全運營 1093.9.1SEC09安全感知及分析 109SEC09-01實施標準化管理日志 109SEC09-02安全事件記錄及分析 109SEC09-03實施安全審計 110SEC09-04安全態(tài)勢感知 1103.9.2SEC10安全事件響應(yīng) 111SEC10-01建立安全響應(yīng)團隊 111SEC10-02制定事件響應(yīng)計劃 111SEC10-03自動化響應(yīng)安全事件 112SEC10-04安全事件演練 114SEC10-05建立復(fù)盤機制 1153.10參考架構(gòu) 1163.10.1組織級參考架構(gòu) 1163.10.2工作負載級參考架構(gòu) 1193.11安全性云服務(wù)介紹 121 1234.1性能效率支柱簡介 1234.2基礎(chǔ)概念 1244.3設(shè)計原則 1244.4問題和檢查項 1254.5PERF01流程與規(guī)范 1264.5.1全生命周期性能管理 126PERF01-01全生命周期性能管理 1264.5.2應(yīng)用性能編程規(guī)范 127PERF01-02應(yīng)用性能編程規(guī)范 1274.6PERF02性能規(guī)劃 1284.6.1性能規(guī)劃 128文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司ix華為云卓越架構(gòu)技術(shù)框架與實踐目錄PERF02-01定義性能目標 128PERF02-02容量規(guī)劃 1294.7PERF03性能建模 1304.7.1選擇合適的計算資源 130PERF03-01選擇合適類型的計算云服務(wù) 130PERF03-02選擇合適規(guī)格的虛擬機和容器節(jié)點 131PERF03-03使用彈性伸縮 1314.7.2選擇合適網(wǎng)絡(luò)服務(wù)資源 133PERF03-04選擇合適類型的網(wǎng)絡(luò)云服務(wù) 1334.7.3選擇合適的存儲云服務(wù) 134PERF03-05選擇合適類型的存儲云服務(wù) 1344.7.4選擇合適的應(yīng)用中間件云服務(wù)資源 136PERF03-06選擇合適的消息隊列 136PERF03-07選擇合適的Kafka 136PERF03-08選擇合適的RocketMQ 137PERF03-09選擇合適的RabbitMQ 1374.7.5選擇合適的數(shù)據(jù)庫資源 137PERF03-10選擇合適的關(guān)系型數(shù)據(jù)庫 138PERF03-11選擇合適的非關(guān)系型數(shù)據(jù)庫 1384.8PERF04性能分析 1394.8.1性能測試 139PERF04-01定義驗收標準 140PERF04-02選擇合適的測試方式 140PERF04-03性能測試步驟 1404.8.2性能數(shù)據(jù)采集 143PERF04-04資源性能數(shù)據(jù)收集 143PERF04-05應(yīng)用性能數(shù)據(jù)采集 1434.8.3建立性能可觀測性體系 144PERF04-06建立性能可觀測性體系 1444.9PERF05性能優(yōu)化 1444.9.1設(shè)計優(yōu)化 144PERF05-01設(shè)計優(yōu)化 1444.9.2算法優(yōu)化 146PERF05-02通用算法優(yōu)化 1464.9.3資源優(yōu)化 147PERF05-03WEB場景資源優(yōu)化 147PERF05-04大數(shù)據(jù)場景資源優(yōu)化 1474.10PERF06性能看護 1484.10.1性能看護 148PERF06-01分層看護 148PERF06-02性能劣化自動定界定位 149PERF06-03自動告警 149文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司x華為云卓越架構(gòu)技術(shù)框架與實踐目錄4.11云服務(wù)性能優(yōu)化介紹 1504.11.1緩存性能優(yōu)化 1504.11.2消息隊列性能優(yōu)化 154Kafka性能優(yōu)化 154RabbitMQ性能優(yōu)化 1574.11.3Serverless性能優(yōu)化 1594.11.4數(shù)據(jù)庫性能優(yōu)化 1624.11.5人工智能性能優(yōu)化 1634.11.6大數(shù)據(jù)性能優(yōu)化 165HIVE優(yōu)化 166Spark性能優(yōu)化 168Flink性能優(yōu)化 169 1715.1成本優(yōu)化支柱簡介 1715.2基礎(chǔ)概念 1715.3設(shè)計原則 1725.4問題和檢查項 1735.5COST01規(guī)劃成本優(yōu)化相應(yīng)的組織機構(gòu)和流程 1745.5.1COST01-01規(guī)劃企業(yè)組織,將組織結(jié)構(gòu),流程和成本管理相匹配 1745.5.2COST01-02規(guī)劃IT治理體系,提高管理效率 1745.5.3COST01-03明確團隊責任,建立和維護成本意識文化 1755.5.4COST01-04制定云資源管理策略和相應(yīng)的權(quán)限管理機制 1755.6COST02實施預(yù)算規(guī)劃管理機制 1755.6.1COST02-01建立云預(yù)算與預(yù)測流程 1755.6.2COST02-02精細化預(yù)算管理和跟蹤 1765.7COST03對成本進行分配 1765.7.1COST03-01制定成本分攤原則 1765.7.2COST03-02可視化成本分攤結(jié)果 1775.7.3COST03-03公共成本分配 1775.8COST04持續(xù)進行成本治理 1785.8.1COST04-01建立規(guī)范,持續(xù)提升成本分配比例 1785.8.2COST04-02主動監(jiān)控成本 1795.9COST05優(yōu)化指定策略和目標 1795.9.1COST05-01分析業(yè)務(wù)趨勢和優(yōu)化收益 1795.9.2COST05-02建立可以量化的優(yōu)化目標 1805.9.3COST05-03定期回顧和審核 1805.10COST06使用不同計費模式優(yōu)化成本 1815.10.1COST06-01了解云上不同計費模式的特點 1815.10.2COST06-02為工作負載選擇合適的計費模式 1815.10.3COST06-03跟蹤并監(jiān)控權(quán)益商品的使用情況 1825.11COST07管理和優(yōu)化資源 1825.11.1COST07-01持續(xù)監(jiān)控資源利用率指標 182文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司xi華為云卓越架構(gòu)技術(shù)框架與實踐目錄5.11.2COST07-02釋放閑置資源 1825.11.3COST07-03考慮不同的云資源技術(shù)選型 1825.11.4COST07-04合理降配低負載資源或升配高負載資源 1835.12COST08進行架構(gòu)優(yōu)化 1835.12.1COST08-01按地域規(guī)劃應(yīng)用架構(gòu) 5.12.2COST08-02云原生架構(gòu)改造 1835.12.3COST08-03存算分離 1835.12.4COST08-04Serverless探索 1845.13成本優(yōu)化云服務(wù)介紹 184 6.1卓越運營支柱簡介 1856.2基礎(chǔ)概念 1856.3設(shè)計原則 1876.4問題和檢查項 1886.5OPS01建立持續(xù)改進的團隊文化和標準化的運維體系 1896.5.1OPS01-01建立持續(xù)學(xué)習(xí)和改進的文化 1896.5.2OPS01-02規(guī)劃標準化的運維組織 1896.5.3OPS01-03規(guī)劃標準化的運維流程和運維工具 1906.6OPS02通過CI/CD實現(xiàn)高效的頻繁可逆的小規(guī)模變更 1916.6.1OPS02-01進行需求管理和迭代開發(fā) 1916.6.2OPS02-02關(guān)聯(lián)源代碼版本和部署的應(yīng)用版本,使用代碼質(zhì)量最佳實踐 1916.7OPS03完備的測試驗證體系 1926.7.1OPS03-01推行開發(fā)者測試 1926.7.2OPS03-02使用多個環(huán)境進行集成測試,構(gòu)建和生產(chǎn)環(huán)境相同的預(yù)生產(chǎn)環(huán)境 1926.7.3OPS03-03進行性能壓測 1936.7.4OPS03-04對生產(chǎn)環(huán)境進行撥測 6.7.5OPS03-05進行混沌測試和演練 1946.8OPS04自動化構(gòu)建和部署流程 1956.8.1OPS04-01有效落地持續(xù)集成 1956.8.2OPS04-02采用持續(xù)部署模型 1956.8.3OPS04-03基礎(chǔ)設(shè)施即代碼 1966.8.4OPS04-04自動化工程運維任務(wù) 1966.9OPS05運維準備和變更管理 1976.9.1OPS05-01進行生產(chǎn)準備度評審(ProductReadinessReview) 1986.9.2OPS05-02進行變更風控 1986.9.3OPS05-03定義變更流程 1986.10OPS06可觀測性體系 1996.10.1OPS06-01建立可觀測性體系 1996.10.2OPS06-02定義可觀測對象 2006.10.3OPS06-03制定和實施可觀測性指標 2016.10.4OPS06-04規(guī)范化應(yīng)用日志 2026.10.5OPS06-05實施依賴項遙測 202文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司xii華為云卓越架構(gòu)技術(shù)框架與實踐目錄6.10.6OPS06-06實施分布式跟蹤 2036.10.7OPS06-07通過可觀測性指標引入自動化措施 2036.11OPS07進行故障分析和管理 2036.11.1OPS07-01創(chuàng)建可操作的告警 2036.11.2OPS07-02創(chuàng)建監(jiān)控看板 2046.11.3OPS07-03支持事件管理 2046.11.4OPS07-04支持故障恢復(fù)流程 2046.12OPS08度量運營狀態(tài)和持續(xù)改進 2056.12.1OPS08-01使用度量指標衡量運營目標 2056.12.2OPS08-02進行事故復(fù)盤和改進 2056.12.3OPS08-03知識管理 2066.13參考案例 2066.13.1通過AOM助力系統(tǒng)運維能力提升,降低運維成本與難度 2066.13.2基于LTS采集多類端側(cè)日志,問題全鏈路追蹤分析和業(yè)務(wù)運營分析 2076.13.3LTS助力某公司高效完成日常業(yè)務(wù)運維與等保合規(guī) 2086.14卓越運營云服務(wù)介紹 2096.14.1軟件開發(fā)生產(chǎn)線(CodeArts) 2096.14.2資源編排服務(wù)(RFS) 2106.14.3云運維中心(COC) 2106.14.4云監(jiān)控中心(CES) 2116.14.5云日志服務(wù)(LTS) 2126.14.6應(yīng)用運維管理(AOM2.0) 2126.14.7應(yīng)用性能管理(APM) 2136.14.8云堡壘機(CBH) 2136.14.9應(yīng)用管理與運維平臺(ServiceStage) 2136.14.10多活高可用(MAS) 213文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司1華為云卓越架構(gòu)技術(shù)框架與實踐1卓越架構(gòu)技術(shù)框架簡介1卓越架構(gòu)技術(shù)框架簡介卓越架構(gòu)技術(shù)框架(Well-ArchitectedFramework)聚焦客戶業(yè)務(wù)上云后的關(guān)鍵問題的設(shè)計指導(dǎo)和最佳實踐。以華為公司和業(yè)界最佳實踐為基礎(chǔ),以韌性、安全性、性能效率、成本優(yōu)化與卓越運營五個架構(gòu)關(guān)注點為支柱,打造領(lǐng)先的卓越架構(gòu)技術(shù)框架,支撐客戶完成云架構(gòu)設(shè)計、云架構(gòu)治理體系建設(shè)、研發(fā)生產(chǎn)力提升、現(xiàn)代化應(yīng)用構(gòu)建及運營運維體系建設(shè)等關(guān)鍵問題解決。架構(gòu)支柱●韌性支柱:旨在幫助企業(yè)構(gòu)建具有高可用的應(yīng)用系統(tǒng)架構(gòu),提高工作負載的韌性,使之在面對各種異常場景時仍能提供和維持可接受的服務(wù)水平。韌性支柱結(jié)合了華為公司韌性設(shè)計經(jīng)驗和業(yè)界最佳實踐,總結(jié)并提煉出一系列設(shè)計原則與最佳實踐,用以幫助企業(yè)利用華為云平臺基礎(chǔ)設(shè)施達到高可用、面向各種故障場景進行韌性設(shè)計,并具備一定的災(zāi)備能力;同時通過規(guī)范化變更、部署及應(yīng)急恢復(fù)等處理流程,減少業(yè)務(wù)中斷時長,提升可用性?!癜踩灾е褐荚诖_保業(yè)務(wù)的安全、可信、合規(guī),通過一系列華為云架構(gòu)的最佳實踐保護工作負載免受各種安全威脅,降低安全風險。安全性支柱涉及保護云上系統(tǒng)、資產(chǎn)、數(shù)據(jù)的機密性、完整性、可用性以及合法、合規(guī)使用數(shù)據(jù),保護用戶隱私的一系列最佳實踐?!裥阅苄手е壕劢褂谌绾卧O(shè)計出高性能的架構(gòu)。作為基本的質(zhì)量屬性,性能的重要性和性能失敗后果的嚴重性是無須質(zhì)疑的。性能效率支柱為性能設(shè)計、性能優(yōu)化提供一些技術(shù)方法和手段,可以用于系統(tǒng)的軟件性能工程,也可用于指導(dǎo)性能調(diào)整和優(yōu)化?!癯杀緝?yōu)化支柱:專注于幫助企業(yè)高效地使用云服務(wù)來構(gòu)建工作負載,面向工作負載的整個生命周期不斷完善和改進,減少不必要的開支并提升運營效率,讓云上應(yīng)用始終最具成本效益。成本優(yōu)化支柱結(jié)合了華為公司云成本運營經(jīng)驗和業(yè)界最佳實踐總結(jié)提煉出的體系化實踐建議?!褡吭竭\營支柱:融合了這些優(yōu)秀實踐,聚焦如何正確地構(gòu)建軟件,高效地運維軟件,持續(xù)提供卓越的客戶體驗,包含:組織團隊、設(shè)計工作負載、大規(guī)模運營工作負載和隨時間變化改進工作負載的最佳實踐。華為云卓越架構(gòu)技術(shù)框架與實踐1卓越架構(gòu)技術(shù)框架簡介文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司2應(yīng)用場景●云架構(gòu)治理體系建設(shè)云平臺將虛擬化、數(shù)據(jù)庫與中間件、大數(shù)據(jù)與AI等技術(shù)融合業(yè)界最佳實踐,以托管云服務(wù)的方式提供企業(yè)使用。隨著業(yè)務(wù)上云,企業(yè)將不受限于自身的技術(shù)能力使用先進IT技術(shù),企業(yè)可以基于先進的云平臺與WA方法論,構(gòu)建現(xiàn)代化架構(gòu)治理體系,使能組織、流程、工具和產(chǎn)品,讓企業(yè)在數(shù)字化時代處于領(lǐng)先地位。云架構(gòu)治理體系不同于傳統(tǒng)IT架構(gòu)治理體系,通過現(xiàn)代化云平臺及輕量化治理體系,使能業(yè)務(wù)安全、強韌性、資源高效、成本最優(yōu)、敏捷創(chuàng)新?!裨萍軜?gòu)設(shè)計由于云平臺封裝了底層軟件技術(shù)的復(fù)雜度,讓企業(yè)可以更聚焦業(yè)務(wù)應(yīng)用設(shè)計。云架構(gòu)設(shè)計鼓勵以領(lǐng)域驅(qū)動設(shè)計(DDD)為架構(gòu)設(shè)計起點,結(jié)合不同視角的架構(gòu)視圖,融入韌性、安全性、性能效率、成本和運營支柱,真正將云架構(gòu)關(guān)注點融入到架構(gòu)設(shè)計過程中?!裨萍軜?gòu)審視隨著業(yè)務(wù)需求和技術(shù)發(fā)展的變化,系統(tǒng)的架構(gòu)也需要不斷演進和優(yōu)化。通過對照卓越架構(gòu)技術(shù)框架的最佳實踐,架構(gòu)師對工作負載的架構(gòu)進行全面、系統(tǒng)的評估,確保架構(gòu)符合最新的需求、規(guī)范,符合最新的云上最佳實踐。架構(gòu)審視是一個持續(xù)的過程,建議在關(guān)鍵里程碑點進行審視或定期例行(如每半年一次)審視?!裱邪l(fā)生產(chǎn)力提升基于云的應(yīng)用研發(fā),技術(shù)、工具和工程實踐都有很高的成熟度。業(yè)務(wù)上云后,基于云最佳實踐升級工具鏈,改造研發(fā)流程,提升研發(fā)團隊基于云的研發(fā)能力,引入先進的DevSecOps體系和確定性運維體系將大幅度提升企業(yè)的生產(chǎn)力,真正做到業(yè)務(wù)敏捷。基于華為公司20年的數(shù)字化實踐和數(shù)百萬企業(yè)客戶的服務(wù)經(jīng)驗,華為云吸收業(yè)界先DevSecOps理念精華,提煉出DevSecOps質(zhì)量效能管理體系典型特征,同時以價值流創(chuàng)造為核心,摸索出了一套行之有效的質(zhì)量效能方法論和最佳實踐?!駱?gòu)建高韌性、高可用的應(yīng)用程序華為公司結(jié)合內(nèi)部韌性設(shè)計經(jīng)驗和業(yè)界最佳實踐,總結(jié)并提煉出一系列體系化設(shè)計原則與最佳實踐:–幫助客戶利用華為云平臺基礎(chǔ)設(shè)施達到高可用、面向各種失敗場景進行設(shè)計,并具備一定的災(zāi)備能力。–通過規(guī)范化變更、部署及應(yīng)急恢復(fù)等處理流程,減少業(yè)務(wù)中斷時長,提升可用性?!癜踩弦?guī)體系建設(shè)云安全已經(jīng)成為多維度的全球性挑戰(zhàn),華為云卓越架構(gòu)技術(shù)框架結(jié)合業(yè)界先進的云安全理念和積累的網(wǎng)絡(luò)安全經(jīng)驗和優(yōu)勢,參考世界領(lǐng)先的CSP優(yōu)秀安全實踐、摸索出了一整套行之有效的云安全戰(zhàn)略和實踐。并且已經(jīng)構(gòu)建起多維立體、縱深防御和合規(guī)遵從的基礎(chǔ)設(shè)施架構(gòu),用以支撐并不斷完善涵蓋了IaaS、PaaS和SaaS等具有優(yōu)良安全功能的常用云服務(wù)。●確定性運維體系建設(shè)IT運維行業(yè)正在面臨著顛覆性的變化,我們正在從保障設(shè)備穩(wěn)定的防守型運維轉(zhuǎn)向支撐業(yè)務(wù)敏捷的進攻型運維,從關(guān)注自身網(wǎng)絡(luò)轉(zhuǎn)向關(guān)注客戶應(yīng)用,從系統(tǒng)維護工程師轉(zhuǎn)向研發(fā)工程師,這個轉(zhuǎn)型的過程對運維提出艱巨挑戰(zhàn)的同時,也給每個組織和個人提供了難得的發(fā)展機會。華為云SRE過去構(gòu)建了一些能力,也還在持續(xù)解決新的挑戰(zhàn),我們已經(jīng)構(gòu)建了一套質(zhì)量管理機制、一套運維平臺、一支全球?qū)<谊犖椋匾氖牵覀円呀?jīng)和很多客戶一起開展了面向應(yīng)用視角的穩(wěn)定性提文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司3升工作,助力客戶提升應(yīng)用穩(wěn)定性,從應(yīng)用層到平臺底層,在成本、質(zhì)量、效率中尋找最優(yōu)方案?!裨曝攧?wù)體系(FinOps)建設(shè)FinOps是“Finance”和“DevOps”的結(jié)合,目的是解決企業(yè)管理云成本難題。FinOps基金會將FinOps定義為“不斷發(fā)展的云財務(wù)管理紀律和文化實踐,通過幫助工程、財務(wù)、技術(shù)和業(yè)務(wù)團隊在數(shù)據(jù)驅(qū)動的支出決策上進行協(xié)作,使組織獲得最大的業(yè)務(wù)價值”。企業(yè)云資源消費貫穿用云的整個過程,管理云成本也需要持續(xù)迭代優(yōu)化。FinOps框架提出三階段(可視、優(yōu)化、持續(xù)運營)實踐模型,指導(dǎo)企業(yè)持續(xù)優(yōu)化。在優(yōu)化時,F(xiàn)inOps指導(dǎo)企業(yè)找到成本、質(zhì)量與效率的平衡,避免企業(yè)為了極低成本導(dǎo)致業(yè)務(wù)效率和穩(wěn)定性受影響。在一個公司內(nèi)部業(yè)務(wù)團隊眾多,各團隊實踐FinOps進展不一,不同團隊可能處于不同的階段。FinOps指導(dǎo)企業(yè)通過多團隊協(xié)作和基于數(shù)據(jù)決策,精細化管理云成本。各業(yè)務(wù)團隊成本可視,主動控制不超支不浪費;企業(yè)基于數(shù)據(jù)決策云投資,保障企業(yè)核心業(yè)務(wù)和戰(zhàn)略業(yè)務(wù)方向的支出。企業(yè)應(yīng)用FinOps后,持續(xù)降低單位業(yè)務(wù)成本?!駪?yīng)用優(yōu)化當前,企業(yè)大量的存量應(yīng)用逐漸成為業(yè)務(wù)發(fā)展的阻礙,老舊、復(fù)雜、僵化的系統(tǒng)難以更新,昂貴的基礎(chǔ)設(shè)施維護成本高,繁雜的部署過程也給發(fā)布加上了沉重的枷鎖,導(dǎo)致發(fā)布緩慢,現(xiàn)有的架構(gòu)和技術(shù)無法很好地適應(yīng)現(xiàn)代軟件開發(fā),這些問題都對企業(yè)的發(fā)展帶來新的挑戰(zhàn)。但對于大多數(shù)企業(yè)來說,這些應(yīng)用仍然是公司價值鏈的重要組成部分,為企業(yè)提供核心功能和數(shù)據(jù)。對負責存量應(yīng)用處理的開發(fā)和運營人員來說,同樣面臨諸多挑戰(zhàn):日益復(fù)雜的IT環(huán)境、不斷增加的“技術(shù)債務(wù)”、有限的技能以及安全風險等,這些問題都將成為企業(yè)無法快速創(chuàng)新和實現(xiàn)業(yè)務(wù)目標的潛在風險。卓越架構(gòu)技術(shù)框架(Well-ArchitectedFramework)將為企業(yè)提供優(yōu)化建議,企業(yè)結(jié)合實施策略,有選擇有節(jié)奏的優(yōu)化應(yīng)用,以提升存量應(yīng)用的韌性、安全性、性能及資源利用率,適應(yīng)現(xiàn)代化軟件開發(fā),降低運營成本。●伙伴能力標簽認證華為云合作伙伴能力標簽(簡稱能力標簽)是華為云合作伙伴達到能力標準后獲得的標識,華為云定義并維護能力標簽的全集。合作伙伴通過學(xué)習(xí)卓越架構(gòu)技術(shù)框架(Well-ArchitectedFramework理解并參考各支柱的云上最佳實踐,以獲取更專業(yè)的云架構(gòu)設(shè)計知識。在構(gòu)建解決方案或給客戶提供專業(yè)服務(wù)的過程中,合作伙伴應(yīng)用這些最佳實踐,持續(xù)提升架構(gòu)設(shè)計質(zhì)量、持續(xù)完善工作負載。合作伙伴提交實際的客戶案例并經(jīng)過華為云審核通過后,可獲得相應(yīng)領(lǐng)域、場景或行業(yè)的能力標簽認證。文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司4華為云卓越架構(gòu)技術(shù)框架與實踐2韌性支柱2韌性支柱2.1韌性支柱簡介韌性支柱旨在幫助企業(yè)構(gòu)建具有高可用的應(yīng)用系統(tǒng)架構(gòu),提高工作負載的韌性,使之在面對各種異常場景時仍能提供和維持可接受的服務(wù)水平。韌性支柱結(jié)合了華為公司韌性設(shè)計經(jīng)驗和業(yè)界最佳實踐,總結(jié)并提煉出一系列設(shè)計原則與最佳實踐,用以幫助企業(yè)利用華為云平臺基礎(chǔ)設(shè)施達到高可用、面向各種故障場景進行韌性設(shè)計,并具備一定的災(zāi)備能力;同時通過規(guī)范化變更、部署及應(yīng)急恢復(fù)等處理流程,減少業(yè)務(wù)中斷時長,提升可用性。華為云韌性支柱的設(shè)計框架如下圖所示:2.2基本概念華為云卓越架構(gòu)技術(shù)框架與實踐2韌性支柱文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司52.2.1概念表概念解釋韌性(Resilience)系統(tǒng)從故障中保持在已知運行狀態(tài)(甚至降級)的能力。在遭遇故障后快速恢復(fù)核心功能和數(shù)據(jù),且在業(yè)務(wù)需要的時間窗內(nèi)恢復(fù)到有效運行狀態(tài)。可靠性(Reliability)產(chǎn)品在規(guī)定的條件下和規(guī)定的時間內(nèi)完成規(guī)定功能的能力。它的概率度量稱為可靠度??捎眯?Availability)產(chǎn)品在任意隨機時刻需要和開始執(zhí)行任務(wù)時,處于可工作或可使用狀態(tài)的程度。它的概率度量稱為可用度云服務(wù)指標ServicelevelIndicator,面向服務(wù)的指標,如:請求響應(yīng)成功率云服務(wù)目標ServiceLevelObject,面向服務(wù)的目標,如:一定時間范圍內(nèi)的請求響應(yīng)成功率大于XX%,或正常運行時間的百分比云服務(wù)協(xié)議等級SLAServiceLevelAgreement,面向用戶的協(xié)議等級,涉及不滿足時的補償數(shù)據(jù)恢復(fù)點RecoveryPointObjective,主要指的是業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量恢復(fù)時間目標RTORecoveryTimeObjective,主要指的是所能容忍的業(yè)務(wù)停止服務(wù)的最長時間,也就是從災(zāi)難發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時間周期。業(yè)界對韌性沒有統(tǒng)一的定義。狹義韌性,指的是自動或快速從故障中恢復(fù)運行的能力;而廣義韌性,除了從故障中恢復(fù)運行的能力外,還包括故障容忍能力。故障容忍(faulttolerance,簡稱“容錯”是使系統(tǒng)在其某些組件中出現(xiàn)一個或多個故障時能夠繼續(xù)提供服務(wù)的能力,從客戶的角度來看,該服務(wù)仍能完全正常運行,或可能降級運行。而可靠性同樣分為狹義可靠性與廣義可靠性。狹義可靠性工程的目標是提高系統(tǒng)無故障運行的能力,即提高可靠性。而廣義可靠性工程的目標除了提高可靠性外,還包括提高從故障中恢復(fù)運行能力,即維修性(maintainability同時還包括其他圍繞故障展開的各種能力,如可用性(availability)、保障性(supportability)等。因此,從廣義韌性與廣義可靠性的定義來看,并沒有顯著區(qū)別。只是可靠性和韌性的側(cè)重點不同??煽啃怨こ痰哪繕耸潜M可能減少系統(tǒng)中的故障,保證系統(tǒng)無故障運行。而韌性工程,接受故障總會發(fā)生的現(xiàn)實,關(guān)注的是如何降低故障帶來的損失以及如何從故障中恢復(fù)。2.2.2什么是應(yīng)用韌性應(yīng)用韌性是應(yīng)用系統(tǒng)在運行過程中面對各種異常場景,如基礎(chǔ)設(shè)施故障(如數(shù)據(jù)庫異常)、外部攻擊(如網(wǎng)絡(luò)DDoS攻擊超出預(yù)定限額流量)、外部依賴故障(如依賴系統(tǒng)訪問超時或不可用)、地域災(zāi)難(如大面積停電、洪水)等,仍能提供和維持可接受的服務(wù)水平的能力,對系統(tǒng)至關(guān)重要。系統(tǒng)韌性設(shè)計主要涉及以下兩個方面:華為云卓越架構(gòu)技術(shù)框架與實踐2韌性支柱文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司6●確保系統(tǒng)具有高可用的架構(gòu),如無單點故障●各種故障場景下的恢復(fù)能力,如數(shù)據(jù)丟失、設(shè)備或站點故障等場景均能恢復(fù)相對于傳統(tǒng)數(shù)據(jù)中心,華為云可以提供具備高可用、彈性伸縮、自動備份、跨AZ容災(zāi)、跨Region容災(zāi)等高可用能力的基礎(chǔ)設(shè)施與云服務(wù),便于客戶構(gòu)建高可靠的系統(tǒng)。例如:●EVS云硬盤、OBS對象存儲采用分布式存儲,可避免單個硬盤、單個服務(wù)器或單個機架等硬件故障的影響?!馬DS數(shù)據(jù)庫提供自動數(shù)據(jù)備份、跨AZ和跨Region的數(shù)據(jù)復(fù)制與切換。不過,即使應(yīng)用系統(tǒng)利用云平臺能力具有了這些高可用能力,要實現(xiàn)較高的可用性,仍需要構(gòu)建針對各種偶發(fā)故障下的恢復(fù)能力,如:●由于硬件故障導(dǎo)致的高可用切換或跨AZ切換過程中,導(dǎo)致瞬時鏈接中斷,需要應(yīng)用系統(tǒng)具備鏈接中斷重試的功能?!裼捎谕獠苛髁客话l(fā)導(dǎo)致業(yè)務(wù)過載,需要應(yīng)用系統(tǒng)具備流量控制的能力?!癫糠謴娨蕾囉谟布呢撦d,如依賴本地硬盤、GPU等,由于硬件故障導(dǎo)致服務(wù)中斷,需要應(yīng)用系統(tǒng)自身構(gòu)建高可用的能力。不同的應(yīng)用系統(tǒng),可用性要求可能不同,采用的韌性恢復(fù)方案會有差異。2.2.3責任共擔模式云上應(yīng)用系統(tǒng)的韌性,依賴于云基礎(chǔ)設(shè)施及應(yīng)用系統(tǒng)本身的韌性,任何一方故障,都可能會導(dǎo)致云上應(yīng)用系統(tǒng)故障;因此需要華為云與客戶共同承擔責任,來保障應(yīng)用系統(tǒng)的韌性?!袢A為云責任:華為云提供高可用的基礎(chǔ)設(shè)施,包括運行華為云服務(wù)的硬件、軟件和機房設(shè)施,并確保服務(wù)可用性滿足SLA服務(wù)等級協(xié)議?!窨蛻糌熑危嚎蛻艨梢詮娜A為云選擇合適的產(chǎn)品并進行可靠性配置以符合應(yīng)用韌性目標,并參考本白皮書中的設(shè)計原則與最佳實踐,充分考慮各種異常場景的檢測和恢復(fù)能力,來構(gòu)建高可用應(yīng)用系統(tǒng)。2.2.4可用性目標定義可用度及SLO可用性是衡量可靠性和韌性的綜合性指標。可用性目標用于衡量應(yīng)用系統(tǒng)的運行時間和停機時間,其表現(xiàn)形式為應(yīng)用系統(tǒng)正常運行的時間占總時間(通常是一個月或一年)的百分比(如99.9%即:可用度=可用時間/總時間*100%常見的簡單表達方式用“9”的數(shù)量或“9”的數(shù)量加“5”表示,如“三個9”表示“99.9%”,而“三個9一個5”表示“99.95%”。系統(tǒng)可用性目標通過服務(wù)等級目標(SLO)定義。不同的應(yīng)用系統(tǒng)對可用性目標是不同的,明確應(yīng)用系統(tǒng)的可用性目標,對于衡量應(yīng)用系統(tǒng)的韌性至關(guān)重要。常見IT系統(tǒng)SLO示意如下:華為云卓越架構(gòu)技術(shù)框架與實踐2韌性支柱文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司7SLO每年最大不可用時間典型IT服務(wù)99%批處理,后臺任務(wù),數(shù)據(jù)抽取99.9%8.76小時內(nèi)部知識管理系統(tǒng),項目跟蹤系統(tǒng)99.95%4.38小時客戶賬戶管理,信息管理99.99%電商,B2Bweb服務(wù),大流量媒體/內(nèi)容網(wǎng)站99.999%銀行,投資,金融,政府,電信,關(guān)鍵企業(yè)應(yīng)用系統(tǒng)的可用度依賴于系統(tǒng)內(nèi)各業(yè)務(wù)單元的可用度。各業(yè)務(wù)單元之間典型的可靠性模型有兩類:●串聯(lián)模型:組成系統(tǒng)的所有單元中任一單元的故障都會導(dǎo)致整個系統(tǒng)故障的稱為串聯(lián)系統(tǒng)。舉例:假定系統(tǒng)存在2個串聯(lián)單元,每個單元的可用度均為99.9%,則系統(tǒng)可用度串聯(lián)系統(tǒng)中系統(tǒng)可用度低于串聯(lián)系統(tǒng)中任一單元的可用度。為提高系統(tǒng)可用度,設(shè)計時需考慮:–盡可能減少串聯(lián)單元數(shù)目–提高單元可靠性,降低其故障率●并聯(lián)模型:組成系統(tǒng)的所有單元都發(fā)生故障時,系統(tǒng)才發(fā)生故障的成為并聯(lián)系統(tǒng)??煽啃詳?shù)學(xué)模型:文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司8舉例:假定系統(tǒng)存在2個并聯(lián)單元,每個單元的可用度均為99.9%,則系統(tǒng)可用度為Rs并聯(lián)可顯著提高系統(tǒng)可用度,典型的并聯(lián)技術(shù)有:主備、集群、雙活或多活等。應(yīng)用系統(tǒng)要達到可用性目標,需對應(yīng)用系統(tǒng)內(nèi)組件及依賴組件進行可用性要求分解,包括:●對依賴組件的可用性要求:通常關(guān)鍵依賴組件需要比其他服務(wù)提高一個9的SLO目標,如應(yīng)用系統(tǒng)SLO目標為99.9%,則關(guān)鍵依賴組件SLO目標要求達到99.99%。●應(yīng)用系統(tǒng)SLO分解:綜合系統(tǒng)SLO、故障頻次、云服務(wù)SLA,分解得出應(yīng)用組件的中斷時長要求,進一步分解得出故障檢測、人工介入、干預(yù)恢復(fù)的時長要求?!襻槍?yīng)用系統(tǒng)內(nèi)薄弱環(huán)節(jié)進行增強:–當云服務(wù)SLA無法滿足要求時,需要應(yīng)用層進行額外的保護和增強。–通過冗余提升可用度:包括組件冗余(負載均衡集群故障回退冗余(fail-back,例如使用DMS訪問失敗時暫時切換到SMN)。災(zāi)難場景通常采用RTO和RPO目標定義:●恢復(fù)時間目標RTO:指災(zāi)難發(fā)生后應(yīng)用不可用的最長時間。RTO決定了應(yīng)用容災(zāi)整體架構(gòu),是采用數(shù)據(jù)備份,還是冷備、溫備、熱備。●恢復(fù)點目標RPO:指災(zāi)難發(fā)生后應(yīng)用數(shù)據(jù)丟失的最大時間。RPO決定了數(shù)據(jù)備份頻率或復(fù)制方式,是在線備份還是離線備份,是同步復(fù)制還是異步復(fù)制。國家標準《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T20988-2007)中災(zāi)難恢復(fù)等級與災(zāi)難恢復(fù)能力等級能力要求1基本支持:基本支持備份介質(zhì)并場外存放2天以上2備用場地支持:有備份場地,能調(diào)配所有資源24小時以上3電子傳輸和設(shè)備支持:關(guān)鍵數(shù)據(jù)定時傳送,備用網(wǎng)絡(luò)部分就緒12小時以上數(shù)小時至1天4電子傳輸及完整設(shè)備支持:少量數(shù)據(jù)丟失,備用數(shù)據(jù)系統(tǒng)就緒,數(shù)據(jù)定時傳送,備用網(wǎng)絡(luò)就緒數(shù)小時至2天數(shù)小時至1天5實時數(shù)據(jù)傳輸及完整設(shè)備支持:數(shù)據(jù)丟失趨于0,備用數(shù)據(jù)系統(tǒng)就緒,遠程數(shù)據(jù)復(fù)制,備用網(wǎng)絡(luò)就緒數(shù)分鐘至2天0至30分鐘6數(shù)據(jù)零丟失和遠程集群支持:數(shù)據(jù)零丟失,自動系統(tǒng)故障切換,遠程磁盤鏡像,備用網(wǎng)絡(luò)active數(shù)分鐘0華為云卓越架構(gòu)技術(shù)框架與實踐2韌性支柱文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司數(shù)據(jù)持久度數(shù)據(jù)持久度是指數(shù)據(jù)不丟失的概率,即存儲在預(yù)計周期內(nèi)不出現(xiàn)數(shù)據(jù)丟失的概率,可以用于度量一個存儲系統(tǒng)的可靠性。其只表示數(shù)據(jù)是否丟失的概率,不體現(xiàn)數(shù)據(jù)丟失多少;數(shù)據(jù)持久度的預(yù)計周期,一般按一年進行預(yù)計。影響存儲數(shù)據(jù)持久度的主要因子有:冗余數(shù)、磁盤失效率與數(shù)據(jù)修復(fù)時間。其中每多一個冗余,數(shù)據(jù)持久度通??稍黾?~3個9;云上常用的對象存儲,一般采用3副本冗余,通??商峁?1~12個9的數(shù)據(jù)持久度。2.2.5可用性需求根據(jù)“常見IT系統(tǒng)SLO示意”中的表格可以得知,不同的IT系統(tǒng),SLO目標是存在差異的,不是所有的應(yīng)用系統(tǒng)都需要達到最高可用性要求。當系統(tǒng)可用性目標要求升高時,所需的成本也通常會增加,因此在可用性目標制定時,需要對韌性與成本進行權(quán)衡,確定真正的可用性需求。在系統(tǒng)的可用性目標明確后,可參考以下韌性最佳實踐來優(yōu)化系統(tǒng),使之滿足可用性2.3設(shè)計原則由于故障不可避免,如硬件故障、軟件錯誤、網(wǎng)絡(luò)延遲、突發(fā)流量等,因此在設(shè)計高可用應(yīng)用系統(tǒng)時,必須考慮所有的硬件及系統(tǒng)包括的軟件都可能會失效,包括IaaS、PaaS、SaaS及應(yīng)用系統(tǒng)本身。韌性設(shè)計的目標不是試圖防止這些故障的發(fā)生,而是為了在這些故障發(fā)生時,能最大程度地減輕故障對系統(tǒng)造成的影響,并持續(xù)穩(wěn)定地運行,建議遵循以下設(shè)計原則。高可用設(shè)計單點故障會導(dǎo)致整個系統(tǒng)崩潰、主要功能受到影響、任務(wù)延誤的系統(tǒng)輕度損壞或存在較大的故障隱患,因此系統(tǒng)的高可用設(shè)計非常關(guān)鍵。高可用設(shè)計的主要手段是冗余,甚至是多級冗余的組合,包括異地容災(zāi)方式保證災(zāi)難情況下無單點:●冗余機制:只要條件允許,需要考慮關(guān)鍵組件的冗余,甚至是多級冗余的組合●異地容災(zāi):例如,兩地三中心,保證災(zāi)難的情況也可以提供業(yè)務(wù)?!駭?shù)據(jù)冗余:可以通過定期備份和多副本備份等方式實現(xiàn)以提高數(shù)持久度,并確保數(shù)據(jù)一致性。冗余的增加,意味著成本的增加;因此在應(yīng)用高可用設(shè)計時需要綜合考慮冗余對成本的影響。故障全面檢測故障檢測是故障管理的前提,檢測全面與檢測快速都很重要,通常情況下故障檢測全比故障檢測快重要。故障檢測涉及以下方面:●檢測范圍:識別并跟蹤檢測所有組件,有重大影響的故障模式需要重點檢測。華為云卓越架構(gòu)技術(shù)框架與實踐2韌性支柱文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司10–亞健康檢測:對不引起系統(tǒng)故障卻導(dǎo)致系統(tǒng)或服務(wù)KPI下降的亞健康異常需要能檢測,如網(wǎng)絡(luò)時延變大、磁盤變慢、內(nèi)存泄露等亞健康故障。–備用檢測:冗余系統(tǒng)中,主備用模塊的故障都需要檢測,避免靜默故障。–有特殊壽命器件:應(yīng)及時監(jiān)控有特殊壽命(如本地硬盤)要求的期間健康狀態(tài),通過提前預(yù)警采取維護錯誤,避免故障的突然發(fā)生造成嚴重影響。●檢測速度:需要根據(jù)業(yè)務(wù)綜合要求,確定合適的檢測速度?!駲z測影響:故障定時檢測的周期,需綜合考慮對CPU占用率的影響和檢測延遲對業(yè)務(wù)恢復(fù)速度的影響?!駲z測模塊要簡單:故障檢測系統(tǒng)、模塊要比被檢測系統(tǒng)、模塊簡單。在檢測到問題后,需要通過監(jiān)控系統(tǒng)及時發(fā)現(xiàn),迅速處理。故障快速恢復(fù)故障恢復(fù)指恢復(fù)產(chǎn)品執(zhí)行規(guī)定功能的能力,一般情況下恢復(fù)越快影響越小。結(jié)合業(yè)務(wù)情況,綜合考慮技術(shù)實現(xiàn)難度、技術(shù)方案復(fù)雜度、成本等設(shè)計合適的故障恢復(fù)方案:●自動恢復(fù):對于影響業(yè)務(wù)的故障,系統(tǒng)應(yīng)盡可能自動恢復(fù)自愈,如保護倒換、局部復(fù)位或系統(tǒng)服務(wù)等?!駜?yōu)先恢復(fù):優(yōu)先對故障發(fā)生概率高、故障影響大的故障進行恢復(fù)?!穹旨墢?fù)位:提供分級復(fù)位設(shè)計,盡可能在更小級別進行復(fù)位,以減少對業(yè)務(wù)的影●無耦合恢復(fù):盡可能做到系統(tǒng)局部故障或各部件啟動順序不影響系統(tǒng)成功啟動?!穹謱颖Wo:系統(tǒng)故障保護要考慮網(wǎng)絡(luò)分層,下層的故障保護倒換要比上層靈敏,防止系統(tǒng)出現(xiàn)乒乓倒換。通過檢測系統(tǒng)運行狀態(tài),或監(jiān)控系統(tǒng)在關(guān)鍵指標,來判斷系統(tǒng)是否發(fā)生故障,并針對故障可進行自動恢復(fù)處理??梢酝ㄟ^故障分析方法分析各種故障模式、影響及危害,設(shè)計對應(yīng)的可靠可用方案,提供冗余、隔離、降級、彈性等能力;并通過故障注入測試(FIT)驗證可靠可用方案的有效性,最大程度提高業(yè)務(wù)的可靠性和可用性。對于某些故障,即使通過各種技術(shù)手段進行冗余和自動恢復(fù)處理,但仍會導(dǎo)致業(yè)務(wù)中斷,需要人工干預(yù),如備份恢復(fù)或災(zāi)難恢復(fù)處理,因此需要建立高效的故障應(yīng)急恢復(fù)處理流程和平臺,以便在故障發(fā)生時,能快速恢復(fù)業(yè)務(wù),減少故障影響。過載控制在系統(tǒng)請求超過系統(tǒng)容量時,會由于資源飽和而導(dǎo)致系統(tǒng)請求失敗,在云中,可以監(jiān)控系統(tǒng)和工作負載的利用率,來自動添加或刪除資源,以維持最佳級別來滿足業(yè)務(wù)需求,而無需過度配置或配置不足。控制業(yè)務(wù)流量一般通過動態(tài)資源管理來實現(xiàn),不建議簡單地使用靜態(tài)門限來達到防過載的目的,有可能造成資源大量浪費,過載設(shè)計應(yīng)該考慮以下方面:●動態(tài)限流:根據(jù)系統(tǒng)資源消耗情況動態(tài)調(diào)整流控門限。●彈性擴縮容:自動檢測系統(tǒng)資源利用率,自動進行添加或刪除資源。華為云卓越架構(gòu)技術(shù)框架與實踐2韌性支柱文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司11●先負載均衡后流控:多個并行處理單元場景下,優(yōu)先考慮負載均衡,避免單個處理單元資源受限導(dǎo)致業(yè)務(wù)受損;然后進行過載控制保護,使得整個系統(tǒng)的處理能力最大化。●及早控制:系統(tǒng)過載時,應(yīng)盡可能在業(yè)務(wù)流程處理前端或業(yè)務(wù)處理較早的處理模塊或底層協(xié)議層次上控制業(yè)務(wù)接入,避免中間控制帶來不必要的性能消耗?!駜?yōu)先級保障:系統(tǒng)過載時保證高優(yōu)先級的業(yè)務(wù)能夠優(yōu)先獲得資源,優(yōu)先得到處理,從而保證社會效益最大化。變更防差錯當對系統(tǒng)進行升級部署、配置變更時,需要防止變更過程中由于人因差錯導(dǎo)致系統(tǒng)和業(yè)務(wù)受損或失效。通常采用防呆的方式來減少人因差錯。防呆是一種預(yù)防矯正的行為約束手段,運用防止錯誤發(fā)生的限制方法,讓操作者不需要花費注意力、也不需要經(jīng)驗與專業(yè)知識,憑借直覺就可準確無誤地完成操作,在許多場景下可以提升效率和使用體驗,也防止損壞更換的成本,因此優(yōu)良的產(chǎn)品中防呆設(shè)計極為基礎(chǔ)而普遍。變更防差錯通常采用以下方案:●角色約束:通過權(quán)限控制設(shè)計預(yù)防對不同角色的配置范圍進行約束,避免越權(quán)配置導(dǎo)致錯誤?!癫楦姆蛛x:通過產(chǎn)品界面設(shè)計將配置界面分層分級,查看與修改分離等降低人為配置失誤風險?!衽渲眯r灒和ㄟ^配置生效機制設(shè)計確保在配置生效前進行必要的檢查,避免錯誤配置生效。通過使用自動化方式進行配置變更處理,可減少人因輸入錯誤的可能。●刪除保護:在刪除資源時增加保護機制,防止誤刪,如:刪除前運行狀態(tài)檢查保護,資源鎖定防止誤刪除,回收站機制等。2.4問題和檢查項企業(yè)在進行應(yīng)用韌性設(shè)計的過程中,推薦使用如下問題尋找自身可以改進的點,并參考檢查項/最佳實踐進行改進,以下所有檢查項,也是最佳實踐建議,將在下一章節(jié)進行詳細描述。問題檢查項/最佳實踐RES01您如何使用冗余技術(shù)確保應(yīng)用系統(tǒng)的高可1.應(yīng)用組件高可用部署2.應(yīng)用組件多位置部署3.云服務(wù)器反親和RES02您如何備份應(yīng)用程1.識別和備份應(yīng)用中所有需要備份的關(guān)鍵數(shù)據(jù)2.自動數(shù)據(jù)備份3.定期進行備份數(shù)據(jù)恢復(fù)華為云卓越架構(gòu)技術(shù)框架與實踐2韌性支柱文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司12問題檢查項/最佳實踐RES03您如何對應(yīng)用程序進行跨AZ災(zāi)難恢復(fù)?1.集群跨AZ部署2.跨AZ數(shù)據(jù)同步3.對接容災(zāi)仲裁,支持自動切換4.支持容災(zāi)管理RES04您如何對應(yīng)用程序進行跨Region或跨云災(zāi)難1.定義應(yīng)用系統(tǒng)的容災(zāi)目標RPO與RTO2.部署容災(zāi)系統(tǒng)以滿足容災(zāi)目標3.容災(zāi)恢復(fù)過程自動化4.定期進行容災(zāi)演練,以檢查恢復(fù)能否滿足容災(zāi)目標RES05您如何保證網(wǎng)絡(luò)高1.網(wǎng)絡(luò)連接高可用2.避免暴露不必要的網(wǎng)絡(luò)地址3.不同流量模型業(yè)務(wù)的網(wǎng)絡(luò)共享帶寬隔離4.預(yù)留IP資源以便擴展和高可用RES06您如何進行故障檢測1.故障模式分析2.面向所有故障進行檢測3.支持亞健康檢測RES07您如何監(jiān)控應(yīng)用系1.定義關(guān)鍵指標與閾值并監(jiān)控3.監(jiān)控到異常后發(fā)送消息通知4.監(jiān)控數(shù)據(jù)存儲和分析5.端到端跟蹤請求消息RES08您如何減少依賴影1.減少強依賴項2.依賴采用松耦合3.減少被依賴項故障的影響1.API以及命令調(diào)用需要設(shè)計為可重試2.客戶端需要根據(jù)綜合評估是否需要重試3.重試需要避免造成流量壓力RES10您如何進行故障隔1.應(yīng)用控制平面與數(shù)據(jù)平面隔離2.應(yīng)用系統(tǒng)多位置部署3.采用Grid架構(gòu)4.健康檢查與自動隔離RES011您如何進行可靠性1.混沌測試2.壓力負載測試3.長穩(wěn)測試4.災(zāi)難演練5.紅藍攻防華為云卓越架構(gòu)技術(shù)框架與實踐2韌性支柱文檔版本01(2026-01-05)版權(quán)所有?華為技術(shù)有限公司13問題檢查項/最佳實踐RES012您如何進行應(yīng)急恢1.組建應(yīng)急恢復(fù)團隊2.制定應(yīng)急預(yù)案3.定期應(yīng)急恢復(fù)演練4.出現(xiàn)問題后盡快恢復(fù)業(yè)務(wù)5.應(yīng)急恢復(fù)回溯RES013您如何進行過載保1.采用自動彈性擴縮容2.應(yīng)用系統(tǒng)負載均衡,避免流量不均勻3.過載檢測與流量控制4.支持主動擴容5.資源自動擴容考慮了配額限制6.壓力負載測試RES14您如何進行配置防1.變更防呆檢查3.變更前數(shù)據(jù)備份4.提供runbook進行標準化變更RES15您如何進行升級不1.自動化部署和升級4.灰度部署和升級2.5高可用設(shè)計概述具有高可用的系統(tǒng)必須避免單點故障,以防由于某個節(jié)點故障而導(dǎo)致整個系統(tǒng)不可用。本節(jié)操作介紹冗余設(shè)計方案來消除單點故障,提高可用性。RES01-01應(yīng)用組件高可用部署應(yīng)用系統(tǒng)內(nèi)的所有組件均需要高可用部署,避免單點故障。●風險等級高●關(guān)鍵策略應(yīng)用系統(tǒng)內(nèi)各組件需要根據(jù)其具體能力,采用不同的高可用部署方案:華為云卓越架構(gòu)技術(shù)框架與實踐2韌性支柱文檔版本01(2026-01-05)版權(quán)所有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 煅白制備工安全技能測試強化考核試卷含答案
- 海關(guān)關(guān)員心理減壓培訓(xùn)
- 海乘禮儀培訓(xùn)
- 銀行內(nèi)部控制審計程序制度
- 酒店員工績效考核與晉升制度
- 酒店客房鑰匙卡流轉(zhuǎn)管理制度
- 超市員工福利及慰問制度
- 流量變現(xiàn)培訓(xùn)
- 校本培訓(xùn)內(nèi)容材料及課件
- 活動培訓(xùn)快剪
- 新媒體評論管理制度規(guī)范(3篇)
- 劑量反應(yīng)曲線的統(tǒng)計分析方法-洞察及研究
- 2025年高職室內(nèi)藝術(shù)設(shè)計(室內(nèi)設(shè)計)試題及答案
- 2025課堂懲罰 主題班會:馬達加斯加企鵝課堂懲罰 課件
- 2025年初會職稱《經(jīng)濟法基礎(chǔ)》真題匯編
- Zippo2024美版年冊完整版
- 統(tǒng)計學(xué)的假設(shè)檢驗課件
- 滬教版(2024)七年級英語下冊單詞默寫單背誦版
- 2025年宜昌化學(xué)真題試卷及答案
- 醫(yī)療質(zhì)量安全培訓(xùn)計劃
- 開工第一課安全生產(chǎn)培訓(xùn)內(nèi)容
評論
0/150
提交評論