版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
服務(wù)器運(yùn)維操作手冊(cè)服務(wù)器運(yùn)維操作手冊(cè)
一、概述
服務(wù)器運(yùn)維操作手冊(cè)旨在為IT運(yùn)維人員提供一套系統(tǒng)化、標(biāo)準(zhǔn)化的服務(wù)器管理流程和操作指南。本手冊(cè)涵蓋服務(wù)器日常監(jiān)控、配置管理、故障排查、安全維護(hù)等核心運(yùn)維工作,通過(guò)規(guī)范化的操作流程,確保服務(wù)器穩(wěn)定運(yùn)行,提高系統(tǒng)可用性,降低運(yùn)維風(fēng)險(xiǎn)。本手冊(cè)適用于具備基本IT知識(shí)的專業(yè)技術(shù)人員,內(nèi)容以實(shí)用性和可操作性為主,結(jié)合常見(jiàn)問(wèn)題提供解決方案。
二、日常運(yùn)維操作
(一)服務(wù)器狀態(tài)監(jiān)控
1.監(jiān)控內(nèi)容
(1)CPU使用率:正常范圍建議控制在70%以下,長(zhǎng)期超過(guò)85%需關(guān)注
(2)內(nèi)存使用率:建議保持在50-80%區(qū)間,超過(guò)90%需考慮擴(kuò)容
(3)磁盤空間:可用空間建議保持20%以上,定期清理臨時(shí)文件
(4)網(wǎng)絡(luò)流量:監(jiān)控入出站帶寬,異常流量可能表示攻擊或配置錯(cuò)誤
(5)系統(tǒng)溫度:服務(wù)器CPU/硬盤溫度應(yīng)控制在50℃-75℃范圍內(nèi)
2.監(jiān)控工具
(1)使用Zabbix/Prometheus等專業(yè)監(jiān)控平臺(tái)
(2)配置自動(dòng)告警閾值(如CPU使用率>90%時(shí)發(fā)送告警)
(3)建立監(jiān)控儀表盤,集中展示關(guān)鍵指標(biāo)
(二)系統(tǒng)維護(hù)
1.定期任務(wù)
(1)日志清理:每周清理舊日志,保留最近3個(gè)月日志
(2)系統(tǒng)更新:每月執(zhí)行2-3次系統(tǒng)補(bǔ)丁更新
(3)數(shù)據(jù)備份:每日?qǐng)?zhí)行完整數(shù)據(jù)備份,每周進(jìn)行恢復(fù)測(cè)試
2.維護(hù)窗口
(1)推薦安排在業(yè)務(wù)低峰期(如凌晨2-4點(diǎn))
(2)重大更新需提前24小時(shí)發(fā)布通知
三、故障排查流程
(一)常見(jiàn)故障類型
1.性能問(wèn)題
(1)CPU飆升:檢查Top命令顯示進(jìn)程,分析資源占用原因
(2)內(nèi)存溢出:分析OOMKiller記錄,優(yōu)化內(nèi)存使用
(3)磁盤I/O緩慢:使用iostat工具檢查磁盤活動(dòng),優(yōu)化SQL查詢或文件系統(tǒng)
2.連接異常
(1)遠(yuǎn)程連接失?。簷z查防火墻規(guī)則、SSH配置
(2)服務(wù)不可用:確認(rèn)端口監(jiān)聽(tīng)狀態(tài)(netstat-tulnp)
(3)DNS解析問(wèn)題:檢查/resolv.conf配置,測(cè)試nslookup
(二)排查步驟
1.標(biāo)準(zhǔn)化流程
(1)收集信息:記錄故障現(xiàn)象、發(fā)生時(shí)間、影響范圍
(2)分析日志:查看系統(tǒng)日志(/var/log/messages)、應(yīng)用日志
(3)定位問(wèn)題:使用strace/tracert等工具追蹤
(4)驗(yàn)證修復(fù):實(shí)施解決方案后測(cè)試功能恢復(fù)情況
(5)記錄總結(jié):形成故障報(bào)告,更新知識(shí)庫(kù)
2.應(yīng)急處理
(1)嚴(yán)重故障(如系統(tǒng)崩潰)需立即啟動(dòng)應(yīng)急預(yù)案
(2)記錄每步操作,便于團(tuán)隊(duì)協(xié)作解決問(wèn)題
四、安全維護(hù)措施
(一)訪問(wèn)控制
1.賬戶管理
(1)禁用root遠(yuǎn)程登錄
(2)使用SSH密鑰認(rèn)證替代密碼認(rèn)證
(3)定期審計(jì)用戶權(quán)限(每月一次)
2.權(quán)限配置
(1)遵循最小權(quán)限原則
(2)重要服務(wù)使用獨(dú)立用戶賬號(hào)
(二)安全加固
1.系統(tǒng)加固
(1)關(guān)閉不必要的服務(wù)(如Telnet、FTP)
(2)配置防火墻規(guī)則(iptables/firewalld)
(3)設(shè)置密碼復(fù)雜度要求
2.定期檢查
(1)每月進(jìn)行安全掃描(如OpenVAS)
(2)檢查開(kāi)放端口和配置弱項(xiàng)
(3)更新安全基線配置
五、備份與恢復(fù)
(一)備份策略
1.備份類型
(1)系統(tǒng)鏡像:每周全量備份
(2)數(shù)據(jù)備份:每日增量備份
(3)應(yīng)用配置:每月完整備份
2.備份方案
(1)本地備份:使用rsync/cpio
(2)遠(yuǎn)程備份:通過(guò)VPN傳輸至備份服務(wù)器
(3)云備份:采用對(duì)象存儲(chǔ)服務(wù)(如AWSS3)
(二)恢復(fù)流程
1.恢復(fù)步驟
(1)準(zhǔn)備恢復(fù)環(huán)境
(2)執(zhí)行備份恢復(fù)命令
(3)驗(yàn)證數(shù)據(jù)完整性(md5校驗(yàn))
(4)測(cè)試服務(wù)功能
2.恢復(fù)測(cè)試
(1)每季度執(zhí)行一次完整恢復(fù)演練
(2)記錄恢復(fù)時(shí)間,優(yōu)化流程效率
六、操作規(guī)范
(一)變更管理
1.變更流程
(1)提交變更申請(qǐng)
(2)評(píng)估風(fēng)險(xiǎn)和影響
(3)安排實(shí)施窗口
(4)變更后驗(yàn)證
(5)文檔更新
2.變更分類
(1)重大變更:需管理層審批
(2)普通變更:技術(shù)主管批準(zhǔn)
(3)緊急變更:事后補(bǔ)辦手續(xù)
(二)文檔管理
1.文檔要求
(1)所有配置變更需記錄在案
(2)重要操作需有截圖或視頻存檔
(3)定期整理更新運(yùn)維文檔
2.存檔規(guī)范
(1)按服務(wù)分類存放文檔
(2)建立版本控制機(jī)制
(3)重要文檔多重備份
七、附錄
(一)常用命令參考
1.系統(tǒng)監(jiān)控
```bash
top-c實(shí)時(shí)CPU占用
vmstat1內(nèi)存和CPU每秒統(tǒng)計(jì)
```
2.網(wǎng)絡(luò)診斷
```bash
netstat-tulnp查看端口監(jiān)聽(tīng)
iperf3-c網(wǎng)絡(luò)性能測(cè)試
```
3.備份工具
```bash
rsync-avz/source/destination--delete
```
(二)故障案例
1.內(nèi)存泄漏排查
(1)分析系統(tǒng)日志找到oom記錄
(2)使用valgrind檢測(cè)程序內(nèi)存問(wèn)題
(3)查看進(jìn)程堆棧定位問(wèn)題代碼
2.磁盤性能優(yōu)化
(1)使用iotop找出I/O占用進(jìn)程
(2)檢查文件系統(tǒng)類型(ext4/xfs)
(3)調(diào)整內(nèi)核參數(shù)(如vm.dirty_ratio)
二、日常運(yùn)維操作
(一)服務(wù)器狀態(tài)監(jiān)控
1.監(jiān)控內(nèi)容
(1)CPU使用率
正常范圍:建議長(zhǎng)期保持在70%以下,短期峰值(如業(yè)務(wù)高峰期)可允許短暫超過(guò)85%,但需關(guān)注是否常態(tài)化。
異常判斷:持續(xù)高于90%通常表示計(jì)算資源不足,需考慮增加CPU資源、優(yōu)化高負(fù)載進(jìn)程或進(jìn)行負(fù)載均衡。
分析重點(diǎn):使用`top-H-o%CPU`或`htop`查看具體是哪個(gè)線程或進(jìn)程占用過(guò)高,結(jié)合業(yè)務(wù)周期判斷是否正常。
示例指標(biāo):對(duì)于處理高并發(fā)請(qǐng)求的應(yīng)用服務(wù)器,峰值CPU使用率可允許達(dá)到95%,但平均負(fù)載需控制在3.0-5.0以下(根據(jù)CPU核心數(shù))。
(2)內(nèi)存使用率
正常范圍:建議保持在50%-80%區(qū)間。內(nèi)存使用過(guò)低(如低于30%)可能未充分利用資源;過(guò)高(持續(xù)超過(guò)90%)則可能導(dǎo)致系統(tǒng)性能下降或OOM(OutOfMemory)Killer啟動(dòng)。
異常判斷:當(dāng)內(nèi)存使用率持續(xù)接近或超過(guò)95%時(shí),應(yīng)優(yōu)先考慮內(nèi)存泄漏問(wèn)題或短期內(nèi)存需求激增。
分析重點(diǎn):使用`free-h`或`vmstat1`觀察內(nèi)存總量、已用量、緩存和交換空間使用情況。特別關(guān)注`SwapIn/Out`次數(shù),頻繁交換表示內(nèi)存不足。
示例指標(biāo):服務(wù)器的物理內(nèi)存為16GB時(shí),可用內(nèi)存建議保持在6GB以上(約35%使用率)。
(3)磁盤空間
關(guān)鍵分區(qū):重點(diǎn)關(guān)注`/`(根目錄)、`/var`、`/tmp`、`/home`等主要數(shù)據(jù)目錄。
正常范圍:各分區(qū)可用空間建議保持20%以上。對(duì)于日志目錄,根據(jù)日志滾動(dòng)策略,可用空間要求可能更高(如50%)。
異常判斷:任何分區(qū)剩余空間低于10%都應(yīng)視為告警,低于5%則可能引發(fā)服務(wù)中斷。
分析重點(diǎn):使用`df-h`或`du-sh/path/to/directory`查找空間占用大戶。定期使用`find/-typef-mtime+30-execls-lh{}\;`等命令查找長(zhǎng)期未刪除的文件。
示例指標(biāo):數(shù)據(jù)庫(kù)數(shù)據(jù)文件所在的`/data`分區(qū),可用空間建議始終保持在30%以上。
(4)網(wǎng)絡(luò)流量
監(jiān)控指標(biāo):包括入站流量(`rx_bytes`)、出站流量(`tx_bytes`)、丟包率(`drops`)、網(wǎng)絡(luò)錯(cuò)誤(`err`)。
正常范圍:流量應(yīng)與業(yè)務(wù)量基本匹配,無(wú)明顯突增或突降。
異常判斷:流量異常激增可能是DDoS攻擊或配置錯(cuò)誤;流量突然中斷需檢查網(wǎng)絡(luò)設(shè)備。
分析重點(diǎn):使用`iftop`、`nload`或監(jiān)控平臺(tái)流量?jī)x表盤,定位異常流量來(lái)源或目標(biāo)端口。關(guān)注特定IP或端口的流量是否異常。
示例指標(biāo):一個(gè)Web服務(wù)器的典型入站流量可能在100-500Mbps范圍內(nèi)波動(dòng),具體取決于帶寬配置和訪問(wèn)量。
(5)系統(tǒng)溫度
監(jiān)控組件:重點(diǎn)關(guān)注CPU、主板的溫度傳感器。
正常范圍:CPU溫度通常在30℃-50℃為佳,高負(fù)載下不超過(guò)75℃,持續(xù)超過(guò)85℃需關(guān)注散熱。
異常判斷:溫度突然升高可能表示散熱系統(tǒng)故障(風(fēng)扇停轉(zhuǎn)、灰塵過(guò)多)或環(huán)境溫度過(guò)高。
分析重點(diǎn):使用`sensors`(Linux)或硬件監(jiān)控工具查看溫度。檢查風(fēng)扇轉(zhuǎn)速是否正常。
示例指標(biāo):在25℃室溫下,高負(fù)載CPU溫度通常在60℃-70℃之間。
2.監(jiān)控工具
(1)專業(yè)監(jiān)控平臺(tái):
Zabbix:功能全面,支持圖形化界面、自動(dòng)告警、觸發(fā)器配置。可通過(guò)Agent主動(dòng)采集數(shù)據(jù)或采用被動(dòng)模式監(jiān)聽(tīng)SNMP/Ping等。
Prometheus+Grafana:開(kāi)源組合,Prometheus負(fù)責(zé)數(shù)據(jù)采集和存儲(chǔ),Grafana負(fù)責(zé)可視化。適合微服務(wù)架構(gòu)。
Nagios:成熟的開(kāi)源監(jiān)控系統(tǒng),支持插件擴(kuò)展,配置相對(duì)復(fù)雜。
Datadog:商業(yè)云監(jiān)控服務(wù),提供豐富的可視化模板和AI分析能力。
(2)自動(dòng)告警配置:
閾值設(shè)置:根據(jù)業(yè)務(wù)重要性設(shè)定合理閾值。例如,CPU使用率>90%為嚴(yán)重告警,>70%為警告。
告警方式:支持郵件、短信(需額外配置)、Webhook、Slack通知等。
告警抑制:配置抑制規(guī)則,避免同類告警短時(shí)間內(nèi)連續(xù)觸發(fā)。
(3)監(jiān)控儀表盤:
內(nèi)容:應(yīng)包含CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)、溫度等關(guān)鍵指標(biāo)的趨勢(shì)圖。
布局:按服務(wù)器類型或區(qū)域分組展示,方便快速定位問(wèn)題。
刷新頻率:根據(jù)需要設(shè)定,關(guān)鍵指標(biāo)可5分鐘或1分鐘刷新一次。
(二)系統(tǒng)維護(hù)
1.定期任務(wù)
(1)日志清理:
目的:釋放磁盤空間,保護(hù)敏感信息。
方法:使用`logrotate`(Linux標(biāo)準(zhǔn)工具)配置日志輪轉(zhuǎn)策略。
策略配置:可設(shè)置輪轉(zhuǎn)次數(shù)、壓縮舊日志、刪除超過(guò)N天的日志等。例如,配置日志每月輪轉(zhuǎn)一次,保留3個(gè)月。
執(zhí)行方式:通常作為cronjob定期執(zhí)行。
(2)系統(tǒng)更新:
內(nèi)容:包括操作系統(tǒng)內(nèi)核補(bǔ)丁、基礎(chǔ)庫(kù)更新、安全修復(fù)等。
工具:使用`yum`/`dnf`(CentOS/RHEL)、`apt`(Debian/Ubuntu)等包管理器。
建議頻率:建議每周執(zhí)行一次檢查更新,每月執(zhí)行一次最小化安全更新。重大版本更新需制定專項(xiàng)計(jì)劃。
注意事項(xiàng):更新前確認(rèn)服務(wù)依賴關(guān)系,重要更新前進(jìn)行備份。
(3)數(shù)據(jù)備份:
類型:根據(jù)重要性選擇全量備份、增量備份或差異備份。
工具:`rsync`(快速同步)、`tar`(打包備份)、`Bacula`/`Veeam`(專業(yè)備份軟件)。
策略:遵循3-2-1備份原則(3份副本,2種介質(zhì),1份異地存儲(chǔ))。
驗(yàn)證:每月至少執(zhí)行一次恢復(fù)測(cè)試,確保備份有效。
2.維護(hù)窗口
(1)時(shí)間選擇:
最佳時(shí)段:業(yè)務(wù)低峰期,通常是深夜(如00:00-04:00)。
考慮因素:需結(jié)合業(yè)務(wù)SLA(服務(wù)等級(jí)協(xié)議)和用戶習(xí)慣。
(2)通知機(jī)制:
提前通知:對(duì)于可能影響服務(wù)的維護(hù),至少提前24小時(shí)發(fā)布通知。
通知渠道:通過(guò)郵件、內(nèi)部公告、即時(shí)通訊群組等方式發(fā)布。
通知內(nèi)容:維護(hù)時(shí)間、影響范圍、預(yù)計(jì)時(shí)長(zhǎng)、聯(lián)系方式。
(3)回滾計(jì)劃:
必要性:所有維護(hù)操作都應(yīng)有回滾方案。
內(nèi)容:記錄操作步驟,準(zhǔn)備回滾命令或腳本。
測(cè)試:在測(cè)試環(huán)境中驗(yàn)證回滾操作的有效性。
三、故障排查流程
(一)常見(jiàn)故障類型
1.性能問(wèn)題
(1)CPU飆升:
診斷步驟:
1.使用`top-H-o%CPU`或`htop`找出占用CPU最高的進(jìn)程。
2.使用`psauxf|grep<pid>`查看該進(jìn)程的詳細(xì)信息和父進(jìn)程。
3.檢查進(jìn)程運(yùn)行日志,分析是否為正常業(yè)務(wù)負(fù)載。
4.使用`strace-p<pid>`或`gdbattach<pid>`深入分析。
5.檢查系統(tǒng)負(fù)載(`uptime`)和I/O(`iostat`),排除資源競(jìng)爭(zhēng)。
常見(jiàn)原因:內(nèi)存泄漏、死循環(huán)、不合理的算法、資源競(jìng)爭(zhēng)(如鎖等待)、惡意攻擊。
(2)內(nèi)存溢出:
診斷步驟:
1.使用`free-m`確認(rèn)內(nèi)存使用情況,檢查`Swap`使用率。
2.查看系統(tǒng)OOM日志(`/var/log/oom.log`或通過(guò)`dmesg|grepOOM`)。
3.使用`ps-eopid,comm,%mem,%cpu--sort=-%mem|head-n10`找出內(nèi)存占用最大的進(jìn)程。
4.分析進(jìn)程內(nèi)存使用模式,使用`massif`(Valgrind工具)或JProfiler(Java應(yīng)用)等工具進(jìn)行內(nèi)存分析。
5.檢查是否有內(nèi)存損壞(使用`memtest86+`)。
常見(jiàn)原因:內(nèi)存泄漏、堆棧溢出、設(shè)計(jì)缺陷、不兼容的庫(kù)。
(3)磁盤I/O緩慢:
診斷步驟:
1.使用`iostat-mx`或`iotop-o`查看磁盤活動(dòng)。
2.檢查磁盤分區(qū)使用率(`df-h`)。
3.使用`vmstat1`查看磁盤讀寫(xiě)速率。
4.分析磁盤I/O模式(順序讀寫(xiě)vs隨機(jī)讀寫(xiě))。
5.檢查是否有大量小文件操作或磁盤碎片。
6.使用`strace`檢查特定進(jìn)程的文件操作。
常見(jiàn)原因:磁盤空間滿、磁盤碎片、磁盤故障、I/O密集型任務(wù)、網(wǎng)絡(luò)延遲(對(duì)于網(wǎng)絡(luò)存儲(chǔ))。
(4)高延遲:
診斷步驟:
1.使用`ping`測(cè)試網(wǎng)絡(luò)連通性和延遲。
2.使用`traceroute`或`mtr`追蹤路由路徑。
3.檢查網(wǎng)絡(luò)設(shè)備(交換機(jī)、路由器)狀態(tài)和配置。
4.使用`netstat-s`檢查網(wǎng)絡(luò)統(tǒng)計(jì)信息(如丟包數(shù))。
5.分析應(yīng)用層延遲(如Web請(qǐng)求慢)。
常見(jiàn)原因:網(wǎng)絡(luò)擁塞、設(shè)備故障、配置錯(cuò)誤、DNS問(wèn)題、服務(wù)器內(nèi)部處理慢。
(5)服務(wù)不可用:
診斷步驟:
1.檢查服務(wù)進(jìn)程是否運(yùn)行(`systemctlstatus<service>`或`psaux|grep<service>`)。
2.檢查端口監(jiān)聽(tīng)狀態(tài)(`netstat-tulnp`)。
3.查看服務(wù)日志(`/var/log/<service>.log`)。
4.檢查依賴服務(wù)是否正常(如數(shù)據(jù)庫(kù)、緩存)。
5.檢查防火墻規(guī)則是否阻止了訪問(wèn)。
常見(jiàn)原因:服務(wù)配置錯(cuò)誤、資源耗盡、依賴服務(wù)故障、網(wǎng)絡(luò)問(wèn)題、代碼Bug。
2.連接異常
(1)遠(yuǎn)程連接失?。?/p>
SSH連接:
診斷步驟:
1.檢查`sshd`服務(wù)狀態(tài)(`systemctlstatussshd`)。
2.檢查`/etc/ssh/sshd_config`配置文件(如`Port`、`PermitRootLogin`)。
3.檢查`/var/log/auth.log`(Debian/Ubuntu)或`/var/log/secure`(CentOS/RHEL)中的認(rèn)證日志。
4.檢查防火墻(`iptables`/`firewalld`)是否允許SSH端口(默認(rèn)22)。
5.檢查`/etc/hosts`和DNS解析是否正常。
常見(jiàn)原因:配置錯(cuò)誤、防火墻阻止、密碼錯(cuò)誤、賬戶被鎖定、網(wǎng)絡(luò)問(wèn)題。
(2)Web服務(wù)不可用:
診斷步驟:
1.檢查Web服務(wù)器進(jìn)程(`apache2`/`nginx`)狀態(tài)。
2.檢查監(jiān)聽(tīng)端口(`netstat-tulnp`)。
3.檢查Web服務(wù)器錯(cuò)誤日志(`/var/log/apache2/error.log`/`/var/log/nginx/error.log`)。
4.檢查Nginx/Apache配置文件是否有語(yǔ)法錯(cuò)誤。
5.檢查網(wǎng)站根目錄和配置文件權(quán)限。
6.檢查反向代理或負(fù)載均衡器配置。
常見(jiàn)原因:配置錯(cuò)誤、資源耗盡、文件損壞、權(quán)限問(wèn)題、中間件故障。
(3)數(shù)據(jù)庫(kù)連接失?。?/p>
診斷步驟:
1.檢查數(shù)據(jù)庫(kù)服務(wù)狀態(tài)(`systemctlstatusmysqld`/`postgresql`)。
2.檢查數(shù)據(jù)庫(kù)日志(錯(cuò)誤日志、慢查詢?nèi)罩荆?/p>
3.檢查`/etc/f`(MySQL)或`postgresql.conf`配置。
4.檢查監(jiān)聽(tīng)端口和防火墻設(shè)置。
5.檢查連接數(shù)是否超過(guò)最大值(`showglobalstatuslike'Max_used_connections';`)。
6.使用`mysqladminping`或`psql-c'select1'"`測(cè)試連接。
常見(jiàn)原因:配置錯(cuò)誤、資源耗盡(CPU/內(nèi)存/IO)、網(wǎng)絡(luò)問(wèn)題、SQL語(yǔ)法錯(cuò)誤、數(shù)據(jù)庫(kù)損壞。
(4)DNS解析問(wèn)題:
診斷步驟:
1.檢查`/etc/resolv.conf`配置的DNS服務(wù)器。
2.使用`nslookup<domain>`或`dig<domain>`測(cè)試解析。
3.檢查DNS服務(wù)器狀態(tài)和負(fù)載。
4.檢查防火墻是否阻止DNS查詢(UDP/TCP53端口)。
5.檢查本地DNS緩存(`nscd`或`systemd-resolved`)。
常見(jiàn)原因:DNS配置錯(cuò)誤、DNS服務(wù)器故障、網(wǎng)絡(luò)問(wèn)題、域名被污染。
(5)無(wú)法訪問(wèn)特定端口:
診斷步驟:
1.使用`netstat-tulnp`確認(rèn)服務(wù)是否在監(jiān)聽(tīng)。
2.使用`ss-tulnp`(更現(xiàn)代的選項(xiàng))。
3.檢查防火墻規(guī)則(`iptables`/`firewalld`)是否允許該端口。
4.檢查SELinux/AppArmor安全模塊配置(如果啟用)。
5.檢查網(wǎng)絡(luò)設(shè)備(防火墻、路由器)是否阻止了該端口。
常見(jiàn)原因:服務(wù)未啟動(dòng)、配置錯(cuò)誤、防火墻阻止、網(wǎng)絡(luò)策略限制。
2.排查步驟
(1)標(biāo)準(zhǔn)化流程:
1.收集信息:
記錄故障現(xiàn)象的詳細(xì)描述。
記錄發(fā)生時(shí)間、持續(xù)時(shí)長(zhǎng)、影響范圍(哪些用戶/服務(wù)受影響)。
收集相關(guān)日志文件(系統(tǒng)日志、應(yīng)用日志、服務(wù)日志)。
收集監(jiān)控?cái)?shù)據(jù)(CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)在故障時(shí)的狀態(tài))。
2.分析日志:
優(yōu)先查看錯(cuò)誤日志。
按照時(shí)間順序分析,定位問(wèn)題發(fā)生點(diǎn)。
對(duì)比正常日志和異常日志的差異。
使用工具(如`grep`、`awk`、日志分析平臺(tái))快速查找關(guān)鍵信息。
3.定位問(wèn)題:
分層排查:從宏觀到微觀,先檢查系統(tǒng)層面,再檢查應(yīng)用層面。
對(duì)比法:與健康服務(wù)器對(duì)比配置、日志、資源使用情況。
隔離法:逐步禁用服務(wù)或模塊,縮小問(wèn)題范圍。
工具輔助:使用`tcpdump`抓包分析網(wǎng)絡(luò)問(wèn)題,使用`strace`跟蹤系統(tǒng)調(diào)用,使用`lsof`查看文件描述符。
4.驗(yàn)證修復(fù):
實(shí)施解決方案后,進(jìn)行功能測(cè)試。
持續(xù)監(jiān)控一段時(shí)間,確認(rèn)問(wèn)題是否徹底解決。
如果問(wèn)題復(fù)現(xiàn),分析原因并調(diào)整方案。
5.記錄總結(jié):
詳細(xì)記錄故障原因、排查過(guò)程、解決方案。
形成知識(shí)庫(kù)文章,供團(tuán)隊(duì)學(xué)習(xí)。
評(píng)估故障影響和恢復(fù)時(shí)間,優(yōu)化應(yīng)急預(yù)案。
(2)應(yīng)急處理:
嚴(yán)重故障定義:系統(tǒng)完全不可用、核心服務(wù)中斷、數(shù)據(jù)丟失風(fēng)險(xiǎn)、安全事件等。
應(yīng)急啟動(dòng)條件:達(dá)到嚴(yán)重故障定義標(biāo)準(zhǔn)時(shí)。
應(yīng)急措施:
1.立即通知相關(guān)團(tuán)隊(duì)成員。
2.檢查是否有備份可用,準(zhǔn)備啟動(dòng)恢復(fù)流程。
3.如果可能,嘗試快速回滾到上一個(gè)穩(wěn)定狀態(tài)。
4.限制訪問(wèn)或啟動(dòng)只讀模式,防止數(shù)據(jù)進(jìn)一步損壞。
5.優(yōu)先保障核心業(yè)務(wù)和關(guān)鍵用戶。
溝通機(jī)制:保持與業(yè)務(wù)部門溝通,告知進(jìn)展和影響。
事后復(fù)盤:應(yīng)急處理結(jié)束后,組織復(fù)盤會(huì)議,總結(jié)經(jīng)驗(yàn)教訓(xùn)。
(二)故障排查流程
1.標(biāo)準(zhǔn)化流程
(1)收集信息:
記錄要點(diǎn):
故障現(xiàn)象描述(如“無(wú)法ping通”、“Web頁(yè)面空白”)
發(fā)現(xiàn)時(shí)間、持續(xù)時(shí)長(zhǎng)
影響范圍(服務(wù)器、服務(wù)、用戶數(shù))
是否有數(shù)據(jù)丟失或損壞跡象
已嘗試的解決步驟及結(jié)果
收集內(nèi)容:
服務(wù)器主機(jī)名/IP
操作系統(tǒng)版本
關(guān)鍵服務(wù)名稱和版本
相關(guān)日志文件(系統(tǒng)、應(yīng)用、數(shù)據(jù)庫(kù))
監(jiān)控截圖或報(bào)告
(2)分析日志:
常用日志位置:
系統(tǒng)日志:`/var/log/messages`、`/var/log/syslog`、`/var/log/dmesg`
Web服務(wù)器:`/var/log/apache2/`、`/var/log/nginx/`
數(shù)據(jù)庫(kù):`/var/log/mysqld.log`、`/var/log/postgresql.log`
應(yīng)用日志:部署目錄下的`logs`文件夾
安全日志:`/var/log/auth.log`、`/var/log/secure`
分析技巧:
使用`grep`、`awk`、`less`、`tail-f`等命令篩選關(guān)鍵信息。
關(guān)注錯(cuò)誤信息(Error)、警告信息(Warning)。
按照時(shí)間順序查找關(guān)聯(lián)日志。
對(duì)比正常日志和異常日志。
檢查日志中提到的文件路徑或進(jìn)程ID,進(jìn)一步追蹤。
(3)定位問(wèn)題:
系統(tǒng)層面檢查:
使用`uptime`、`vmstat`、`iostat`、`free`檢查系統(tǒng)資源。
使用`df`檢查磁盤空間。
使用`netstat`、`ss`檢查網(wǎng)絡(luò)連接和端口。
使用`sensors`檢查硬件溫度。
檢查`/etc/fstab`、`/etc/hosts`、`/etc/resolv.conf`等基礎(chǔ)配置文件。
應(yīng)用層面檢查:
使用`ps`、`top`、`systemctl`檢查服務(wù)狀態(tài)。
使用`netstat`、`ss`檢查應(yīng)用監(jiān)聽(tīng)的端口。
檢查應(yīng)用配置文件。
檢查應(yīng)用數(shù)據(jù)庫(kù)連接。
使用應(yīng)用提供的診斷工具或命令。
網(wǎng)絡(luò)層面檢查:
使用`ping`、`traceroute`、`mtr`檢查網(wǎng)絡(luò)連通性。
使用`netstat-s`檢查網(wǎng)絡(luò)統(tǒng)計(jì)信息(丟包、錯(cuò)誤)。
使用`tcpdump`抓包分析網(wǎng)絡(luò)協(xié)議問(wèn)題。
檢查防火墻規(guī)則、路由配置。
故障排除方法:
分步排查法:從最簡(jiǎn)單、最常見(jiàn)的檢查開(kāi)始(如重啟服務(wù)、檢查配置),逐步深入。
對(duì)比法:與健康服務(wù)器或正常時(shí)期的數(shù)據(jù)對(duì)比。
隔離法:暫時(shí)禁用可疑組件,觀察是否恢復(fù)。
替換法:替換可疑硬件或軟件組件。
縮小范圍法:如果涉及多個(gè)服務(wù),先定位核心問(wèn)題服務(wù)。
(4)驗(yàn)證修復(fù):
驗(yàn)證步驟:
執(zhí)行解決方案后,立即測(cè)試相關(guān)功能。
對(duì)于關(guān)鍵服務(wù),進(jìn)行全面的功能測(cè)試。
檢查相關(guān)日志,確認(rèn)錯(cuò)誤信息已消失。
持續(xù)監(jiān)控一段時(shí)間(至少30分鐘到1小時(shí)),觀察是否復(fù)現(xiàn)問(wèn)題。
通知用戶或業(yè)務(wù)部門確認(rèn)問(wèn)題是否解決。
驗(yàn)證指標(biāo):
服務(wù)是否正常啟動(dòng)并運(yùn)行。
客戶端是否可以正常訪問(wèn)。
性能指標(biāo)是否恢復(fù)到正常水平。
日志中是否不再出現(xiàn)錯(cuò)誤信息。
(5)記錄總結(jié):
記錄內(nèi)容:
故障詳細(xì)描述
排查過(guò)程中的關(guān)鍵發(fā)現(xiàn)
最終解決方案及實(shí)施過(guò)程
失效點(diǎn)和改進(jìn)建議
記錄方式:
更新ITSM系統(tǒng)中的工單。
撰寫(xiě)知識(shí)庫(kù)文章。
在團(tuán)隊(duì)內(nèi)部進(jìn)行經(jīng)驗(yàn)分享。
文檔價(jià)值:
提高團(tuán)隊(duì)整體解決問(wèn)題的能力。
作為未來(lái)故障排查的參考。
優(yōu)化運(yùn)維流程和應(yīng)急預(yù)案。
2.恢復(fù)測(cè)試
(1)測(cè)試目的:
驗(yàn)證備份的可用性和完整性。
確認(rèn)恢復(fù)流程的正確性。
評(píng)估恢復(fù)時(shí)間(RTO)和恢復(fù)點(diǎn)目標(biāo)(RPO)。
發(fā)現(xiàn)恢復(fù)過(guò)程中可能存在的問(wèn)題。
(2)測(cè)試類型:
全量恢復(fù)測(cè)試:完整恢復(fù)系統(tǒng)和數(shù)據(jù)到某個(gè)時(shí)間點(diǎn)。
增量恢復(fù)測(cè)試:僅恢復(fù)自上次全量備份以來(lái)的增量數(shù)據(jù)。
特定服務(wù)恢復(fù)測(cè)試:只恢復(fù)某個(gè)應(yīng)用或服務(wù)。
(3)測(cè)試步驟:
1.選擇合適的測(cè)試環(huán)境(生產(chǎn)環(huán)境之外的測(cè)試服務(wù)器)。
2.準(zhǔn)備測(cè)試所需的恢復(fù)工具和介質(zhì)(備份文件、恢復(fù)軟件)。
3.執(zhí)行恢復(fù)命令或操作。
4.驗(yàn)證恢復(fù)后的數(shù)據(jù)完整性(如`md5sum`校驗(yàn))。
5.啟動(dòng)恢復(fù)的服務(wù)或系統(tǒng)。
6.進(jìn)行功能測(cè)試,確保服務(wù)正常。
7.檢查日志,確認(rèn)無(wú)錯(cuò)誤。
8.記錄恢復(fù)過(guò)程的時(shí)間和遇到的問(wèn)題。
(4)測(cè)試頻率:
至少每季度執(zhí)行一次。
對(duì)于關(guān)鍵系統(tǒng),可增加測(cè)試頻率。
每次備份策略或恢復(fù)流程變更后,應(yīng)進(jìn)行測(cè)試。
(5)測(cè)試記錄:
詳細(xì)記錄測(cè)試時(shí)間、測(cè)試環(huán)境、測(cè)試類型。
記錄實(shí)際恢復(fù)所需時(shí)間。
記錄測(cè)試中發(fā)現(xiàn)的問(wèn)題及解決方案。
更新RTO和RPO評(píng)估。
四、安全維護(hù)措施
(一)訪問(wèn)控制
1.賬戶管理
(1)最小權(quán)限原則:
為每個(gè)賬戶分配完成其任務(wù)所必需的最低權(quán)限。
避免使用root或具有全局權(quán)限的賬戶進(jìn)行日常操作。
定期審計(jì)賬戶權(quán)限,撤銷不再需要的權(quán)限。
(2)密碼策略:
強(qiáng)制密碼復(fù)雜度(如必須包含大小寫(xiě)字母、數(shù)字、特殊字符)。
設(shè)置密碼有效期(如30-60天)。
禁用弱密碼。
鼓勵(lì)或強(qiáng)制定期更換密碼。
(3)賬戶鎖定:
配置失敗登錄嘗試次數(shù)限制(如5次)。
達(dá)到限制次數(shù)后鎖定賬戶一段時(shí)間。
定期檢查鎖定賬戶,及時(shí)解鎖或重置密碼。
(4)SSH訪問(wèn)優(yōu)化:
禁用root遠(yuǎn)程登錄(`PermitRootLoginno`)。
禁用密碼認(rèn)證,強(qiáng)制使用SSH密鑰(`PasswordAuthenticationno`)。
限制允許登錄的用戶列表(`AllowUsers`/`AllowGroups`)。
限制允許登錄的IP地址(`AllowHosts`)。
使用SSH密鑰進(jìn)行身份驗(yàn)證,并定期輪換密鑰。
(5)賬戶定期審查:
每月審查所有賬戶,確認(rèn)其必要性。
刪除不再使用的賬戶。
更新賬戶權(quán)限,確保符合最小權(quán)限原則。
2.權(quán)限配置
(1)用戶分組:
根據(jù)角色創(chuàng)建用戶組(如開(kāi)發(fā)組、運(yùn)維組、管理員組)。
將用戶添加到相應(yīng)的組。
通過(guò)組權(quán)限管理,簡(jiǎn)化權(quán)限分配和變更。
(2)文件系統(tǒng)權(quán)限:
設(shè)置正確的文件和目錄權(quán)限(如`chmod`、`chown`)。
確保敏感文件(如密碼文件、配置文件)只有必要的用戶可讀。
避免設(shè)置過(guò)于寬松的權(quán)限(如`777`)。
定期使用`find`和`ls-l`檢查權(quán)限配置。
(3)服務(wù)權(quán)限:
為每個(gè)服務(wù)運(yùn)行特定的非root用戶(如`www-data`、`nginx`、`mysql`)。
限制服務(wù)的網(wǎng)絡(luò)訪問(wèn)(如使用`iptables`/`firewalld`限制端口)。
配置SELinux或AppArmor安全模塊,強(qiáng)制服務(wù)運(yùn)行在受限環(huán)境中。
(4)sudo配置:
使用`sudo`代替root登錄執(zhí)行特權(quán)操作。
配置`/etc/sudoers`文件,精確控制用戶可以執(zhí)行哪些命令、在哪些主機(jī)上執(zhí)行。
避免使用`ALL=(ALL:ALL)ALL`的寬泛配置。
記錄sudo使用日志(`/var/log/auth.log`中的sudo條目)。
(二)安全加固
1.系統(tǒng)加固
(1)基礎(chǔ)配置:
關(guān)閉不必要的服務(wù):使用`systemctldisable`和`systemctlmask`禁用不使用的系統(tǒng)服務(wù)(如`bluetooth`、`cups`、`ippd`等)。
更新系統(tǒng):保持操作系統(tǒng)和基礎(chǔ)庫(kù)(如內(nèi)核、庫(kù)文件)為最新版本,及時(shí)應(yīng)用安全補(bǔ)丁。
設(shè)置主機(jī)名:使用有意義的、非默認(rèn)的主機(jī)名。
配置防火墻:?jiǎn)⒂胉iptables`或`firewalld`,只開(kāi)放必要的端口(如SSH22、Web80/443、數(shù)據(jù)庫(kù)端口)。
禁用不安全的協(xié)議:禁用FTP(使用SFTP或SCP替代)、Telnet、NFS等不安全的協(xié)議。
限制遠(yuǎn)程登錄:配置SSH登錄限制(如最大失敗嘗試次數(shù)、允許的IP范圍、禁用root登錄)。
配置日志記錄:?jiǎn)⒂迷敿?xì)的系統(tǒng)日志和安全日志記錄,并將日志發(fā)送到中央日志服務(wù)器。
(2)SELinux/AppArmor:
啟用SELinux:將SELinux設(shè)置為enforcing模式。
配置SELinux策略:為關(guān)鍵服務(wù)創(chuàng)建自定義策略,限制其權(quán)限范圍。
啟用AppArmor:為應(yīng)用安裝并啟用AppArmor防護(hù)。
檢查安全狀態(tài):定期使用`sestatus`、`aa-status`檢查安全模塊狀態(tài)。
(3)內(nèi)核參數(shù):
安全相關(guān):設(shè)置`kernel.randomize_va_space=2`增強(qiáng)地址空間布局隨機(jī)化(ASLR)。
網(wǎng)絡(luò)相關(guān):調(diào)整`net.ipv4.conf.default.rp_filter`(設(shè)置為1或2)防止IP欺騙。
防止DoS:調(diào)整`net.ipv4.tcp_syncookies`(設(shè)置為1)啟用SYNCookies。
掛載參數(shù):對(duì)敏感目錄使用`noexec`、`nosuid`、`nodev`掛載參數(shù)。
(4)加密通信:
強(qiáng)制TLS:配置Web服務(wù)器使用HTTPS,禁用HTTP。
SSH加密:使用SSH密鑰進(jìn)行身份驗(yàn)證,禁用密碼認(rèn)證。
數(shù)據(jù)庫(kù)加密:配置數(shù)據(jù)庫(kù)連接使用SSL。
2.定期檢查
(1)漏洞掃描:
工具選擇:使用Nessus、OpenVAS、Nmap等工具進(jìn)行定期漏洞掃描。
掃描頻率:每月至少一次全面掃描,重要變更后立即掃描。
結(jié)果處理:對(duì)所有中高風(fēng)險(xiǎn)漏洞進(jìn)行修復(fù),驗(yàn)證修復(fù)效果。
(2)配置核查:
核查內(nèi)容:檢查防火墻規(guī)則、SSH配置、密碼策略、SELinux/AppArmor狀態(tài)等。
工具使用:使用CISBenchmarks(如CISLinuxServerBenchmark)作為配置參考。
自動(dòng)化檢查:編寫(xiě)腳本或使用Ansible等工具自動(dòng)化執(zhí)行配置核查。
(3)系統(tǒng)加固檢查:
檢查項(xiàng)目:
是否存在未禁用的服務(wù)。
核心系統(tǒng)包是否為最新版本。
SELinux/AppArmor是否啟用并處于enforcing模式。
內(nèi)核安全參數(shù)是否正確配置。
文件系統(tǒng)掛載參數(shù)是否安全。
是否存在默認(rèn)密碼或弱密碼。
檢查方法:
手動(dòng)檢查配置文件。
使用`getenforce`、`sestatus`等命令檢查安全模塊狀態(tài)。
使用`ss-tulnp`檢查開(kāi)放端口。
使用`grep`搜索配置文件中的不安全設(shè)置。
五、備份與恢復(fù)
(一)備份策略
1.備份類型
(1)全量備份(FullBackup):
定義:備份所有選定的數(shù)據(jù),每次都從頭開(kāi)始完整復(fù)制。
優(yōu)點(diǎn):恢復(fù)速度快,數(shù)據(jù)一致性高。
缺點(diǎn):備份時(shí)間長(zhǎng),存儲(chǔ)空間需求大。
適用場(chǎng)景:用于建立初始備份、作為增量備份的基礎(chǔ)。
(2)增量備份(IncrementalBackup):
定義:只備份自上一次備份(不限類型)以來(lái)發(fā)生變化的數(shù)據(jù)。
優(yōu)點(diǎn):備份速度快,節(jié)省存儲(chǔ)空間。
缺點(diǎn):恢復(fù)過(guò)程復(fù)雜,需要所有后續(xù)增量備份才能恢復(fù)。
適用場(chǎng)景:適用于數(shù)據(jù)變化量較小的系統(tǒng)。
(3)差異備份(DifferentialBackup):
定義:備份自上一次全量備份以來(lái)所有變化的數(shù)據(jù),與增量備份不同,它獨(dú)立于任何之前的備份。
優(yōu)點(diǎn):恢復(fù)比增量備份簡(jiǎn)單,比全量備份快。
缺點(diǎn):占用空間介于全量和增量之間。
適用場(chǎng)景:適用于需要平衡備份時(shí)間和存儲(chǔ)空間的系統(tǒng)。
(4)鏡像備份(ImageBackup):
定義:創(chuàng)建磁盤或分區(qū)的完整鏡像,包括文件系統(tǒng)結(jié)構(gòu)和所有數(shù)據(jù)。
優(yōu)點(diǎn):可以完整恢復(fù)到備份時(shí)的狀態(tài),適用于系統(tǒng)遷移或?yàn)?zāi)難恢復(fù)。
缺點(diǎn):占用空間大,恢復(fù)時(shí)間較長(zhǎng)。
適用場(chǎng)景:服務(wù)器遷移、系統(tǒng)重建、災(zāi)難恢復(fù)。
2.備份工具
(1)命令行工具:
`rsync`:輕量級(jí)、高效的文件同步工具,支持增量備份,可通過(guò)SSH進(jìn)行加密傳輸。
基本命令格式:`rsync-avzsource/destination/--delete`
示例:`rsync-avz-e"ssh-i/path/to/private_key"/source/directoryuser@backup_server:/destination/directory`
`tar`:打包和壓縮工具,常用于創(chuàng)建系統(tǒng)鏡像或文件備份。
基本命令格式:`tar-cvzfarchive_name.tar.gzdirectory_to_backup`
示例:`tar-cvzf/backup/my_server_20231027.tar.gz/etc/var/log`
`dd`:低級(jí)數(shù)據(jù)拷貝工具,可用于創(chuàng)建精確的磁盤鏡像。
基本命令格式:`ddif=input_fileof=output_filebs=block_sizecount=number`
示例:`ddif=/dev/sdaof=/backup/server_backup_20231027.imgbs=4M`
(2)專業(yè)備份軟件:
VeeamBackup&Replication:功能強(qiáng)大的虛擬機(jī)備份解決方案,支持物理機(jī)備份。
AcronisTrueImage:提供全面的數(shù)據(jù)保護(hù)和恢復(fù)功能,支持文件、磁盤和系統(tǒng)備份。
Commvault:企業(yè)級(jí)備份平臺(tái),支持混合云備份。
(3)云備份服務(wù):
AWSS3:Amazon的云存儲(chǔ)服務(wù),提供對(duì)象存儲(chǔ)備份。
AzureBlobStorage:微軟Azure的對(duì)象存儲(chǔ)服務(wù)。
阿里云OSS:阿里云的對(duì)象存儲(chǔ)服務(wù)。
3.備份策略制定
(1)確定備份對(duì)象:列出需要備份的服務(wù)器、目錄和數(shù)據(jù)庫(kù)。
(2)確定備份頻率:
關(guān)鍵業(yè)務(wù)(如數(shù)據(jù)庫(kù)):每日全量+增量備份。
重要應(yīng)用(如Web服務(wù)器):每日增量,每周全量。
一般系統(tǒng):每周全量,按需增量。
(3)確定保留周期:
日志文件:保留30-90天。
應(yīng)用數(shù)據(jù):保留60-180天。
系統(tǒng)鏡像:根據(jù)合規(guī)要求或業(yè)務(wù)需求確定,通常30-90天。
(4)確定備份目標(biāo):
本地備份:使用磁盤陣列或磁帶庫(kù)。
遠(yuǎn)程備份:使用網(wǎng)絡(luò)傳輸(如SSH、FTP)至備份服務(wù)器或云存儲(chǔ)。
多地備份:滿足業(yè)務(wù)連續(xù)性要求。
(二)備份與恢復(fù)
1.備份流程
(1)準(zhǔn)備工作:
確認(rèn)備份工具安裝和配置正確。
檢查備份存儲(chǔ)空間是否充足。
預(yù)期備份所需時(shí)間,避免影響正常業(yè)務(wù)。
準(zhǔn)備必要的腳本或配置文件。
(2)執(zhí)行備份:
全量備份:
1.執(zhí)行全量備份命令(如`tar`、`rsync`或備份軟件的全量備份任務(wù))。
2.監(jiān)控備份進(jìn)度,檢查日志輸出。
3.驗(yàn)證備份完整性(如`md5sum`校驗(yàn)備份文件)。
增量/差異備份:
1.執(zhí)行增量/差異備份命令。
2.檢查備份日志,確認(rèn)備份完成。
3.對(duì)關(guān)鍵備份任務(wù)進(jìn)行告警通知。
服務(wù)器運(yùn)維操作手冊(cè)
一、概述
服務(wù)器運(yùn)維操作手冊(cè)旨在為IT運(yùn)維人員提供一套系統(tǒng)化、標(biāo)準(zhǔn)化的服務(wù)器管理流程和操作指南。本手冊(cè)涵蓋服務(wù)器日常監(jiān)控、配置管理、故障排查、安全維護(hù)等核心運(yùn)維工作,通過(guò)規(guī)范化的操作流程,確保服務(wù)器穩(wěn)定運(yùn)行,提高系統(tǒng)可用性,降低運(yùn)維風(fēng)險(xiǎn)。本手冊(cè)適用于具備基本IT知識(shí)的專業(yè)技術(shù)人員,內(nèi)容以實(shí)用性和可操作性為主,結(jié)合常見(jiàn)問(wèn)題提供解決方案。
二、日常運(yùn)維操作
(一)服務(wù)器狀態(tài)監(jiān)控
1.監(jiān)控內(nèi)容
(1)CPU使用率:正常范圍建議控制在70%以下,長(zhǎng)期超過(guò)85%需關(guān)注
(2)內(nèi)存使用率:建議保持在50-80%區(qū)間,超過(guò)90%需考慮擴(kuò)容
(3)磁盤空間:可用空間建議保持20%以上,定期清理臨時(shí)文件
(4)網(wǎng)絡(luò)流量:監(jiān)控入出站帶寬,異常流量可能表示攻擊或配置錯(cuò)誤
(5)系統(tǒng)溫度:服務(wù)器CPU/硬盤溫度應(yīng)控制在50℃-75℃范圍內(nèi)
2.監(jiān)控工具
(1)使用Zabbix/Prometheus等專業(yè)監(jiān)控平臺(tái)
(2)配置自動(dòng)告警閾值(如CPU使用率>90%時(shí)發(fā)送告警)
(3)建立監(jiān)控儀表盤,集中展示關(guān)鍵指標(biāo)
(二)系統(tǒng)維護(hù)
1.定期任務(wù)
(1)日志清理:每周清理舊日志,保留最近3個(gè)月日志
(2)系統(tǒng)更新:每月執(zhí)行2-3次系統(tǒng)補(bǔ)丁更新
(3)數(shù)據(jù)備份:每日?qǐng)?zhí)行完整數(shù)據(jù)備份,每周進(jìn)行恢復(fù)測(cè)試
2.維護(hù)窗口
(1)推薦安排在業(yè)務(wù)低峰期(如凌晨2-4點(diǎn))
(2)重大更新需提前24小時(shí)發(fā)布通知
三、故障排查流程
(一)常見(jiàn)故障類型
1.性能問(wèn)題
(1)CPU飆升:檢查Top命令顯示進(jìn)程,分析資源占用原因
(2)內(nèi)存溢出:分析OOMKiller記錄,優(yōu)化內(nèi)存使用
(3)磁盤I/O緩慢:使用iostat工具檢查磁盤活動(dòng),優(yōu)化SQL查詢或文件系統(tǒng)
2.連接異常
(1)遠(yuǎn)程連接失?。簷z查防火墻規(guī)則、SSH配置
(2)服務(wù)不可用:確認(rèn)端口監(jiān)聽(tīng)狀態(tài)(netstat-tulnp)
(3)DNS解析問(wèn)題:檢查/resolv.conf配置,測(cè)試nslookup
(二)排查步驟
1.標(biāo)準(zhǔn)化流程
(1)收集信息:記錄故障現(xiàn)象、發(fā)生時(shí)間、影響范圍
(2)分析日志:查看系統(tǒng)日志(/var/log/messages)、應(yīng)用日志
(3)定位問(wèn)題:使用strace/tracert等工具追蹤
(4)驗(yàn)證修復(fù):實(shí)施解決方案后測(cè)試功能恢復(fù)情況
(5)記錄總結(jié):形成故障報(bào)告,更新知識(shí)庫(kù)
2.應(yīng)急處理
(1)嚴(yán)重故障(如系統(tǒng)崩潰)需立即啟動(dòng)應(yīng)急預(yù)案
(2)記錄每步操作,便于團(tuán)隊(duì)協(xié)作解決問(wèn)題
四、安全維護(hù)措施
(一)訪問(wèn)控制
1.賬戶管理
(1)禁用root遠(yuǎn)程登錄
(2)使用SSH密鑰認(rèn)證替代密碼認(rèn)證
(3)定期審計(jì)用戶權(quán)限(每月一次)
2.權(quán)限配置
(1)遵循最小權(quán)限原則
(2)重要服務(wù)使用獨(dú)立用戶賬號(hào)
(二)安全加固
1.系統(tǒng)加固
(1)關(guān)閉不必要的服務(wù)(如Telnet、FTP)
(2)配置防火墻規(guī)則(iptables/firewalld)
(3)設(shè)置密碼復(fù)雜度要求
2.定期檢查
(1)每月進(jìn)行安全掃描(如OpenVAS)
(2)檢查開(kāi)放端口和配置弱項(xiàng)
(3)更新安全基線配置
五、備份與恢復(fù)
(一)備份策略
1.備份類型
(1)系統(tǒng)鏡像:每周全量備份
(2)數(shù)據(jù)備份:每日增量備份
(3)應(yīng)用配置:每月完整備份
2.備份方案
(1)本地備份:使用rsync/cpio
(2)遠(yuǎn)程備份:通過(guò)VPN傳輸至備份服務(wù)器
(3)云備份:采用對(duì)象存儲(chǔ)服務(wù)(如AWSS3)
(二)恢復(fù)流程
1.恢復(fù)步驟
(1)準(zhǔn)備恢復(fù)環(huán)境
(2)執(zhí)行備份恢復(fù)命令
(3)驗(yàn)證數(shù)據(jù)完整性(md5校驗(yàn))
(4)測(cè)試服務(wù)功能
2.恢復(fù)測(cè)試
(1)每季度執(zhí)行一次完整恢復(fù)演練
(2)記錄恢復(fù)時(shí)間,優(yōu)化流程效率
六、操作規(guī)范
(一)變更管理
1.變更流程
(1)提交變更申請(qǐng)
(2)評(píng)估風(fēng)險(xiǎn)和影響
(3)安排實(shí)施窗口
(4)變更后驗(yàn)證
(5)文檔更新
2.變更分類
(1)重大變更:需管理層審批
(2)普通變更:技術(shù)主管批準(zhǔn)
(3)緊急變更:事后補(bǔ)辦手續(xù)
(二)文檔管理
1.文檔要求
(1)所有配置變更需記錄在案
(2)重要操作需有截圖或視頻存檔
(3)定期整理更新運(yùn)維文檔
2.存檔規(guī)范
(1)按服務(wù)分類存放文檔
(2)建立版本控制機(jī)制
(3)重要文檔多重備份
七、附錄
(一)常用命令參考
1.系統(tǒng)監(jiān)控
```bash
top-c實(shí)時(shí)CPU占用
vmstat1內(nèi)存和CPU每秒統(tǒng)計(jì)
```
2.網(wǎng)絡(luò)診斷
```bash
netstat-tulnp查看端口監(jiān)聽(tīng)
iperf3-c網(wǎng)絡(luò)性能測(cè)試
```
3.備份工具
```bash
rsync-avz/source/destination--delete
```
(二)故障案例
1.內(nèi)存泄漏排查
(1)分析系統(tǒng)日志找到oom記錄
(2)使用valgrind檢測(cè)程序內(nèi)存問(wèn)題
(3)查看進(jìn)程堆棧定位問(wèn)題代碼
2.磁盤性能優(yōu)化
(1)使用iotop找出I/O占用進(jìn)程
(2)檢查文件系統(tǒng)類型(ext4/xfs)
(3)調(diào)整內(nèi)核參數(shù)(如vm.dirty_ratio)
二、日常運(yùn)維操作
(一)服務(wù)器狀態(tài)監(jiān)控
1.監(jiān)控內(nèi)容
(1)CPU使用率
正常范圍:建議長(zhǎng)期保持在70%以下,短期峰值(如業(yè)務(wù)高峰期)可允許短暫超過(guò)85%,但需關(guān)注是否常態(tài)化。
異常判斷:持續(xù)高于90%通常表示計(jì)算資源不足,需考慮增加CPU資源、優(yōu)化高負(fù)載進(jìn)程或進(jìn)行負(fù)載均衡。
分析重點(diǎn):使用`top-H-o%CPU`或`htop`查看具體是哪個(gè)線程或進(jìn)程占用過(guò)高,結(jié)合業(yè)務(wù)周期判斷是否正常。
示例指標(biāo):對(duì)于處理高并發(fā)請(qǐng)求的應(yīng)用服務(wù)器,峰值CPU使用率可允許達(dá)到95%,但平均負(fù)載需控制在3.0-5.0以下(根據(jù)CPU核心數(shù))。
(2)內(nèi)存使用率
正常范圍:建議保持在50%-80%區(qū)間。內(nèi)存使用過(guò)低(如低于30%)可能未充分利用資源;過(guò)高(持續(xù)超過(guò)90%)則可能導(dǎo)致系統(tǒng)性能下降或OOM(OutOfMemory)Killer啟動(dòng)。
異常判斷:當(dāng)內(nèi)存使用率持續(xù)接近或超過(guò)95%時(shí),應(yīng)優(yōu)先考慮內(nèi)存泄漏問(wèn)題或短期內(nèi)存需求激增。
分析重點(diǎn):使用`free-h`或`vmstat1`觀察內(nèi)存總量、已用量、緩存和交換空間使用情況。特別關(guān)注`SwapIn/Out`次數(shù),頻繁交換表示內(nèi)存不足。
示例指標(biāo):服務(wù)器的物理內(nèi)存為16GB時(shí),可用內(nèi)存建議保持在6GB以上(約35%使用率)。
(3)磁盤空間
關(guān)鍵分區(qū):重點(diǎn)關(guān)注`/`(根目錄)、`/var`、`/tmp`、`/home`等主要數(shù)據(jù)目錄。
正常范圍:各分區(qū)可用空間建議保持20%以上。對(duì)于日志目錄,根據(jù)日志滾動(dòng)策略,可用空間要求可能更高(如50%)。
異常判斷:任何分區(qū)剩余空間低于10%都應(yīng)視為告警,低于5%則可能引發(fā)服務(wù)中斷。
分析重點(diǎn):使用`df-h`或`du-sh/path/to/directory`查找空間占用大戶。定期使用`find/-typef-mtime+30-execls-lh{}\;`等命令查找長(zhǎng)期未刪除的文件。
示例指標(biāo):數(shù)據(jù)庫(kù)數(shù)據(jù)文件所在的`/data`分區(qū),可用空間建議始終保持在30%以上。
(4)網(wǎng)絡(luò)流量
監(jiān)控指標(biāo):包括入站流量(`rx_bytes`)、出站流量(`tx_bytes`)、丟包率(`drops`)、網(wǎng)絡(luò)錯(cuò)誤(`err`)。
正常范圍:流量應(yīng)與業(yè)務(wù)量基本匹配,無(wú)明顯突增或突降。
異常判斷:流量異常激增可能是DDoS攻擊或配置錯(cuò)誤;流量突然中斷需檢查網(wǎng)絡(luò)設(shè)備。
分析重點(diǎn):使用`iftop`、`nload`或監(jiān)控平臺(tái)流量?jī)x表盤,定位異常流量來(lái)源或目標(biāo)端口。關(guān)注特定IP或端口的流量是否異常。
示例指標(biāo):一個(gè)Web服務(wù)器的典型入站流量可能在100-500Mbps范圍內(nèi)波動(dòng),具體取決于帶寬配置和訪問(wèn)量。
(5)系統(tǒng)溫度
監(jiān)控組件:重點(diǎn)關(guān)注CPU、主板的溫度傳感器。
正常范圍:CPU溫度通常在30℃-50℃為佳,高負(fù)載下不超過(guò)75℃,持續(xù)超過(guò)85℃需關(guān)注散熱。
異常判斷:溫度突然升高可能表示散熱系統(tǒng)故障(風(fēng)扇停轉(zhuǎn)、灰塵過(guò)多)或環(huán)境溫度過(guò)高。
分析重點(diǎn):使用`sensors`(Linux)或硬件監(jiān)控工具查看溫度。檢查風(fēng)扇轉(zhuǎn)速是否正常。
示例指標(biāo):在25℃室溫下,高負(fù)載CPU溫度通常在60℃-70℃之間。
2.監(jiān)控工具
(1)專業(yè)監(jiān)控平臺(tái):
Zabbix:功能全面,支持圖形化界面、自動(dòng)告警、觸發(fā)器配置??赏ㄟ^(guò)Agent主動(dòng)采集數(shù)據(jù)或采用被動(dòng)模式監(jiān)聽(tīng)SNMP/Ping等。
Prometheus+Grafana:開(kāi)源組合,Prometheus負(fù)責(zé)數(shù)據(jù)采集和存儲(chǔ),Grafana負(fù)責(zé)可視化。適合微服務(wù)架構(gòu)。
Nagios:成熟的開(kāi)源監(jiān)控系統(tǒng),支持插件擴(kuò)展,配置相對(duì)復(fù)雜。
Datadog:商業(yè)云監(jiān)控服務(wù),提供豐富的可視化模板和AI分析能力。
(2)自動(dòng)告警配置:
閾值設(shè)置:根據(jù)業(yè)務(wù)重要性設(shè)定合理閾值。例如,CPU使用率>90%為嚴(yán)重告警,>70%為警告。
告警方式:支持郵件、短信(需額外配置)、Webhook、Slack通知等。
告警抑制:配置抑制規(guī)則,避免同類告警短時(shí)間內(nèi)連續(xù)觸發(fā)。
(3)監(jiān)控儀表盤:
內(nèi)容:應(yīng)包含CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)、溫度等關(guān)鍵指標(biāo)的趨勢(shì)圖。
布局:按服務(wù)器類型或區(qū)域分組展示,方便快速定位問(wèn)題。
刷新頻率:根據(jù)需要設(shè)定,關(guān)鍵指標(biāo)可5分鐘或1分鐘刷新一次。
(二)系統(tǒng)維護(hù)
1.定期任務(wù)
(1)日志清理:
目的:釋放磁盤空間,保護(hù)敏感信息。
方法:使用`logrotate`(Linux標(biāo)準(zhǔn)工具)配置日志輪轉(zhuǎn)策略。
策略配置:可設(shè)置輪轉(zhuǎn)次數(shù)、壓縮舊日志、刪除超過(guò)N天的日志等。例如,配置日志每月輪轉(zhuǎn)一次,保留3個(gè)月。
執(zhí)行方式:通常作為cronjob定期執(zhí)行。
(2)系統(tǒng)更新:
內(nèi)容:包括操作系統(tǒng)內(nèi)核補(bǔ)丁、基礎(chǔ)庫(kù)更新、安全修復(fù)等。
工具:使用`yum`/`dnf`(CentOS/RHEL)、`apt`(Debian/Ubuntu)等包管理器。
建議頻率:建議每周執(zhí)行一次檢查更新,每月執(zhí)行一次最小化安全更新。重大版本更新需制定專項(xiàng)計(jì)劃。
注意事項(xiàng):更新前確認(rèn)服務(wù)依賴關(guān)系,重要更新前進(jìn)行備份。
(3)數(shù)據(jù)備份:
類型:根據(jù)重要性選擇全量備份、增量備份或差異備份。
工具:`rsync`(快速同步)、`tar`(打包備份)、`Bacula`/`Veeam`(專業(yè)備份軟件)。
策略:遵循3-2-1備份原則(3份副本,2種介質(zhì),1份異地存儲(chǔ))。
驗(yàn)證:每月至少執(zhí)行一次恢復(fù)測(cè)試,確保備份有效。
2.維護(hù)窗口
(1)時(shí)間選擇:
最佳時(shí)段:業(yè)務(wù)低峰期,通常是深夜(如00:00-04:00)。
考慮因素:需結(jié)合業(yè)務(wù)SLA(服務(wù)等級(jí)協(xié)議)和用戶習(xí)慣。
(2)通知機(jī)制:
提前通知:對(duì)于可能影響服務(wù)的維護(hù),至少提前24小時(shí)發(fā)布通知。
通知渠道:通過(guò)郵件、內(nèi)部公告、即時(shí)通訊群組等方式發(fā)布。
通知內(nèi)容:維護(hù)時(shí)間、影響范圍、預(yù)計(jì)時(shí)長(zhǎng)、聯(lián)系方式。
(3)回滾計(jì)劃:
必要性:所有維護(hù)操作都應(yīng)有回滾方案。
內(nèi)容:記錄操作步驟,準(zhǔn)備回滾命令或腳本。
測(cè)試:在測(cè)試環(huán)境中驗(yàn)證回滾操作的有效性。
三、故障排查流程
(一)常見(jiàn)故障類型
1.性能問(wèn)題
(1)CPU飆升:
診斷步驟:
1.使用`top-H-o%CPU`或`htop`找出占用CPU最高的進(jìn)程。
2.使用`psauxf|grep<pid>`查看該進(jìn)程的詳細(xì)信息和父進(jìn)程。
3.檢查進(jìn)程運(yùn)行日志,分析是否為正常業(yè)務(wù)負(fù)載。
4.使用`strace-p<pid>`或`gdbattach<pid>`深入分析。
5.檢查系統(tǒng)負(fù)載(`uptime`)和I/O(`iostat`),排除資源競(jìng)爭(zhēng)。
常見(jiàn)原因:內(nèi)存泄漏、死循環(huán)、不合理的算法、資源競(jìng)爭(zhēng)(如鎖等待)、惡意攻擊。
(2)內(nèi)存溢出:
診斷步驟:
1.使用`free-m`確認(rèn)內(nèi)存使用情況,檢查`Swap`使用率。
2.查看系統(tǒng)OOM日志(`/var/log/oom.log`或通過(guò)`dmesg|grepOOM`)。
3.使用`ps-eopid,comm,%mem,%cpu--sort=-%mem|head-n10`找出內(nèi)存占用最大的進(jìn)程。
4.分析進(jìn)程內(nèi)存使用模式,使用`massif`(Valgrind工具)或JProfiler(Java應(yīng)用)等工具進(jìn)行內(nèi)存分析。
5.檢查是否有內(nèi)存損壞(使用`memtest86+`)。
常見(jiàn)原因:內(nèi)存泄漏、堆棧溢出、設(shè)計(jì)缺陷、不兼容的庫(kù)。
(3)磁盤I/O緩慢:
診斷步驟:
1.使用`iostat-mx`或`iotop-o`查看磁盤活動(dòng)。
2.檢查磁盤分區(qū)使用率(`df-h`)。
3.使用`vmstat1`查看磁盤讀寫(xiě)速率。
4.分析磁盤I/O模式(順序讀寫(xiě)vs隨機(jī)讀寫(xiě))。
5.檢查是否有大量小文件操作或磁盤碎片。
6.使用`strace`檢查特定進(jìn)程的文件操作。
常見(jiàn)原因:磁盤空間滿、磁盤碎片、磁盤故障、I/O密集型任務(wù)、網(wǎng)絡(luò)延遲(對(duì)于網(wǎng)絡(luò)存儲(chǔ))。
(4)高延遲:
診斷步驟:
1.使用`ping`測(cè)試網(wǎng)絡(luò)連通性和延遲。
2.使用`traceroute`或`mtr`追蹤路由路徑。
3.檢查網(wǎng)絡(luò)設(shè)備(交換機(jī)、路由器)狀態(tài)和配置。
4.使用`netstat-s`檢查網(wǎng)絡(luò)統(tǒng)計(jì)信息(如丟包數(shù))。
5.分析應(yīng)用層延遲(如Web請(qǐng)求慢)。
常見(jiàn)原因:網(wǎng)絡(luò)擁塞、設(shè)備故障、配置錯(cuò)誤、DNS問(wèn)題、服務(wù)器內(nèi)部處理慢。
(5)服務(wù)不可用:
診斷步驟:
1.檢查服務(wù)進(jìn)程是否運(yùn)行(`systemctlstatus<service>`或`psaux|grep<service>`)。
2.檢查端口監(jiān)聽(tīng)狀態(tài)(`netstat-tulnp`)。
3.查看服務(wù)日志(`/var/log/<service>.log`)。
4.檢查依賴服務(wù)是否正常(如數(shù)據(jù)庫(kù)、緩存)。
5.檢查防火墻規(guī)則是否阻止了訪問(wèn)。
常見(jiàn)原因:服務(wù)配置錯(cuò)誤、資源耗盡、依賴服務(wù)故障、網(wǎng)絡(luò)問(wèn)題、代碼Bug。
2.連接異常
(1)遠(yuǎn)程連接失?。?/p>
SSH連接:
診斷步驟:
1.檢查`sshd`服務(wù)狀態(tài)(`systemctlstatussshd`)。
2.檢查`/etc/ssh/sshd_config`配置文件(如`Port`、`PermitRootLogin`)。
3.檢查`/var/log/auth.log`(Debian/Ubuntu)或`/var/log/secure`(CentOS/RHEL)中的認(rèn)證日志。
4.檢查防火墻(`iptables`/`firewalld`)是否允許SSH端口(默認(rèn)22)。
5.檢查`/etc/hosts`和DNS解析是否正常。
常見(jiàn)原因:配置錯(cuò)誤、防火墻阻止、密碼錯(cuò)誤、賬戶被鎖定、網(wǎng)絡(luò)問(wèn)題。
(2)Web服務(wù)不可用:
診斷步驟:
1.檢查Web服務(wù)器進(jìn)程(`apache2`/`nginx`)狀態(tài)。
2.檢查監(jiān)聽(tīng)端口(`netstat-tulnp`)。
3.檢查Web服務(wù)器錯(cuò)誤日志(`/var/log/apache2/error.log`/`/var/log/nginx/error.log`)。
4.檢查Nginx/Apache配置文件是否有語(yǔ)法錯(cuò)誤。
5.檢查網(wǎng)站根目錄和配置文件權(quán)限。
6.檢查反向代理或負(fù)載均衡器配置。
常見(jiàn)原因:配置錯(cuò)誤、資源耗盡、文件損壞、權(quán)限問(wèn)題、中間件故障。
(3)數(shù)據(jù)庫(kù)連接失敗:
診斷步驟:
1.檢查數(shù)據(jù)庫(kù)服務(wù)狀態(tài)(`systemctlstatusmysqld`/`postgresql`)。
2.檢查數(shù)據(jù)庫(kù)日志(錯(cuò)誤日志、慢查詢?nèi)罩荆?/p>
3.檢查`/etc/f`(MySQL)或`postgresql.conf`配置。
4.檢查監(jiān)聽(tīng)端口和防火墻設(shè)置。
5.檢查連接數(shù)是否超過(guò)最大值(`showglobalstatuslike'Max_used_connections';`)。
6.使用`mysqladminping`或`psql-c'select1'"`測(cè)試連接。
常見(jiàn)原因:配置錯(cuò)誤、資源耗盡(CPU/內(nèi)存/IO)、網(wǎng)絡(luò)問(wèn)題、SQL語(yǔ)法錯(cuò)誤、數(shù)據(jù)庫(kù)損壞。
(4)DNS解析問(wèn)題:
診斷步驟:
1.檢查`/etc/resolv.conf`配置的DNS服務(wù)器。
2.使用`nslookup<domain>`或`dig<domain>`測(cè)試解析。
3.檢查DNS服務(wù)器狀態(tài)和負(fù)載。
4.檢查防火墻是否阻止DNS查詢(UDP/TCP53端口)。
5.檢查本地DNS緩存(`nscd`或`systemd-resolved`)。
常見(jiàn)原因:DNS配置錯(cuò)誤、DNS服務(wù)器故障、網(wǎng)絡(luò)問(wèn)題、域名被污染。
(5)無(wú)法訪問(wèn)特定端口:
診斷步驟:
1.使用`netstat-tulnp`確認(rèn)服務(wù)是否在監(jiān)聽(tīng)。
2.使用`ss-tulnp`(更現(xiàn)代的選項(xiàng))。
3.檢查防火墻規(guī)則(`iptables`/`firewalld`)是否允許該端口。
4.檢查SELinux/AppArmor安全模塊配置(如果啟用)。
5.檢查網(wǎng)絡(luò)設(shè)備(防火墻、路由器)是否阻止了該端口。
常見(jiàn)原因:服務(wù)未啟動(dòng)、配置錯(cuò)誤、防火墻阻止、網(wǎng)絡(luò)策略限制。
2.排查步驟
(1)標(biāo)準(zhǔn)化流程:
1.收集信息:
記錄故障現(xiàn)象的詳細(xì)描述。
記錄發(fā)生時(shí)間、持續(xù)時(shí)長(zhǎng)、影響范圍(哪些用戶/服務(wù)受影響)。
收集相關(guān)日志文件(系統(tǒng)日志、應(yīng)用日志、服務(wù)日志)。
收集監(jiān)控?cái)?shù)據(jù)(CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)在故障時(shí)的狀態(tài))。
2.分析日志:
優(yōu)先查看錯(cuò)誤日志。
按照時(shí)間順序分析,定位問(wèn)題發(fā)生點(diǎn)。
對(duì)比正常日志和異常日志的差異。
使用工具(如`grep`、`awk`、日志分析平臺(tái))快速查找關(guān)鍵信息。
3.定位問(wèn)題:
分層排查:從宏觀到微觀,先檢查系統(tǒng)層面,再檢查應(yīng)用層面。
對(duì)比法:與健康服務(wù)器對(duì)比配置、日志、資源使用情況。
隔離法:逐步禁用服務(wù)或模塊,縮小問(wèn)題范圍。
工具輔助:使用`tcpdump`抓包分析網(wǎng)絡(luò)問(wèn)題,使用`strace`跟蹤系統(tǒng)調(diào)用,使用`lsof`查看文件描述符。
4.驗(yàn)證修復(fù):
實(shí)施解決方案后,進(jìn)行功能測(cè)試。
持續(xù)監(jiān)控一段時(shí)間,確認(rèn)問(wèn)題是否徹底解決。
如果問(wèn)題復(fù)現(xiàn),分析原因并調(diào)整方案。
5.記錄總結(jié):
詳細(xì)記錄故障原因、排查過(guò)程、解決方案。
形成知識(shí)庫(kù)文章,供團(tuán)隊(duì)學(xué)習(xí)。
評(píng)估故障影響和恢復(fù)時(shí)間,優(yōu)化應(yīng)急預(yù)案。
(2)應(yīng)急處理:
嚴(yán)重故障定義:系統(tǒng)完全不可用、核心服務(wù)中斷、數(shù)據(jù)丟失風(fēng)險(xiǎn)、安全事件等。
應(yīng)急啟動(dòng)條件:達(dá)到嚴(yán)重故障定義標(biāo)準(zhǔn)時(shí)。
應(yīng)急措施:
1.立即通知相關(guān)團(tuán)隊(duì)成員。
2.檢查是否有備份可用,準(zhǔn)備啟動(dòng)恢復(fù)流程。
3.如果可能,嘗試快速回滾到上一個(gè)穩(wěn)定狀態(tài)。
4.限制訪問(wèn)或啟動(dòng)只讀模式,防止數(shù)據(jù)進(jìn)一步損壞。
5.優(yōu)先保障核心業(yè)務(wù)和關(guān)鍵用戶。
溝通機(jī)制:保持與業(yè)務(wù)部門溝通,告知進(jìn)展和影響。
事后復(fù)盤:應(yīng)急處理結(jié)束后,組織復(fù)盤會(huì)議,總結(jié)經(jīng)驗(yàn)教訓(xùn)。
(二)故障排查流程
1.標(biāo)準(zhǔn)化流程
(1)收集信息:
記錄要點(diǎn):
故障現(xiàn)象描述(如“無(wú)法ping通”、“Web頁(yè)面空白”)
發(fā)現(xiàn)時(shí)間、持續(xù)時(shí)長(zhǎng)
影響范圍(服務(wù)器、服務(wù)、用戶數(shù))
是否有數(shù)據(jù)丟失或損壞跡象
已嘗試的解決步驟及結(jié)果
收集內(nèi)容:
服務(wù)器主機(jī)名/IP
操作系統(tǒng)版本
關(guān)鍵服務(wù)名稱和版本
相關(guān)日志文件(系統(tǒng)、應(yīng)用、數(shù)據(jù)庫(kù))
監(jiān)控截圖或報(bào)告
(2)分析日志:
常用日志位置:
系統(tǒng)日志:`/var/log/messages`、`/var/log/syslog`、`/var/log/dmesg`
Web服務(wù)器:`/var/log/apache2/`、`/var/log/nginx/`
數(shù)據(jù)庫(kù):`/var/log/mysqld.log`、`/var/log/postgresql.log`
應(yīng)用日志:部署目錄下的`logs`文件夾
安全日志:`/var/log/auth.log`、`/var/log/secure`
分析技巧:
使用`grep`、`awk`、`less`、`tail-f`等命令篩選關(guān)鍵信息。
關(guān)注錯(cuò)誤信息(Error)、警告信息(Warning)。
按照時(shí)間順序查找關(guān)聯(lián)日志。
對(duì)比正常日志和異常日志。
檢查日志中提到的文件路徑或進(jìn)程ID,進(jìn)一步追蹤。
(3)定位問(wèn)題:
系統(tǒng)層面檢查:
使用`uptime`、`vmstat`、`iostat`、`free`檢查系統(tǒng)資源。
使用`df`檢查磁盤空間。
使用`netstat`、`ss`檢查網(wǎng)絡(luò)連接和端口。
使用`sensors`檢查硬件溫度。
檢查`/etc/fstab`、`/etc/hosts`、`/etc/resolv.conf`等基礎(chǔ)配置文件。
應(yīng)用層面檢查:
使用`ps`、`top`、`systemctl`檢查服務(wù)狀態(tài)。
使用`netstat`、`ss`檢查應(yīng)用監(jiān)聽(tīng)的端口。
檢查應(yīng)用配置文件。
檢查應(yīng)用數(shù)據(jù)庫(kù)連接。
使用應(yīng)用提供的診斷工具或命令。
網(wǎng)絡(luò)層面檢查:
使用`ping`、`traceroute`、`mtr`檢查網(wǎng)絡(luò)連通性。
使用`netstat-s`檢查網(wǎng)絡(luò)統(tǒng)計(jì)信息(丟包、錯(cuò)誤)。
使用`tcpdump`抓包分析網(wǎng)絡(luò)協(xié)議問(wèn)題。
檢查防火墻規(guī)則、路由配置。
故障排除方法:
分步排查法:從最簡(jiǎn)單、最常見(jiàn)的檢查開(kāi)始(如重啟服務(wù)、檢查配置),逐步深入。
對(duì)比法:與健康服務(wù)器或正常時(shí)期的數(shù)據(jù)對(duì)比。
隔離法:暫時(shí)禁用可疑組件,觀察是否恢復(fù)。
替換法:替換可疑硬件或軟件組件。
縮小范圍法:如果涉及多個(gè)服務(wù),先定位核心問(wèn)題服務(wù)。
(4)驗(yàn)證修復(fù):
驗(yàn)證步驟:
執(zhí)行解決方案后,立即測(cè)試相關(guān)功能。
對(duì)于關(guān)鍵服務(wù),進(jìn)行全面的功能測(cè)試。
檢查相關(guān)日志,確認(rèn)錯(cuò)誤信息已消失。
持續(xù)監(jiān)控一段時(shí)間(至少30分鐘到1小時(shí)),觀察是否復(fù)現(xiàn)問(wèn)題。
通知用戶或業(yè)務(wù)部門確認(rèn)問(wèn)題是否解決。
驗(yàn)證指標(biāo):
服務(wù)是否正常啟動(dòng)并運(yùn)行。
客戶端是否可以正常訪問(wèn)。
性能指標(biāo)是否恢復(fù)到正常水平。
日志中是否不再出現(xiàn)錯(cuò)誤信息。
(5)記錄總結(jié):
記錄內(nèi)容:
故障詳細(xì)描述
排查過(guò)程中的關(guān)鍵發(fā)現(xiàn)
最終解決方案及實(shí)施過(guò)程
失效點(diǎn)和改進(jìn)建議
記錄方式:
更新ITSM系統(tǒng)中的工單。
撰寫(xiě)知識(shí)庫(kù)文章。
在團(tuán)隊(duì)內(nèi)部進(jìn)行經(jīng)驗(yàn)分享。
文檔價(jià)值:
提高團(tuán)隊(duì)整體解決問(wèn)題的能力。
作為未來(lái)故障排查的參考。
優(yōu)化運(yùn)維流程和應(yīng)急預(yù)案。
2.恢復(fù)測(cè)試
(1)測(cè)試目的:
驗(yàn)證備份的可用性和完整性。
確認(rèn)恢復(fù)流程的正確性。
評(píng)估恢復(fù)時(shí)間(RTO)和恢復(fù)點(diǎn)目標(biāo)(RPO)。
發(fā)現(xiàn)恢復(fù)過(guò)程中可能存在的問(wèn)題。
(2)測(cè)試類型:
全量恢復(fù)測(cè)試:完整恢復(fù)系統(tǒng)和數(shù)據(jù)到某個(gè)時(shí)間點(diǎn)。
增量恢復(fù)測(cè)試:僅恢復(fù)自上次全量備份以來(lái)的增量數(shù)據(jù)。
特定服務(wù)恢復(fù)測(cè)試:只恢復(fù)某個(gè)應(yīng)用或服務(wù)。
(3)測(cè)試步驟:
1.選擇合適的測(cè)試環(huán)境(生產(chǎn)環(huán)境之外的測(cè)試服務(wù)器)。
2.準(zhǔn)備測(cè)試所需的恢復(fù)工具和介質(zhì)(備份文件、恢復(fù)軟件)。
3.執(zhí)行恢復(fù)命令或操作。
4.驗(yàn)證恢復(fù)后的數(shù)據(jù)完整性(如`md5sum`校驗(yàn))。
5.啟動(dòng)恢復(fù)的服務(wù)或系統(tǒng)。
6.進(jìn)行功能測(cè)試,確保服務(wù)正常。
7.檢查日志,確認(rèn)無(wú)錯(cuò)誤。
8.記錄恢復(fù)過(guò)程的時(shí)間和遇到的問(wèn)題。
(4)測(cè)試頻率:
至少每季度執(zhí)行一次。
對(duì)于關(guān)鍵系統(tǒng),可增加測(cè)試頻率。
每次備份策略或恢復(fù)流程變更后,應(yīng)進(jìn)行測(cè)試。
(5)測(cè)試記錄:
詳細(xì)記錄測(cè)試時(shí)間、測(cè)試環(huán)境、測(cè)試類型。
記錄實(shí)際恢復(fù)所需時(shí)間。
記錄測(cè)試中發(fā)現(xiàn)的問(wèn)題及解決方案。
更新RTO和RPO評(píng)估。
四、安全維護(hù)措施
(一)訪問(wèn)控制
1.賬戶管理
(1)最小權(quán)限原則:
為每個(gè)賬戶分配完成其任務(wù)所必需的最低權(quán)限。
避免使用root或具有全局權(quán)限的賬戶進(jìn)行日常操作。
定期審計(jì)賬戶權(quán)限,撤銷不再需要的權(quán)限。
(2)密碼策略:
強(qiáng)制密碼復(fù)雜度(如必須包含大小寫(xiě)字母、數(shù)字、特殊字符)。
設(shè)置密碼有效期(如30-60天)。
禁用弱密碼。
鼓勵(lì)或強(qiáng)制定期更換密碼。
(3)賬戶鎖定:
配置失敗登錄嘗試次數(shù)限制(如5次)。
達(dá)到限制次數(shù)后鎖定賬戶一段時(shí)間。
定期檢查鎖定賬戶,及時(shí)解鎖或重置密碼。
(4)SSH訪問(wèn)優(yōu)化:
禁用root遠(yuǎn)程登錄(`PermitRootLoginno`)。
禁用密碼認(rèn)證,強(qiáng)制使用SSH密鑰(`PasswordAuthenticationno`)。
限制允許登錄的用戶列表(`AllowUsers`/`AllowGroups`)。
限制允許登錄的IP地址(`AllowHosts`)。
使用SSH密鑰進(jìn)行身份驗(yàn)證,并定期輪換密鑰。
(5)賬戶定期審查:
每月審查所有賬戶,確認(rèn)其必要性。
刪除不再使用的賬戶。
更新賬戶權(quán)限,確保符合最小權(quán)限原則。
2.權(quán)限配置
(1)用戶分組:
根據(jù)角色創(chuàng)建用戶組(如開(kāi)發(fā)組、運(yùn)維組、管理員組)。
將用戶添加到相應(yīng)的組。
通過(guò)組權(quán)限管理,簡(jiǎn)化權(quán)限分配和變更。
(2)文件系統(tǒng)權(quán)限:
設(shè)置正確的文件和目錄權(quán)限(如`chmod`、`chown`)。
確保敏感文件(如密碼文件、配置文件)只有必要的用戶可讀。
避免設(shè)置過(guò)于寬松的權(quán)限(如`777`)。
定期使用`find`和`ls-l`檢查權(quán)限配置。
(3)服務(wù)權(quán)限:
為每個(gè)服務(wù)運(yùn)行特定的非root用戶(如`www-data`、`nginx`、`mysql`)。
限制服務(wù)的網(wǎng)絡(luò)訪問(wèn)(如使用`iptables`/`firewalld`限制端口)。
配置SELinux或AppArmor安全模塊,強(qiáng)制服務(wù)運(yùn)行在受限環(huán)境中。
(4)sudo配置:
使用`sudo`代替root登錄執(zhí)行特權(quán)操作。
配置`/etc/sudoers`文件,精確控制用戶可以執(zhí)行哪些命令、在哪些主機(jī)上執(zhí)行。
避免使用`ALL=(ALL:ALL)ALL`的寬泛配置。
記錄sudo使用日志(`/var/log/auth.log`中的sudo條目)。
(二)安全加固
1.系統(tǒng)加固
(1)基礎(chǔ)配置:
關(guān)閉不必要的服務(wù):使用`systemctldisable`和`systemctlmask`禁用不使用的系統(tǒng)服務(wù)(如`bluetooth`、`cups`、`ippd`等)。
更新系統(tǒng):保持操作系統(tǒng)和基礎(chǔ)庫(kù)(如內(nèi)核、庫(kù)文件)為最新版本,及時(shí)應(yīng)用安全補(bǔ)丁。
設(shè)置主機(jī)名:使用有意義的、非默認(rèn)的主機(jī)名。
配置防火墻:?jiǎn)⒂胉iptables`或`firewalld`,只開(kāi)放必要的端口(如SSH22、Web80/443、數(shù)據(jù)庫(kù)端口)。
禁用不
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025寧夏億能固體廢棄物資源化開(kāi)發(fā)有限公司(國(guó)有上市公司)招聘23人筆試參考題庫(kù)附帶答案詳解
- 2025四川九洲建筑工程有限責(zé)任公司招聘工程管理崗(物資)等崗位11人筆試參考題庫(kù)附帶答案詳解
- 2025年衢州職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)帶答案解析
- 2025年修文縣幼兒園教師招教考試備考題庫(kù)含答案解析(奪冠)
- 2025年石家莊職業(yè)技術(shù)學(xué)院馬克思主義基本原理概論期末考試模擬題附答案解析
- 2025年青島農(nóng)業(yè)大學(xué)海都學(xué)院馬克思主義基本原理概論期末考試模擬題及答案解析(奪冠)
- 2025年涿鹿縣幼兒園教師招教考試備考題庫(kù)及答案解析(奪冠)
- 2024年齊齊哈爾立德健康職業(yè)學(xué)院馬克思主義基本原理概論期末考試題帶答案解析(奪冠)
- 2025年南陵縣招教考試備考題庫(kù)附答案解析(奪冠)
- 2024年鄭州信息科技職業(yè)學(xué)院馬克思主義基本原理概論期末考試題帶答案解析(必刷)
- 電影院消防安全制度范本
- 酒店工程維修合同協(xié)議書(shū)
- 2025年版?zhèn)€人與公司居間合同范例
- 電子商務(wù)平臺(tái)項(xiàng)目運(yùn)營(yíng)合作協(xié)議書(shū)范本
- 動(dòng)設(shè)備監(jiān)測(cè)課件 振動(dòng)狀態(tài)監(jiān)測(cè)技術(shù)基礎(chǔ)知識(shí)
- 第六講-女性文學(xué)的第二次崛起-80年代女性文學(xué)
- 專題15平面解析幾何(選擇填空題)(第一部分)(解析版) - 大數(shù)據(jù)之十年高考真題(2014-2025)與優(yōu) 質(zhì)模擬題(新高考卷與全國(guó)理科卷)
- 部門考核方案
- 苗木種子采購(gòu)合同范本
- 檢測(cè)費(fèi)合同范本
- T-CPQS C010-2024 鑒賞收藏用潮流玩偶及類似用途產(chǎn)品
評(píng)論
0/150
提交評(píng)論