Linux服務(wù)器日常維護(hù)手冊_第1頁
Linux服務(wù)器日常維護(hù)手冊_第2頁
Linux服務(wù)器日常維護(hù)手冊_第3頁
Linux服務(wù)器日常維護(hù)手冊_第4頁
Linux服務(wù)器日常維護(hù)手冊_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

Linux服務(wù)器日常維護(hù)手冊Linux服務(wù)器日常維護(hù)手冊

一、概述

Linux服務(wù)器作為企業(yè)IT基礎(chǔ)設(shè)施的核心組成部分,其穩(wěn)定運(yùn)行直接關(guān)系到業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全。本手冊旨在提供一套系統(tǒng)化、規(guī)范化的日常維護(hù)流程,幫助運(yùn)維人員高效完成服務(wù)器管理任務(wù)。通過遵循以下指南,可以有效提升服務(wù)器性能、保障系統(tǒng)安全、延長硬件使用壽命,并降低故障風(fēng)險。

二、日常維護(hù)流程

(一)系統(tǒng)狀態(tài)檢查

1.CPU使用率監(jiān)控

-使用`top`或`htop`命令實(shí)時查看CPU負(fù)荷

-關(guān)注15分鐘平均使用率是否持續(xù)超過70%

-記錄峰值使用時段及可能原因

2.內(nèi)存與交換空間分析

-運(yùn)行`free-h`檢查可用內(nèi)存情況

-監(jiān)控Swap使用比例(建議保持在30%以下)

-分析內(nèi)存泄漏可疑跡象(如持續(xù)增長的Swap使用)

3.磁盤空間管理

-執(zhí)行`df-h`定期檢查分區(qū)容量

-設(shè)置自動告警閾值(如剩余空間低于15%)

-使用`du-sh`識別占用空間過大的文件

4.網(wǎng)絡(luò)狀態(tài)評估

-使用`ifconfig`或`ipa`確認(rèn)接口狀態(tài)

-檢查`netstat-tulnp`監(jiān)聽端口是否正常

-運(yùn)行`ping`測試網(wǎng)絡(luò)連通性

(二)系統(tǒng)更新與補(bǔ)丁管理

1.操作系統(tǒng)更新

-每周一執(zhí)行`yumupdate`或`aptupdate`命令

-優(yōu)先安裝安全相關(guān)補(bǔ)丁(高危等級)

-記錄更新日志并驗(yàn)證系統(tǒng)穩(wěn)定性

2.應(yīng)用軟件維護(hù)

-定期檢查Web服務(wù)器、數(shù)據(jù)庫等關(guān)鍵應(yīng)用版本

-使用`yumcheck-update`或`aptlist--upgradable`發(fā)現(xiàn)可更新項

-測試更新前后的功能一致性

3.配置文件備份

-更新前使用`tarczvfconfig_backup.tar.gz/etc`備份

-建立版本控制機(jī)制(如Git存儲配置變更)

(三)安全加固與審計

1.防火墻策略檢查

-使用`iptables-L-n`確認(rèn)規(guī)則有效性

-檢查`selinux`狀態(tài)(如處于enforcing模式)

-清理冗余或過時的訪問控制規(guī)則

2.日志分析與管理

-每日檢查`/var/log/messages`系統(tǒng)日志

-分析`/var/log/secure`安全相關(guān)記錄

-使用`logrotate`自動化日志輪轉(zhuǎn)(每周執(zhí)行)

3.用戶賬戶管理

-定期運(yùn)行`lastb`檢查異常登錄記錄

-查找閑置賬戶并執(zhí)行`userdel`刪除

-強(qiáng)制執(zhí)行密碼定期變更(如每90天)

(四)性能優(yōu)化與資源調(diào)整

1.服務(wù)性能調(diào)優(yōu)

-調(diào)整Nginx工作進(jìn)程數(shù)(`worker_processes`參數(shù))

-優(yōu)化MySQL緩存大小(`innodb_buffer_pool_size`)

-調(diào)整Redis最大內(nèi)存占用

2.系統(tǒng)參數(shù)優(yōu)化

-編輯`/etc/sysctl.conf`調(diào)整內(nèi)核參數(shù)

-增加文件描述符限制(`ulimit-n`設(shè)置)

-優(yōu)化TCP連接參數(shù)(如`net.ipv4.tcp_tw_reuse`)

3.緩存管理

-清理瀏覽器緩存(`curl-I`檢查緩存狀態(tài))

-重啟Memcached/Redis服務(wù)刷新緩存

-分析慢查詢并優(yōu)化數(shù)據(jù)庫索引

三、應(yīng)急響應(yīng)與處理

(一)故障識別方法

1.系統(tǒng)崩潰處理

-檢查`/var/crash`目錄獲取內(nèi)核崩潰信息

-使用`dmesg`命令分析啟動日志

-查看硬件狀態(tài)(如通過`smartctl`檢查磁盤)

2.服務(wù)中斷排查

-運(yùn)行`systemctlstatus<service_name>`確認(rèn)狀態(tài)

-檢查依賴關(guān)系(`systemctllist-dependencies`)

-分析進(jìn)程樹(`psaxf`)定位問題進(jìn)程

3.性能驟降診斷

-使用`iostat-mx`檢查I/O性能

-運(yùn)行`vmstat1`分析內(nèi)存交換情況

-分析CPU熱核(使用`perftop`命令)

(二)標(biāo)準(zhǔn)處置流程

1.故障分級處理

-嚴(yán)重故障(系統(tǒng)不可用)→立即隔離→診斷修復(fù)→恢復(fù)服務(wù)

-輕微故障(性能下降)→監(jiān)控趨勢→調(diào)整參數(shù)→測試驗(yàn)證

2.變更管理規(guī)范

-所有變更必須記錄在案(時間、操作人、原因)

-備份關(guān)鍵數(shù)據(jù)(如數(shù)據(jù)庫全量備份)

-設(shè)置回滾計劃(如`gitrevert`操作)

3.文檔記錄要求

-每次維護(hù)操作需更新操作記錄表

-故障處理過程詳細(xì)記錄(時間線、嘗試方案、最終解決)

-建立知識庫(常見問題解決方案)

四、預(yù)防性維護(hù)措施

(一)定期巡檢計劃

1.巡檢周期設(shè)置

-基礎(chǔ)檢查(每周):CPU/內(nèi)存/磁盤/網(wǎng)絡(luò)

-深度檢查(每月):安全漏洞掃描

-全面檢查(每季度):硬件健康度評估

2.自動化監(jiān)控方案

-部署Zabbix/Prometheus監(jiān)控系統(tǒng)

-設(shè)置告警閾值(如CPU使用率90%觸發(fā)告警)

-建立基線數(shù)據(jù)(正常運(yùn)行參數(shù)范圍)

(二)容量規(guī)劃建議

1.資源預(yù)測模型

-根據(jù)歷史數(shù)據(jù)(如每月增長5-10%)預(yù)測需求

-使用`gnuplot`繪制資源使用趨勢圖

-提前30天提交擴(kuò)容申請

2.冗余設(shè)計實(shí)施

-關(guān)鍵服務(wù)實(shí)現(xiàn)主備部署(如Keepalived)

-配置負(fù)載均衡(如LVS/HAProxy)

-設(shè)置異地備份(如rsync到備份節(jié)點(diǎn))

(三)文檔維護(hù)體系

1.文檔更新機(jī)制

-配置文件變更同步更新到維基

-添加操作手冊截圖說明

-建立版本簽出流程(如Git分支管理)

2.知識共享活動

-每月開展技術(shù)分享會

-收集整理典型問題解決方案

-建立最佳實(shí)踐案例庫

三、應(yīng)急響應(yīng)與處理(續(xù))

(一)故障識別方法(續(xù))

1.系統(tǒng)崩潰處理(續(xù))

-內(nèi)存轉(zhuǎn)儲分析

-啟用內(nèi)存轉(zhuǎn)儲:編輯`/etc/sysctl.conf`文件,添加`kernel.panic=30`和`kernel.panic_on_oops=1`參數(shù)

-掛載轉(zhuǎn)儲文件:檢查`/proc/vmcore`文件是否存在,使用`mount-oro/dev/mapper/vg-lv/mnt/vmcore`掛載

-分析工具使用:配合`crash`或`kgdb`工具進(jìn)行內(nèi)核崩潰分析,重點(diǎn)關(guān)注`trap`和`error`信息

-硬件故障診斷

-磁盤健康檢查:使用`smartctl-a/dev/sda`命令全面檢測磁盤S.M.A.R.T信息

-內(nèi)存測試執(zhí)行:運(yùn)行`memtest86+`工具(需制作啟動盤)進(jìn)行連續(xù)內(nèi)存測試

-溫度監(jiān)控查看:使用`sensors`命令檢查CPU和主板的溫度(如`sensorsamc0`)

2.服務(wù)中斷排查(續(xù))

-網(wǎng)絡(luò)服務(wù)故障

-堆棧跟蹤分析:執(zhí)行`gdb-p$(pgrephttpd)`附加到服務(wù)進(jìn)程查看調(diào)用堆棧

-配置文件校驗(yàn):對比`/etc/httpd/conf/httpd.conf`與備份版本差異(使用`diff`命令)

-端口狀態(tài)確認(rèn):使用`netstat-tulnp|grephttpd`檢查80/443端口監(jiān)聽狀態(tài)

-數(shù)據(jù)庫服務(wù)恢復(fù)

-日志文件定位:檢查`/var/log/mongodb/mongod.log`(MongoDB)或`/var/log/mysql/error.log`(MySQL)

-主從同步檢查:對于主從架構(gòu),執(zhí)行`mongo--eval"db.stats()"`確認(rèn)數(shù)據(jù)同步進(jìn)度

-表結(jié)構(gòu)修復(fù):使用`mysqlcheck-r-adatabase_name`修復(fù)損壞的MySQL表

3.性能驟降診斷(續(xù))

-I/O性能分析

-順序讀寫測試:使用`fio`工具執(zhí)行測試(參考命令:`fio--name=randread--ioengine=libaio--direct=1--rw=randread--size=1G--numjobs=4--runtime=300--group_reporting`)

-文件系統(tǒng)瓶頸:運(yùn)行`iostat-x1`查看`await`和`svctm`指標(biāo)是否異常

-LVM性能調(diào)優(yōu):檢查`/etc/lvm/backup`備份文件是否完整,使用`vgscan`重新掃描卷組

-CPU資源爭用

-熱點(diǎn)分析:使用`perftop`命令查看CPU熱核(如`perftop--all`)

-上下文切換:檢查`vmstat1`的`s`(系統(tǒng))和`cs`(上下文切換)數(shù)值

-進(jìn)程分析:運(yùn)行`ps-eopid,ppid,cmd,%cpu,%mem--sort=-%cpu|head-n20`找出高CPU進(jìn)程

(二)標(biāo)準(zhǔn)處置流程(續(xù))

-變更回滾操作

-命令記錄:使用`script-arollback_log`記錄所有回滾命令

-步驟編號:為每個回滾步驟編號(如`1.revertgitcommitabc123`)

-驗(yàn)證機(jī)制:每個步驟執(zhí)行后運(yùn)行`curl-I`確認(rèn)服務(wù)正常

-多節(jié)點(diǎn)故障處理

-故障隔離:執(zhí)行`foripin0102;dossh$ip'sudosystemctlstophttpd';done`停止所有節(jié)點(diǎn)服務(wù)

-資源轉(zhuǎn)移:將負(fù)載均衡器指向備用節(jié)點(diǎn)(修改`/etc/keepalived/keepalived.conf`中的VIP轉(zhuǎn)發(fā)規(guī)則)

-并發(fā)控制:在主節(jié)點(diǎn)執(zhí)行`mysql-e"SETGLOBALmax_connections=50;"`臨時降低連接數(shù)

-安全事件響應(yīng)

-隔離受感染節(jié)點(diǎn):立即執(zhí)行`ipaddradd00deveth0`創(chuàng)建隔離網(wǎng)絡(luò)

-恢復(fù)過程:

1.備份當(dāng)前狀態(tài):`rsync-a/var/www//backup/`

2.清除惡意文件:`find/var/www-name".php"-typef-execgrep-I"base64_decode"{}\;-execrm{}\;`

3.重新部署:`gitclone/project/repo.git/var/www`

4.修改安全策略:`iptables-AINPUT-ptcp--dport80-mconntrack--ctstateNEW-mrecent--set`

-后續(xù)加固:

-添加安全頭:編輯`.htaccess`文件加入`HeadersetX-Frame-Options"SAMEORIGIN"`等指令

-密鑰更新:重新生成SSH私鑰并更新`authorized_keys`

(三)文檔記錄要求(續(xù))

-故障處理模板

|項目|內(nèi)容要求|

|------|----------|

|故障時間|YYYY-MM-DDHH:MM:SS(精確到秒)|

|發(fā)現(xiàn)人|姓名+工號|

|影響范圍|受影響服務(wù)列表+預(yù)估受影響用戶數(shù)|

|處理過程|步驟化記錄(含時間戳)|

|解決方案|具體操作命令+參數(shù)設(shè)置|

|預(yù)防措施|已實(shí)施的改進(jìn)措施|

|附件|日志截圖、配置對比文件|

-知識庫分類

-按問題類型:網(wǎng)絡(luò)中斷、數(shù)據(jù)庫緩慢、服務(wù)崩潰等

-按服務(wù)分類:Web服務(wù)器、數(shù)據(jù)庫、中間件等

-按解決方案:臨時修復(fù)、永久優(yōu)化、配置調(diào)整等

-文檔更新機(jī)制

-使用Markdown格式統(tǒng)一文檔風(fēng)格

-設(shè)置版本控制(如添加`last_updated:YYYY-MM-DD`字段)

-定期評審(每月1日開展文檔質(zhì)量檢查會)

Linux服務(wù)器日常維護(hù)手冊

一、概述

Linux服務(wù)器作為企業(yè)IT基礎(chǔ)設(shè)施的核心組成部分,其穩(wěn)定運(yùn)行直接關(guān)系到業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全。本手冊旨在提供一套系統(tǒng)化、規(guī)范化的日常維護(hù)流程,幫助運(yùn)維人員高效完成服務(wù)器管理任務(wù)。通過遵循以下指南,可以有效提升服務(wù)器性能、保障系統(tǒng)安全、延長硬件使用壽命,并降低故障風(fēng)險。

二、日常維護(hù)流程

(一)系統(tǒng)狀態(tài)檢查

1.CPU使用率監(jiān)控

-使用`top`或`htop`命令實(shí)時查看CPU負(fù)荷

-關(guān)注15分鐘平均使用率是否持續(xù)超過70%

-記錄峰值使用時段及可能原因

2.內(nèi)存與交換空間分析

-運(yùn)行`free-h`檢查可用內(nèi)存情況

-監(jiān)控Swap使用比例(建議保持在30%以下)

-分析內(nèi)存泄漏可疑跡象(如持續(xù)增長的Swap使用)

3.磁盤空間管理

-執(zhí)行`df-h`定期檢查分區(qū)容量

-設(shè)置自動告警閾值(如剩余空間低于15%)

-使用`du-sh`識別占用空間過大的文件

4.網(wǎng)絡(luò)狀態(tài)評估

-使用`ifconfig`或`ipa`確認(rèn)接口狀態(tài)

-檢查`netstat-tulnp`監(jiān)聽端口是否正常

-運(yùn)行`ping`測試網(wǎng)絡(luò)連通性

(二)系統(tǒng)更新與補(bǔ)丁管理

1.操作系統(tǒng)更新

-每周一執(zhí)行`yumupdate`或`aptupdate`命令

-優(yōu)先安裝安全相關(guān)補(bǔ)?。ǜ呶5燃墸?/p>

-記錄更新日志并驗(yàn)證系統(tǒng)穩(wěn)定性

2.應(yīng)用軟件維護(hù)

-定期檢查Web服務(wù)器、數(shù)據(jù)庫等關(guān)鍵應(yīng)用版本

-使用`yumcheck-update`或`aptlist--upgradable`發(fā)現(xiàn)可更新項

-測試更新前后的功能一致性

3.配置文件備份

-更新前使用`tarczvfconfig_backup.tar.gz/etc`備份

-建立版本控制機(jī)制(如Git存儲配置變更)

(三)安全加固與審計

1.防火墻策略檢查

-使用`iptables-L-n`確認(rèn)規(guī)則有效性

-檢查`selinux`狀態(tài)(如處于enforcing模式)

-清理冗余或過時的訪問控制規(guī)則

2.日志分析與管理

-每日檢查`/var/log/messages`系統(tǒng)日志

-分析`/var/log/secure`安全相關(guān)記錄

-使用`logrotate`自動化日志輪轉(zhuǎn)(每周執(zhí)行)

3.用戶賬戶管理

-定期運(yùn)行`lastb`檢查異常登錄記錄

-查找閑置賬戶并執(zhí)行`userdel`刪除

-強(qiáng)制執(zhí)行密碼定期變更(如每90天)

(四)性能優(yōu)化與資源調(diào)整

1.服務(wù)性能調(diào)優(yōu)

-調(diào)整Nginx工作進(jìn)程數(shù)(`worker_processes`參數(shù))

-優(yōu)化MySQL緩存大小(`innodb_buffer_pool_size`)

-調(diào)整Redis最大內(nèi)存占用

2.系統(tǒng)參數(shù)優(yōu)化

-編輯`/etc/sysctl.conf`調(diào)整內(nèi)核參數(shù)

-增加文件描述符限制(`ulimit-n`設(shè)置)

-優(yōu)化TCP連接參數(shù)(如`net.ipv4.tcp_tw_reuse`)

3.緩存管理

-清理瀏覽器緩存(`curl-I`檢查緩存狀態(tài))

-重啟Memcached/Redis服務(wù)刷新緩存

-分析慢查詢并優(yōu)化數(shù)據(jù)庫索引

三、應(yīng)急響應(yīng)與處理

(一)故障識別方法

1.系統(tǒng)崩潰處理

-檢查`/var/crash`目錄獲取內(nèi)核崩潰信息

-使用`dmesg`命令分析啟動日志

-查看硬件狀態(tài)(如通過`smartctl`檢查磁盤)

2.服務(wù)中斷排查

-運(yùn)行`systemctlstatus<service_name>`確認(rèn)狀態(tài)

-檢查依賴關(guān)系(`systemctllist-dependencies`)

-分析進(jìn)程樹(`psaxf`)定位問題進(jìn)程

3.性能驟降診斷

-使用`iostat-mx`檢查I/O性能

-運(yùn)行`vmstat1`分析內(nèi)存交換情況

-分析CPU熱核(使用`perftop`命令)

(二)標(biāo)準(zhǔn)處置流程

1.故障分級處理

-嚴(yán)重故障(系統(tǒng)不可用)→立即隔離→診斷修復(fù)→恢復(fù)服務(wù)

-輕微故障(性能下降)→監(jiān)控趨勢→調(diào)整參數(shù)→測試驗(yàn)證

2.變更管理規(guī)范

-所有變更必須記錄在案(時間、操作人、原因)

-備份關(guān)鍵數(shù)據(jù)(如數(shù)據(jù)庫全量備份)

-設(shè)置回滾計劃(如`gitrevert`操作)

3.文檔記錄要求

-每次維護(hù)操作需更新操作記錄表

-故障處理過程詳細(xì)記錄(時間線、嘗試方案、最終解決)

-建立知識庫(常見問題解決方案)

四、預(yù)防性維護(hù)措施

(一)定期巡檢計劃

1.巡檢周期設(shè)置

-基礎(chǔ)檢查(每周):CPU/內(nèi)存/磁盤/網(wǎng)絡(luò)

-深度檢查(每月):安全漏洞掃描

-全面檢查(每季度):硬件健康度評估

2.自動化監(jiān)控方案

-部署Zabbix/Prometheus監(jiān)控系統(tǒng)

-設(shè)置告警閾值(如CPU使用率90%觸發(fā)告警)

-建立基線數(shù)據(jù)(正常運(yùn)行參數(shù)范圍)

(二)容量規(guī)劃建議

1.資源預(yù)測模型

-根據(jù)歷史數(shù)據(jù)(如每月增長5-10%)預(yù)測需求

-使用`gnuplot`繪制資源使用趨勢圖

-提前30天提交擴(kuò)容申請

2.冗余設(shè)計實(shí)施

-關(guān)鍵服務(wù)實(shí)現(xiàn)主備部署(如Keepalived)

-配置負(fù)載均衡(如LVS/HAProxy)

-設(shè)置異地備份(如rsync到備份節(jié)點(diǎn))

(三)文檔維護(hù)體系

1.文檔更新機(jī)制

-配置文件變更同步更新到維基

-添加操作手冊截圖說明

-建立版本簽出流程(如Git分支管理)

2.知識共享活動

-每月開展技術(shù)分享會

-收集整理典型問題解決方案

-建立最佳實(shí)踐案例庫

三、應(yīng)急響應(yīng)與處理(續(xù))

(一)故障識別方法(續(xù))

1.系統(tǒng)崩潰處理(續(xù))

-內(nèi)存轉(zhuǎn)儲分析

-啟用內(nèi)存轉(zhuǎn)儲:編輯`/etc/sysctl.conf`文件,添加`kernel.panic=30`和`kernel.panic_on_oops=1`參數(shù)

-掛載轉(zhuǎn)儲文件:檢查`/proc/vmcore`文件是否存在,使用`mount-oro/dev/mapper/vg-lv/mnt/vmcore`掛載

-分析工具使用:配合`crash`或`kgdb`工具進(jìn)行內(nèi)核崩潰分析,重點(diǎn)關(guān)注`trap`和`error`信息

-硬件故障診斷

-磁盤健康檢查:使用`smartctl-a/dev/sda`命令全面檢測磁盤S.M.A.R.T信息

-內(nèi)存測試執(zhí)行:運(yùn)行`memtest86+`工具(需制作啟動盤)進(jìn)行連續(xù)內(nèi)存測試

-溫度監(jiān)控查看:使用`sensors`命令檢查CPU和主板的溫度(如`sensorsamc0`)

2.服務(wù)中斷排查(續(xù))

-網(wǎng)絡(luò)服務(wù)故障

-堆棧跟蹤分析:執(zhí)行`gdb-p$(pgrephttpd)`附加到服務(wù)進(jìn)程查看調(diào)用堆棧

-配置文件校驗(yàn):對比`/etc/httpd/conf/httpd.conf`與備份版本差異(使用`diff`命令)

-端口狀態(tài)確認(rèn):使用`netstat-tulnp|grephttpd`檢查80/443端口監(jiān)聽狀態(tài)

-數(shù)據(jù)庫服務(wù)恢復(fù)

-日志文件定位:檢查`/var/log/mongodb/mongod.log`(MongoDB)或`/var/log/mysql/error.log`(MySQL)

-主從同步檢查:對于主從架構(gòu),執(zhí)行`mongo--eval"db.stats()"`確認(rèn)數(shù)據(jù)同步進(jìn)度

-表結(jié)構(gòu)修復(fù):使用`mysqlcheck-r-adatabase_name`修復(fù)損壞的MySQL表

3.性能驟降診斷(續(xù))

-I/O性能分析

-順序讀寫測試:使用`fio`工具執(zhí)行測試(參考命令:`fio--name=randread--ioengine=libaio--direct=1--rw=randread--size=1G--numjobs=4--runtime=300--group_reporting`)

-文件系統(tǒng)瓶頸:運(yùn)行`iostat-x1`查看`await`和`svctm`指標(biāo)是否異常

-LVM性能調(diào)優(yōu):檢查`/etc/lvm/backup`備份文件是否完整,使用`vgscan`重新掃描卷組

-CPU資源爭用

-熱點(diǎn)分析:使用`perftop`命令查看CPU熱核(如`perftop--all`)

-上下文切換:檢查`vmstat1`的`s`(系統(tǒng))和`cs`(上下文切換)數(shù)值

-進(jìn)程分析:運(yùn)行`ps-eopid,ppid,cmd,%cpu,%mem--sort=-%cpu|head-n20`找出高CPU進(jìn)程

(二)標(biāo)準(zhǔn)處置流程(續(xù))

-變更回滾操作

-命令記錄:使用`script-arollback_log`記錄所有回滾命令

-步驟編號:為每個回滾步驟編號(如`1.revertgitcommitabc123`)

-驗(yàn)證機(jī)制:每個步驟執(zhí)行后運(yùn)行`curl-I`確認(rèn)服務(wù)正常

-多節(jié)點(diǎn)故障處理

-故障隔離:執(zhí)行`foripin0102;dossh$ip'sudosystemctlstophttpd';done`停止所有節(jié)點(diǎn)服務(wù)

-資源轉(zhuǎn)移:將負(fù)載均衡器指向備用節(jié)點(diǎn)(修改`/etc/keepalived/keepalived.conf`中的VIP轉(zhuǎn)發(fā)規(guī)則)

-并發(fā)控制:在主節(jié)點(diǎn)執(zhí)行`mysql-e"SETGLOBALmax_connections=50;"`臨時降低連接數(shù)

-安全事件響應(yīng)

-隔離受感染節(jié)點(diǎn):立即執(zhí)行`ipaddradd00deveth0`創(chuàng)建隔離網(wǎng)絡(luò)

-恢復(fù)過程:

1.備份當(dāng)前狀態(tài):`rsync-a/var/www//backup/`

2.清除惡意文件:`find/var/www-name".php"-typef-execgrep-I"base64_decode"{}\;-execrm{}\;`

3.重新部署:`gitclone/project/repo.git/var/www`

4.修改安全策略:`iptables-AINPUT-ptcp--dport80-mconntrack--ctstateNEW-mrecent--set`

-后續(xù)加固:

-添加安全頭:編輯`.htaccess`文件加入`HeadersetX-Frame-Options"SAMEORIGIN"`等指令

-密鑰更新:重新生成SSH私鑰并更新`authorized_keys`

(三)文檔記錄要求(續(xù))

-故障處理模板

|項目|內(nèi)容要求|

|------|----------|

|故障時間|YYYY-MM-DDHH:MM:SS(精確到秒)|

|發(fā)現(xiàn)人|姓名+工號|

|影響范圍|受影響服務(wù)列表+預(yù)估受影響用戶數(shù)|

|處理過程|步驟化記錄(含時間戳)|

|解決方案|具體操作命令+參數(shù)設(shè)置|

|預(yù)防措施|已實(shí)施的改進(jìn)措施|

|附件|日志截圖、配置對比文件|

-知識庫分類

-按問題類型:網(wǎng)絡(luò)中斷、數(shù)據(jù)庫緩慢、服務(wù)崩潰等

-按服務(wù)分類:Web服務(wù)器、數(shù)據(jù)庫、中間件等

-按解決方案:臨時修復(fù)、永久優(yōu)化、配置調(diào)整等

-文檔更新機(jī)制

-使用Markdown格式統(tǒng)一文檔風(fēng)格

-設(shè)置版本控制(如添加`last_updated:YYYY-MM-DD`字段)

-定期評審(每月1日開展文檔質(zhì)量檢查會)

Linux服務(wù)器日常維護(hù)手冊

一、概述

Linux服務(wù)器作為企業(yè)IT基礎(chǔ)設(shè)施的核心組成部分,其穩(wěn)定運(yùn)行直接關(guān)系到業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全。本手冊旨在提供一套系統(tǒng)化、規(guī)范化的日常維護(hù)流程,幫助運(yùn)維人員高效完成服務(wù)器管理任務(wù)。通過遵循以下指南,可以有效提升服務(wù)器性能、保障系統(tǒng)安全、延長硬件使用壽命,并降低故障風(fēng)險。

二、日常維護(hù)流程

(一)系統(tǒng)狀態(tài)檢查

1.CPU使用率監(jiān)控

-使用`top`或`htop`命令實(shí)時查看CPU負(fù)荷

-關(guān)注15分鐘平均使用率是否持續(xù)超過70%

-記錄峰值使用時段及可能原因

2.內(nèi)存與交換空間分析

-運(yùn)行`free-h`檢查可用內(nèi)存情況

-監(jiān)控Swap使用比例(建議保持在30%以下)

-分析內(nèi)存泄漏可疑跡象(如持續(xù)增長的Swap使用)

3.磁盤空間管理

-執(zhí)行`df-h`定期檢查分區(qū)容量

-設(shè)置自動告警閾值(如剩余空間低于15%)

-使用`du-sh`識別占用空間過大的文件

4.網(wǎng)絡(luò)狀態(tài)評估

-使用`ifconfig`或`ipa`確認(rèn)接口狀態(tài)

-檢查`netstat-tulnp`監(jiān)聽端口是否正常

-運(yùn)行`ping`測試網(wǎng)絡(luò)連通性

(二)系統(tǒng)更新與補(bǔ)丁管理

1.操作系統(tǒng)更新

-每周一執(zhí)行`yumupdate`或`aptupdate`命令

-優(yōu)先安裝安全相關(guān)補(bǔ)?。ǜ呶5燃墸?/p>

-記錄更新日志并驗(yàn)證系統(tǒng)穩(wěn)定性

2.應(yīng)用軟件維護(hù)

-定期檢查Web服務(wù)器、數(shù)據(jù)庫等關(guān)鍵應(yīng)用版本

-使用`yumcheck-update`或`aptlist--upgradable`發(fā)現(xiàn)可更新項

-測試更新前后的功能一致性

3.配置文件備份

-更新前使用`tarczvfconfig_backup.tar.gz/etc`備份

-建立版本控制機(jī)制(如Git存儲配置變更)

(三)安全加固與審計

1.防火墻策略檢查

-使用`iptables-L-n`確認(rèn)規(guī)則有效性

-檢查`selinux`狀態(tài)(如處于enforcing模式)

-清理冗余或過時的訪問控制規(guī)則

2.日志分析與管理

-每日檢查`/var/log/messages`系統(tǒng)日志

-分析`/var/log/secure`安全相關(guān)記錄

-使用`logrotate`自動化日志輪轉(zhuǎn)(每周執(zhí)行)

3.用戶賬戶管理

-定期運(yùn)行`lastb`檢查異常登錄記錄

-查找閑置賬戶并執(zhí)行`userdel`刪除

-強(qiáng)制執(zhí)行密碼定期變更(如每90天)

(四)性能優(yōu)化與資源調(diào)整

1.服務(wù)性能調(diào)優(yōu)

-調(diào)整Nginx工作進(jìn)程數(shù)(`worker_processes`參數(shù))

-優(yōu)化MySQL緩存大?。╜innodb_buffer_pool_size`)

-調(diào)整Redis最大內(nèi)存占用

2.系統(tǒng)參數(shù)優(yōu)化

-編輯`/etc/sysctl.conf`調(diào)整內(nèi)核參數(shù)

-增加文件描述符限制(`ulimit-n`設(shè)置)

-優(yōu)化TCP連接參數(shù)(如`net.ipv4.tcp_tw_reuse`)

3.緩存管理

-清理瀏覽器緩存(`curl-I`檢查緩存狀態(tài))

-重啟Memcached/Redis服務(wù)刷新緩存

-分析慢查詢并優(yōu)化數(shù)據(jù)庫索引

三、應(yīng)急響應(yīng)與處理

(一)故障識別方法

1.系統(tǒng)崩潰處理

-檢查`/var/crash`目錄獲取內(nèi)核崩潰信息

-使用`dmesg`命令分析啟動日志

-查看硬件狀態(tài)(如通過`smartctl`檢查磁盤)

2.服務(wù)中斷排查

-運(yùn)行`systemctlstatus<service_name>`確認(rèn)狀態(tài)

-檢查依賴關(guān)系(`systemctllist-dependencies`)

-分析進(jìn)程樹(`psaxf`)定位問題進(jìn)程

3.性能驟降診斷

-使用`iostat-mx`檢查I/O性能

-運(yùn)行`vmstat1`分析內(nèi)存交換情況

-分析CPU熱核(使用`perftop`命令)

(二)標(biāo)準(zhǔn)處置流程

1.故障分級處理

-嚴(yán)重故障(系統(tǒng)不可用)→立即隔離→診斷修復(fù)→恢復(fù)服務(wù)

-輕微故障(性能下降)→監(jiān)控趨勢→調(diào)整參數(shù)→測試驗(yàn)證

2.變更管理規(guī)范

-所有變更必須記錄在案(時間、操作人、原因)

-備份關(guān)鍵數(shù)據(jù)(如數(shù)據(jù)庫全量備份)

-設(shè)置回滾計劃(如`gitrevert`操作)

3.文檔記錄要求

-每次維護(hù)操作需更新操作記錄表

-故障處理過程詳細(xì)記錄(時間線、嘗試方案、最終解決)

-建立知識庫(常見問題解決方案)

四、預(yù)防性維護(hù)措施

(一)定期巡檢計劃

1.巡檢周期設(shè)置

-基礎(chǔ)檢查(每周):CPU/內(nèi)存/磁盤/網(wǎng)絡(luò)

-深度檢查(每月):安全漏洞掃描

-全面檢查(每季度):硬件健康度評估

2.自動化監(jiān)控方案

-部署Zabbix/Prometheus監(jiān)控系統(tǒng)

-設(shè)置告警閾值(如CPU使用率90%觸發(fā)告警)

-建立基線數(shù)據(jù)(正常運(yùn)行參數(shù)范圍)

(二)容量規(guī)劃建議

1.資源預(yù)測模型

-根據(jù)歷史數(shù)據(jù)(如每月增長5-10%)預(yù)測需求

-使用`gnuplot`繪制資源使用趨勢圖

-提前30天提交擴(kuò)容申請

2.冗余設(shè)計實(shí)施

-關(guān)鍵服務(wù)實(shí)現(xiàn)主備部署(如Keepalived)

-配置負(fù)載均衡(如LVS/HAProxy)

-設(shè)置異地備份(如rsync到備份節(jié)點(diǎn))

(三)文檔維護(hù)體系

1.文檔更新機(jī)制

-配置文件變更同步更新到維基

-添加操作手冊截圖說明

-建立版本簽出流程(如Git分支管理)

2.知識共享活動

-每月開展技術(shù)分享會

-收集整理典型問題解決方案

-建立最佳實(shí)踐案例庫

三、應(yīng)急響應(yīng)與處理(續(xù))

(一)故障識別方法(續(xù))

1.系統(tǒng)崩潰處理(續(xù))

-內(nèi)存轉(zhuǎn)儲分析

-啟用內(nèi)存轉(zhuǎn)儲:編輯`/etc/sysctl.conf`文件,添加`kernel.panic=30`和`kernel.panic_on_oops=1`參數(shù)

-掛載轉(zhuǎn)儲文件:檢查`/proc/vmcore`文件是否存在,使用`mount-oro/dev/mapper/vg-lv/mnt/vmcore`掛載

-分析工具使用:配合`crash`或`kgdb`工具進(jìn)行內(nèi)核崩潰分析,重點(diǎn)關(guān)注`trap`和`error`信息

-硬件故障診斷

-磁盤健康檢查:使用`smartctl-a/dev/sda`命令全面檢測磁盤S.M.A.R.T信息

-內(nèi)存測試執(zhí)行:運(yùn)行`memtest86+`工具(需制作啟動盤)進(jìn)行連續(xù)內(nèi)存測試

-溫度監(jiān)控查看:使用`sensors`命令檢查CPU和主板的溫度(如`sensorsamc0`)

2.服務(wù)中斷排查(續(xù))

-網(wǎng)絡(luò)服務(wù)故障

-堆棧跟蹤分析:執(zhí)行`gdb-p$(pgrephttpd)`附加到服務(wù)進(jìn)程查看調(diào)用堆棧

-配置文件校驗(yàn):對比`/etc/httpd/conf/httpd.conf`與備份版本差異(使用`diff`命令)

-端口狀態(tài)確認(rèn):使用`netstat-tulnp|grephttpd`檢查80/443端口監(jiān)聽狀態(tài)

-數(shù)據(jù)庫服務(wù)恢復(fù)

-日志文件定位:檢查`/var/log/mongodb/mongod.log`(MongoDB)或`/var/log/mysql/error.log`(MySQL)

-主從同步檢查:對于主從架構(gòu),執(zhí)行`mongo--eval"db.stats()"`確認(rèn)數(shù)據(jù)同步進(jìn)度

-表結(jié)構(gòu)修復(fù):使用`mysqlcheck-r-adatabase_name`修復(fù)損壞的MySQL表

3.性能驟降診斷(續(xù))

-I/O性能分析

-順序讀寫測試:使用`fio`工具執(zhí)行測試(參考命令:`fio--name=randread--ioengine=libaio--direct=1--rw=randread--size=1G--numjobs=4--runtime=300--group_reporting`)

-文件系統(tǒng)瓶頸:運(yùn)行`iostat-x1`查看`await`和`svctm`指標(biāo)是否異常

-LVM性能調(diào)優(yōu):檢查`/etc/lvm/backup`備份文件是否完整,使用`vgscan`重新掃描卷組

-CPU資源爭用

-熱點(diǎn)分析:使用`perftop`命令查看CPU熱核(如`perftop--all`)

-上下文切換:檢查`vmstat1`的`s`(系統(tǒng))和`cs`(上下文切換)數(shù)值

-進(jìn)程分析:運(yùn)行`ps-eopid,ppid,cmd,%cpu,%mem--sort=-%cpu|head-n20`找出高CPU進(jìn)程

(二)標(biāo)準(zhǔn)處置流程(續(xù))

-變更回滾操作

-命令記錄:使用`script-arollback_log`記錄所有回滾命令

-步驟編號:為每個回滾步驟編號(如`1.revertgitcommitabc123`)

-驗(yàn)證機(jī)制:每個步驟執(zhí)行后運(yùn)行`curl-I`確認(rèn)服務(wù)正常

-多節(jié)點(diǎn)故障處理

-故障隔離:執(zhí)行`foripin0102;dossh$ip'sudosystemctlstophttpd';done`停止所有節(jié)點(diǎn)服務(wù)

-資源轉(zhuǎn)移:將負(fù)載均衡器指向備用節(jié)點(diǎn)(修改`/etc/keepalived/keepalived.conf`中的VIP轉(zhuǎn)發(fā)規(guī)則)

-并發(fā)控制:在主節(jié)點(diǎn)執(zhí)行`mysql-e"SETGLOBALmax_connections=50;"`臨時降低連接數(shù)

-安全事件響應(yīng)

-隔離受感染節(jié)點(diǎn):立即執(zhí)行`ipaddradd00deveth0`創(chuàng)建隔離網(wǎng)絡(luò)

-恢復(fù)過程:

1.備份當(dāng)前狀態(tài):`rsync-a/var/www//backup/`

2.清除惡意文件:`find/var/www-name".php"-typef-execgrep-I"base64_decode"{}\;-execrm{}\;`

3.重新部署:`gitclone/project/repo.git/var/www`

4.修改安全策略:`iptables-AINPUT-ptcp--dport80-mconntrack--ctstateNEW-mrecent--set`

-后續(xù)加固:

-添加安全頭:編輯`.htaccess`文件加入`HeadersetX-Frame-Options"SAMEORIGIN"`等指令

-密鑰更新:重新生成SSH私鑰并更新`authorized_keys`

(三)文檔記錄要求(續(xù))

-故障處理模板

|項目|內(nèi)容要求|

|------|----------|

|故障時間|YYYY-MM-DDHH:MM:SS(精確到秒)|

|發(fā)現(xiàn)人|姓名+工號|

|影響范圍|受影響服務(wù)列表+預(yù)估受影響用戶數(shù)|

|處理過程|步驟化記錄(含時間戳)|

|解決方案|具體操作命令+參數(shù)設(shè)置|

|預(yù)防措施|已實(shí)施的改進(jìn)措施|

|附件|日志截圖、配置對比文件|

-知識庫分類

-按問題類型:網(wǎng)絡(luò)中斷、數(shù)據(jù)庫緩慢、服務(wù)崩潰等

-按服務(wù)分類:Web服務(wù)器、數(shù)據(jù)庫、中間件等

-按解決方案:臨時修復(fù)、永久優(yōu)化、配置調(diào)整等

-文檔更新機(jī)制

-使用Markdown格式統(tǒng)一文檔風(fēng)格

-設(shè)置版本控制(如添加`last_updated:YYYY-MM-DD`字段)

-定期評審(每月1日開展文檔質(zhì)量檢查會)

Linux服務(wù)器日常維護(hù)手冊

一、概述

Linux服務(wù)器作為企業(yè)IT基礎(chǔ)設(shè)施的核心組成部分,其穩(wěn)定運(yùn)行直接關(guān)系到業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全。本手冊旨在提供一套系統(tǒng)化、規(guī)范化的日常維護(hù)流程,幫助運(yùn)維人員高效完成服務(wù)器管理任務(wù)。通過遵循以下指南,可以有效提升服務(wù)器性能、保障系統(tǒng)安全、延長硬件使用壽命,并降低故障風(fēng)險。

二、日常維護(hù)流程

(一)系統(tǒng)狀態(tài)檢查

1.CPU使用率監(jiān)控

-使用`top`或`htop`命令實(shí)時查看CPU負(fù)荷

-關(guān)注15分鐘平均使用率是否持續(xù)超過70%

-記錄峰值使用時段及可能原因

2.內(nèi)存與交換空間分析

-運(yùn)行`free-h`檢查可用內(nèi)存情況

-監(jiān)控Swap使用比例(建議保持在30%以下)

-分析內(nèi)存泄漏可疑跡象(如持續(xù)增長的Swap使用)

3.磁盤空間管理

-執(zhí)行`df-h`定期檢查分區(qū)容量

-設(shè)置自動告警閾值(如剩余空間低于15%)

-使用`du-sh`識別占用空間過大的文件

4.網(wǎng)絡(luò)狀態(tài)評估

-使用`ifconfig`或`ipa`確認(rèn)接口狀態(tài)

-檢查`netstat-tulnp`監(jiān)聽端口是否正常

-運(yùn)行`ping`測試網(wǎng)絡(luò)連通性

(二)系統(tǒng)更新與補(bǔ)丁管理

1.操作系統(tǒng)更新

-每周一執(zhí)行`yumupdate`或`aptupdate`命令

-優(yōu)先安裝安全相關(guān)補(bǔ)丁(高危等級)

-記錄更新日志并驗(yàn)證系統(tǒng)穩(wěn)定性

2.應(yīng)用軟件維護(hù)

-定期檢查Web服務(wù)器、數(shù)據(jù)庫等關(guān)鍵應(yīng)用版本

-使用`yumcheck-update`或`aptlist--upgradable`發(fā)現(xiàn)可更新項

-測試更新前后的功能一致性

3.配置文件備份

-更新前使用`tarczvfconfig_backup.tar.gz/etc`備份

-建立版本控制機(jī)制(如Git存儲配置變更)

(三)安全加固與審計

1.防火墻策略檢查

-使用`iptables-L-n`確認(rèn)規(guī)則有效性

-檢查`selinux`狀態(tài)(如處于enforcing模式)

-清理冗余或過時的訪問控制規(guī)則

2.日志分析與管理

-每日檢查`/var/log/messages`系統(tǒng)日志

-分析`/var/log/secure`安全相關(guān)記錄

-使用`logrotate`自動化日志輪轉(zhuǎn)(每周執(zhí)行)

3.用戶賬戶管理

-定期運(yùn)行`lastb`檢查異常登錄記錄

-查找閑置賬戶并執(zhí)行`userdel`刪除

-強(qiáng)制執(zhí)行密碼定期變更(如每90天)

(四)性能優(yōu)化與資源調(diào)整

1.服務(wù)性能調(diào)優(yōu)

-調(diào)整Nginx工作進(jìn)程數(shù)(`worker_processes`參數(shù))

-優(yōu)化MySQL緩存大小(`innodb_buffer_pool_size`)

-調(diào)整Redis最大內(nèi)存占用

2.系統(tǒng)參數(shù)優(yōu)化

-編輯`/etc/sysctl.conf`調(diào)整內(nèi)核參數(shù)

-增加文件描述符限制(`ulimit-n`設(shè)置)

-優(yōu)化TCP連接參數(shù)(如`net.ipv4.tcp_tw_reuse`)

3.緩存管理

-清理瀏覽器緩存(`curl-I`檢查緩存狀態(tài))

-重啟Memcached/Redis服務(wù)刷新緩存

-分析慢查詢并優(yōu)化數(shù)據(jù)庫索引

三、應(yīng)急響應(yīng)與處理

(一)故障識別方法

1.系統(tǒng)崩潰處理

-檢查`/var/crash`目錄獲取內(nèi)核崩潰信息

-使用`dmesg`命令分析啟動日志

-查看硬件狀態(tài)(如通過`smartctl`檢查磁盤)

2.服務(wù)中斷排查

-運(yùn)行`systemctlstatus<service_name>`確認(rèn)狀態(tài)

-檢查依賴關(guān)系(`systemctllist-dependencies`)

-分析進(jìn)程樹(`psaxf`)定位問題進(jìn)程

3.性能驟降診斷

-使用`iostat-mx`檢查I/O性能

-運(yùn)行`vmstat1`分析內(nèi)存交換情況

-分析CPU熱核(使用`perftop`命令)

(二)標(biāo)準(zhǔn)處置流程

1.故障分級處理

-嚴(yán)重故障(系統(tǒng)不可用)→立即隔離→診斷修復(fù)→恢復(fù)服務(wù)

-輕微故障(性能下降)→監(jiān)控趨勢→調(diào)整參數(shù)→測試驗(yàn)證

2.變更管理規(guī)范

-所有變更必須記錄在案(時間、操作人、原因)

-備份關(guān)鍵數(shù)據(jù)(如數(shù)據(jù)庫全量備份)

-設(shè)置回滾計劃(如`gitrevert`操作)

3.文檔記錄要求

-每次維護(hù)操作需更新操作記錄表

-故障處理過程詳細(xì)記錄(時間線、嘗試方案、最終解決)

-建立知識庫(常見問題解決方案)

四、預(yù)防性維護(hù)措施

(一)定期巡檢計劃

1.巡檢周期設(shè)置

-基礎(chǔ)檢查(每周):CPU/內(nèi)存/磁盤/網(wǎng)絡(luò)

-深度檢查(每月):安全漏洞掃描

-全面檢查(每季度):硬件健康度評估

2.自動化監(jiān)控方案

-部署Zabbix/Prometheus監(jiān)控系統(tǒng)

-設(shè)置告警閾值(如CPU使用率90%觸發(fā)告警)

-建立基線數(shù)據(jù)(正常運(yùn)行參數(shù)范圍)

(二)容量規(guī)劃建議

1.資源預(yù)測模型

-根據(jù)歷史數(shù)據(jù)(如每月增長5-10%)預(yù)測需求

-使用`gnuplot`繪制資源使用趨勢圖

-提前30天提交擴(kuò)容申請

2.冗余設(shè)計實(shí)施

-關(guān)鍵服務(wù)實(shí)現(xiàn)主備部署(如Keepalived)

-配置負(fù)載均衡(如LVS/HAProxy)

-設(shè)置異地備份(如rsync到備份節(jié)點(diǎn))

(三)文檔維護(hù)體系

1.文檔更新機(jī)制

-配置文件變更同步更新到維基

-添加操作手冊截圖說明

-建立版本簽出流程(如Git分支管理)

2.知識共享活動

-每月開展技術(shù)分享會

-收集整理典型問題解決方案

-建立最佳實(shí)踐案例庫

三、應(yīng)急響應(yīng)與處理(續(xù))

(一)故障識別方法(續(xù))

1.系統(tǒng)崩潰處理(續(xù))

-內(nèi)存轉(zhuǎn)儲分析

-啟用內(nèi)存轉(zhuǎn)儲:編輯`/etc/sysctl.conf`文件,添加`kernel.panic=30`和`kernel.panic_on_oops=1`參數(shù)

-掛載轉(zhuǎn)儲文件:檢查`/proc/vmcore`文件是否存在,使用`mount-oro/dev/mapper/vg-lv/mnt/vmcore`掛載

-分析工具使用:配合`crash`或`kgdb`工具進(jìn)行內(nèi)核崩潰分析,重點(diǎn)關(guān)注`trap`和`error`信息

-硬件故障診斷

-磁盤健康檢查:使用`smartctl-a/dev/sda`命令全面檢測磁盤S.M.A.R.T信息

-內(nèi)存測試執(zhí)行:運(yùn)行`memtest86+`工具(需制作啟動盤)進(jìn)行連續(xù)內(nèi)存測試

-溫度監(jiān)控查看:使用`sensors`命令檢查CPU和主板的溫度(如`sensorsamc0`)

2.服務(wù)中斷排查(續(xù))

-網(wǎng)絡(luò)服務(wù)故障

-堆棧跟蹤分析:執(zhí)行`gdb-p$(pgrephttpd)`附加到服務(wù)進(jìn)程查看調(diào)用堆棧

-配置文件校驗(yàn):對比`/etc/httpd/conf/httpd.conf`與備份版本差異(使用`diff`命令)

-端口狀態(tài)確認(rèn):使用`netstat-tulnp|grephttpd`檢查80/443端口監(jiān)聽狀態(tài)

-數(shù)據(jù)庫服務(wù)恢復(fù)

-日志文件定位:檢查`/var/log/mongodb/mongod.log`(MongoDB)或`/var/log/mysql/error.log`(MySQL)

-主從同步檢查:對于主從架構(gòu),執(zhí)行`mongo--eval"db.stats()"`確認(rèn)數(shù)據(jù)同步進(jìn)度

-表結(jié)構(gòu)修復(fù):使用`mysqlcheck-r-adatabase_name`修復(fù)損壞的MySQL表

3.性能驟降診斷(續(xù))

-I/O性能分析

-順序讀寫測試:使用`fio`工具執(zhí)行測試(參考命令:`fio--name=randread--ioengine=libaio--direct=1--rw=randread--size=1G--numjobs=4--runtime=300--group_reporting`)

-文件系統(tǒng)瓶頸:運(yùn)行`iostat-x1`查看`await`和`svctm`指標(biāo)是否異常

-LVM性能調(diào)優(yōu):檢查`/etc/lvm/backup`備份文件是否完整,使用`vgscan`重新掃描卷組

-CPU資源爭用

-熱點(diǎn)分析:使用`perftop`命令查看CPU熱核(如`perftop--all`)

-上下文切換:檢查`vmstat1`的`s`(系統(tǒng))和`cs`(上下文切換)數(shù)值

-進(jìn)程分析:運(yùn)行`ps-eopid,ppid,cmd,%cpu,%mem--sort=-%cpu|head-n20`找出高CPU進(jìn)程

(二)標(biāo)準(zhǔn)處置流程(續(xù))

-變更回滾操作

-命令記錄:使用`script-arollback_log`記錄所有回滾命令

-步驟編號:為每個回滾步驟編號(如`1.revertgitcommitabc123`)

-驗(yàn)證機(jī)制:每個步驟執(zhí)行后運(yùn)行`curl-I`確認(rèn)服務(wù)正常

-多節(jié)點(diǎn)故障處理

-故障隔離:執(zhí)行`foripin0102;dossh$ip'sudosystemctlstophttpd';done`停止所有節(jié)點(diǎn)服務(wù)

-資源轉(zhuǎn)移:將負(fù)載均衡器指向備用節(jié)點(diǎn)(修改`/etc/keepalived/keepalived.conf`中的VIP轉(zhuǎn)發(fā)規(guī)則)

-并發(fā)控制:在主節(jié)點(diǎn)執(zhí)行`mysql-e"SETGLOBALmax_connections=50;"`臨時降低連接數(shù)

-安全事件響應(yīng)

-隔離受感染節(jié)點(diǎn):立即執(zhí)行`ipaddradd00deveth0`創(chuàng)建隔離網(wǎng)絡(luò)

-恢復(fù)過程:

1.備份當(dāng)前狀態(tài):`rsync-a/var/www//backup/`

2.清除惡意文件:`find/var/www-name".php"-typef-execgrep-I"base64_decode"{}\;-execrm{}\;`

3.重新部署:`gitclone/project/repo.git/var/www`

4.修改安全策略:`iptables-AINPUT-ptcp--dport80-mconntrack--ctstateNEW-mrecent--set`

-后續(xù)加固:

-添加安全頭:編輯`.htaccess`文件加入`HeadersetX-Frame-Options"SAMEORIGIN"`等指令

-密鑰更新:重新生成SSH私鑰并更新`authorized_keys`

(三)文檔記錄要求(續(xù))

-故障處理模板

|項目|內(nèi)容要求|

|------|----------|

|故障時間|YYYY-MM-DDHH:MM:SS(精確到秒)|

|發(fā)現(xiàn)人|姓名+工號|

|影響范圍|受影響服務(wù)列表+預(yù)估受影響用戶數(shù)|

|處理過程|步驟化記錄(含時間戳)|

|解決方案|具體操作命令+參數(shù)設(shè)置|

|預(yù)防措施|已實(shí)施的改進(jìn)措施|

|附件|日志截圖、配置對比文件|

-知識庫分類

-按問題類型:網(wǎng)絡(luò)中斷、數(shù)據(jù)庫緩慢、服務(wù)崩潰等

-按服務(wù)分類:Web服務(wù)器、數(shù)據(jù)庫、中間件等

-按解決方案:臨時修復(fù)、永久優(yōu)化、配置調(diào)整等

-文檔更新機(jī)制

-使用Markdown格式統(tǒng)一文檔風(fēng)格

-設(shè)置版本控制(如添加`last_updated:YYYY-MM-DD`字段)

-定期評審(每月1日開展文檔質(zhì)量檢查會)

Linux服務(wù)器日常維護(hù)手冊

一、概述

Linux服務(wù)器作為企業(yè)IT基礎(chǔ)設(shè)施的核心組成部分,其穩(wěn)定運(yùn)行直接關(guān)系到業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全。本手冊旨在提供一套系統(tǒng)化、規(guī)范化的日常維護(hù)流程,幫助運(yùn)維人員高效完成服務(wù)器管理任務(wù)。通過遵循以下指南,可以有效提升服務(wù)器性能、保障系統(tǒng)安全、延長硬件使用壽命,并降低故障風(fēng)險。

二、日常維護(hù)流程

(一)系統(tǒng)狀態(tài)檢查

1.CPU使用率監(jiān)控

-使用`top`或`htop`命令實(shí)時查看CPU負(fù)荷

-關(guān)注15分鐘平均使用率是否持續(xù)超過70%

-記錄峰值使用時段及可能原因

2.內(nèi)存與交換空間分析

-運(yùn)行`free-h`檢查可用內(nèi)存情況

-監(jiān)控Swap使用比例(建議保持在30%以下)

-分析內(nèi)存泄漏可疑跡象(如持續(xù)增長的Swap使用)

3.磁盤空間管理

-執(zhí)行`df-h`定期檢查分區(qū)容量

-設(shè)置自動告警閾值(如剩余空間低于15%)

-使用`du-sh`識別占用空間過大的文件

4.網(wǎng)絡(luò)狀態(tài)評估

-使用`ifconfig`或`ipa`確認(rèn)接口狀態(tài)

-檢查`netstat-tulnp`監(jiān)聽端口是否正常

-運(yùn)行`ping`測試網(wǎng)絡(luò)連通性

(二)系統(tǒng)更新與補(bǔ)丁管理

1.操作系統(tǒng)更新

-每周一執(zhí)行`yumupdate`或`aptupdate`命令

-優(yōu)先安裝安全相關(guān)補(bǔ)?。ǜ呶5燃墸?/p>

-記錄更新日志并驗(yàn)證系統(tǒng)穩(wěn)定性

2.應(yīng)用軟件維護(hù)

-定期檢查Web服務(wù)器、數(shù)據(jù)庫等關(guān)鍵應(yīng)用版本

-使用`yumcheck-update`或`aptlist--upgradable`發(fā)現(xiàn)可更新項

-測試更新前后的功能一致性

3.配置文件備份

-更新前使用`tarczvfconfig_backup.tar.gz/etc`備份

-建立版本控制機(jī)制(如Git存儲配置變更)

(三)安全加固與審計

1.防火墻策略檢查

-使用`iptables-L-n`確認(rèn)規(guī)則有效性

-檢查`selinux`狀態(tài)(如處于enforcing模式)

-清理冗余或過時的訪問控制規(guī)則

2.日志分析與管理

-每日檢查`/var/log/messages`系統(tǒng)日志

-分析`/var/log/secure`安全相關(guān)記錄

-使用`logrotate`自動化日志輪轉(zhuǎn)(每周執(zhí)行)

3.用戶賬戶管理

-定期運(yùn)行`lastb`檢查異常登錄記錄

-查找閑置賬戶并執(zhí)行`userdel`刪除

-強(qiáng)制執(zhí)行密碼定期變更(如每90天)

(四)性能優(yōu)化與資源調(diào)整

1.服務(wù)性能調(diào)優(yōu)

-調(diào)整Nginx工作進(jìn)程數(shù)(`worker_processes`參數(shù))

-優(yōu)化MySQL緩存大?。╜innodb_buffer_pool_size`)

-調(diào)整Redis最大內(nèi)存占用

2.系統(tǒng)參數(shù)優(yōu)化

-編輯`/etc/sysctl.conf`調(diào)整內(nèi)核參數(shù)

-增加文件描述符限制(`ulimit-n`設(shè)置)

-優(yōu)化TCP連接參數(shù)(如`net.ipv4.tcp_tw_reuse`)

3.緩存管理

-清理瀏覽器緩存(`curl-I`檢查緩存狀態(tài))

-重啟Memcached/Redis服務(wù)刷新緩存

-分析慢查詢并優(yōu)化數(shù)據(jù)庫索引

三、應(yīng)急響應(yīng)與處理

(一)故障識別方法

1.系統(tǒng)崩潰處理

-檢查`/var/crash`目錄獲取內(nèi)核崩潰信息

-使用`dmesg`命令分析啟動日志

-查看硬件狀態(tài)(如通過`smartctl`檢查磁盤)

2.服務(wù)中斷排查

-運(yùn)行`systemctlstatus<service_name>`確認(rèn)狀態(tài)

-檢查依賴關(guān)系(`systemctllist-dependencies`)

-分析進(jìn)程樹(`psaxf`)定位問題進(jìn)程

3.性能驟降診斷

-使用`iostat-mx`檢查I/O性能

-運(yùn)行`vmstat1`分析內(nèi)存交換情況

-分析CPU熱核(使用`perftop`命令)

(二)標(biāo)準(zhǔn)處置流程

1.故障分級處理

-嚴(yán)重故障(系統(tǒng)不可用)→立即隔離→診斷修復(fù)→恢復(fù)服務(wù)

-輕微故障(性能下降)→監(jiān)控趨勢→調(diào)整參數(shù)→測試驗(yàn)證

2.變更管理規(guī)范

-所有變更必須記錄在案(時間、操作人、原因)

-備份關(guān)鍵數(shù)據(jù)(如數(shù)據(jù)庫全量備份)

-設(shè)置回滾計劃(如`gitrevert`操作)

3.文檔記錄要求

-每次維護(hù)操作需更新操作記錄表

-故障處理過程詳細(xì)記錄(時間線、嘗試方案、最終解決)

-建立知識庫(常見問題解決方案)

四、預(yù)防性維護(hù)措施

(一)定期巡檢計劃

1.巡檢周期設(shè)置

-基礎(chǔ)檢查(每周):CPU/內(nèi)存/磁盤/網(wǎng)絡(luò)

-深度檢查(每月):安全漏洞掃描

-全面檢查(每季度):硬件健康度評估

2.自動化監(jiān)控方案

-部署Zabbix/Prometheus監(jiān)控系統(tǒng)

-設(shè)置告警閾值(如CPU使用率90%觸發(fā)告警)

-建立基線數(shù)據(jù)(正常運(yùn)行參數(shù)范圍)

(二)容量規(guī)劃建議

1.資源預(yù)測模型

-根據(jù)歷史數(shù)據(jù)(如每月增長5-10%)預(yù)測需求

-使用`gnuplot`繪制資源使用趨勢圖

-提前30天提交擴(kuò)容申請

2.冗余設(shè)計實(shí)施

-關(guān)鍵服務(wù)實(shí)現(xiàn)主備部署(如Keepalived)

-配置負(fù)載均衡(如LVS/HAProxy)

-設(shè)置異地備份(如rsync到備份節(jié)點(diǎn))

(三)文檔維護(hù)體系

1.文檔更新機(jī)制

-配置文件變更同步更新到維基

-添加操作手冊截圖說明

-建立版本簽出流程(如Git分支管理)

2.知識共享活動

-每月開展技術(shù)分享會

-收集整理典型問題解決方案

-建立最佳實(shí)踐案例庫

三、應(yīng)急響應(yīng)與處理(續(xù))

(一)故障識別方法(續(xù))

1.系統(tǒng)崩潰處理(續(xù))

-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論