版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Linux服務(wù)器日常維護(hù)手冊Linux服務(wù)器日常維護(hù)手冊
一、概述
Linux服務(wù)器作為企業(yè)IT基礎(chǔ)設(shè)施的核心組成部分,其穩(wěn)定運(yùn)行直接關(guān)系到業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全。本手冊旨在提供一套系統(tǒng)化、規(guī)范化的日常維護(hù)流程,幫助運(yùn)維人員高效完成服務(wù)器管理任務(wù)。通過遵循以下指南,可以有效提升服務(wù)器性能、保障系統(tǒng)安全、延長硬件使用壽命,并降低故障風(fēng)險。
二、日常維護(hù)流程
(一)系統(tǒng)狀態(tài)檢查
1.CPU使用率監(jiān)控
-使用`top`或`htop`命令實(shí)時查看CPU負(fù)荷
-關(guān)注15分鐘平均使用率是否持續(xù)超過70%
-記錄峰值使用時段及可能原因
2.內(nèi)存與交換空間分析
-運(yùn)行`free-h`檢查可用內(nèi)存情況
-監(jiān)控Swap使用比例(建議保持在30%以下)
-分析內(nèi)存泄漏可疑跡象(如持續(xù)增長的Swap使用)
3.磁盤空間管理
-執(zhí)行`df-h`定期檢查分區(qū)容量
-設(shè)置自動告警閾值(如剩余空間低于15%)
-使用`du-sh`識別占用空間過大的文件
4.網(wǎng)絡(luò)狀態(tài)評估
-使用`ifconfig`或`ipa`確認(rèn)接口狀態(tài)
-檢查`netstat-tulnp`監(jiān)聽端口是否正常
-運(yùn)行`ping`測試網(wǎng)絡(luò)連通性
(二)系統(tǒng)更新與補(bǔ)丁管理
1.操作系統(tǒng)更新
-每周一執(zhí)行`yumupdate`或`aptupdate`命令
-優(yōu)先安裝安全相關(guān)補(bǔ)丁(高危等級)
-記錄更新日志并驗(yàn)證系統(tǒng)穩(wěn)定性
2.應(yīng)用軟件維護(hù)
-定期檢查Web服務(wù)器、數(shù)據(jù)庫等關(guān)鍵應(yīng)用版本
-使用`yumcheck-update`或`aptlist--upgradable`發(fā)現(xiàn)可更新項
-測試更新前后的功能一致性
3.配置文件備份
-更新前使用`tarczvfconfig_backup.tar.gz/etc`備份
-建立版本控制機(jī)制(如Git存儲配置變更)
(三)安全加固與審計
1.防火墻策略檢查
-使用`iptables-L-n`確認(rèn)規(guī)則有效性
-檢查`selinux`狀態(tài)(如處于enforcing模式)
-清理冗余或過時的訪問控制規(guī)則
2.日志分析與管理
-每日檢查`/var/log/messages`系統(tǒng)日志
-分析`/var/log/secure`安全相關(guān)記錄
-使用`logrotate`自動化日志輪轉(zhuǎn)(每周執(zhí)行)
3.用戶賬戶管理
-定期運(yùn)行`lastb`檢查異常登錄記錄
-查找閑置賬戶并執(zhí)行`userdel`刪除
-強(qiáng)制執(zhí)行密碼定期變更(如每90天)
(四)性能優(yōu)化與資源調(diào)整
1.服務(wù)性能調(diào)優(yōu)
-調(diào)整Nginx工作進(jìn)程數(shù)(`worker_processes`參數(shù))
-優(yōu)化MySQL緩存大小(`innodb_buffer_pool_size`)
-調(diào)整Redis最大內(nèi)存占用
2.系統(tǒng)參數(shù)優(yōu)化
-編輯`/etc/sysctl.conf`調(diào)整內(nèi)核參數(shù)
-增加文件描述符限制(`ulimit-n`設(shè)置)
-優(yōu)化TCP連接參數(shù)(如`net.ipv4.tcp_tw_reuse`)
3.緩存管理
-清理瀏覽器緩存(`curl-I`檢查緩存狀態(tài))
-重啟Memcached/Redis服務(wù)刷新緩存
-分析慢查詢并優(yōu)化數(shù)據(jù)庫索引
三、應(yīng)急響應(yīng)與處理
(一)故障識別方法
1.系統(tǒng)崩潰處理
-檢查`/var/crash`目錄獲取內(nèi)核崩潰信息
-使用`dmesg`命令分析啟動日志
-查看硬件狀態(tài)(如通過`smartctl`檢查磁盤)
2.服務(wù)中斷排查
-運(yùn)行`systemctlstatus<service_name>`確認(rèn)狀態(tài)
-檢查依賴關(guān)系(`systemctllist-dependencies`)
-分析進(jìn)程樹(`psaxf`)定位問題進(jìn)程
3.性能驟降診斷
-使用`iostat-mx`檢查I/O性能
-運(yùn)行`vmstat1`分析內(nèi)存交換情況
-分析CPU熱核(使用`perftop`命令)
(二)標(biāo)準(zhǔn)處置流程
1.故障分級處理
-嚴(yán)重故障(系統(tǒng)不可用)→立即隔離→診斷修復(fù)→恢復(fù)服務(wù)
-輕微故障(性能下降)→監(jiān)控趨勢→調(diào)整參數(shù)→測試驗(yàn)證
2.變更管理規(guī)范
-所有變更必須記錄在案(時間、操作人、原因)
-備份關(guān)鍵數(shù)據(jù)(如數(shù)據(jù)庫全量備份)
-設(shè)置回滾計劃(如`gitrevert`操作)
3.文檔記錄要求
-每次維護(hù)操作需更新操作記錄表
-故障處理過程詳細(xì)記錄(時間線、嘗試方案、最終解決)
-建立知識庫(常見問題解決方案)
四、預(yù)防性維護(hù)措施
(一)定期巡檢計劃
1.巡檢周期設(shè)置
-基礎(chǔ)檢查(每周):CPU/內(nèi)存/磁盤/網(wǎng)絡(luò)
-深度檢查(每月):安全漏洞掃描
-全面檢查(每季度):硬件健康度評估
2.自動化監(jiān)控方案
-部署Zabbix/Prometheus監(jiān)控系統(tǒng)
-設(shè)置告警閾值(如CPU使用率90%觸發(fā)告警)
-建立基線數(shù)據(jù)(正常運(yùn)行參數(shù)范圍)
(二)容量規(guī)劃建議
1.資源預(yù)測模型
-根據(jù)歷史數(shù)據(jù)(如每月增長5-10%)預(yù)測需求
-使用`gnuplot`繪制資源使用趨勢圖
-提前30天提交擴(kuò)容申請
2.冗余設(shè)計實(shí)施
-關(guān)鍵服務(wù)實(shí)現(xiàn)主備部署(如Keepalived)
-配置負(fù)載均衡(如LVS/HAProxy)
-設(shè)置異地備份(如rsync到備份節(jié)點(diǎn))
(三)文檔維護(hù)體系
1.文檔更新機(jī)制
-配置文件變更同步更新到維基
-添加操作手冊截圖說明
-建立版本簽出流程(如Git分支管理)
2.知識共享活動
-每月開展技術(shù)分享會
-收集整理典型問題解決方案
-建立最佳實(shí)踐案例庫
三、應(yīng)急響應(yīng)與處理(續(xù))
(一)故障識別方法(續(xù))
1.系統(tǒng)崩潰處理(續(xù))
-內(nèi)存轉(zhuǎn)儲分析
-啟用內(nèi)存轉(zhuǎn)儲:編輯`/etc/sysctl.conf`文件,添加`kernel.panic=30`和`kernel.panic_on_oops=1`參數(shù)
-掛載轉(zhuǎn)儲文件:檢查`/proc/vmcore`文件是否存在,使用`mount-oro/dev/mapper/vg-lv/mnt/vmcore`掛載
-分析工具使用:配合`crash`或`kgdb`工具進(jìn)行內(nèi)核崩潰分析,重點(diǎn)關(guān)注`trap`和`error`信息
-硬件故障診斷
-磁盤健康檢查:使用`smartctl-a/dev/sda`命令全面檢測磁盤S.M.A.R.T信息
-內(nèi)存測試執(zhí)行:運(yùn)行`memtest86+`工具(需制作啟動盤)進(jìn)行連續(xù)內(nèi)存測試
-溫度監(jiān)控查看:使用`sensors`命令檢查CPU和主板的溫度(如`sensorsamc0`)
2.服務(wù)中斷排查(續(xù))
-網(wǎng)絡(luò)服務(wù)故障
-堆棧跟蹤分析:執(zhí)行`gdb-p$(pgrephttpd)`附加到服務(wù)進(jìn)程查看調(diào)用堆棧
-配置文件校驗(yàn):對比`/etc/httpd/conf/httpd.conf`與備份版本差異(使用`diff`命令)
-端口狀態(tài)確認(rèn):使用`netstat-tulnp|grephttpd`檢查80/443端口監(jiān)聽狀態(tài)
-數(shù)據(jù)庫服務(wù)恢復(fù)
-日志文件定位:檢查`/var/log/mongodb/mongod.log`(MongoDB)或`/var/log/mysql/error.log`(MySQL)
-主從同步檢查:對于主從架構(gòu),執(zhí)行`mongo--eval"db.stats()"`確認(rèn)數(shù)據(jù)同步進(jìn)度
-表結(jié)構(gòu)修復(fù):使用`mysqlcheck-r-adatabase_name`修復(fù)損壞的MySQL表
3.性能驟降診斷(續(xù))
-I/O性能分析
-順序讀寫測試:使用`fio`工具執(zhí)行測試(參考命令:`fio--name=randread--ioengine=libaio--direct=1--rw=randread--size=1G--numjobs=4--runtime=300--group_reporting`)
-文件系統(tǒng)瓶頸:運(yùn)行`iostat-x1`查看`await`和`svctm`指標(biāo)是否異常
-LVM性能調(diào)優(yōu):檢查`/etc/lvm/backup`備份文件是否完整,使用`vgscan`重新掃描卷組
-CPU資源爭用
-熱點(diǎn)分析:使用`perftop`命令查看CPU熱核(如`perftop--all`)
-上下文切換:檢查`vmstat1`的`s`(系統(tǒng))和`cs`(上下文切換)數(shù)值
-進(jìn)程分析:運(yùn)行`ps-eopid,ppid,cmd,%cpu,%mem--sort=-%cpu|head-n20`找出高CPU進(jìn)程
(二)標(biāo)準(zhǔn)處置流程(續(xù))
-變更回滾操作
-命令記錄:使用`script-arollback_log`記錄所有回滾命令
-步驟編號:為每個回滾步驟編號(如`1.revertgitcommitabc123`)
-驗(yàn)證機(jī)制:每個步驟執(zhí)行后運(yùn)行`curl-I`確認(rèn)服務(wù)正常
-多節(jié)點(diǎn)故障處理
-故障隔離:執(zhí)行`foripin0102;dossh$ip'sudosystemctlstophttpd';done`停止所有節(jié)點(diǎn)服務(wù)
-資源轉(zhuǎn)移:將負(fù)載均衡器指向備用節(jié)點(diǎn)(修改`/etc/keepalived/keepalived.conf`中的VIP轉(zhuǎn)發(fā)規(guī)則)
-并發(fā)控制:在主節(jié)點(diǎn)執(zhí)行`mysql-e"SETGLOBALmax_connections=50;"`臨時降低連接數(shù)
-安全事件響應(yīng)
-隔離受感染節(jié)點(diǎn):立即執(zhí)行`ipaddradd00deveth0`創(chuàng)建隔離網(wǎng)絡(luò)
-恢復(fù)過程:
1.備份當(dāng)前狀態(tài):`rsync-a/var/www//backup/`
2.清除惡意文件:`find/var/www-name".php"-typef-execgrep-I"base64_decode"{}\;-execrm{}\;`
3.重新部署:`gitclone/project/repo.git/var/www`
4.修改安全策略:`iptables-AINPUT-ptcp--dport80-mconntrack--ctstateNEW-mrecent--set`
-后續(xù)加固:
-添加安全頭:編輯`.htaccess`文件加入`HeadersetX-Frame-Options"SAMEORIGIN"`等指令
-密鑰更新:重新生成SSH私鑰并更新`authorized_keys`
(三)文檔記錄要求(續(xù))
-故障處理模板
|項目|內(nèi)容要求|
|------|----------|
|故障時間|YYYY-MM-DDHH:MM:SS(精確到秒)|
|發(fā)現(xiàn)人|姓名+工號|
|影響范圍|受影響服務(wù)列表+預(yù)估受影響用戶數(shù)|
|處理過程|步驟化記錄(含時間戳)|
|解決方案|具體操作命令+參數(shù)設(shè)置|
|預(yù)防措施|已實(shí)施的改進(jìn)措施|
|附件|日志截圖、配置對比文件|
-知識庫分類
-按問題類型:網(wǎng)絡(luò)中斷、數(shù)據(jù)庫緩慢、服務(wù)崩潰等
-按服務(wù)分類:Web服務(wù)器、數(shù)據(jù)庫、中間件等
-按解決方案:臨時修復(fù)、永久優(yōu)化、配置調(diào)整等
-文檔更新機(jī)制
-使用Markdown格式統(tǒng)一文檔風(fēng)格
-設(shè)置版本控制(如添加`last_updated:YYYY-MM-DD`字段)
-定期評審(每月1日開展文檔質(zhì)量檢查會)
Linux服務(wù)器日常維護(hù)手冊
一、概述
Linux服務(wù)器作為企業(yè)IT基礎(chǔ)設(shè)施的核心組成部分,其穩(wěn)定運(yùn)行直接關(guān)系到業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全。本手冊旨在提供一套系統(tǒng)化、規(guī)范化的日常維護(hù)流程,幫助運(yùn)維人員高效完成服務(wù)器管理任務(wù)。通過遵循以下指南,可以有效提升服務(wù)器性能、保障系統(tǒng)安全、延長硬件使用壽命,并降低故障風(fēng)險。
二、日常維護(hù)流程
(一)系統(tǒng)狀態(tài)檢查
1.CPU使用率監(jiān)控
-使用`top`或`htop`命令實(shí)時查看CPU負(fù)荷
-關(guān)注15分鐘平均使用率是否持續(xù)超過70%
-記錄峰值使用時段及可能原因
2.內(nèi)存與交換空間分析
-運(yùn)行`free-h`檢查可用內(nèi)存情況
-監(jiān)控Swap使用比例(建議保持在30%以下)
-分析內(nèi)存泄漏可疑跡象(如持續(xù)增長的Swap使用)
3.磁盤空間管理
-執(zhí)行`df-h`定期檢查分區(qū)容量
-設(shè)置自動告警閾值(如剩余空間低于15%)
-使用`du-sh`識別占用空間過大的文件
4.網(wǎng)絡(luò)狀態(tài)評估
-使用`ifconfig`或`ipa`確認(rèn)接口狀態(tài)
-檢查`netstat-tulnp`監(jiān)聽端口是否正常
-運(yùn)行`ping`測試網(wǎng)絡(luò)連通性
(二)系統(tǒng)更新與補(bǔ)丁管理
1.操作系統(tǒng)更新
-每周一執(zhí)行`yumupdate`或`aptupdate`命令
-優(yōu)先安裝安全相關(guān)補(bǔ)?。ǜ呶5燃墸?/p>
-記錄更新日志并驗(yàn)證系統(tǒng)穩(wěn)定性
2.應(yīng)用軟件維護(hù)
-定期檢查Web服務(wù)器、數(shù)據(jù)庫等關(guān)鍵應(yīng)用版本
-使用`yumcheck-update`或`aptlist--upgradable`發(fā)現(xiàn)可更新項
-測試更新前后的功能一致性
3.配置文件備份
-更新前使用`tarczvfconfig_backup.tar.gz/etc`備份
-建立版本控制機(jī)制(如Git存儲配置變更)
(三)安全加固與審計
1.防火墻策略檢查
-使用`iptables-L-n`確認(rèn)規(guī)則有效性
-檢查`selinux`狀態(tài)(如處于enforcing模式)
-清理冗余或過時的訪問控制規(guī)則
2.日志分析與管理
-每日檢查`/var/log/messages`系統(tǒng)日志
-分析`/var/log/secure`安全相關(guān)記錄
-使用`logrotate`自動化日志輪轉(zhuǎn)(每周執(zhí)行)
3.用戶賬戶管理
-定期運(yùn)行`lastb`檢查異常登錄記錄
-查找閑置賬戶并執(zhí)行`userdel`刪除
-強(qiáng)制執(zhí)行密碼定期變更(如每90天)
(四)性能優(yōu)化與資源調(diào)整
1.服務(wù)性能調(diào)優(yōu)
-調(diào)整Nginx工作進(jìn)程數(shù)(`worker_processes`參數(shù))
-優(yōu)化MySQL緩存大小(`innodb_buffer_pool_size`)
-調(diào)整Redis最大內(nèi)存占用
2.系統(tǒng)參數(shù)優(yōu)化
-編輯`/etc/sysctl.conf`調(diào)整內(nèi)核參數(shù)
-增加文件描述符限制(`ulimit-n`設(shè)置)
-優(yōu)化TCP連接參數(shù)(如`net.ipv4.tcp_tw_reuse`)
3.緩存管理
-清理瀏覽器緩存(`curl-I`檢查緩存狀態(tài))
-重啟Memcached/Redis服務(wù)刷新緩存
-分析慢查詢并優(yōu)化數(shù)據(jù)庫索引
三、應(yīng)急響應(yīng)與處理
(一)故障識別方法
1.系統(tǒng)崩潰處理
-檢查`/var/crash`目錄獲取內(nèi)核崩潰信息
-使用`dmesg`命令分析啟動日志
-查看硬件狀態(tài)(如通過`smartctl`檢查磁盤)
2.服務(wù)中斷排查
-運(yùn)行`systemctlstatus<service_name>`確認(rèn)狀態(tài)
-檢查依賴關(guān)系(`systemctllist-dependencies`)
-分析進(jìn)程樹(`psaxf`)定位問題進(jìn)程
3.性能驟降診斷
-使用`iostat-mx`檢查I/O性能
-運(yùn)行`vmstat1`分析內(nèi)存交換情況
-分析CPU熱核(使用`perftop`命令)
(二)標(biāo)準(zhǔn)處置流程
1.故障分級處理
-嚴(yán)重故障(系統(tǒng)不可用)→立即隔離→診斷修復(fù)→恢復(fù)服務(wù)
-輕微故障(性能下降)→監(jiān)控趨勢→調(diào)整參數(shù)→測試驗(yàn)證
2.變更管理規(guī)范
-所有變更必須記錄在案(時間、操作人、原因)
-備份關(guān)鍵數(shù)據(jù)(如數(shù)據(jù)庫全量備份)
-設(shè)置回滾計劃(如`gitrevert`操作)
3.文檔記錄要求
-每次維護(hù)操作需更新操作記錄表
-故障處理過程詳細(xì)記錄(時間線、嘗試方案、最終解決)
-建立知識庫(常見問題解決方案)
四、預(yù)防性維護(hù)措施
(一)定期巡檢計劃
1.巡檢周期設(shè)置
-基礎(chǔ)檢查(每周):CPU/內(nèi)存/磁盤/網(wǎng)絡(luò)
-深度檢查(每月):安全漏洞掃描
-全面檢查(每季度):硬件健康度評估
2.自動化監(jiān)控方案
-部署Zabbix/Prometheus監(jiān)控系統(tǒng)
-設(shè)置告警閾值(如CPU使用率90%觸發(fā)告警)
-建立基線數(shù)據(jù)(正常運(yùn)行參數(shù)范圍)
(二)容量規(guī)劃建議
1.資源預(yù)測模型
-根據(jù)歷史數(shù)據(jù)(如每月增長5-10%)預(yù)測需求
-使用`gnuplot`繪制資源使用趨勢圖
-提前30天提交擴(kuò)容申請
2.冗余設(shè)計實(shí)施
-關(guān)鍵服務(wù)實(shí)現(xiàn)主備部署(如Keepalived)
-配置負(fù)載均衡(如LVS/HAProxy)
-設(shè)置異地備份(如rsync到備份節(jié)點(diǎn))
(三)文檔維護(hù)體系
1.文檔更新機(jī)制
-配置文件變更同步更新到維基
-添加操作手冊截圖說明
-建立版本簽出流程(如Git分支管理)
2.知識共享活動
-每月開展技術(shù)分享會
-收集整理典型問題解決方案
-建立最佳實(shí)踐案例庫
三、應(yīng)急響應(yīng)與處理(續(xù))
(一)故障識別方法(續(xù))
1.系統(tǒng)崩潰處理(續(xù))
-內(nèi)存轉(zhuǎn)儲分析
-啟用內(nèi)存轉(zhuǎn)儲:編輯`/etc/sysctl.conf`文件,添加`kernel.panic=30`和`kernel.panic_on_oops=1`參數(shù)
-掛載轉(zhuǎn)儲文件:檢查`/proc/vmcore`文件是否存在,使用`mount-oro/dev/mapper/vg-lv/mnt/vmcore`掛載
-分析工具使用:配合`crash`或`kgdb`工具進(jìn)行內(nèi)核崩潰分析,重點(diǎn)關(guān)注`trap`和`error`信息
-硬件故障診斷
-磁盤健康檢查:使用`smartctl-a/dev/sda`命令全面檢測磁盤S.M.A.R.T信息
-內(nèi)存測試執(zhí)行:運(yùn)行`memtest86+`工具(需制作啟動盤)進(jìn)行連續(xù)內(nèi)存測試
-溫度監(jiān)控查看:使用`sensors`命令檢查CPU和主板的溫度(如`sensorsamc0`)
2.服務(wù)中斷排查(續(xù))
-網(wǎng)絡(luò)服務(wù)故障
-堆棧跟蹤分析:執(zhí)行`gdb-p$(pgrephttpd)`附加到服務(wù)進(jìn)程查看調(diào)用堆棧
-配置文件校驗(yàn):對比`/etc/httpd/conf/httpd.conf`與備份版本差異(使用`diff`命令)
-端口狀態(tài)確認(rèn):使用`netstat-tulnp|grephttpd`檢查80/443端口監(jiān)聽狀態(tài)
-數(shù)據(jù)庫服務(wù)恢復(fù)
-日志文件定位:檢查`/var/log/mongodb/mongod.log`(MongoDB)或`/var/log/mysql/error.log`(MySQL)
-主從同步檢查:對于主從架構(gòu),執(zhí)行`mongo--eval"db.stats()"`確認(rèn)數(shù)據(jù)同步進(jìn)度
-表結(jié)構(gòu)修復(fù):使用`mysqlcheck-r-adatabase_name`修復(fù)損壞的MySQL表
3.性能驟降診斷(續(xù))
-I/O性能分析
-順序讀寫測試:使用`fio`工具執(zhí)行測試(參考命令:`fio--name=randread--ioengine=libaio--direct=1--rw=randread--size=1G--numjobs=4--runtime=300--group_reporting`)
-文件系統(tǒng)瓶頸:運(yùn)行`iostat-x1`查看`await`和`svctm`指標(biāo)是否異常
-LVM性能調(diào)優(yōu):檢查`/etc/lvm/backup`備份文件是否完整,使用`vgscan`重新掃描卷組
-CPU資源爭用
-熱點(diǎn)分析:使用`perftop`命令查看CPU熱核(如`perftop--all`)
-上下文切換:檢查`vmstat1`的`s`(系統(tǒng))和`cs`(上下文切換)數(shù)值
-進(jìn)程分析:運(yùn)行`ps-eopid,ppid,cmd,%cpu,%mem--sort=-%cpu|head-n20`找出高CPU進(jìn)程
(二)標(biāo)準(zhǔn)處置流程(續(xù))
-變更回滾操作
-命令記錄:使用`script-arollback_log`記錄所有回滾命令
-步驟編號:為每個回滾步驟編號(如`1.revertgitcommitabc123`)
-驗(yàn)證機(jī)制:每個步驟執(zhí)行后運(yùn)行`curl-I`確認(rèn)服務(wù)正常
-多節(jié)點(diǎn)故障處理
-故障隔離:執(zhí)行`foripin0102;dossh$ip'sudosystemctlstophttpd';done`停止所有節(jié)點(diǎn)服務(wù)
-資源轉(zhuǎn)移:將負(fù)載均衡器指向備用節(jié)點(diǎn)(修改`/etc/keepalived/keepalived.conf`中的VIP轉(zhuǎn)發(fā)規(guī)則)
-并發(fā)控制:在主節(jié)點(diǎn)執(zhí)行`mysql-e"SETGLOBALmax_connections=50;"`臨時降低連接數(shù)
-安全事件響應(yīng)
-隔離受感染節(jié)點(diǎn):立即執(zhí)行`ipaddradd00deveth0`創(chuàng)建隔離網(wǎng)絡(luò)
-恢復(fù)過程:
1.備份當(dāng)前狀態(tài):`rsync-a/var/www//backup/`
2.清除惡意文件:`find/var/www-name".php"-typef-execgrep-I"base64_decode"{}\;-execrm{}\;`
3.重新部署:`gitclone/project/repo.git/var/www`
4.修改安全策略:`iptables-AINPUT-ptcp--dport80-mconntrack--ctstateNEW-mrecent--set`
-后續(xù)加固:
-添加安全頭:編輯`.htaccess`文件加入`HeadersetX-Frame-Options"SAMEORIGIN"`等指令
-密鑰更新:重新生成SSH私鑰并更新`authorized_keys`
(三)文檔記錄要求(續(xù))
-故障處理模板
|項目|內(nèi)容要求|
|------|----------|
|故障時間|YYYY-MM-DDHH:MM:SS(精確到秒)|
|發(fā)現(xiàn)人|姓名+工號|
|影響范圍|受影響服務(wù)列表+預(yù)估受影響用戶數(shù)|
|處理過程|步驟化記錄(含時間戳)|
|解決方案|具體操作命令+參數(shù)設(shè)置|
|預(yù)防措施|已實(shí)施的改進(jìn)措施|
|附件|日志截圖、配置對比文件|
-知識庫分類
-按問題類型:網(wǎng)絡(luò)中斷、數(shù)據(jù)庫緩慢、服務(wù)崩潰等
-按服務(wù)分類:Web服務(wù)器、數(shù)據(jù)庫、中間件等
-按解決方案:臨時修復(fù)、永久優(yōu)化、配置調(diào)整等
-文檔更新機(jī)制
-使用Markdown格式統(tǒng)一文檔風(fēng)格
-設(shè)置版本控制(如添加`last_updated:YYYY-MM-DD`字段)
-定期評審(每月1日開展文檔質(zhì)量檢查會)
Linux服務(wù)器日常維護(hù)手冊
一、概述
Linux服務(wù)器作為企業(yè)IT基礎(chǔ)設(shè)施的核心組成部分,其穩(wěn)定運(yùn)行直接關(guān)系到業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全。本手冊旨在提供一套系統(tǒng)化、規(guī)范化的日常維護(hù)流程,幫助運(yùn)維人員高效完成服務(wù)器管理任務(wù)。通過遵循以下指南,可以有效提升服務(wù)器性能、保障系統(tǒng)安全、延長硬件使用壽命,并降低故障風(fēng)險。
二、日常維護(hù)流程
(一)系統(tǒng)狀態(tài)檢查
1.CPU使用率監(jiān)控
-使用`top`或`htop`命令實(shí)時查看CPU負(fù)荷
-關(guān)注15分鐘平均使用率是否持續(xù)超過70%
-記錄峰值使用時段及可能原因
2.內(nèi)存與交換空間分析
-運(yùn)行`free-h`檢查可用內(nèi)存情況
-監(jiān)控Swap使用比例(建議保持在30%以下)
-分析內(nèi)存泄漏可疑跡象(如持續(xù)增長的Swap使用)
3.磁盤空間管理
-執(zhí)行`df-h`定期檢查分區(qū)容量
-設(shè)置自動告警閾值(如剩余空間低于15%)
-使用`du-sh`識別占用空間過大的文件
4.網(wǎng)絡(luò)狀態(tài)評估
-使用`ifconfig`或`ipa`確認(rèn)接口狀態(tài)
-檢查`netstat-tulnp`監(jiān)聽端口是否正常
-運(yùn)行`ping`測試網(wǎng)絡(luò)連通性
(二)系統(tǒng)更新與補(bǔ)丁管理
1.操作系統(tǒng)更新
-每周一執(zhí)行`yumupdate`或`aptupdate`命令
-優(yōu)先安裝安全相關(guān)補(bǔ)?。ǜ呶5燃墸?/p>
-記錄更新日志并驗(yàn)證系統(tǒng)穩(wěn)定性
2.應(yīng)用軟件維護(hù)
-定期檢查Web服務(wù)器、數(shù)據(jù)庫等關(guān)鍵應(yīng)用版本
-使用`yumcheck-update`或`aptlist--upgradable`發(fā)現(xiàn)可更新項
-測試更新前后的功能一致性
3.配置文件備份
-更新前使用`tarczvfconfig_backup.tar.gz/etc`備份
-建立版本控制機(jī)制(如Git存儲配置變更)
(三)安全加固與審計
1.防火墻策略檢查
-使用`iptables-L-n`確認(rèn)規(guī)則有效性
-檢查`selinux`狀態(tài)(如處于enforcing模式)
-清理冗余或過時的訪問控制規(guī)則
2.日志分析與管理
-每日檢查`/var/log/messages`系統(tǒng)日志
-分析`/var/log/secure`安全相關(guān)記錄
-使用`logrotate`自動化日志輪轉(zhuǎn)(每周執(zhí)行)
3.用戶賬戶管理
-定期運(yùn)行`lastb`檢查異常登錄記錄
-查找閑置賬戶并執(zhí)行`userdel`刪除
-強(qiáng)制執(zhí)行密碼定期變更(如每90天)
(四)性能優(yōu)化與資源調(diào)整
1.服務(wù)性能調(diào)優(yōu)
-調(diào)整Nginx工作進(jìn)程數(shù)(`worker_processes`參數(shù))
-優(yōu)化MySQL緩存大?。╜innodb_buffer_pool_size`)
-調(diào)整Redis最大內(nèi)存占用
2.系統(tǒng)參數(shù)優(yōu)化
-編輯`/etc/sysctl.conf`調(diào)整內(nèi)核參數(shù)
-增加文件描述符限制(`ulimit-n`設(shè)置)
-優(yōu)化TCP連接參數(shù)(如`net.ipv4.tcp_tw_reuse`)
3.緩存管理
-清理瀏覽器緩存(`curl-I`檢查緩存狀態(tài))
-重啟Memcached/Redis服務(wù)刷新緩存
-分析慢查詢并優(yōu)化數(shù)據(jù)庫索引
三、應(yīng)急響應(yīng)與處理
(一)故障識別方法
1.系統(tǒng)崩潰處理
-檢查`/var/crash`目錄獲取內(nèi)核崩潰信息
-使用`dmesg`命令分析啟動日志
-查看硬件狀態(tài)(如通過`smartctl`檢查磁盤)
2.服務(wù)中斷排查
-運(yùn)行`systemctlstatus<service_name>`確認(rèn)狀態(tài)
-檢查依賴關(guān)系(`systemctllist-dependencies`)
-分析進(jìn)程樹(`psaxf`)定位問題進(jìn)程
3.性能驟降診斷
-使用`iostat-mx`檢查I/O性能
-運(yùn)行`vmstat1`分析內(nèi)存交換情況
-分析CPU熱核(使用`perftop`命令)
(二)標(biāo)準(zhǔn)處置流程
1.故障分級處理
-嚴(yán)重故障(系統(tǒng)不可用)→立即隔離→診斷修復(fù)→恢復(fù)服務(wù)
-輕微故障(性能下降)→監(jiān)控趨勢→調(diào)整參數(shù)→測試驗(yàn)證
2.變更管理規(guī)范
-所有變更必須記錄在案(時間、操作人、原因)
-備份關(guān)鍵數(shù)據(jù)(如數(shù)據(jù)庫全量備份)
-設(shè)置回滾計劃(如`gitrevert`操作)
3.文檔記錄要求
-每次維護(hù)操作需更新操作記錄表
-故障處理過程詳細(xì)記錄(時間線、嘗試方案、最終解決)
-建立知識庫(常見問題解決方案)
四、預(yù)防性維護(hù)措施
(一)定期巡檢計劃
1.巡檢周期設(shè)置
-基礎(chǔ)檢查(每周):CPU/內(nèi)存/磁盤/網(wǎng)絡(luò)
-深度檢查(每月):安全漏洞掃描
-全面檢查(每季度):硬件健康度評估
2.自動化監(jiān)控方案
-部署Zabbix/Prometheus監(jiān)控系統(tǒng)
-設(shè)置告警閾值(如CPU使用率90%觸發(fā)告警)
-建立基線數(shù)據(jù)(正常運(yùn)行參數(shù)范圍)
(二)容量規(guī)劃建議
1.資源預(yù)測模型
-根據(jù)歷史數(shù)據(jù)(如每月增長5-10%)預(yù)測需求
-使用`gnuplot`繪制資源使用趨勢圖
-提前30天提交擴(kuò)容申請
2.冗余設(shè)計實(shí)施
-關(guān)鍵服務(wù)實(shí)現(xiàn)主備部署(如Keepalived)
-配置負(fù)載均衡(如LVS/HAProxy)
-設(shè)置異地備份(如rsync到備份節(jié)點(diǎn))
(三)文檔維護(hù)體系
1.文檔更新機(jī)制
-配置文件變更同步更新到維基
-添加操作手冊截圖說明
-建立版本簽出流程(如Git分支管理)
2.知識共享活動
-每月開展技術(shù)分享會
-收集整理典型問題解決方案
-建立最佳實(shí)踐案例庫
三、應(yīng)急響應(yīng)與處理(續(xù))
(一)故障識別方法(續(xù))
1.系統(tǒng)崩潰處理(續(xù))
-內(nèi)存轉(zhuǎn)儲分析
-啟用內(nèi)存轉(zhuǎn)儲:編輯`/etc/sysctl.conf`文件,添加`kernel.panic=30`和`kernel.panic_on_oops=1`參數(shù)
-掛載轉(zhuǎn)儲文件:檢查`/proc/vmcore`文件是否存在,使用`mount-oro/dev/mapper/vg-lv/mnt/vmcore`掛載
-分析工具使用:配合`crash`或`kgdb`工具進(jìn)行內(nèi)核崩潰分析,重點(diǎn)關(guān)注`trap`和`error`信息
-硬件故障診斷
-磁盤健康檢查:使用`smartctl-a/dev/sda`命令全面檢測磁盤S.M.A.R.T信息
-內(nèi)存測試執(zhí)行:運(yùn)行`memtest86+`工具(需制作啟動盤)進(jìn)行連續(xù)內(nèi)存測試
-溫度監(jiān)控查看:使用`sensors`命令檢查CPU和主板的溫度(如`sensorsamc0`)
2.服務(wù)中斷排查(續(xù))
-網(wǎng)絡(luò)服務(wù)故障
-堆棧跟蹤分析:執(zhí)行`gdb-p$(pgrephttpd)`附加到服務(wù)進(jìn)程查看調(diào)用堆棧
-配置文件校驗(yàn):對比`/etc/httpd/conf/httpd.conf`與備份版本差異(使用`diff`命令)
-端口狀態(tài)確認(rèn):使用`netstat-tulnp|grephttpd`檢查80/443端口監(jiān)聽狀態(tài)
-數(shù)據(jù)庫服務(wù)恢復(fù)
-日志文件定位:檢查`/var/log/mongodb/mongod.log`(MongoDB)或`/var/log/mysql/error.log`(MySQL)
-主從同步檢查:對于主從架構(gòu),執(zhí)行`mongo--eval"db.stats()"`確認(rèn)數(shù)據(jù)同步進(jìn)度
-表結(jié)構(gòu)修復(fù):使用`mysqlcheck-r-adatabase_name`修復(fù)損壞的MySQL表
3.性能驟降診斷(續(xù))
-I/O性能分析
-順序讀寫測試:使用`fio`工具執(zhí)行測試(參考命令:`fio--name=randread--ioengine=libaio--direct=1--rw=randread--size=1G--numjobs=4--runtime=300--group_reporting`)
-文件系統(tǒng)瓶頸:運(yùn)行`iostat-x1`查看`await`和`svctm`指標(biāo)是否異常
-LVM性能調(diào)優(yōu):檢查`/etc/lvm/backup`備份文件是否完整,使用`vgscan`重新掃描卷組
-CPU資源爭用
-熱點(diǎn)分析:使用`perftop`命令查看CPU熱核(如`perftop--all`)
-上下文切換:檢查`vmstat1`的`s`(系統(tǒng))和`cs`(上下文切換)數(shù)值
-進(jìn)程分析:運(yùn)行`ps-eopid,ppid,cmd,%cpu,%mem--sort=-%cpu|head-n20`找出高CPU進(jìn)程
(二)標(biāo)準(zhǔn)處置流程(續(xù))
-變更回滾操作
-命令記錄:使用`script-arollback_log`記錄所有回滾命令
-步驟編號:為每個回滾步驟編號(如`1.revertgitcommitabc123`)
-驗(yàn)證機(jī)制:每個步驟執(zhí)行后運(yùn)行`curl-I`確認(rèn)服務(wù)正常
-多節(jié)點(diǎn)故障處理
-故障隔離:執(zhí)行`foripin0102;dossh$ip'sudosystemctlstophttpd';done`停止所有節(jié)點(diǎn)服務(wù)
-資源轉(zhuǎn)移:將負(fù)載均衡器指向備用節(jié)點(diǎn)(修改`/etc/keepalived/keepalived.conf`中的VIP轉(zhuǎn)發(fā)規(guī)則)
-并發(fā)控制:在主節(jié)點(diǎn)執(zhí)行`mysql-e"SETGLOBALmax_connections=50;"`臨時降低連接數(shù)
-安全事件響應(yīng)
-隔離受感染節(jié)點(diǎn):立即執(zhí)行`ipaddradd00deveth0`創(chuàng)建隔離網(wǎng)絡(luò)
-恢復(fù)過程:
1.備份當(dāng)前狀態(tài):`rsync-a/var/www//backup/`
2.清除惡意文件:`find/var/www-name".php"-typef-execgrep-I"base64_decode"{}\;-execrm{}\;`
3.重新部署:`gitclone/project/repo.git/var/www`
4.修改安全策略:`iptables-AINPUT-ptcp--dport80-mconntrack--ctstateNEW-mrecent--set`
-后續(xù)加固:
-添加安全頭:編輯`.htaccess`文件加入`HeadersetX-Frame-Options"SAMEORIGIN"`等指令
-密鑰更新:重新生成SSH私鑰并更新`authorized_keys`
(三)文檔記錄要求(續(xù))
-故障處理模板
|項目|內(nèi)容要求|
|------|----------|
|故障時間|YYYY-MM-DDHH:MM:SS(精確到秒)|
|發(fā)現(xiàn)人|姓名+工號|
|影響范圍|受影響服務(wù)列表+預(yù)估受影響用戶數(shù)|
|處理過程|步驟化記錄(含時間戳)|
|解決方案|具體操作命令+參數(shù)設(shè)置|
|預(yù)防措施|已實(shí)施的改進(jìn)措施|
|附件|日志截圖、配置對比文件|
-知識庫分類
-按問題類型:網(wǎng)絡(luò)中斷、數(shù)據(jù)庫緩慢、服務(wù)崩潰等
-按服務(wù)分類:Web服務(wù)器、數(shù)據(jù)庫、中間件等
-按解決方案:臨時修復(fù)、永久優(yōu)化、配置調(diào)整等
-文檔更新機(jī)制
-使用Markdown格式統(tǒng)一文檔風(fēng)格
-設(shè)置版本控制(如添加`last_updated:YYYY-MM-DD`字段)
-定期評審(每月1日開展文檔質(zhì)量檢查會)
Linux服務(wù)器日常維護(hù)手冊
一、概述
Linux服務(wù)器作為企業(yè)IT基礎(chǔ)設(shè)施的核心組成部分,其穩(wěn)定運(yùn)行直接關(guān)系到業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全。本手冊旨在提供一套系統(tǒng)化、規(guī)范化的日常維護(hù)流程,幫助運(yùn)維人員高效完成服務(wù)器管理任務(wù)。通過遵循以下指南,可以有效提升服務(wù)器性能、保障系統(tǒng)安全、延長硬件使用壽命,并降低故障風(fēng)險。
二、日常維護(hù)流程
(一)系統(tǒng)狀態(tài)檢查
1.CPU使用率監(jiān)控
-使用`top`或`htop`命令實(shí)時查看CPU負(fù)荷
-關(guān)注15分鐘平均使用率是否持續(xù)超過70%
-記錄峰值使用時段及可能原因
2.內(nèi)存與交換空間分析
-運(yùn)行`free-h`檢查可用內(nèi)存情況
-監(jiān)控Swap使用比例(建議保持在30%以下)
-分析內(nèi)存泄漏可疑跡象(如持續(xù)增長的Swap使用)
3.磁盤空間管理
-執(zhí)行`df-h`定期檢查分區(qū)容量
-設(shè)置自動告警閾值(如剩余空間低于15%)
-使用`du-sh`識別占用空間過大的文件
4.網(wǎng)絡(luò)狀態(tài)評估
-使用`ifconfig`或`ipa`確認(rèn)接口狀態(tài)
-檢查`netstat-tulnp`監(jiān)聽端口是否正常
-運(yùn)行`ping`測試網(wǎng)絡(luò)連通性
(二)系統(tǒng)更新與補(bǔ)丁管理
1.操作系統(tǒng)更新
-每周一執(zhí)行`yumupdate`或`aptupdate`命令
-優(yōu)先安裝安全相關(guān)補(bǔ)丁(高危等級)
-記錄更新日志并驗(yàn)證系統(tǒng)穩(wěn)定性
2.應(yīng)用軟件維護(hù)
-定期檢查Web服務(wù)器、數(shù)據(jù)庫等關(guān)鍵應(yīng)用版本
-使用`yumcheck-update`或`aptlist--upgradable`發(fā)現(xiàn)可更新項
-測試更新前后的功能一致性
3.配置文件備份
-更新前使用`tarczvfconfig_backup.tar.gz/etc`備份
-建立版本控制機(jī)制(如Git存儲配置變更)
(三)安全加固與審計
1.防火墻策略檢查
-使用`iptables-L-n`確認(rèn)規(guī)則有效性
-檢查`selinux`狀態(tài)(如處于enforcing模式)
-清理冗余或過時的訪問控制規(guī)則
2.日志分析與管理
-每日檢查`/var/log/messages`系統(tǒng)日志
-分析`/var/log/secure`安全相關(guān)記錄
-使用`logrotate`自動化日志輪轉(zhuǎn)(每周執(zhí)行)
3.用戶賬戶管理
-定期運(yùn)行`lastb`檢查異常登錄記錄
-查找閑置賬戶并執(zhí)行`userdel`刪除
-強(qiáng)制執(zhí)行密碼定期變更(如每90天)
(四)性能優(yōu)化與資源調(diào)整
1.服務(wù)性能調(diào)優(yōu)
-調(diào)整Nginx工作進(jìn)程數(shù)(`worker_processes`參數(shù))
-優(yōu)化MySQL緩存大小(`innodb_buffer_pool_size`)
-調(diào)整Redis最大內(nèi)存占用
2.系統(tǒng)參數(shù)優(yōu)化
-編輯`/etc/sysctl.conf`調(diào)整內(nèi)核參數(shù)
-增加文件描述符限制(`ulimit-n`設(shè)置)
-優(yōu)化TCP連接參數(shù)(如`net.ipv4.tcp_tw_reuse`)
3.緩存管理
-清理瀏覽器緩存(`curl-I`檢查緩存狀態(tài))
-重啟Memcached/Redis服務(wù)刷新緩存
-分析慢查詢并優(yōu)化數(shù)據(jù)庫索引
三、應(yīng)急響應(yīng)與處理
(一)故障識別方法
1.系統(tǒng)崩潰處理
-檢查`/var/crash`目錄獲取內(nèi)核崩潰信息
-使用`dmesg`命令分析啟動日志
-查看硬件狀態(tài)(如通過`smartctl`檢查磁盤)
2.服務(wù)中斷排查
-運(yùn)行`systemctlstatus<service_name>`確認(rèn)狀態(tài)
-檢查依賴關(guān)系(`systemctllist-dependencies`)
-分析進(jìn)程樹(`psaxf`)定位問題進(jìn)程
3.性能驟降診斷
-使用`iostat-mx`檢查I/O性能
-運(yùn)行`vmstat1`分析內(nèi)存交換情況
-分析CPU熱核(使用`perftop`命令)
(二)標(biāo)準(zhǔn)處置流程
1.故障分級處理
-嚴(yán)重故障(系統(tǒng)不可用)→立即隔離→診斷修復(fù)→恢復(fù)服務(wù)
-輕微故障(性能下降)→監(jiān)控趨勢→調(diào)整參數(shù)→測試驗(yàn)證
2.變更管理規(guī)范
-所有變更必須記錄在案(時間、操作人、原因)
-備份關(guān)鍵數(shù)據(jù)(如數(shù)據(jù)庫全量備份)
-設(shè)置回滾計劃(如`gitrevert`操作)
3.文檔記錄要求
-每次維護(hù)操作需更新操作記錄表
-故障處理過程詳細(xì)記錄(時間線、嘗試方案、最終解決)
-建立知識庫(常見問題解決方案)
四、預(yù)防性維護(hù)措施
(一)定期巡檢計劃
1.巡檢周期設(shè)置
-基礎(chǔ)檢查(每周):CPU/內(nèi)存/磁盤/網(wǎng)絡(luò)
-深度檢查(每月):安全漏洞掃描
-全面檢查(每季度):硬件健康度評估
2.自動化監(jiān)控方案
-部署Zabbix/Prometheus監(jiān)控系統(tǒng)
-設(shè)置告警閾值(如CPU使用率90%觸發(fā)告警)
-建立基線數(shù)據(jù)(正常運(yùn)行參數(shù)范圍)
(二)容量規(guī)劃建議
1.資源預(yù)測模型
-根據(jù)歷史數(shù)據(jù)(如每月增長5-10%)預(yù)測需求
-使用`gnuplot`繪制資源使用趨勢圖
-提前30天提交擴(kuò)容申請
2.冗余設(shè)計實(shí)施
-關(guān)鍵服務(wù)實(shí)現(xiàn)主備部署(如Keepalived)
-配置負(fù)載均衡(如LVS/HAProxy)
-設(shè)置異地備份(如rsync到備份節(jié)點(diǎn))
(三)文檔維護(hù)體系
1.文檔更新機(jī)制
-配置文件變更同步更新到維基
-添加操作手冊截圖說明
-建立版本簽出流程(如Git分支管理)
2.知識共享活動
-每月開展技術(shù)分享會
-收集整理典型問題解決方案
-建立最佳實(shí)踐案例庫
三、應(yīng)急響應(yīng)與處理(續(xù))
(一)故障識別方法(續(xù))
1.系統(tǒng)崩潰處理(續(xù))
-內(nèi)存轉(zhuǎn)儲分析
-啟用內(nèi)存轉(zhuǎn)儲:編輯`/etc/sysctl.conf`文件,添加`kernel.panic=30`和`kernel.panic_on_oops=1`參數(shù)
-掛載轉(zhuǎn)儲文件:檢查`/proc/vmcore`文件是否存在,使用`mount-oro/dev/mapper/vg-lv/mnt/vmcore`掛載
-分析工具使用:配合`crash`或`kgdb`工具進(jìn)行內(nèi)核崩潰分析,重點(diǎn)關(guān)注`trap`和`error`信息
-硬件故障診斷
-磁盤健康檢查:使用`smartctl-a/dev/sda`命令全面檢測磁盤S.M.A.R.T信息
-內(nèi)存測試執(zhí)行:運(yùn)行`memtest86+`工具(需制作啟動盤)進(jìn)行連續(xù)內(nèi)存測試
-溫度監(jiān)控查看:使用`sensors`命令檢查CPU和主板的溫度(如`sensorsamc0`)
2.服務(wù)中斷排查(續(xù))
-網(wǎng)絡(luò)服務(wù)故障
-堆棧跟蹤分析:執(zhí)行`gdb-p$(pgrephttpd)`附加到服務(wù)進(jìn)程查看調(diào)用堆棧
-配置文件校驗(yàn):對比`/etc/httpd/conf/httpd.conf`與備份版本差異(使用`diff`命令)
-端口狀態(tài)確認(rèn):使用`netstat-tulnp|grephttpd`檢查80/443端口監(jiān)聽狀態(tài)
-數(shù)據(jù)庫服務(wù)恢復(fù)
-日志文件定位:檢查`/var/log/mongodb/mongod.log`(MongoDB)或`/var/log/mysql/error.log`(MySQL)
-主從同步檢查:對于主從架構(gòu),執(zhí)行`mongo--eval"db.stats()"`確認(rèn)數(shù)據(jù)同步進(jìn)度
-表結(jié)構(gòu)修復(fù):使用`mysqlcheck-r-adatabase_name`修復(fù)損壞的MySQL表
3.性能驟降診斷(續(xù))
-I/O性能分析
-順序讀寫測試:使用`fio`工具執(zhí)行測試(參考命令:`fio--name=randread--ioengine=libaio--direct=1--rw=randread--size=1G--numjobs=4--runtime=300--group_reporting`)
-文件系統(tǒng)瓶頸:運(yùn)行`iostat-x1`查看`await`和`svctm`指標(biāo)是否異常
-LVM性能調(diào)優(yōu):檢查`/etc/lvm/backup`備份文件是否完整,使用`vgscan`重新掃描卷組
-CPU資源爭用
-熱點(diǎn)分析:使用`perftop`命令查看CPU熱核(如`perftop--all`)
-上下文切換:檢查`vmstat1`的`s`(系統(tǒng))和`cs`(上下文切換)數(shù)值
-進(jìn)程分析:運(yùn)行`ps-eopid,ppid,cmd,%cpu,%mem--sort=-%cpu|head-n20`找出高CPU進(jìn)程
(二)標(biāo)準(zhǔn)處置流程(續(xù))
-變更回滾操作
-命令記錄:使用`script-arollback_log`記錄所有回滾命令
-步驟編號:為每個回滾步驟編號(如`1.revertgitcommitabc123`)
-驗(yàn)證機(jī)制:每個步驟執(zhí)行后運(yùn)行`curl-I`確認(rèn)服務(wù)正常
-多節(jié)點(diǎn)故障處理
-故障隔離:執(zhí)行`foripin0102;dossh$ip'sudosystemctlstophttpd';done`停止所有節(jié)點(diǎn)服務(wù)
-資源轉(zhuǎn)移:將負(fù)載均衡器指向備用節(jié)點(diǎn)(修改`/etc/keepalived/keepalived.conf`中的VIP轉(zhuǎn)發(fā)規(guī)則)
-并發(fā)控制:在主節(jié)點(diǎn)執(zhí)行`mysql-e"SETGLOBALmax_connections=50;"`臨時降低連接數(shù)
-安全事件響應(yīng)
-隔離受感染節(jié)點(diǎn):立即執(zhí)行`ipaddradd00deveth0`創(chuàng)建隔離網(wǎng)絡(luò)
-恢復(fù)過程:
1.備份當(dāng)前狀態(tài):`rsync-a/var/www//backup/`
2.清除惡意文件:`find/var/www-name".php"-typef-execgrep-I"base64_decode"{}\;-execrm{}\;`
3.重新部署:`gitclone/project/repo.git/var/www`
4.修改安全策略:`iptables-AINPUT-ptcp--dport80-mconntrack--ctstateNEW-mrecent--set`
-后續(xù)加固:
-添加安全頭:編輯`.htaccess`文件加入`HeadersetX-Frame-Options"SAMEORIGIN"`等指令
-密鑰更新:重新生成SSH私鑰并更新`authorized_keys`
(三)文檔記錄要求(續(xù))
-故障處理模板
|項目|內(nèi)容要求|
|------|----------|
|故障時間|YYYY-MM-DDHH:MM:SS(精確到秒)|
|發(fā)現(xiàn)人|姓名+工號|
|影響范圍|受影響服務(wù)列表+預(yù)估受影響用戶數(shù)|
|處理過程|步驟化記錄(含時間戳)|
|解決方案|具體操作命令+參數(shù)設(shè)置|
|預(yù)防措施|已實(shí)施的改進(jìn)措施|
|附件|日志截圖、配置對比文件|
-知識庫分類
-按問題類型:網(wǎng)絡(luò)中斷、數(shù)據(jù)庫緩慢、服務(wù)崩潰等
-按服務(wù)分類:Web服務(wù)器、數(shù)據(jù)庫、中間件等
-按解決方案:臨時修復(fù)、永久優(yōu)化、配置調(diào)整等
-文檔更新機(jī)制
-使用Markdown格式統(tǒng)一文檔風(fēng)格
-設(shè)置版本控制(如添加`last_updated:YYYY-MM-DD`字段)
-定期評審(每月1日開展文檔質(zhì)量檢查會)
Linux服務(wù)器日常維護(hù)手冊
一、概述
Linux服務(wù)器作為企業(yè)IT基礎(chǔ)設(shè)施的核心組成部分,其穩(wěn)定運(yùn)行直接關(guān)系到業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全。本手冊旨在提供一套系統(tǒng)化、規(guī)范化的日常維護(hù)流程,幫助運(yùn)維人員高效完成服務(wù)器管理任務(wù)。通過遵循以下指南,可以有效提升服務(wù)器性能、保障系統(tǒng)安全、延長硬件使用壽命,并降低故障風(fēng)險。
二、日常維護(hù)流程
(一)系統(tǒng)狀態(tài)檢查
1.CPU使用率監(jiān)控
-使用`top`或`htop`命令實(shí)時查看CPU負(fù)荷
-關(guān)注15分鐘平均使用率是否持續(xù)超過70%
-記錄峰值使用時段及可能原因
2.內(nèi)存與交換空間分析
-運(yùn)行`free-h`檢查可用內(nèi)存情況
-監(jiān)控Swap使用比例(建議保持在30%以下)
-分析內(nèi)存泄漏可疑跡象(如持續(xù)增長的Swap使用)
3.磁盤空間管理
-執(zhí)行`df-h`定期檢查分區(qū)容量
-設(shè)置自動告警閾值(如剩余空間低于15%)
-使用`du-sh`識別占用空間過大的文件
4.網(wǎng)絡(luò)狀態(tài)評估
-使用`ifconfig`或`ipa`確認(rèn)接口狀態(tài)
-檢查`netstat-tulnp`監(jiān)聽端口是否正常
-運(yùn)行`ping`測試網(wǎng)絡(luò)連通性
(二)系統(tǒng)更新與補(bǔ)丁管理
1.操作系統(tǒng)更新
-每周一執(zhí)行`yumupdate`或`aptupdate`命令
-優(yōu)先安裝安全相關(guān)補(bǔ)?。ǜ呶5燃墸?/p>
-記錄更新日志并驗(yàn)證系統(tǒng)穩(wěn)定性
2.應(yīng)用軟件維護(hù)
-定期檢查Web服務(wù)器、數(shù)據(jù)庫等關(guān)鍵應(yīng)用版本
-使用`yumcheck-update`或`aptlist--upgradable`發(fā)現(xiàn)可更新項
-測試更新前后的功能一致性
3.配置文件備份
-更新前使用`tarczvfconfig_backup.tar.gz/etc`備份
-建立版本控制機(jī)制(如Git存儲配置變更)
(三)安全加固與審計
1.防火墻策略檢查
-使用`iptables-L-n`確認(rèn)規(guī)則有效性
-檢查`selinux`狀態(tài)(如處于enforcing模式)
-清理冗余或過時的訪問控制規(guī)則
2.日志分析與管理
-每日檢查`/var/log/messages`系統(tǒng)日志
-分析`/var/log/secure`安全相關(guān)記錄
-使用`logrotate`自動化日志輪轉(zhuǎn)(每周執(zhí)行)
3.用戶賬戶管理
-定期運(yùn)行`lastb`檢查異常登錄記錄
-查找閑置賬戶并執(zhí)行`userdel`刪除
-強(qiáng)制執(zhí)行密碼定期變更(如每90天)
(四)性能優(yōu)化與資源調(diào)整
1.服務(wù)性能調(diào)優(yōu)
-調(diào)整Nginx工作進(jìn)程數(shù)(`worker_processes`參數(shù))
-優(yōu)化MySQL緩存大?。╜innodb_buffer_pool_size`)
-調(diào)整Redis最大內(nèi)存占用
2.系統(tǒng)參數(shù)優(yōu)化
-編輯`/etc/sysctl.conf`調(diào)整內(nèi)核參數(shù)
-增加文件描述符限制(`ulimit-n`設(shè)置)
-優(yōu)化TCP連接參數(shù)(如`net.ipv4.tcp_tw_reuse`)
3.緩存管理
-清理瀏覽器緩存(`curl-I`檢查緩存狀態(tài))
-重啟Memcached/Redis服務(wù)刷新緩存
-分析慢查詢并優(yōu)化數(shù)據(jù)庫索引
三、應(yīng)急響應(yīng)與處理
(一)故障識別方法
1.系統(tǒng)崩潰處理
-檢查`/var/crash`目錄獲取內(nèi)核崩潰信息
-使用`dmesg`命令分析啟動日志
-查看硬件狀態(tài)(如通過`smartctl`檢查磁盤)
2.服務(wù)中斷排查
-運(yùn)行`systemctlstatus<service_name>`確認(rèn)狀態(tài)
-檢查依賴關(guān)系(`systemctllist-dependencies`)
-分析進(jìn)程樹(`psaxf`)定位問題進(jìn)程
3.性能驟降診斷
-使用`iostat-mx`檢查I/O性能
-運(yùn)行`vmstat1`分析內(nèi)存交換情況
-分析CPU熱核(使用`perftop`命令)
(二)標(biāo)準(zhǔn)處置流程
1.故障分級處理
-嚴(yán)重故障(系統(tǒng)不可用)→立即隔離→診斷修復(fù)→恢復(fù)服務(wù)
-輕微故障(性能下降)→監(jiān)控趨勢→調(diào)整參數(shù)→測試驗(yàn)證
2.變更管理規(guī)范
-所有變更必須記錄在案(時間、操作人、原因)
-備份關(guān)鍵數(shù)據(jù)(如數(shù)據(jù)庫全量備份)
-設(shè)置回滾計劃(如`gitrevert`操作)
3.文檔記錄要求
-每次維護(hù)操作需更新操作記錄表
-故障處理過程詳細(xì)記錄(時間線、嘗試方案、最終解決)
-建立知識庫(常見問題解決方案)
四、預(yù)防性維護(hù)措施
(一)定期巡檢計劃
1.巡檢周期設(shè)置
-基礎(chǔ)檢查(每周):CPU/內(nèi)存/磁盤/網(wǎng)絡(luò)
-深度檢查(每月):安全漏洞掃描
-全面檢查(每季度):硬件健康度評估
2.自動化監(jiān)控方案
-部署Zabbix/Prometheus監(jiān)控系統(tǒng)
-設(shè)置告警閾值(如CPU使用率90%觸發(fā)告警)
-建立基線數(shù)據(jù)(正常運(yùn)行參數(shù)范圍)
(二)容量規(guī)劃建議
1.資源預(yù)測模型
-根據(jù)歷史數(shù)據(jù)(如每月增長5-10%)預(yù)測需求
-使用`gnuplot`繪制資源使用趨勢圖
-提前30天提交擴(kuò)容申請
2.冗余設(shè)計實(shí)施
-關(guān)鍵服務(wù)實(shí)現(xiàn)主備部署(如Keepalived)
-配置負(fù)載均衡(如LVS/HAProxy)
-設(shè)置異地備份(如rsync到備份節(jié)點(diǎn))
(三)文檔維護(hù)體系
1.文檔更新機(jī)制
-配置文件變更同步更新到維基
-添加操作手冊截圖說明
-建立版本簽出流程(如Git分支管理)
2.知識共享活動
-每月開展技術(shù)分享會
-收集整理典型問題解決方案
-建立最佳實(shí)踐案例庫
三、應(yīng)急響應(yīng)與處理(續(xù))
(一)故障識別方法(續(xù))
1.系統(tǒng)崩潰處理(續(xù))
-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年廣東省江門市單招職業(yè)傾向性測試題庫及答案詳解一套
- 2026年河北司法警官職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫及參考答案詳解
- 2026年福建生物工程職業(yè)技術(shù)學(xué)院單招職業(yè)適應(yīng)性考試題庫及參考答案詳解1套
- 2026年西安工商學(xué)院單招綜合素質(zhì)考試題庫及完整答案詳解1套
- 2026年上海海洋大學(xué)單招職業(yè)傾向性考試題庫含答案詳解
- 四川省南充市嘉陵一中2024-2025學(xué)年高二上學(xué)期第二次月考(11月)生物試題含答案生物試卷
- 巨野護(hù)理面試題及答案
- 旅行社和地接社合作協(xié)議書范本
- 2025年第十三師中級人民法院聘用制書記員招聘備考題庫及一套參考答案詳解
- 東莞仲裁委員會2026年校園招聘備考題庫及答案詳解1套
- 2025年P(guān)MP項目管理專業(yè)人士資格考試模擬試卷及答案
- H2受體拮抗劑:臨床定位與合理應(yīng)用
- 農(nóng)夫山泉人事管理
- 2026-2031年中國西北菜行業(yè)發(fā)展分析及投資風(fēng)險預(yù)測研究報告
- 裝修工程可行性研究報告(完整)
- 己糖胺途徑調(diào)控機(jī)制-洞察及研究
- 醫(yī)院培訓(xùn)課件:《基層高血壓管理指南-高血壓藥物治療方案》
- 哈希nitratax sc硝氮分析儀操作手冊
- 秸稈資源化綜合利用項目可行性研究報告
- 殘疾人照料知識培訓(xùn)方案課件
- 2025年新能源汽車消費(fèi)者偏好研究報告綠色出行趨勢下的消費(fèi)心理
評論
0/150
提交評論