版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
修訂記錄課程編碼適用產(chǎn)品產(chǎn)品版本課程版本ISSUEHC1209205N8500V100R002V2.0開發(fā)/優(yōu)化者時間審核人開發(fā)類型(新開發(fā)/優(yōu)化)張博2013-09-20余雷新開發(fā)本頁不打印HC1209205
集群NAS存儲系統(tǒng)故障處理目標(biāo)學(xué)完本課程后,您將能夠:了解N8500問題處理流程掌握N8500常見問題及故障的處理方法具備集群NAS典型故障分析處理能力
目錄N8500故障處理的原則、方法N8500故障處理的流程N8500分類故障以及典型問題處理方法N8500故障處理案例
先外部后內(nèi)部先高級后低級先共性后個別故障處理原則故障處理方法分析法替換法看告警信息并配合對性能數(shù)據(jù)的分析替換懷疑工作不正常的部件
目錄N8500故障處理的原則、方法N8500故障處理的流程N8500分類故障以及典型問題處理方法N8500故障處理案例N8500故障處理流程N8500信息收集故障發(fā)生時,需要第一時間收集故障相關(guān)信息,主要包括:故障發(fā)生的具體時間故障現(xiàn)象的詳細(xì)描述N8000設(shè)備的版本故障后已經(jīng)采取的措施和結(jié)果客戶業(yè)務(wù)組網(wǎng)環(huán)境、目前業(yè)務(wù)情況收集N8000設(shè)備的日志信息集群NAS引擎日志系統(tǒng)日志位置日志文件日志用途/var/logmessage操作系統(tǒng)相關(guān)的所有關(guān)鍵事件/var/logsfsfs_event.log引擎的network,storage服務(wù)所產(chǎn)生的事件日志/opt/VRTSnasgw/logUpgrade.log引擎系統(tǒng)升級中的過程/opt/VRTSnasgw/logscanbus.log引擎掃描磁盤操作中搜集的相關(guān)信息和關(guān)鍵事件/opt/VRTSnasgw/logCIFS.logCIFS共享操作相關(guān)的集群管理服務(wù)操作及相關(guān)事件/opt/VRTSnasgw/logNFSAgent.logNFS共享代理操作相關(guān)的集群管理服務(wù)操作及相關(guān)事件/var/VRTSvcs/logEngine_A.logVCS集群日志故障分析定位和排除故障分析判斷和定位通過對收集的信息進(jìn)行分析,從眾多可能原因中找出故障原因的過程,通過故障分析,可以確定故障范圍、故障種類、故障發(fā)生的具體原因以及故障排除的手段。故障排除是指采取適當(dāng)?shù)拇胧┗虿襟E清除故障、恢復(fù)系統(tǒng)及業(yè)務(wù)的過程,具體的方式有檢修線路、更換硬件、修改配置數(shù)據(jù)、重新啟動服務(wù)或應(yīng)用程序、替換損壞文件、重新啟動系統(tǒng)、修復(fù)文件系統(tǒng)及服務(wù)等故障分析定位的主要方法原始信息分析指示燈狀態(tài)分析告警信息分析告警信息分析日志信息分析消息跟蹤分析故障分析定位的主要方法原始信息分析指示燈狀態(tài)分析告警信息分析告警信息分析日志信息分析消息跟蹤分析
目錄N8500故障處理的原則、方法N8500故障處理的流程N8500分類故障以及典型問題處理方法N8500故障處理案例1、節(jié)點控制器故障2、接口卡故障3、節(jié)點系統(tǒng)硬盤故障4、節(jié)點電源風(fēng)扇故障1、引擎軟件安裝和登錄故障2、集群容錯故障3、
功能使用故障1、硬件故障2、RAID和LUN故障3、性能故障4、主機(jī)與存儲連接故障5、數(shù)據(jù)丟失故障引擎節(jié)點硬件故障引擎節(jié)點軟件故障存儲單元故障集群NAS系統(tǒng)故障分類集群NAS系統(tǒng)故障影響1、業(yè)務(wù)中斷2、業(yè)務(wù)性能下降1、無法登錄2、集群節(jié)點無法切換3、
業(yè)務(wù)性能下降4、業(yè)務(wù)功能無法使用1、文件資源失效2、業(yè)務(wù)中斷3、性能下降4、數(shù)據(jù)丟失引擎節(jié)點硬件故障引擎節(jié)點軟件故障存儲單元故障集群NAS典型故障診斷后端存儲故障引起系統(tǒng)異常引擎節(jié)點硬件故障引起系統(tǒng)異常內(nèi)部通信鏈路問題診斷管理模塊問題診斷文件系統(tǒng)故障診斷文件讀寫性能問題診斷NFS掛載和訪問問題診斷CIFS掛載和訪問問題診斷網(wǎng)絡(luò)問題診斷1、后端存儲故障引起NAS系統(tǒng)異常2、引擎節(jié)點硬件故障引起系統(tǒng)異常3、集群NAS內(nèi)部網(wǎng)絡(luò)問題內(nèi)部通信鏈路問題分析和處理方法引擎之間心跳網(wǎng)絡(luò)故障序號問題解決方案1腦裂1、停止業(yè)務(wù)2、修復(fù)心跳網(wǎng)絡(luò)3、配置iofencing硬盤,引擎識別到iofencing硬盤,但是不用加入pool4、啟用iofencing功能,重啟整個集群內(nèi)部通信鏈路問題分析和處理方法引擎與存儲單元的鏈路故障序號問題解決方案1某個節(jié)點不能掃描到硬盤1、檢查該節(jié)點的系統(tǒng)狀態(tài)
2、查看該節(jié)點的HBA卡的狀態(tài)并恢復(fù)正常2執(zhí)行scanbus、mount操作時掛死1、檢查所有存儲單元的狀態(tài)2、查看所有存儲單元與引擎的FC連接狀態(tài),如果有存儲單元的FC連接異常,需要修復(fù)連接。3、在引擎主節(jié)點的support模式下,通過kill命令刪除scanbus進(jìn)程4、重啟主節(jié)點內(nèi)部通信鏈路問題分析和處理辦法序號問題解決方案1存儲單元端FC誤碼率過高1、更換光纖線、光模塊和FC主機(jī)口
2、更換控制器2引擎、存儲單元與光纖交換機(jī)的協(xié)商問題1、登錄存儲單元,查看HBA卡的連接狀態(tài)和速率,修改HBA的連接狀態(tài)為點對點或者交換機(jī)模式2、登錄光纖交換機(jī),更改端口模式4、管理模塊問題管理模塊問題解決方案序號問題解決方案1console口所在的物理網(wǎng)卡沒有連網(wǎng)線連上網(wǎng)線,等待1分鐘后重新登錄2console地址與網(wǎng)絡(luò)上其他主機(jī)有沖突1、通過KVM修改console地址
2、修改沖突主機(jī)上的IP地址3資源offline1、通過hagrp-stat|grepMan
2、通過hagrp-onlineManagementConsole-sysN8300_01命令上線5、集群NAS文件系統(tǒng)故障故障集群NAS文件系統(tǒng)故障分析和處理步驟步驟一:確認(rèn)引擎和存儲單元間的鏈路是否正常登錄N8000,執(zhí)行storagedisklistpaths,查看每個節(jié)點鏈路狀態(tài)若存在非active的鏈路,恢復(fù)鏈路后執(zhí)行storagescanbus,手動online文件系統(tǒng)步驟二:登錄存儲單元,確認(rèn)存儲單元狀態(tài)查看是否有存儲單元故障,參考存儲單元故障處理內(nèi)容。是否誤刪N8000文件系統(tǒng)在用的LUN,請聯(lián)系技術(shù)支持是否誤刪映射,恢復(fù)LUN映射,執(zhí)行storagescanbus,文件系統(tǒng)可自動恢復(fù),若無法恢復(fù),聯(lián)系技術(shù)支持。集群NAS文件系統(tǒng)故障分析和處理步驟步驟三:通過master賬號登錄引擎,確認(rèn)是否文件系統(tǒng)故障手動online文件系統(tǒng),如果online成功,則恢復(fù)業(yè)務(wù),收集debuginfo信息如果無法online,查看文件系統(tǒng)標(biāo)志位如果文件系統(tǒng)需要做fsck,請聯(lián)系技術(shù)支持。步驟四:fsck完成后,手動online文件系統(tǒng)如果可以,收集debuginfo供技術(shù)支持定位原因;如果不能,則重啟系統(tǒng)再嘗試online,執(zhí)行過程時請聯(lián)系技術(shù)支持。6、文件讀寫性能問題文件讀寫性能問題原因分析文件讀寫性能問題診斷-業(yè)務(wù)變更原因分析原來只有順序讀寫業(yè)務(wù),現(xiàn)在變成了隨機(jī)讀寫業(yè)務(wù);原來有只有讀業(yè)務(wù),現(xiàn)在加入了寫業(yè)務(wù);原來有10路用戶并發(fā),現(xiàn)在更多路用戶同時并發(fā);其他復(fù)雜業(yè)務(wù)變更。處理意見:由于業(yè)務(wù)類型的變化而造成的流量上的下降屬正?,F(xiàn)象,無需處理。文件讀寫性能問題診斷-存儲單元原因文件讀寫性能問題診斷思路-引擎原因原因分析文件系統(tǒng)存儲及文件系統(tǒng)參數(shù)配置不當(dāng)文件系統(tǒng)存放大量小文件,并且文件系統(tǒng)利用率大于80%,造成檢索速度下降集群狀態(tài):IP地址在集群各節(jié)點上分布不均勻服務(wù)狀態(tài)(NFS/CIFS)參數(shù)設(shè)置不當(dāng)。7、NFS掛載和訪問問題NFS掛載和訪問問題總結(jié)NFS掛載和訪問問題常見問題包括:客戶端原因:掛載參數(shù)錯誤、防火墻原因、權(quán)限問題。網(wǎng)絡(luò)原因:無法ping通N8000的虛擬IP;DNS服務(wù)器無法連通;網(wǎng)絡(luò)鏈路不穩(wěn)定。N8000原因:NFS服務(wù)或虛擬IPoffline;文件系統(tǒng)故障;NFS相關(guān)服務(wù)資源異常。8、CIFS掛載和訪問問題診斷CIFS掛載和訪問問題總結(jié)CIFS模塊問題常見問題包括:客戶端原因:掛載參數(shù)錯誤、防火墻原因、權(quán)限問題網(wǎng)絡(luò)原因:無法ping通N8000的虛擬IP;DNS服務(wù)器出現(xiàn)問題;網(wǎng)絡(luò)鏈路不穩(wěn)定N8000原因:CIFS服務(wù)或虛擬IPoffline;文件系統(tǒng)故障;CIFS相關(guān)服務(wù)資源異常9、NAS網(wǎng)絡(luò)問題NAS網(wǎng)絡(luò)問題診斷總結(jié)
目錄N8500故障處理的原則、方法N8500故障處理的流程N8500分類故障以及典型問題處理方法N8500故障處理案例案例1:管理模塊無法登錄問題描述:客戶反映無法通過master登錄集群,顯示該賬號不可用原因分析:1、通過終端可以ping通管理console地址2、通過KVM連接到集群,通過support賬號登錄集群,使用hastatus–sum|grepMan查詢狀態(tài)為offline,執(zhí)行hagrp-onlineManagementConsole-systestN8300_013、在集群的support賬號下,使用ethtool查看管理網(wǎng)口的物理狀態(tài)。通過在主機(jī)端檢查arp–a發(fā)現(xiàn)consoleip的mac地址不是集群管理網(wǎng)口的mac地址,表明網(wǎng)絡(luò)中的ip地址有沖突案例2問題及故障描述集群在設(shè)置IOfencing后,重啟整個集群,出現(xiàn)部分節(jié)點無法加入集群的情況,此現(xiàn)象概率出現(xiàn)原因分析集群重啟時,IO防護(hù)為了防止集群腦裂,會將部分啟動較慢的節(jié)點排除出集群。因此不允許直接重啟整個集群。若必須將所有節(jié)點都進(jìn)行重啟,請一次只重啟一個節(jié)點,待該節(jié)點完全啟動并可以提供業(yè)務(wù)時,再重啟下一個節(jié)點,直到所有節(jié)點全部重啟完畢,且可以正常提供業(yè)務(wù)
處理步驟該現(xiàn)象發(fā)生后,重啟未能加入集群的節(jié)點即可修復(fù)案例3問題及故障描述在有NFS業(yè)務(wù)時,重啟一個業(yè)務(wù)節(jié)點后,一個文件系統(tǒng)offline,導(dǎo)致該文件系統(tǒng)不可訪問原因分析重啟節(jié)點與主節(jié)點的時間不一致導(dǎo)致,集群為保護(hù)文件系統(tǒng)一致性,強制將文件系統(tǒng)標(biāo)志位設(shè)置為1,引起文件系統(tǒng)offline處理步驟登錄到集群管理界面的storage模式下,使用fsfsckfs100g命令進(jìn)行文件系統(tǒng)修復(fù),修復(fù)完成后需要使用fsonlinefs100g的命令將文件系統(tǒng)上線案例4問題及故障描述把一個節(jié)點從集群刪除后再加入集群,該節(jié)點的NFS共享服務(wù)fault,業(yè)務(wù)IP無法切換到該節(jié)點原因分析在添加一個新的節(jié)點加入集群時,必須保證該節(jié)點是全新安裝的節(jié)點,否則由于原來刪除的節(jié)點依然保留有原有集群的信息,可能導(dǎo)致發(fā)生異常情況處理步驟出現(xiàn)此問題時,執(zhí)行nfsserverstart命令重啟NFS服務(wù),即可將虛擬IPonline到新加入的節(jié)點案例5問題及故障描述將系統(tǒng)時區(qū)從GMT+8改為GMT+9,系統(tǒng)時間應(yīng)該增加一個小時,實際情況是減少了一個小時,反之亦然原因分析該問題是由于linux下的時區(qū)修改和windows的處理方式不一致導(dǎo)致的處理步驟出現(xiàn)該現(xiàn)象時,立即進(jìn)行系統(tǒng)時間修改,修改時區(qū)會導(dǎo)致文件系統(tǒng)全部掛掉時區(qū)修改應(yīng)在系統(tǒng)安裝完畢后立即修改使用clocktimezone設(shè)置時區(qū)時直接使用時區(qū)名進(jìn)行設(shè)置,不要使用GMT時間進(jìn)行設(shè)置案例6問題及故障描述使用fsonline命令online一個offline狀態(tài)的文件系統(tǒng)時,提示該文件系統(tǒng)“Filesystemisalreadyonline”原因分析由于文件系統(tǒng)在節(jié)點上mtab信息丟失,但cfs層掛載點正常,而fslist命令是檢測系統(tǒng)mount信息判斷文件系統(tǒng)是否online的,因此顯示文件系統(tǒng)為offline,而fsonline是檢測cfs層掛載點狀態(tài),因此導(dǎo)致無法online文件系統(tǒng)處理步驟出現(xiàn)該現(xiàn)象時,可以在support用戶下,將該文件系統(tǒng)信息手動加入/etc/mtab文件中,則文件系統(tǒng)可以正常顯示為online案例7問題及故障描述對未創(chuàng)建快照的文件系統(tǒng)進(jìn)行刪除時,提示有快照存在不可刪除原因分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 瓣周漏介入治療后的心臟康復(fù)方案
- 金融行業(yè)項目開發(fā)經(jīng)理面試寶典及答案解析
- 剛性線路板項目可行性分析報告范文(總投資22000萬元)
- 三向、五向、多向開關(guān)項目可行性分析報告范文
- 不銹鋼電磁閥項目可行性分析報告范文
- 深度解析(2026)《GBT 18932.1-2002蜂蜜中碳-4植物糖含量測定方法 穩(wěn)定碳同位素比率法》
- 年產(chǎn)xxx光學(xué)元件項目可行性分析報告
- 深度解析(2026)《GBT 18703-2021機(jī)械振動與沖擊 手傳振動 手套掌部振動傳遞率的測量與評價》
- 深度解析(2026)GBT 18491.3-2010信息技術(shù) 軟件測量 功能規(guī)模測量 第3部分:功能規(guī)模測量方法的驗證
- 特殊疾病狀態(tài)下的抗凝方案調(diào)整
- 2025年公安信息管理學(xué)及從業(yè)資格技能知識考試題與答案
- 興業(yè)銀行貸款合同模板大全
- 普通高等學(xué)校三全育人綜合改革試點建設(shè)標(biāo)準(zhǔn)試行
- 賣房承諾書范文
- 電梯限速器校驗合同(2篇)
- 招投標(biāo)自查自糾報告
- 高校公寓管理述職報告
- HG-T 20583-2020 鋼制化工容器結(jié)構(gòu)設(shè)計規(guī)范
- 單位職工健康體檢總結(jié)報告
- V型濾池設(shè)計計算書2021
- 安全用電防止觸電主題教育PPT模板
評論
0/150
提交評論