大數(shù)據(jù)系統(tǒng)運(yùn)維——故障管理_第1頁(yè)
大數(shù)據(jù)系統(tǒng)運(yùn)維——故障管理_第2頁(yè)
大數(shù)據(jù)系統(tǒng)運(yùn)維——故障管理_第3頁(yè)
大數(shù)據(jù)系統(tǒng)運(yùn)維——故障管理_第4頁(yè)
大數(shù)據(jù)系統(tǒng)運(yùn)維——故障管理_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材大數(shù)據(jù)系統(tǒng)運(yùn)維劉 鵬 張 燕 總主編姜才康 主編 陶建輝 副主編第三章故障管理3.1集群結(jié)構(gòu)3.2故障報(bào)告3.3故障處理3.4故障后期管理習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材3.1 集群結(jié)構(gòu)第三章 故障管理CDH(Cloudera Distribution Hadoop)版的HADOOP集群介紹集群結(jié)構(gòu)。3.1 集群結(jié)構(gòu)第三章 故障管理CDH功能模塊系統(tǒng)部署和管理數(shù)據(jù)存儲(chǔ)資源管理處理引擎安全、數(shù)據(jù)管理工具庫(kù)3.1 集群結(jié)構(gòu)第三章 故障管理集群的結(jié)構(gòu)組成模塊組件名稱系統(tǒng)部署和管理Cloudera ManagerCloudera Director數(shù)據(jù)存儲(chǔ)HDFSHBase資源管

2、理YARN處理引擎SparkImpalaSearch安全、數(shù)據(jù)管理Cloudera Navigator工具款Hive3.1 集群結(jié)構(gòu)第三章 故障管理硬件配置組成硬件名稱管理節(jié)點(diǎn)工作節(jié)點(diǎn)處理器兩路Intel至強(qiáng)處理器,可選用E5-2630處理器兩路Intel至強(qiáng)處理器,可選用E5-2660處理器內(nèi)核數(shù)6核/CPU(或者可選用8核/CPU),主頻2.3GHz或以上6核/CPU(或者可選用8核/CPU),主頻2.0GHz或以上內(nèi)存64GB ECC DDR364GB ECC DDR3硬盤(pán)2個(gè)2TB的SAS硬盤(pán)(3.5寸), 7200RPM, RAID14-12個(gè)4TB的SAS硬盤(pán)(3.5寸), 720

3、0RPM,不使用RAID網(wǎng)絡(luò)至少兩個(gè)1GbE以太網(wǎng)電口,推薦使用光口提高性能??梢詢蓚€(gè)網(wǎng)口鏈路聚合提供更高帶寬。至少兩個(gè)1GbE以太網(wǎng)電口,推薦使用光口提高性能??梢詢蓚€(gè)網(wǎng)口鏈路聚合提供更高帶寬。硬件尺寸1U或2U1U或2U接入交換機(jī)48口千兆交換機(jī),要求全千兆,可堆疊聚合交換機(jī)(可選)4口SFP+萬(wàn)兆光纖核心交換機(jī),一般用于50節(jié)點(diǎn)以上大規(guī)模集群第三章故障管理3.1集群結(jié)構(gòu)3.2故障報(bào)告3.3故障處理3.4故障后期管理習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材3.2 故障報(bào)告第三章 故障管理發(fā)現(xiàn)在故障發(fā)現(xiàn)之后,需要精確描述,包括如何發(fā)現(xiàn)的故障(如果是用戶,用戶的聯(lián)系方式要保留,便于后期回訪)故障發(fā)生的時(shí)

4、間點(diǎn),故障的現(xiàn)象,故障暫時(shí)的影響等,只有把這些描述清楚了,才有可能在后續(xù)的流程中提升效率,一個(gè)典型的故障記錄單如下表所示: 分類記錄單號(hào)20170511000328狀態(tài)已指派等待代碼等待管理員接單記錄人員張三分析員李四報(bào)告時(shí)間2017-05-11 11:18:20客戶王五客戶組織業(yè)務(wù)一部客戶電話XXX客戶郵箱XXXVIP屬性VIP故障來(lái)源用戶報(bào)告摘要大數(shù)據(jù)分析系統(tǒng)X無(wú)法登錄詳細(xì)信息今天10:00,李四使用Chrome瀏覽器訪問(wèn)X系統(tǒng)時(shí),在輸入用戶名和密碼之后,頁(yè)面出現(xiàn)錯(cuò)誤信息“服務(wù)器內(nèi)部故障308,請(qǐng)聯(lián)系管理員”,截圖如附件所示故障分類大數(shù)據(jù)分析系統(tǒng)/X系統(tǒng)/用戶登錄故障故障級(jí)別低3.2 故障

5、報(bào)告第三章 故障管理影響分析在運(yùn)維部門(mén),一般會(huì)有一二三線的人員劃分:一線人員指的是客服人員或者監(jiān)控值班人員,負(fù)責(zé)處理日常性的用戶詢問(wèn)和故障處理;二線人員指的是專業(yè)的系統(tǒng)管理員,如網(wǎng)絡(luò)管理員,服務(wù)器管理員,應(yīng)用管理員等,當(dāng)一線人員處理不了故障,會(huì)有二線的管理員跟進(jìn);三線指的是系統(tǒng)開(kāi)發(fā)人員,產(chǎn)品供應(yīng)商,當(dāng)是比較深層的故障,例如是軟件開(kāi)發(fā)的問(wèn)題,操作系統(tǒng)缺陷或者深層故障,會(huì)交給三線人員處理。第三章故障管理3.1集群結(jié)構(gòu)3.2故障報(bào)告3.3故障處理3.4故障后期管理習(xí)題大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材3.3 故障處理第三章 故障管理故障診斷參考大數(shù)據(jù)系統(tǒng)的系統(tǒng)架構(gòu),從故障發(fā)生的位置來(lái)看,可以分為:應(yīng)用層故障

6、,系統(tǒng)層故障,網(wǎng)絡(luò)層故障,硬件層故障,機(jī)房環(huán)境故障,客戶端故障等。從故障的原因出發(fā),在運(yùn)維過(guò)程中的的常見(jiàn)故障主要有:3.3 故障處理第三章 故障管理故障診斷1、故障的完整描述如前文3.3.1所述,準(zhǔn)確的故障描述至關(guān)重要,能幫助管理員把故障的范圍縮小,對(duì)故障的發(fā)生源有個(gè)預(yù)判定位,避免在大范圍內(nèi)浪費(fèi)資源。通過(guò)故障的完整描述,應(yīng)該能核實(shí)以下信息,該問(wèn)題的具體報(bào)錯(cuò)碼,具體報(bào)錯(cuò)時(shí)間,是不是首次發(fā)生等。如果信息比較模糊,還需要反復(fù)確認(rèn)。2、監(jiān)控信息,dump文件,日志等現(xiàn)場(chǎng)快照故障發(fā)生時(shí)的現(xiàn)場(chǎng)信息是排查故障的關(guān)鍵,如同車禍現(xiàn)場(chǎng)的視頻記錄一樣,日志,監(jiān)控信息,dump文件,網(wǎng)路抓包情況是故障現(xiàn)場(chǎng)的記錄數(shù)據(jù)。

7、一些沒(méi)有經(jīng)驗(yàn)的開(kāi)發(fā)者往往由于開(kāi)發(fā)的應(yīng)用輸出的日志太少,在生產(chǎn)環(huán)境出現(xiàn)問(wèn)題時(shí),沒(méi)有任何記錄,排查故障時(shí)也毫無(wú)頭緒。大多數(shù)故障都可以通過(guò)日志發(fā)現(xiàn)端倪,一些復(fù)雜的故障要依靠多種手段才能定位原因。如果當(dāng)時(shí)無(wú)法定位原因,則需要考慮通過(guò)降低日志輸出的級(jí)別,在關(guān)鍵位置增加日志,部署一些詳細(xì)監(jiān)控的策略,等待故障再次發(fā)生時(shí),能夠捕獲更多的信息。3、文檔,經(jīng)驗(yàn)和知識(shí)通過(guò)現(xiàn)場(chǎng)快照發(fā)現(xiàn)了錯(cuò)誤的具體信息后,還要結(jié)合系統(tǒng)本身的文檔,知識(shí)庫(kù)或者管理員的經(jīng)驗(yàn),進(jìn)行進(jìn)一步分析。例如已經(jīng)發(fā)現(xiàn)了服務(wù)器應(yīng)用輸出的日志有明顯的錯(cuò)誤信息,顯示網(wǎng)絡(luò)連接失敗??赡茉搯?wèn)題過(guò)去已經(jīng)發(fā)生過(guò),是由于訪問(wèn)量上升時(shí),服務(wù)端無(wú)法再創(chuàng)建新的連接造成的。如果

8、該經(jīng)驗(yàn)沒(méi)有記錄到文檔或者知識(shí)庫(kù)中,而人員又不是當(dāng)時(shí)處理故障的人員,則還需要花費(fèi)資源進(jìn)行診斷。一般的大型組織,都會(huì)建立自己的知識(shí)庫(kù)或者文檔庫(kù),各種開(kāi)源軟件也會(huì)有相應(yīng)的文檔或者論壇在互聯(lián)網(wǎng)上開(kāi)放,可以通過(guò)搜索引擎檢索到軟件相關(guān)的問(wèn)題記錄和解決情況。3.3 故障處理第三章 故障管理故障排除故障排除通常有兩種做法,變通解決和根本解決。變通解決指的是,當(dāng)故障造成了系統(tǒng)不可用,恢復(fù)服務(wù)是第一要?jiǎng)?wù),如同醫(yī)生搶救病人一樣,先救活再說(shuō)。根本解決指的是找到的故障的深層原因,在源頭上予以解決。例如,應(yīng)用程序的缺陷造成了程序運(yùn)行了一段時(shí)間會(huì)崩潰退出,此時(shí)先將程序重新啟動(dòng)恢復(fù)服務(wù),重啟動(dòng)作就是變通解決,等找到了程序的缺

9、陷,通過(guò)升級(jí)變更予以消除,這就是根本解決。排除方法適應(yīng)場(chǎng)景重啟服務(wù)軟件或者硬件不明原因的故障,通過(guò)重啟相關(guān)模塊來(lái)恢復(fù)服務(wù),但要注意的是,復(fù)雜系統(tǒng)尤其是分布式系統(tǒng)包含多臺(tái)服務(wù)器,多個(gè)應(yīng)用模塊,按照怎樣的順序重啟,重啟哪些模塊也都是需要注意的點(diǎn);性能調(diào)度當(dāng)訪問(wèn)量激增的時(shí)候,系統(tǒng)會(huì)出現(xiàn)卡頓,一些模塊可能會(huì)由于資源耗盡而無(wú)法再服務(wù),可以通過(guò)擴(kuò)充系統(tǒng)性能,如果系統(tǒng)是部署在云上,可以通過(guò)云管理平臺(tái)動(dòng)態(tài)地增加cpu,內(nèi)存,甚至整個(gè)服務(wù)器等來(lái)解決性能問(wèn)題; 修補(bǔ)數(shù)據(jù)當(dāng)故障造成了數(shù)據(jù)錯(cuò)誤,丟失,重復(fù)的情況,故障的處理就會(huì)變的異常麻煩,如果數(shù)據(jù)特別重要,一定需要修復(fù),則需要安排資源對(duì)數(shù)據(jù)進(jìn)行逐筆核對(duì),識(shí)別出錯(cuò)誤的

10、地方,這個(gè)工作量通常非常大;升級(jí)變更如果是硬件故障,通過(guò)升級(jí)變更更換硬件;如果是軟件問(wèn)題,通過(guò)升級(jí)變更修復(fù)缺陷;隔離,重置等其他應(yīng)急操作當(dāng)系統(tǒng)存在冗余的模塊,為了避免流量仍然導(dǎo)向到故障模塊,則可以徹底手工隔離故障模塊;一些系統(tǒng)可能由于自身結(jié)構(gòu)原因,會(huì)有一些常發(fā)性故障,例如用戶登錄狀態(tài)錯(cuò)誤,則可以將重置用戶登錄狀態(tài)做成一個(gè)功能,方便在排除故障的時(shí)候使用;自動(dòng)化在有了一定故障處理經(jīng)驗(yàn)和原則之后,對(duì)于固定場(chǎng)景的故障,可以考慮開(kāi)發(fā)成自動(dòng)處理,在捕獲到異常之后,由系統(tǒng)管理模塊對(duì)故障進(jìn)程自動(dòng)隔離,自動(dòng)重啟,自動(dòng)重置,自動(dòng)擴(kuò)容等;第三章故障管理3.1集群結(jié)構(gòu)3.2故障報(bào)告3.3故障處理3.4故障后期管理習(xí)題

11、大數(shù)據(jù)應(yīng)用人才培養(yǎng)系列教材3.4 故障后期管理第三章 故障管理建立和更新知識(shí)庫(kù)關(guān)于企業(yè)知識(shí)庫(kù)的建立,是因?yàn)檫\(yùn)維工作所需的大量知識(shí)分散保存在文檔管理系統(tǒng)或者個(gè)人電腦中,需要時(shí)查找不便, 找到又發(fā)現(xiàn)版本不統(tǒng)一, 甚至陳舊過(guò)時(shí)。通過(guò)建設(shè)知識(shí)管理系統(tǒng),對(duì)大量有價(jià)值的案例、規(guī)范、手冊(cè)、經(jīng)驗(yàn)等知識(shí)進(jìn)行分類存儲(chǔ)和管理,積累知識(shí)資產(chǎn)避免流失;規(guī)范知識(shí)的存儲(chǔ)、分類,實(shí)現(xiàn)便捷高效的查詢;通過(guò)記錄并分析使用者的知識(shí)行為,促進(jìn)知識(shí)的學(xué)習(xí)、共享、利用和傳承;并與現(xiàn)有的管理系統(tǒng)、流程系統(tǒng)進(jìn)行銜接,實(shí)現(xiàn)不同系統(tǒng)間知識(shí)的整合。而對(duì)于故障處理的經(jīng)驗(yàn),除了故障處理流程記錄之外,也可以針對(duì)一些典型故障,創(chuàng)建或者更新知識(shí)庫(kù),便于以后

12、重復(fù)利用,減少排查故障時(shí)的工作量。3.4 故障后期管理第三章 故障管理故障預(yù)防1、首先任何生產(chǎn)過(guò)程都要進(jìn)行程序化,這樣使整個(gè)生產(chǎn)過(guò)程都可以進(jìn)行考量,這是發(fā)現(xiàn)事故征兆的前提。2、對(duì)每一個(gè)程序都要?jiǎng)澐窒鄳?yīng)的責(zé)任,可以找到相應(yīng)的負(fù)責(zé)人,要讓他們認(rèn)識(shí)到安全生產(chǎn)的重要性,以及安全事故帶來(lái)的巨大危害性。3、根據(jù)生產(chǎn)程序的可能性,列出每一個(gè)程序可能發(fā)生的事故,以及發(fā)生事故的先兆,培養(yǎng)員工對(duì)事故先兆的敏感性。4、在每一個(gè)程序上都要制定定期的檢查制度,及早發(fā)現(xiàn)事故的征兆。5、在任何程序上一旦發(fā)現(xiàn)生產(chǎn)安全事故的隱患,要及時(shí)的報(bào)告,要及時(shí)的排除。6、在生產(chǎn)過(guò)程中,即使有一些小事故發(fā)生,可能是避免不了或者經(jīng)常發(fā)生,也應(yīng)引起足夠的重視,要及時(shí)排除。當(dāng)事人即使不能排除,也應(yīng)該向安全負(fù)責(zé)人報(bào)告,以便找出這些小事故的隱患,及時(shí)排除,避免安全事故的發(fā)生。1.從故障的原因出發(fā),故障可以分為哪些種類?2.當(dāng)發(fā)生故障時(shí),需要記錄哪些相關(guān)信息?3.運(yùn)維的一線,二線,三線人員的工作職責(zé)如何劃分?習(xí)題:AIRack人工智能實(shí)驗(yàn)平臺(tái)一站式的人工智能實(shí)驗(yàn)平臺(tái)DeepRack深度學(xué)習(xí)一體機(jī)開(kāi)箱即用的AI科研平臺(tái)BDRack大數(shù)據(jù)實(shí)驗(yàn)平臺(tái)一站式的大數(shù)據(jù)實(shí)訓(xùn)平臺(tái)云計(jì)算頭條微信號(hào):chinacloudnj中國(guó)大數(shù)據(jù)微信號(hào):cstorbigdata劉鵬看未來(lái)微信號(hào):lpoutlook云創(chuàng)大數(shù)據(jù)訂閱號(hào)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論