建立一個Linux企業(yè)集群的步驟_第1頁
建立一個Linux企業(yè)集群的步驟_第2頁
建立一個Linux企業(yè)集群的步驟_第3頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

建立一個Linux企業(yè)集群的步驟要建立一個Linux企業(yè)集群,你需要做以下一些事情,每一件事情都是本章的描述要點:確定你要使用哪個NAS服務器理解內核Netfilter和內核數(shù)據(jù)包路由的基本原理學習如何克隆一臺Linux機器確定你的集群命名方案學習如何將統(tǒng)配置改變應用到所有集群節(jié)點使用一個獨立的物理網(wǎng)絡建立一個Linux虛擬服務器網(wǎng)絡地址轉換(LVS-NAT)集群建立一個LVS直接路由(LVS-DR)集群安裝軟件自動移除失效的集群節(jié)點安裝軟件監(jiān)視集群學習如何監(jiān)視集群節(jié)點的性能學習如何在集群節(jié)點和服務器上使用自動化工具更新軟件包確定你要使用哪個統(tǒng)一用戶賬號認證方法安裝一個支持集群的打印系統(tǒng)安裝一個高可用批處理作業(yè)系統(tǒng)購買集群節(jié)點NAS服務器如果你的集群將運行傳統(tǒng)的依賴于正常的Unix封閉仲裁方法(將在第16章中詳細討論)的關鍵應用程序,網(wǎng)絡附加存儲(NAS)服務器將是你集群中最大的性能瓶頸,因為所有文件系統(tǒng)I/O操作將通過NAS服務器進行。你可以使用本書描述的技術[1]在便宜的硬件上建立你自己的高可用NAS服務器,但是企業(yè)級集群應該建立在頂級的NAS設備上,在寫操作提交到磁盤之前,即使NAS系統(tǒng)崩潰或電源失效也能夠保證提交寫操作到永久性RAM(NVRAM)緩存中,并能夠保證緩存的完整性。注意:出于測試目的,你可以使用一個Linux服務器作為NAS服務器,(參考第16章了解關于異步網(wǎng)絡文件系統(tǒng)(NFS)操作和為什么你可以在測試環(huán)境而不是生產(chǎn)環(huán)境僅使用異步NFS的討論)內核Netfilter和內核數(shù)據(jù)包路由在你建立集群負載調度器之前,需要理解如何改變通過Linux內核傳遞的數(shù)據(jù)包的命運,改變通過內核數(shù)據(jù)包的命運的能力允許你建立一個集群負載調度器,由它分配到跨所有集群節(jié)點的入站請求,命令行的工具有iptables.route和ip實用程序,在使用它們建立企業(yè)級集群之前,你應該先熟悉這些工具的用法。(參考第2章獲取關于這些工具的更多的信息)集群命名方案要使克隆過程自動化,每個節(jié)點應該以一個常用字符串跟一個連續(xù)的集群節(jié)點號開始,例如:第一個集群節(jié)點主機名應該是clonode1,第二個應該是clnode2,以此類推。將系統(tǒng)配置改動應用到所有節(jié)點集群管理員需要知道如何自動地應用系統(tǒng)配置改動到所有集群節(jié)點,可以使用SystemImager軟件包中的updateclient命令來完成,在集群進入正式生產(chǎn)前,在黃金客戶端上使用updateclient命令實際應用一次改動到所有集群節(jié)點上。(參考第5章獲取更多信息)建立一個LVSNAT集群建立一個Linux虛擬服務器網(wǎng)絡地址轉換(LVS-NAT)集群將有助于你理解Linux虛擬服務器(LVS)軟件是如何工作的,并可以幫助你確保負載調度器為入站連接請求分配集群內的節(jié)點。(參考第11章中關于負載均衡的介紹和第12章中關于LVS-NAT的介紹)建立一個LVSDR集群只要你知道如何建立LVS-NAT集群,你就可以將其轉換為Linux虛擬服務器直接路由(LVS-DR)集群,將在第13章中詳細描述,在關鍵應用上,基于LVS-DR的企業(yè)級集群比LVS-NAT集群更優(yōu)秀,有以下幾個原因:LVS-DR集群更容易管理,可以在集群網(wǎng)絡之外通過telnet或ssh連接到集群節(jié)點上管理LVS-DR集群節(jié)點,在LVS-NAT集群中,物理網(wǎng)線或VLAN配置阻止你直接連接到集群節(jié)點。LVS-DR集群不用通過中間機器(負載調度器)直接從集群節(jié)點向客戶端計算機發(fā)送應答。LVS-DR集群負載調度器允許出故障,不會使所有集群節(jié)點變得不可用,相比之下,如果主/備LVS-NAT集群負載調度器同時崩潰,整個LVS-NAT集群就無法使用了。在LVS-DR集群中,如果主/備LVS集群負載調度器同時崩潰,集群節(jié)點仍然可以作為獨立的或分散的服務器使用(參考第13章了解如何建立LVS-DR集群的詳細信息),然而,實際上,這是一個管理上的賣點而不是LVS-DR集群的"特色”。注意:Linux企業(yè)集群應該通過防火墻保護避免受到來自外部的黑客攻擊,如果你沒有用防火墻保護你的集群節(jié)點,或如果你的集群必須連接到因特網(wǎng)上,到集群節(jié)點的shell訪問應該被完全限制,你可以通過建立一個獨立的網(wǎng)絡(或VLAN)完全限制到集群節(jié)點的shell訪問,該網(wǎng)絡只用于連接管理機到集群節(jié)點,這個完全獨立的網(wǎng)絡常常叫做管理網(wǎng)絡。[2]安裝軟件移除失效的集群節(jié)點本書中,我們將使用ldirectord軟件包(包括在CD-ROM中)自動從集群中移除失效的節(jié)點,第15章將討論如何安裝和配置ldirectordo作為集群管理員,你可能還想知道如何手動從集群中移除失效節(jié)點,而不影響到當前已經(jīng)登陸到系統(tǒng)的用戶,我們將在第19章中看到如何做。安裝軟件監(jiān)視集群節(jié)點你不能每天通過每個集群節(jié)點的日志文件來進行監(jiān)視,你需要監(jiān)視軟件在某個集群節(jié)點出現(xiàn)故障時發(fā)送email消息、電子頁面或文本消息給管理員的功能。有許多開源的軟件可以完成這個任務,第17章描述了一個使用簡單網(wǎng)絡管理協(xié)議(SNMP)和Mon軟件包進行監(jiān)視的方法,SNMP和Mon軟件包一起允許你監(jiān)視集群節(jié)點,并在超過了你指定的閥值時發(fā)出警告。監(jiān)視集群節(jié)點的性能除了監(jiān)視集群節(jié)點的問題之外,你可能還想監(jiān)視每個運行的集群節(jié)點是否正確地分擔工作負載,Ganglia軟件包就是做這件事的非常優(yōu)秀的工具,第18章將描述如何使用Ganglia以及一些Ganglia從所有集群節(jié)點收集的性能量度(如系統(tǒng)平均負載)。管理人員和操作人員可以使用Ganglia創(chuàng)建的web頁面實時觀察集群上的進程負載情況,在將集群放如生產(chǎn)環(huán)境的那天起,這個是你查看集群工作的最重要的工具了。更新集群節(jié)點和服務器上的軟件在發(fā)現(xiàn)軟件安全漏洞時你還需要一個自動下載并安裝補丁的方法,附錄D中描述的自動化工具Yum就是做這個事情的,在生產(chǎn)環(huán)境中使用之前,你要學習如何使用Yum或其他自動升級實用程序,確定已經(jīng)建立了一個能夠繼續(xù)發(fā)展并能適應改變的系統(tǒng)。你還需要考慮一些細微的問題,如SystemImagerupdateclient命令可能會覆蓋軟件包注冊信息或存儲在集群節(jié)點磁盤上的軟件包(RPM)清單(要解決這個問題,你可能想將軟件安裝在一個節(jié)點上--SystemImager黃金客戶端--然后使用updateclient命令更新剩下的集群節(jié)點)。統(tǒng)一用戶賬號管理你可能需要某種統(tǒng)一的集群用戶賬號管理方法,參考第1、19章中關于賬號管理方法如NIS、LDAP、Webmin、OPIUM(OSCAR軟件包的一部分)或一個拷貝每個集群節(jié)點本地的/etc/passwd文件存儲到一個中央服務器的cron作業(yè)的討論。(無論你選擇哪個方法,你還需要判斷這個方法是否能夠準確地集中管理組和主機信息)安裝打印系統(tǒng)你將需要安裝一套允許你在一個地方控制所有來自集群的打印作業(yè)的打印系統(tǒng),第19章將簡要第討論LPRng軟件包在集群環(huán)境中基于這個目的的使用。安裝高可用批處理作業(yè)調度系統(tǒng)如果你的批處理作業(yè)調度系統(tǒng)不是高可用的,即使你建立了一套高可用集群也不會改善系統(tǒng)的可靠性,我們將在第18章中看到如何建立一個無單點故障的批處理作業(yè)調度系統(tǒng)。購買集群節(jié)點建立用于支撐科學研究的集群往往包括成千個節(jié)點,一般在大型的研究機構的數(shù)據(jù)中心(參考/),對于運行在這些集群上的應用程序,沒有限制它們能夠使用的CPU周期的數(shù)量,因為越多的周期可用,就可以完成更多的工作,相反,企業(yè)集群有應用程序可以使用的進程周期數(shù)量的上限,企業(yè)工作負載有峰值消耗期限,相對低系統(tǒng)活動周期過程中進程,在峰值期間可能需要兩倍、三倍或更多。然而,某些時候并不是越多的工作進程就意味著完成越多的工作,因為外部因素(如使用集群的用戶數(shù)量和能力)將決定這個限制。因此Linux企業(yè)集群要有一個理想的節(jié)點數(shù)量,是由使用它的組織的需求和構建、維護、支持成本決定的,在這一小節(jié)中,我們將看到兩個基本的找到最佳節(jié)點數(shù)量的設計思想:集群性能和單點故障的影響。規(guī)劃容量和集群性能應用程序有1/4的時候是在消耗它們的空閑時間:等待用戶輸入、等待CPU、等待文件系統(tǒng)I/O或等待網(wǎng)絡I/O。在你建立集群時,最重要的是要減少其中的應用程序等待CPU的時間,通過將用戶分散在多個集群節(jié)點上,你還可以減少多個CPU綁定進程競爭CPU時間片的可能性。大多數(shù)組織能夠購買足夠數(shù)量的集群節(jié)點來消除CPU性能瓶頸,建立集群不能幫助你預防其他第三方的性能瓶頸,因此,第二個集群設計思想(單點故障的影響)是規(guī)劃合理的容量,在大多數(shù)組織中這比性能更重要。其他性能和設計思想在這里非常簡單地討論一下,我們省去兩個值得考慮的性能問題:單個節(jié)點(基于應用程序的配置文件或運行在每個集群節(jié)點上的應用程序)上可以容納的用戶會話數(shù)量的上限,以及運行在集群上不同應用程序的多種配置文件之間潛在的巨大差異。在第16、18章中將對這個主題進行更詳細的討論。但是在集群環(huán)境中進程上限不見了,集群文件系統(tǒng)或后端數(shù)據(jù)庫的性能變得日益重要。(注意后端數(shù)據(jù)庫可能也運行在集群上,參考第20章中”集群Zope"的一個例子。)規(guī)劃容量和單點故障的影響對大多數(shù)組織更有效的第二個設計思想是單點故障和執(zhí)行例行(規(guī)劃好的)維護對業(yè)務的影響,在你決定購買多少集群節(jié)點時,企業(yè)或用戶團體中單點故障對業(yè)務的影響可能是考慮設計唯一最重要的因素。購買比CPU峰值需要的節(jié)點數(shù)量更多的節(jié)點可能比較有意義,因為對最終用戶來說,多余的節(jié)點會減少單個節(jié)點失效帶來的影響,同時這樣還使集群維護變得更容易(集群管理員在維護時可以從集群中移除一個節(jié)點,集群仍然有足夠的處理能力繼續(xù)完成作業(yè))。假設你的預算允許你購買比你需要的更多的節(jié)點以滿足CPU處理需求,你需要檢查橫跨集群節(jié)點的工作負載,并判斷單點故障對業(yè)務的影響(例如:有多少用戶會受到影響,有多少用戶會話會受到影響),然后你要提供管理每個額外集群節(jié)點所有權的總體成本,并解釋購買額外節(jié)點的好處。從Unix轉換傳統(tǒng)應用程序到Linux上如果你正在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論