版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、易騰共享群集軟件3.0技術(shù)白皮書上海希望信息技術(shù)有限公司 葛俊第一章 信息高可用性概述3一、 高可用性需求3二、 服務(wù)宕機的必然性3三、 高可用性解決方案3四、 高可用性工作原理4(一)、 高可用硬件配置4(二)、 高可用工作原理5第二章 易騰共享群集軟件概述7一、 軟件組成7(一)、 EterneCluster Console7(二)、 EterneCluster Core7(三)、 EterneCluster Monitor7(四)、 EterneCluster Resource DLL8二、 功能特點8(一)、 分為兩大產(chǎn)品8(二)、 應(yīng)用高可用性8(三)、 自我修復(fù)能力8(四)、 支持
2、多條心跳路徑8(五)、 資源組管理9(六)、 單機熱備高可用9(七)、 共享磁盤的鎖定9(八)、 支持多種群集工作模式10(九)、 支持自動遷回10(十)、 支持無為ARP10(十一)、 支持快速切換10(十二)、 支持多種應(yīng)用保護10(十三)、 支持忽略監(jiān)控資源10(十四)、 支持雙機雙柜11(十五)、 直觀的GUI用戶界面11(十六)、 全面支持用戶自己開發(fā)的應(yīng)用程序和服務(wù)11(十七)、 支持網(wǎng)頁方式啟動GUI11(十八)、 支持域名服務(wù)12(十九)、 支持多種應(yīng)用軟件的深入檢測12第三章 EterneCluster應(yīng)用規(guī)格13一、 軟硬件規(guī)格13(一)、 支持各種類型服務(wù)器13(二)、
3、支持各種類型的存儲設(shè)備13(三)、 支持的操作系統(tǒng)平臺13(四)、 提供豐富的應(yīng)用軟件支持13二、 群集規(guī)格配置14(一)、 雙機集群(11)配置14(二)、 多機集群配置14第四章 術(shù)語附錄17第一章 信息高可用性概述一、 高可用性需求隨著信息化建設(shè)的不斷推進,企業(yè)的信息化已經(jīng)非常普遍,各個企事業(yè)單位的活動越來越多的依賴于其關(guān)鍵的業(yè)務(wù)信息系統(tǒng),這些業(yè)務(wù)信息系統(tǒng)對整個機構(gòu)的運營和發(fā)展起著至關(guān)重要的作用。如果一些關(guān)鍵應(yīng)用一旦發(fā)生宕機故障或應(yīng)用停機,將給企業(yè)帶來巨大的經(jīng)濟損失,并且由于業(yè)務(wù)的不可用而影響了企業(yè)的信譽,致使客戶對企業(yè)失去信任,所造成的危害是致命的。非正常的服務(wù)終止時間的長短會對用戶造
4、成不同的損失,或者說用戶對服務(wù)停止所能承受的時間是不同的。通常取決于應(yīng)用的類型,如果能夠在幾秒鐘內(nèi)修復(fù)錯誤,不會對一個在線聯(lián)機事務(wù)(OLTP)處理系統(tǒng)構(gòu)成影響,但是對火箭發(fā)射等實時應(yīng)用,哪怕只停止一秒都是不可忍受的。 由于系統(tǒng)的任何一個部件都可能發(fā)生故障,因此系統(tǒng)設(shè)計師在構(gòu)建系統(tǒng)時需要能夠預(yù)見到系統(tǒng)可能會發(fā)生的各種故障,并進行軟硬件的部署,在這些故障后發(fā)生能夠迅速糾正??梢?,對那些需要保障信息安全和提供不間斷的信息服務(wù)的企業(yè)而言,業(yè)務(wù)系統(tǒng)的容錯性和不間斷性顯得尤為重要。如何保障各種關(guān)鍵應(yīng)用持續(xù)運營,達到永續(xù)經(jīng)營的良性循環(huán),已成為當(dāng)今企事業(yè)單位和IT領(lǐng)域急需解決的關(guān)鍵問題。二、 服務(wù)宕機的必然性
5、通常企業(yè)構(gòu)造服務(wù)的硬件環(huán)境為單一服務(wù)器配置模式,一旦因為計劃中宕機和計劃外宕機,便會引起服務(wù)終止。計劃中的宕機通常指完成系統(tǒng)升級、應(yīng)用遷移、部件更換等操作引起的宕機,這些計劃中的宕機是企業(yè)維護服務(wù)正常工作不可避免的工作項目,雖然可以人為地采取一些措施減少損失,但依然會造成服務(wù)的終止。計劃外宕機通常是由于系統(tǒng)出錯造成的。錯誤包括硬件、軟件、系統(tǒng)和網(wǎng)絡(luò),或是系統(tǒng)運行外部環(huán)境原因等,這些情況包含了:硬件故障、操作系統(tǒng)崩潰死機、硬盤滿、電壓不穩(wěn)、跳電、電源損壞、網(wǎng)絡(luò)故障、軟件漏洞(Bug)、應(yīng)用出錯。同樣人為失誤造成的故障也稱為出錯。當(dāng)然,并非所有的出錯會造成宕機,也不是所有的意外宕機都是由于部件出錯
6、造成的,災(zāi)難或其他意外情況同樣會造成服務(wù)終止。計劃外宕機通常會導(dǎo)致非常嚴(yán)重的后果,比如酒店的入店和結(jié)帳系統(tǒng)故障,所有的客戶將無法check-in和check-out;醫(yī)院的電腦系統(tǒng)出錯,將導(dǎo)致患者無法結(jié)賬、醫(yī)生無法得到患者信息,甚至無法進行手術(shù);銀行的記帳系統(tǒng)因電腦出錯,客戶將無法提現(xiàn)和存款??傊瑱C會外宕機所造成的損害將非常大。有些環(huán)境下,系統(tǒng)停止服務(wù)將導(dǎo)致事務(wù)處理無法進行,必將導(dǎo)致客戶對企業(yè)信任度降低,甚至?xí)o客戶帶來不可挽回的損失。三、 高可用性解決方案通常,對于服務(wù)因錯誤造成的不可避免終止,企業(yè)都會安排相關(guān)的管理人員進行定時的監(jiān)控,一旦發(fā)現(xiàn)服務(wù)不可用,便會立即進行處理排錯。這是非常原始
7、的高可用解決方案,存在諸多問題,譬如及時性問題,一旦錯誤在深夜發(fā)生,而人工不可能24小時監(jiān)控;再譬如處理時間長短不可控,一旦錯誤造成的原因非常復(fù)雜,排錯非常困難,需要非常長的時間,那么服務(wù)的終止將非常長。在排錯過程中,人為操作失誤將可能導(dǎo)致系統(tǒng)的永久癱瘓。另一方面,為了維持系統(tǒng)的高可用性而配備操作人員,勞務(wù)費用也非常昂貴。目前,市場上提供多種高可用性解決的軟件解決方案。主要分為雙機和多機的解決方案,主要原理是在提供硬件冗余的系統(tǒng)基礎(chǔ)之上,運行高可靠性軟件而構(gòu)成。高可用性軟件自動檢測服務(wù)的運行狀態(tài),一旦服務(wù)在主機上出現(xiàn)故障,高可用性軟件將自動地把服務(wù)轉(zhuǎn)到另一臺服務(wù)器上,從而讓服務(wù)持續(xù)可用。對系統(tǒng)
8、應(yīng)用狀態(tài)的監(jiān)控和服務(wù)故障的恢復(fù),由高可用軟件自動完成,減少了人員的負擔(dān)。四、 高可用性工作原理(一)、 高可用硬件配置高可用環(huán)境中,硬件是要求冗余的,包括兩臺服務(wù)器(我們稱這種環(huán)境為雙機容錯),而部署多機高可用集群環(huán)境時, 服務(wù)器則是多臺, 每臺服務(wù)器擁有足夠的I/O能力、內(nèi)存容量、系統(tǒng)硬盤空間、網(wǎng)卡部件,使得配置能夠在使用中符合系統(tǒng)的需求,并能夠最大限度的降低系統(tǒng)停機時間。存儲系統(tǒng)通常也必須是冗余的,例如,將數(shù)據(jù)存放在RAID 5磁盤陣列中。當(dāng)一個硬盤發(fā)生錯誤時,數(shù)據(jù)仍然可以正常訪問,而且可以從其他硬盤中恢復(fù)出這個硬盤的內(nèi)容(稱為RAID重建)。圖1 高可用系統(tǒng)的硬件拓撲結(jié)構(gòu) 高可用系統(tǒng)的硬
9、件拓撲結(jié)構(gòu)如圖1所示。服務(wù)器:主服務(wù)器和備份服務(wù)器運行同一版本的操作系統(tǒng),但其硬件配置可以不一致,主服務(wù)器為提供服務(wù)的服務(wù)器,備份服務(wù)器平時不提供服務(wù),只有主服務(wù)器出現(xiàn)問題時,其能夠接替主服務(wù)工作的服務(wù)器。私網(wǎng):用于在服務(wù)器之間傳輸cluster的信息網(wǎng)絡(luò)結(jié)構(gòu),其主要是支持TCP/IP協(xié)議的以太網(wǎng)和光纖網(wǎng)。公網(wǎng):供客戶端訪問服務(wù)的網(wǎng)絡(luò),客戶端可以通過公網(wǎng)訪問到每臺服務(wù)器。共享存儲:每個服務(wù)器都能訪問的存儲設(shè)備,同時也是服務(wù)數(shù)據(jù)存放的地方,一般采用磁盤陣列,為了對數(shù)據(jù)進行冗余保護,可根據(jù)客戶需要做不同的RAID級別數(shù)據(jù)保護。磁盤陣列的接口形式可以是iSCSI、FC、SAS、NAS等。(二)、 高
10、可用工作原理每臺服務(wù)器都接上磁盤陣列,客戶的應(yīng)用程序或數(shù)據(jù)都放入磁盤陣列中,客戶通過浮動的IP地址訪問服務(wù)。客戶的服務(wù)平時在主節(jié)點上運行,當(dāng)主節(jié)點出現(xiàn)故障(硬件故障如:網(wǎng)卡,卷,磁盤等出錯;軟件故障:應(yīng)用不可用)時,第二臺備用服務(wù)器自動接管其工作(即帶入磁盤陣列的卷,接管浮動IP地址,最后啟動應(yīng)用)。如果第二臺備用服務(wù)器不可用,其任務(wù)被第三臺服務(wù)自動接管,如此類推。因此,一臺服務(wù)器節(jié)點出現(xiàn)故障后,其他服務(wù)器可接管其服務(wù),從而保證整個系統(tǒng)對外服務(wù)的正常,為企業(yè)24小時365天的關(guān)鍵業(yè)務(wù)應(yīng)用提供了強大的保障。(1) 心跳信息原理主備機通過心跳路徑,周期性地發(fā)出檢測數(shù)據(jù)包。如果主機出現(xiàn)故障,備機在規(guī)
11、定的時間內(nèi)沒有收到來自主機的檢測包后,會認為主機可能出現(xiàn)故障;這時備機自動檢測設(shè)置中是否有第二條心跳途徑,試圖在第二條和主機建立心跳通信。如果第二條心跳途徑同樣失敗后,備機則根據(jù)已設(shè)定的策略,啟動備機的相關(guān)服務(wù),完成服務(wù)的切換。(2) 浮動IP工作原理浮動IP指客戶端訪問服務(wù)的IP地址,這個浮動IP地址掛載受到高可用軟件的控制。正常情況下,由主服務(wù)器對外提供服務(wù),高可用軟件把此IP地址掛載到主服務(wù)器上。當(dāng)主服務(wù)器出現(xiàn)故障后,服務(wù)發(fā)生切換,高可用軟件會自動把該IP地址掛載到備份服務(wù)器上,用戶訪問的仍然是浮動IP地址。所以用戶只會在切換的過程中發(fā)現(xiàn)有短暫的通信中斷,經(jīng)過一個短暫的時間,就可以恢復(fù)通
12、信。(3) 切換條件l 主機的硬件發(fā)生故障,譬如主機主板故障、主板掉電。l 主機的操作系統(tǒng)發(fā)生故障。l 運行于主機的服務(wù)出現(xiàn)故障。l 主機的公共網(wǎng)絡(luò)發(fā)生故障。當(dāng)發(fā)生以上故障時,高可用軟件會及時檢測到這些故障,主動把服務(wù)切換到相應(yīng)的備份主機上。(4) 切換過程服務(wù)切換過程主要是把服務(wù)從主服務(wù)器上切換到備份服務(wù)上。首先,在主服務(wù)器上主動釋放相應(yīng)的資源,主要步驟是:1執(zhí)行正常的服務(wù)關(guān)閉程序,這樣可以保證服務(wù)的完整性及數(shù)據(jù)的安全,而且也不會再有其他服務(wù)器執(zhí)行此項服務(wù)。2釋放共享磁盤,以便備份服務(wù)器能夠訪問共享磁盤。3釋放浮動IP地址,這樣便可保證不會再有其他服務(wù)器使用此IP地址。其次,由備份服務(wù)器接管
13、相關(guān)的資源:1獲取存有服務(wù)的共享磁盤分區(qū)并系統(tǒng)檢測與恢復(fù),此過程可進一步保證在服務(wù)異常中斷時共享磁盤的完整性。2在備份服務(wù)器網(wǎng)絡(luò)掛載浮動的IP地址,客戶端會重新連接到原來的IP地址。這樣,用戶再去訪問服務(wù)時,就沒有必要再去重新配置或做修改。3重新啟動服務(wù)。(5) 切換時間影響因素切換時間受多種因素的影響,主要由3個方面決定:1. 啟動服務(wù)的實際時間,與環(huán)境配置的復(fù)雜性和數(shù)據(jù)庫存儲數(shù)據(jù)量相關(guān),往往客戶實際配置比較復(fù)雜,數(shù)據(jù)庫比較龐大,因而啟動服務(wù)就比較長;2. 共享磁盤陣列的掛載,當(dāng)磁盤陣列的文件系統(tǒng)出現(xiàn)問題同時數(shù)據(jù)比較多時,掛載該分區(qū)時做文件系統(tǒng)檢測就比較長;3. 停止服務(wù)實際時間,其所受各種
14、環(huán)境條件的影響和啟動服務(wù)一樣。第二章 易騰共享群集軟件概述易騰共享群集軟件產(chǎn)品(EterneCluster)是來自中國本土的,擁有自主知識產(chǎn)權(quán)的多機高可用產(chǎn)品,支持Windows、Linux等操作系統(tǒng)平臺,支持幾乎所有的存儲環(huán)境。具有穩(wěn)定可靠、易于管理、備援方式靈活多樣、節(jié)點和任務(wù)伸縮性強、保護用戶投資、整合和優(yōu)化用戶系統(tǒng)環(huán)境、支持包括 ISCSI 存儲環(huán)境等特點。一、 軟件組成軟件主要分為4大部分構(gòu)成:EterneCluster Console、EterneCluster Core、EterneCluster Monitor、EterneCluster Resource DLL。(一)、 E
15、terneCluster ConsoleConsole是由是JAVA編寫的用戶界面, 通過該界面可以管理整個cluster的所有節(jié)點和服務(wù),同時直觀地表示cluster的各個任務(wù)運行狀態(tài)和細節(jié)。(二)、 EterneCluster CoreCore是Cluster的核心服務(wù)程序。其負責(zé)執(zhí)行來自Console的命令,協(xié)調(diào)各個節(jié)點的任務(wù)分配,傳輸和接收各個節(jié)點的心跳信息,切換和接管任務(wù)的管理中心,同時接收來自Monitor定時發(fā)送的資源狀態(tài)信息,并進行解析和進行相關(guān)的操作。(三)、 EterneCluster MonitorMonitor負責(zé)監(jiān)控資源的狀態(tài),定時把這些資源的信息傳遞給Core,同時
16、監(jiān)控Core運行的狀態(tài),一旦發(fā)現(xiàn)Core出現(xiàn)問題,會立即重新啟動Core,從而保證Core不存在單點故障的可能。(四)、 EterneCluster Resource DLLResource DLL是Eterne提供主要的資源動態(tài)連接庫,主要包含:IPAddress、Network Name、Physical Driver、Share、Application、Service,每個資源都有自己的屬性、方法、事件。對于用戶的特別服務(wù),Eterne可以為用戶提供第三方程序編寫DLL服務(wù),在用戶提出需求后,由Eterne開發(fā)人員為用戶開發(fā)第三方軟件的資源編寫。二、 功能特點(一)、 分為兩大產(chǎn)品易騰群
17、集軟件分為兩大產(chǎn)品:易騰雙機高可用軟件(EterneCluster-DN),易騰群集軟件(EterneCluster-MN)。EterneCluster-DN只針對硬件環(huán)境為兩個服務(wù)器+磁盤陣列的雙機熱備解決方案,性價比很高,EterneCluster-MN是群集多機軟件,可以支持最多32臺服務(wù)器的熱備方案。(二)、 應(yīng)用高可用性提供高可用性解決方案是易騰群集軟件的核心功能,該解決方案提供雙機熱備系統(tǒng),也提供多機的高可用解決方案。其原理都是當(dāng)一臺服務(wù)器出現(xiàn)故障時,可以由另一臺服務(wù)器承擔(dān)服務(wù)任務(wù),從而在不需要人工干預(yù)的情況下,自動保證系統(tǒng)能持續(xù)提供服務(wù)。(三)、 自我修復(fù)能力在集群系統(tǒng)的每一臺服
18、務(wù)器內(nèi),易騰群集軟件具有兩個核心進程:Service和Monitor,他們互相監(jiān)控(如:系統(tǒng)宕機、網(wǎng)絡(luò)、SCSI線纜是否斷開),如果其中一個進程失敗,另一個進程會立即進行恢復(fù),最大程度保證雙機熱備系統(tǒng)自身健壯,避免雙機丟失。(四)、 支持多條心跳路徑支持網(wǎng)卡(私網(wǎng)/公網(wǎng))、磁盤心跳等多種心跳方式,多重保障心跳檢測途徑,配置多條心跳路徑可以避免系統(tǒng)的單點故障,進一步提高了系統(tǒng)的可靠性。(五)、 資源組管理無論易騰群集軟件的安裝還是管理都設(shè)計的十分簡單和直觀,包括辨別關(guān)鍵的資源(例如IP地址)和指定這些資源到一個管理組(Resources Group)。一旦被指定到一個管理組之后,這些資源就被確認
19、為被管理的資源。當(dāng)其中一個服務(wù)器失敗時,這些資源將遷移到另一個服務(wù)器。易騰群集軟件可以單獨地在每臺服務(wù)器上安裝和卸載,用戶可以自由地從一個組中刪除和增加一個服務(wù)器,無需全部卸載每臺服務(wù)器。(六)、 單機熱備高可用在應(yīng)用軟件的檢測時間間隔執(zhí)行檢測,以察看資源本身是否失效。如果快速檢查和深入檢查均局部告失敗,系統(tǒng)將根據(jù)用戶設(shè)定的策略嘗試局部恢復(fù)資源,實現(xiàn)單機的自動修復(fù),從而達到用戶單機系統(tǒng)同樣得到高可用級別。 本地網(wǎng)卡失敗轉(zhuǎn)移在主服務(wù)器上,可以加上另外一個NIC作為主服務(wù)器的備份NIC。當(dāng)主NIC 出現(xiàn)故障時,EterneCluster將可切換的IP地址讓由本地的備份 NIC 接管,本地資源不需要
20、切換,有效的減少的切換時間。 核心業(yè)務(wù)失敗當(dāng)核心業(yè)務(wù)出現(xiàn)問題時,EterneCluster會及時偵測到,并重新啟動核心業(yè)務(wù),從而不需要異地切換。 浮動IP失敗當(dāng)浮動IP被釋放或出現(xiàn)問題時,EterneCluster會及時重新帶入該浮動IP,實現(xiàn)單機的高可用。(七)、 共享磁盤的鎖定軟件管理共享磁盤上的數(shù)據(jù),以防止多個服務(wù)器在同一時間訪問數(shù)據(jù)。EterneCluster在邏輯設(shè)備級(卷)上控制對數(shù)據(jù)的訪問,管理員可以不必擔(dān)心群中的其它服務(wù)器訪問數(shù)據(jù)時,可能會帶來的數(shù)據(jù)訪問沖突。EterneCluster自動在被應(yīng)用程序定義為共享資源的磁盤卷上設(shè)置SCSI-2/SCSI-3持久保留。當(dāng)被保護的應(yīng)用
21、程序由一個服務(wù)器被移動/轉(zhuǎn)換到另一個服務(wù)器時,EterneCluster控制這些鎖定,以保證激活服務(wù)器對共享卷的訪問。在主系統(tǒng)發(fā)生故障的情況下, 次節(jié)點系統(tǒng)將能夠在磁盤上建立SCSI 鎖定,并在備份的系統(tǒng)上將資源投入使用。(八)、 支持多種群集工作模式不僅支持傳統(tǒng)的單活(Active/Passive)、雙活(Active/Active),還支持N和N+1多節(jié)點集群備份。目前EterneCluster最多支持32個節(jié)點的群集工作模式。(九)、 支持自動遷回當(dāng)首選節(jié)點發(fā)生故障后又恢復(fù)正常,如果允許自動遷回,備份節(jié)點在指定的恢復(fù)時間窗口內(nèi)將資源組切換回首選節(jié)點運行;禁止自動遷回時,資源組將保留在備份
22、結(jié)點上,管理員可在合適的時間手工切換。(十)、 支持無為ARP當(dāng)浮動IP切換到其它網(wǎng)卡上掛載時,Cluster會主動進行ARP廣播通知客戶端該IP的MAC地址發(fā)生改變,讓客戶端主動更新映射關(guān)系,這樣客戶端便會連接到相關(guān)的服務(wù)上,避免因浮動IP切換造成客戶端無法訪問的情況。(十一)、 支持快速切換針對不需要切換的資源,如中間層程序,IIS服務(wù)等應(yīng)用,Cluster提供本地監(jiān)控及本機恢復(fù)功能(如重啟資源和重啟服務(wù)器),因為這些資源本身無需切換,只要主機備機同時啟動即可,這樣可以節(jié)省切換時間,可以達到23秒快速切換實現(xiàn)了應(yīng)用信息服務(wù)系統(tǒng)的永不停頓。(十二)、 支持多種應(yīng)用保護可以保護大量的應(yīng)用程序和
23、服務(wù),幾乎涵蓋了目前Windows平臺上所有主流的應(yīng)用和服務(wù),如Oracle、SQLServer、DB2、Sybase、Appache、Samba等,除了這些主流的應(yīng)用和服務(wù)。(十三)、 支持忽略監(jiān)控資源業(yè)務(wù)應(yīng)用往往是由很多資源構(gòu)成一個資源組,資源組中任何資源出現(xiàn)問題,群集軟件都會自動重啟有問題的資源或把該業(yè)務(wù)應(yīng)用切換。但有時后某個資源需要停下來升級或維護同時也想影響目前業(yè)務(wù)運行,易騰群集軟件提供忽略該資源的監(jiān)控功能,讓用戶可以手工停止該資源而不影響整個資源組。(十四)、 支持雙機雙柜 配合Veritas Storage Foundation Basic的免費版本的卷管理器的動態(tài)磁盤組功能,
24、EterneCluster可很好的支持雙機雙柜的解決方案。(十五)、 直觀的GUI用戶界面提供直觀的GUI用戶界面,用戶可以交互式地對不同的集群系統(tǒng)進行配置、監(jiān)控和遠程管理,實時地顯示出主機系統(tǒng)及服務(wù)的狀態(tài),大大減少了系統(tǒng)因用戶人為的錯誤而引起的損失,同時基于向?qū)问降脑O(shè)定界面簡化了系統(tǒng)安裝,配置工作。(十六)、 全面支持用戶自己開發(fā)的應(yīng)用程序和服務(wù)往往企業(yè)希望群集軟件能夠監(jiān)控自己開發(fā)的應(yīng)用程序或第三方的應(yīng)用程序,易騰EterneCluster提供應(yīng)用程序資源和服務(wù)資源,全面支持企業(yè)非常方便簡單的進行配置,便可以滿足企業(yè)的需求。應(yīng)用程序資源,配置非常的靈活和豐富,滿足各式各樣的應(yīng)用軟件的需求,
25、譬如用戶可以根據(jù)需要指定自定義服務(wù)或應(yīng)用程序的運行身份,運行目錄,甚至是否是agent方式進行檢測運行,定時的監(jiān)控軟件運行狀況并匯報給群集軟件。(十七)、 支持網(wǎng)頁方式啟動GUI易騰群集軟件客戶端界面可以裝載在遠程客戶端,不用裝載到服務(wù)端。如果服務(wù)端裝載了客戶端軟件,管理員可以在任何遠程客戶端機器(該客戶端機器不用安裝客戶端軟件)通過IE輸入http:/:17550/ 網(wǎng)頁進行遠程管理群集環(huán)境,進行資源組的操作。(十八)、 支持域名服務(wù)資源企業(yè)在內(nèi)部建立域名服務(wù)器后,往往擔(dān)心域名服務(wù)器出現(xiàn)問題造成內(nèi)部網(wǎng)絡(luò)服務(wù)器之間無法聯(lián)系,而普通的雙機熱備軟件是很難進行配置達到熱備目的。易騰群集軟件提供域名服
26、務(wù)資源,從而輕松實現(xiàn)域名服務(wù)的切換和轉(zhuǎn)移。(十九)、 支持多種應(yīng)用軟件的深入檢測一般的群集軟件或雙機熱備軟件提供的應(yīng)用軟件檢測僅僅監(jiān)控應(yīng)用軟件或數(shù)據(jù)庫的進程或線程是否在線。當(dāng)應(yīng)用軟件或數(shù)據(jù)庫軟件的進程或線程被殺掉或意外退出時,群集軟件才能檢測到監(jiān)控的軟件出現(xiàn)問題并做出相應(yīng)的切換或重啟策略。但用戶的應(yīng)用軟件或數(shù)據(jù)庫軟件往往存在相應(yīng)的進程或線程雖然在線但實際上已經(jīng)不可以訪問的情況(即軟件處于假死狀態(tài)),此時群集軟件還認為被監(jiān)控的軟件運行正常,從而不能做出應(yīng)用軟件的切換或重啟讓企業(yè)的業(yè)務(wù)恢復(fù)正常。針對這種情況,易騰群集軟件提供深入檢測功能,讓易騰群集軟件深入檢測應(yīng)用軟件的具體運行狀況,而不是簡單監(jiān)控
27、進程,譬如針對數(shù)據(jù)庫軟件,易騰群集軟件定時訪問數(shù)據(jù)庫具體數(shù)據(jù)作為深度檢測,一旦數(shù)據(jù)庫的數(shù)據(jù)不可訪問,那么就認為數(shù)據(jù)庫軟件出現(xiàn)問題,從而做出切換或重啟策略。第三章 EterneCluster應(yīng)用規(guī)格一、 軟硬件規(guī)格(一)、 支持各種類型服務(wù)器支持DELL,HP,PowerLeader,IBM,浪潮,聯(lián)想等X86架構(gòu)的所有服務(wù)器,各個節(jié)點的服務(wù)器類型和硬件配置可以不一致。(二)、 支持各種類型的存儲設(shè)備可利用SAN , SCSI , NAS 既存的資源進行系統(tǒng)配置,支持各種類型的磁盤陣列,包括Infortrend,HP,IBM,SUN,HDS等。(三)、 支持的操作系統(tǒng)平臺目前EterneClus
28、ter支持Window系列和Linux系列的操作系統(tǒng)平臺,下面是具體支持的操作系統(tǒng)平臺:l Windows系列操作系統(tǒng)n Windows 2003 系列n Windows 2008 系列n Windows 2012系列l(wèi) Linux系列操作系統(tǒng)n RedHat Enterprise Linux 4.0/5.0或以上n Suse Linux Enterprise 10.0/11.0或以上n Ubuntu Linux 8.0或以上(四)、 提供豐富的應(yīng)用軟件支持支持多種應(yīng)用的高可用,并能與重要的應(yīng)用如數(shù)據(jù)庫:Microsoft SQL Server、Exchange 2000/2003、Oracl
29、e、文件服務(wù)器等緊密配合。EterneCluster支持的應(yīng)用包括: 數(shù)據(jù)庫:MS SQL Server、Oracle,Sybase等。 文件服務(wù)器:NFS,Samba等。 WEB應(yīng)用服務(wù):IIS,Apache等。 郵件服務(wù)器。 用戶自定義。二、 群集規(guī)格配置EterneCluster支持多種類型的配置,主要分為2大類:雙機集群和多機集群。(一)、 雙機集群(11)配置簡單雙機集群是目前大多用戶采用的高可用環(huán)境,簡單的說就是兩臺服務(wù)器加一臺磁盤陣列, 通過EterneCluster軟件實現(xiàn)主從工作方式的雙機環(huán)境。主從就是Active-Standby工作模式,容錯軟件作為不可缺少部分起到監(jiān)控系統(tǒng)
30、狀態(tài)并在系統(tǒng)故障時,自動做出相應(yīng)的反應(yīng),保證整個系統(tǒng)提供服務(wù)的不間斷。同樣雙機集群可以實現(xiàn)Active-Active工作模式,即兩臺服務(wù)器分別運行不同的服務(wù),并且互相作為備份,一旦某一臺的系統(tǒng)出現(xiàn)故障,另外一臺便會自動進行服務(wù)的接管。(二)、 多機集群配置多節(jié)點集群在未來會有大量需求,大家對集群的認識目前還在雙機環(huán)境下。而實際上,在有多個關(guān)鍵應(yīng)用都具有高可用需求, 在一個機房內(nèi)建立多個雙機系統(tǒng)顯然是很浪費的,管理的復(fù)雜度又高,多節(jié)點集群可以有效的解決這個問題。對于多節(jié)點高可用,可以理解為多機互備,多個服務(wù)器連接在一個共享存儲設(shè)備上,同時運行多個不同應(yīng)用,在其中任意服務(wù)器出現(xiàn)故障時,其它服務(wù)器根
31、據(jù)備援策略進行接管服務(wù),保證整個集群中的服務(wù)都能高可用。比較常用的多機集群配置主要有3個類型:1N、N-1、MN。(1) 1N配置這個配置方式是一個標(biāo)準(zhǔn)的多機配置方案。在這個cluster中,每臺服務(wù)器都能運行客戶的應(yīng)用服務(wù),平時僅由主服務(wù)器提供應(yīng)用服務(wù),其余服務(wù)器都是備用服務(wù)器。一旦主服務(wù)器發(fā)生故障,cluster依照切換策略,會把任務(wù)切換到順位的備份服務(wù)器中,如果順位服務(wù)器也發(fā)生故障,應(yīng)用服務(wù)會繼續(xù)按照結(jié)點優(yōu)先級切換到下一臺,直到服務(wù)能夠接管。這種配置方式一般用于那些要保證應(yīng)用服務(wù)100能夠24小時在線的客戶環(huán)境。(2) N1配置這個配置方式是所有的服務(wù)器都在一個cluster中,其中一個
32、服務(wù)器作為cluster中其它服務(wù)的備份服務(wù)器,一旦某個主服務(wù)器系統(tǒng)出現(xiàn)故障,任務(wù)會按照策略把該服務(wù)器的任務(wù)切換到該備份服務(wù)器。某種意義而言,其為雙機系統(tǒng)的擴展版本,但這種體系結(jié)構(gòu)配置對客戶有多個服務(wù)的環(huán)境是非常優(yōu)化的系統(tǒng)配置,同時能夠讓整個集群集中管理并且能夠達到高可用。(3) MN配置這個方式中多個生產(chǎn)服務(wù)器工作在一個集群中,通過合理定義備援策略,使環(huán)境中服務(wù)器相互備援,任何一個任務(wù)停止工作都將由其它服務(wù)器接管任務(wù),是一種設(shè)備利用率最佳的部署方式。該部署方式同樣有效的優(yōu)化了系統(tǒng)結(jié)構(gòu),需要注意的是在定義備援策略時,仔細分析各服務(wù)器處理能力、任務(wù)的兼容性問題。在M-N方式中當(dāng)主節(jié)點發(fā)生故障時,
33、允許多個備份節(jié)點被按照一定的優(yōu)先級次序恢復(fù)一個資源組。對于在一對節(jié)點上的資源恢復(fù),如果節(jié)點A發(fā)生故障了,資源將會切換到節(jié)點B上;如果節(jié)點B再發(fā)生故障而節(jié)點 A仍然不可用,資源將會失效切換到節(jié)點C上。多個備份節(jié)點被指定一個優(yōu)先級。在上面的例子中,節(jié)點A有最高的優(yōu)先級,節(jié)點B有第二優(yōu)先級,而節(jié)點C有最低優(yōu)先級。EterneCluster按優(yōu)先級次序測驗節(jié)點來決定在故障切換時哪一個服務(wù)器將進行工作。第四章 術(shù)語附錄l 節(jié)點(Node):運行相同版本操作系統(tǒng)和Eterne Cluster service的計算機系統(tǒng),并對外部client提供特定的服務(wù),如 SQL服務(wù)和IIS服務(wù)等,服務(wù)通常可以分為下面
34、兩種.n 首選節(jié)點(Preferred Node):指集群中指定的運行資源組的首選的節(jié)點,往往配置比較好,該節(jié)點一般需要配置:2塊網(wǎng)卡, 接上盤陣的SCSI或光纖 n 備份節(jié)點(Backup Node):備份節(jié)點硬件配置可以不同于首選(當(dāng)然也可以相同),但是要求運行相同的操作系統(tǒng),同時必須安裝和主節(jié)點上相同的應(yīng)用,當(dāng)首選節(jié)點出現(xiàn)故障時能夠接管其資源組的工作。首選節(jié)點是相對于一個特定的資源組, 如果是多個節(jié)點的高可用性方案,就會有多個首選的節(jié)點。那么就可能出現(xiàn)這種情況,對一個Resource Group1來說A服務(wù)器是首選節(jié)點,但是對Resource Group2來說A服務(wù)器可能就是備份節(jié)點.l
35、 浮動IP地址(Floating IP address) : 一個服務(wù)將其服務(wù)通過特定的IP地址來輸出,這個IP地址就是浮動IP地址,這個地址將會綁定在提供主服務(wù)的服務(wù)器的一個正常的公網(wǎng)上,當(dāng)服務(wù)進行切換時,浮動IP地址也將進行切換,這樣對外界來說,該IP地址仍然是可以訪問的,由于這個IP地址是在多臺服務(wù)器之間來回變動(如果發(fā)生服務(wù)不可用等故障時),所以叫做浮動IP地址.l 主機網(wǎng)絡(luò)名(Network Name):和上面的浮動IP地址類似,客戶端大多是通過主機名字來訪問服務(wù)的.這樣我們就必須提供一個浮動的主機名字,我們將這個名字稱為主機別名.當(dāng)浮動IP地址發(fā)生切換時候,主機別名也會相應(yīng)的進行浮
36、動,但是相對于浮動IP地址來說,這個別名是被捆綁在其上的.l 心跳(Heart Beat): 是兩個組件之間用來判斷對方狀態(tài)的機制,當(dāng)然也能夠通過心跳來交換一些簡單的信息.心跳在EterneCluster中主要分成兩種n 監(jiān)控心跳:(Monitor Heart Beat), 這種心跳是存在于監(jiān)控(Monitor)和EterneCluster之間的,用于交換Agent信息的n EterneCluster心跳(EterneCluster Heart Beat):這種心跳是存在于多個EterneCluster之間的,用來交換EterneCluster間信息和判斷對方是否有故障的l 私網(wǎng)(Privat
37、e Net):用以交換服務(wù)器間心跳的網(wǎng)絡(luò)。它可通過一條獨立的網(wǎng)線來傳送心跳。為了避免單點故障,一般是配置2條或者3條私網(wǎng),太多的私網(wǎng)將不會導(dǎo)致系統(tǒng)消耗更多的資源用于私網(wǎng)的通訊,從這點上說,2條私網(wǎng)是比較合適的l 公網(wǎng)(Public Net):供客戶端訪問服務(wù)的網(wǎng)絡(luò)。連接公有網(wǎng)最好的辦法是用獨立的網(wǎng)線連接,同樣為了提高系統(tǒng)的可用性,我們可以配置2條到多條公網(wǎng),這樣當(dāng)其中一條公網(wǎng)發(fā)生故障的時候,我們可以不用進行服務(wù)的服務(wù)器之間的切換,而只需要進行浮動IP地址的切換(就在原來的這臺服務(wù)器上的多個公網(wǎng)間切換浮動IP地址。l 客戶端(Client): 是指通過公網(wǎng)訪問服務(wù)的計算機系統(tǒng)。l 共享磁盤(Sh
38、ared Disk):共享磁盤一般為磁盤陣列,可以被所有的服務(wù)器訪問,上面存放著服務(wù)的數(shù)據(jù)或主程序。當(dāng)主節(jié)點訪問時該磁盤時,備份節(jié)點將不能訪問共享磁盤,即為獨占訪問模式。備份節(jié)點只有在將Resource Group切換過來后才能訪問該磁盤.l 應(yīng)用層服務(wù)(Application service):簡稱為 “應(yīng)用服務(wù)”,這些服務(wù)(譬如oracle,Exchange,SQL等)是在指定的主節(jié)點上運行,客戶端可通過指定的浮動IP 地址來訪問,主服務(wù)由EterneCluster軟件來管理,當(dāng)主節(jié)點出現(xiàn)故障時,在很短的宕機時間內(nèi),備份節(jié)點會將主服務(wù)接管過去。多個主服務(wù)也可以分布在多個不同主節(jié)點上,也就是
39、說兩臺服務(wù)器都是主節(jié)點,但是是不同服務(wù)的主節(jié)點,當(dāng)然他們也同時是備份節(jié)點(也是針對不同的服務(wù)),這樣做可以提高系統(tǒng)的可靠性,同時能最大限度的利用硬件資源。l 應(yīng)用服務(wù)監(jiān)控(Monitor for application service):簡稱為 “監(jiān)控”,用來監(jiān)測應(yīng)用層服務(wù)的可用性,并把這些信息及時匯報給EterneCluster 核心。監(jiān)控默認3秒(可由策略來設(shè)置)匯報給EterneCluster 核心,如果聯(lián)系5次(可由策略來設(shè)置),即15秒EterneCluster 核心沒有收到代理的信息或者代理返回應(yīng)用已經(jīng)不可用,那么EterneCluster 核心就認為應(yīng)用已經(jīng)不可用,EterneC
40、luster 核心便會進行相應(yīng)的處理動作。至于匯報間隔和次數(shù)可以通過管理界面進行配置。l 事件(Event):指系統(tǒng)中出現(xiàn)了有價值的狀態(tài)變化,如發(fā)現(xiàn)硬件和軟件方面的改變等等。l 通知(Notification):是指將符合特定的條件的事件通過不同的方式通知用戶,通知講采用模塊化的設(shè)計利用回調(diào)函數(shù)的方式來實現(xiàn),這樣有利于以后的功能擴充,現(xiàn)在通知采用如下幾種方式:n 日志(Log):事件將記錄在一個特定的日志文件中(各平臺都實現(xiàn))。n 系統(tǒng)日志(System Log):對不同的系統(tǒng)將特定級別的事件加入其系統(tǒng)日志中。l EterneCluster 核心(EterneCluster Core):簡稱為
41、“核心”,它是軟件的核心部分。它完成了絕大部分的工作。l 監(jiān)控服務(wù)(Monitor Service):簡稱為“監(jiān)控”,它的目的是監(jiān)控EterneCluster 核心,當(dāng)EterneCluster 核心出現(xiàn)異?;蚬收蠒r,監(jiān)控服務(wù)將重新啟動EterneCluster 核心。該部件是為實現(xiàn)EterneCluster軟件本身的高可用性而存在,其設(shè)計并不復(fù)雜。同時其也被EterneCluster 核心監(jiān)控,一旦發(fā)現(xiàn)監(jiān)控服務(wù)異常,其立即重啟監(jiān)控服務(wù)。事實上監(jiān)控服務(wù)和核心是相互監(jiān)控的。l 資源監(jiān)控服務(wù)(Resource Monitor Service):簡稱為“資源監(jiān)控”,它將監(jiān)控服務(wù)器上所有相關(guān)的資源,采用外部dll/so方式實現(xiàn),并把這些信息匯報給EterneCluster 核心。l 管理界面(GUI):提供一個用戶友善的界面,這個界面將用JAVA來實現(xiàn),其通過和EterneCluster Core通訊來取得配置信息和服務(wù)器和Resource Group的當(dāng)前狀態(tài)并且反映在界面上。l 切換(Failover):是指把發(fā)生故障的節(jié)點上的Resource Group轉(zhuǎn)移到另一節(jié)點上。故障切換會在三種不同的情況下發(fā)生,人工,自動,或者在特定的時間(由管理軟件設(shè)定)。自動故障切換包含三個階段:
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年中職(城市軌道交通運營管理專業(yè))票務(wù)系統(tǒng)維護試題及答案
- 2025年中職第一學(xué)年(市場營銷)市場開拓綜合測試試題及答案
- 2025年高職消防安全工程技術(shù)(消防方案)模擬試題
- 2025年大學(xué)自動化生產(chǎn)線調(diào)試(線體優(yōu)化)試題及答案
- 禁毒科普教育課
- 禁毒知識比賽課件
- 年產(chǎn)3000萬米橡膠止水帶生產(chǎn)線項目可行性研究報告模板立項申批備案
- 癌癥健康知識講座課件
- 2026年七夕節(jié)的神話與文學(xué)價值
- 2026廣東廣州迎賓加油站有限公司誠聘管理培訓(xùn)生備考題庫完整答案詳解
- 蘇州高新區(qū)(虎丘區(qū))市場監(jiān)督管理局公益性崗位招聘1人考試參考題庫及答案解析
- 北京通州產(chǎn)業(yè)服務(wù)有限公司招聘參考題庫完美版
- 企業(yè)安全隱患排查課件
- 2025年國家開放大學(xué)《管理學(xué)基礎(chǔ)》期末機考題庫附答案
- 2025年人民網(wǎng)河南頻道招聘備考題庫參考答案詳解
- ESHRE子宮內(nèi)膜異位癥的診斷與治療指南(2025年)
- 2025核電行業(yè)市場深度調(diào)研及發(fā)展趨勢與商業(yè)化前景分析報告
- 急驚風(fēng)中醫(yī)護理查房
- 營地合作分成協(xié)議書
- GB/T 70.2-2025緊固件內(nèi)六角螺釘?shù)?部分:降低承載能力內(nèi)六角平圓頭螺釘
- 基于視頻圖像的大型戶外場景三維重建算法:挑戰(zhàn)、創(chuàng)新與實踐
評論
0/150
提交評論