已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
HP 災(zāi)備方案建議書 中國惠普有限公司 2007.8 目 錄 核心數(shù)據(jù)容災(zāi)系統(tǒng) . 2 4.2.1 容災(zāi)概述 . 2 4.2.2 關(guān)鍵業(yè)務(wù)系統(tǒng)中普遍存在的問題 . 2 4.2.3 業(yè)務(wù)連續(xù)性 /容災(zāi)的重要意義 . 4 4.2.4 國外計(jì)算機(jī)業(yè)務(wù)系統(tǒng)災(zāi)難備份應(yīng)用情況 . 6 4.2.5 災(zāi)備系統(tǒng)實(shí)施容災(zāi)方案的意義 . 7 4.2.6 什么是容災(zāi)系統(tǒng) . 8 4.2.7 災(zāi)難及應(yīng)對分析 . 9 4.2.8 系統(tǒng)建設(shè)的目標(biāo) . 16 4.2.9 系統(tǒng)建設(shè)的原則 . 17 4.2.10 業(yè)務(wù)系統(tǒng)現(xiàn)狀 . 17 4.2.11 災(zāi)備系統(tǒng) 災(zāi)難備份系統(tǒng)解決方案 . 18 4.2.12 容災(zāi)系統(tǒng)的管理 . 23 4.2.13 培訓(xùn) . 25 4.2.14 測試災(zāi)難恢復(fù)計(jì)劃 . 25 4.2.15 測試方法 . 25 4.2.16 維護(hù) . 26 4.2.17 惠普公司容災(zāi)實(shí)施服務(wù)內(nèi)容 . 26 4.2.18 HP 容災(zāi)系統(tǒng)優(yōu)勢 . 31 核心數(shù)據(jù)容災(zāi)系統(tǒng) 4.2.1 容災(zāi)概述 在今天的科技社會中, IT 技術(shù)的運(yùn)用已經(jīng)滲透到了我們生活和工作的各個(gè)層面,為我們帶來了以往任何一次技術(shù)革命都沒有的便利和迅捷,可以說,由于采用了 IT 技術(shù)的新的生產(chǎn)方式已經(jīng)基本上代替了原來的生產(chǎn)方式,成為現(xiàn)代社會運(yùn)作和發(fā)展的主流,我們對計(jì)算機(jī)系統(tǒng)的依賴超過了以往任 何一種技術(shù)。 然而計(jì)算機(jī)系統(tǒng)在為業(yè)務(wù)的迅猛發(fā)展提供信息技術(shù)基礎(chǔ)架構(gòu)的同時(shí),也帶來了以往我們不曾發(fā)覺的負(fù)面因素。例如由于信息和處理的高度集中使業(yè)務(wù)運(yùn)轉(zhuǎn)過度依賴于 IT 系統(tǒng),并會因?yàn)?IT 系統(tǒng)的突發(fā)問題而受到很大影響,嚴(yán)重的甚至可以導(dǎo)致業(yè)務(wù)系統(tǒng)無法正常進(jìn)行。這些問題包括了進(jìn)行系統(tǒng)檢修和升級帶來長時(shí)間的系統(tǒng)停機(jī),系統(tǒng)自身的或者人為的因素或事故發(fā)生連鎖性的擴(kuò)大,以及不可預(yù)見的故障和突發(fā)性災(zāi)難等等。 如何避免業(yè)務(wù)運(yùn)轉(zhuǎn)受到影響,或者使業(yè)務(wù)影響盡可能降到最低,這是每一個(gè)企業(yè)管理者必須考慮和重視的問題。 領(lǐng)導(dǎo)經(jīng)過認(rèn)真的思考 ,如何切實(shí)有效的保障制證系統(tǒng)等關(guān)鍵業(yè)務(wù)系統(tǒng)的連續(xù)運(yùn)行已經(jīng)成為領(lǐng)導(dǎo)層十分關(guān)注的問題。 本方案的內(nèi)容涵蓋了高可用的信息技術(shù)基礎(chǔ)平臺建設(shè)、日常運(yùn)作流程設(shè)計(jì)、突發(fā)事件管理和大型災(zāi)害的應(yīng)對計(jì)劃和策略,業(yè)務(wù)持續(xù)性管理團(tuán)隊(duì)建設(shè)和咨詢等諸多方面的服務(wù)。希望能夠幫助客戶從技術(shù)、流程、人員三方面提高業(yè)務(wù)持續(xù)能力,保證關(guān)鍵業(yè)務(wù)的正常運(yùn)行和發(fā)展。 4.2.2 關(guān)鍵業(yè)務(wù)系統(tǒng)中普遍存在的問題 提高 IT 系統(tǒng)的高可靠性以及 IT 系統(tǒng)的容災(zāi)建設(shè)早已不再是新鮮的話題了,隨著許多用戶實(shí)施業(yè)務(wù)系統(tǒng)大集中,針對 IT 系統(tǒng)的高可靠性和容災(zāi)能力的需求日漸突出,很多用戶 都已經(jīng)實(shí)施了有針對性的容災(zāi)系統(tǒng),并且更多討論的是如何實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)的有效保護(hù)和業(yè)務(wù)的連續(xù)性運(yùn)行。 然而,目前大多數(shù)容災(zāi)系統(tǒng)的建設(shè)還是存在許多問題的。這些問題中不僅有技術(shù)層面的缺陷,更多的是在流程和人員方面的不足。這些問題可能導(dǎo)致的直接后果就是當(dāng)發(fā)生災(zāi)難時(shí),根本無法實(shí)現(xiàn)應(yīng)用系統(tǒng)的快速恢復(fù),甚至可能導(dǎo)致業(yè)務(wù)運(yùn)轉(zhuǎn)的長時(shí)間災(zāi)難性中斷。 我們可以列舉出其中的一些: 1 僅從產(chǎn)品功能層面考慮問題,最終建設(shè)的容災(zāi)環(huán)境僅是一個(gè)多種產(chǎn)品的堆積。僅實(shí)現(xiàn)了數(shù)據(jù)的遠(yuǎn)程復(fù)制或者離線存放,沒有進(jìn)行災(zāi)難的各種場景測試和災(zāi)難預(yù)演,并缺乏災(zāi)難恢復(fù)機(jī) 制和危機(jī)應(yīng)對流程。發(fā)生災(zāi)難時(shí),不知道到底數(shù)據(jù)或者系統(tǒng)能否恢復(fù)正常。 2 進(jìn)行了一定的測試和預(yù)演,但是缺少相應(yīng)的災(zāi)難恢復(fù)計(jì)劃和特殊情況下的行動指南,更沒有全面的業(yè)務(wù)連續(xù)性計(jì)劃。在真正發(fā)生災(zāi)難時(shí),百廢待興、千頭萬緒的情況下,沒有依據(jù)和參考,可能無法順利進(jìn)行有關(guān)操作。 3 有了災(zāi)難恢復(fù)計(jì)劃等必要文檔,但是沒有及時(shí)的將 IT 系統(tǒng),業(yè)務(wù)流程和管理人員等不斷變化的信息更新,導(dǎo)致容災(zāi)手冊成為一紙空文。 4 具備了以上的要素,但是容災(zāi)系統(tǒng)的建設(shè)局限在 IT 部門,缺少業(yè)務(wù)部門的參與和管理高層的介入和全力支持。發(fā)生災(zāi)害時(shí), IT 系統(tǒng)能夠恢復(fù)但是 業(yè)務(wù)流程仍無法恢復(fù)運(yùn)轉(zhuǎn)。 除了以上列出的問題之外,還有許多問題如容災(zāi)系統(tǒng)的負(fù)載能力估計(jì)不足,實(shí)施過程中沒有嚴(yán)格遵循高可靠標(biāo)準(zhǔn),實(shí)施過程工作界面過多溝通不足,日常運(yùn)維管理方面存在不足和漏洞,缺少廠商、系統(tǒng)集成商的后續(xù)支持服務(wù)等等都可能導(dǎo)致業(yè)務(wù)持續(xù)性系統(tǒng)建設(shè)的失敗。 除了以上的問題之外,另一類問題是項(xiàng)目小組僅將目光放在了大型災(zāi)難等突發(fā)事件的應(yīng)對之上,而忽略了計(jì)劃性停機(jī)對業(yè)務(wù)運(yùn)行的影響。根據(jù)有關(guān)統(tǒng)計(jì),非計(jì)劃性停機(jī)只占 13%的停機(jī)概率,而在非計(jì)劃停機(jī)中大型自然災(zāi)難占的比例就更低了。所以在項(xiàng)目實(shí)施時(shí),未能很好的優(yōu)化現(xiàn) 有系統(tǒng)和流程,沒有充分發(fā)掘現(xiàn)有潛力,未能將日常操作流程和業(yè)務(wù)持續(xù)性目標(biāo)充分整合,雖然實(shí)現(xiàn)了容災(zāi)但是仍沒有從本質(zhì)上解決持續(xù)性問題。 HP 公司提供的業(yè)務(wù)連續(xù)性解決方案是基于 HP 公司長期的實(shí)踐經(jīng)驗(yàn)和業(yè)界公認(rèn)的業(yè)務(wù)持續(xù)方法論( BCP),結(jié)合客戶的具體實(shí)際情況,采用業(yè)界先進(jìn)成熟的產(chǎn)品和技術(shù),由資深顧問和技術(shù)專家構(gòu)成的實(shí)施小組遵循 IT 服務(wù)管理( ITSM)理念進(jìn)行實(shí)施。充分考慮了以上普遍性問題,保證了項(xiàng)目目標(biāo)的成功實(shí)現(xiàn),同時(shí) HP 公司可以提供整個(gè)容災(zāi)項(xiàng)目的整體解決方案單點(diǎn)后續(xù)支持服務(wù),這一點(diǎn)完全不同于業(yè)界其他友商僅能提供單 一產(chǎn)品支持的服務(wù)模式。 4.2.3 業(yè)務(wù)連續(xù)性 /容災(zāi)的重要意義 在突發(fā)性災(zāi)難面前,目前的信息系統(tǒng)的確是非常脆弱的。當(dāng)越來越多的人們已經(jīng)習(xí)慣于工作、生活在基于計(jì)算機(jī)系統(tǒng)的支持環(huán)境中,任何關(guān)鍵信息系統(tǒng)運(yùn)轉(zhuǎn)的中斷或者數(shù)據(jù)的丟失都將導(dǎo)致不可估量的損失。一個(gè)已經(jīng)證實(shí)的數(shù)據(jù)是:網(wǎng)上銀行每分鐘運(yùn)轉(zhuǎn)中斷成本為 7000 美元,企業(yè)資源管理系統(tǒng)為13000 美元,而呼叫中心更是高達(dá) 27000 美元!據(jù) IDC 的統(tǒng)計(jì)數(shù)字表明,美國在 2000 年以前的 10 年間,發(fā)生過災(zāi)難的公司中,有 55%當(dāng)時(shí)倒閉,剩下的 45%中,因?yàn)閿?shù)據(jù)丟失,有 29%也在兩年之內(nèi)倒閉 ,生存下來的僅占 16%。 3$100,000 $200,000 $300,000 $400,000 $500,000證券制造業(yè)電信、 Internet 服務(wù)銀行運(yùn)輸零售保險(xiǎn)資料來源 : QualixGroup ,Find/ SVPStrategicResearchDivision 系統(tǒng)無法正常工作對您的企業(yè)會造成什么樣的損失? ( 業(yè)務(wù)停頓 5 分鐘)系統(tǒng)非正常工作對行業(yè)的影響HSD/ SSDMktg - HABSTHAO - 0898.PRElastupdateJuly31,98SK 當(dāng)然,早在數(shù)年前許多企業(yè)及政府要害部門就有了危機(jī)意識,他們也正在盡力避免危機(jī)的產(chǎn)生。對于例如計(jì)算機(jī)軟硬件故障、人為因素以及資源不足等引起的計(jì)劃性停機(jī)所導(dǎo)致的系統(tǒng)停止運(yùn)轉(zhuǎn),眾多的用戶采用了各種解決方案如本地雙機(jī)熱備份、負(fù)載均衡、動態(tài)切換等,得以實(shí)現(xiàn)系統(tǒng)冗余,增強(qiáng)業(yè)務(wù)系統(tǒng)的高可用性。但是,無論對硬件和軟件采取什么樣的監(jiān)控和改善措施,一場不可預(yù)測的突發(fā)性災(zāi)難,比如地震、火災(zāi)等降臨時(shí),業(yè)務(wù)數(shù)據(jù)還是會在瞬間消失。如何才能保證 盡量減少業(yè)務(wù)數(shù)據(jù)的丟失、將危險(xiǎn)與災(zāi)難的損失降低到最小程度呢?這就需要建立異地容災(zāi)系統(tǒng)。 容災(zāi)系統(tǒng)的核心就在于使用各種技術(shù)和管理手段將災(zāi)難的影響化解,在實(shí)踐中主要表現(xiàn)為兩個(gè)方面:一是保證業(yè)務(wù)數(shù)據(jù)的安全;二是保證業(yè)務(wù)的連續(xù)性。通過在生產(chǎn)站點(diǎn)和災(zāi)難恢復(fù)站點(diǎn)運(yùn)行同樣的系統(tǒng),包括操作系統(tǒng)、基礎(chǔ)數(shù)據(jù)庫和應(yīng)用軟件,并通過數(shù)據(jù)復(fù)制完成在線和實(shí)時(shí)的數(shù)據(jù)復(fù)制,或者通過光纖通道的遠(yuǎn)程數(shù)據(jù)復(fù)制。假如工作站點(diǎn)發(fā)生突發(fā)災(zāi)難,不能再繼續(xù)工作,這時(shí)容災(zāi)中心會將業(yè)務(wù)數(shù)據(jù)及時(shí)恢復(fù)到備用服務(wù)器上,并迅速將業(yè)務(wù)系統(tǒng)加載到備用服務(wù)器,然后實(shí)現(xiàn)業(yè)務(wù)的 遠(yuǎn)程切換 (Fail-over),恢復(fù)應(yīng)用系統(tǒng)不間斷的運(yùn)行,在容災(zāi)中心實(shí)現(xiàn)業(yè)務(wù)的恢復(fù)運(yùn)轉(zhuǎn),這個(gè)過程只需要幾分鐘或者幾十分鐘的時(shí)間;在此基礎(chǔ)上,在災(zāi)難過后,生產(chǎn)系統(tǒng)恢復(fù)正常后,再將業(yè)務(wù)運(yùn)行切換回正常的生產(chǎn)系統(tǒng),實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)的災(zāi)難恢復(fù)( Fail-back)。 一般來講,一家運(yùn)行關(guān)鍵業(yè)務(wù)的企業(yè)應(yīng)該拿出 IT 總預(yù)算的 7%到 15%用于災(zāi)難備份與恢復(fù)。在發(fā)達(dá)國家,面對高級災(zāi)難防護(hù),一般公司每月要支付大約 5 萬美元到 10 萬美元的費(fèi)用,而對于大公司,這一數(shù)字可能高達(dá) 100萬美元。這個(gè)數(shù)字十分驚人,但當(dāng)用戶進(jìn)行整體的評估和核算后, 會發(fā)現(xiàn)一次業(yè)務(wù)中斷所造成的經(jīng)濟(jì)損失將遠(yuǎn)遠(yuǎn)超過投資于業(yè)務(wù)持續(xù)性系統(tǒng)的成本。 在國內(nèi),當(dāng)前應(yīng)用級容災(zāi)系統(tǒng)的用戶還不多。究其原因,首先觀念是重要因素。容災(zāi)系統(tǒng)的投入相當(dāng)大,而它所針對的只是一些諸如火災(zāi)、洪水、地震等小概率事件,因此,對許多用戶來說,這種高投入和相對的小概率產(chǎn)出使他們望而卻步。但是對于像財(cái)稅研究機(jī)構(gòu)這樣的政府要害部門來說,關(guān) 鍵數(shù)據(jù)丟失造成的損失是遠(yuǎn)遠(yuǎn)不能用財(cái)務(wù)數(shù)據(jù)來衡量的。同時(shí)還應(yīng)當(dāng)指出,容災(zāi)系統(tǒng)并不僅僅針對突發(fā)性災(zāi)害等小概率事件,其它一些宕機(jī)事件,如人為誤操作、機(jī)房事故(電源、空調(diào)、管道漏水)、計(jì) 劃內(nèi)的系統(tǒng)維護(hù)和擴(kuò)容等,也可使用異地容災(zāi)系統(tǒng)實(shí)現(xiàn)關(guān)鍵業(yè)務(wù)的持續(xù)運(yùn)轉(zhuǎn)。此外,在生產(chǎn)系統(tǒng)正常運(yùn)轉(zhuǎn)的情況下,容災(zāi)系統(tǒng)還可以被用來開展諸如數(shù)據(jù)挖掘、經(jīng)營分析以及用戶查詢等其他業(yè)務(wù),從而使為防止災(zāi)難而采購的軟硬件設(shè)備在平時(shí)也能得到很好的應(yīng)用。 如上所述,綜合考慮業(yè)務(wù)中斷、數(shù)據(jù)丟失所導(dǎo)致的損失和增值業(yè)務(wù)所帶來的收益,容災(zāi)系統(tǒng)的建設(shè)投入還是值得的。 4.2.4 國外計(jì)算機(jī)業(yè)務(wù)系統(tǒng)災(zāi)難備份應(yīng)用情況 災(zāi)難備份計(jì)劃在發(fā)達(dá)國家電信行業(yè)和金融行業(yè)得到了較早實(shí)施,現(xiàn)已較為普遍。例如美國,因一九八五年紐約銀行計(jì)算機(jī)故障,聯(lián)邦管理部門更加強(qiáng)了在這方 面的監(jiān)管力度。現(xiàn)美國計(jì)算機(jī)業(yè)務(wù)系統(tǒng)一般出于以下三方面來考慮災(zāi)難備份計(jì)劃: 重要數(shù)據(jù)保護(hù)與業(yè)務(wù)連續(xù)運(yùn)行的需要: 在美國,各行業(yè)內(nèi)部競爭激烈,各項(xiàng)業(yè)務(wù)的正常開展完全依賴于計(jì)算機(jī)系統(tǒng)的高性能、高可靠運(yùn)行,一旦因突發(fā)性災(zāi)難而造成數(shù)據(jù)丟失或業(yè)務(wù)中斷,必將會造成重大乃至致命的打擊。 審計(jì)的要求: 美國較大型的企業(yè)一般會由第三方獨(dú)立審計(jì)公司來提供其資信業(yè)務(wù)、管理等方面咨詢服務(wù),而世界著名的五大審計(jì)公司在對企業(yè)的評估項(xiàng)目中均包含災(zāi)難備份計(jì)劃一項(xiàng);評估企業(yè)數(shù)據(jù)在災(zāi)難等威脅破壞下數(shù)據(jù)的完整性與安全性,及業(yè)務(wù)可恢復(fù)性等,有些還會參于 驗(yàn)證這種計(jì)劃的具體操作過程。缺少災(zāi)難備份計(jì)劃及其危害性會在報(bào)告中被顯示出來。 法律的要求: 美國政府及州政府通過多項(xiàng)法律強(qiáng)制性要求金融、電信等大型企業(yè)備有計(jì)算機(jī)安全及災(zāi)難備份計(jì)劃。對于沒有遵守這項(xiàng)災(zāi)難備份計(jì)劃的企業(yè),會遭受曝光及罰款等處理,同時(shí)亦可能對相關(guān)責(zé)任人進(jìn)行罰款甚至監(jiān)禁等處罰。已知的災(zāi)難例子有:日本神戶大地震、美國佛羅里達(dá)州颶風(fēng)(數(shù)百家企業(yè)實(shí)施了災(zāi)難備份計(jì)劃)、臺灣大地震等。 4.2.5 災(zāi)備系統(tǒng)實(shí)施容災(zāi)方案的意義 我國的相關(guān)政策法規(guī): 2003 年 9 月 ,中共中央辦公廳、國務(wù)院辦公廳轉(zhuǎn)發(fā)了國家信息化領(lǐng)導(dǎo)小組關(guān) 于加強(qiáng)信息安全保障工作的意見(中辦發(fā) 200327 號),提出各基礎(chǔ)信息網(wǎng)絡(luò)和重要信息系統(tǒng)建設(shè)要充分考慮抗毀性與災(zāi)難恢復(fù); 2004 年 1 月 9 日全國信息安全保障工作會議上下發(fā)了關(guān)于做好國家重要信息系統(tǒng)容災(zāi)備份工作的通知; 2004 年央行提出各銀行要在 2009 年前完成災(zāi)難備份工作; 2005 年 1 月國信辦組織起草了重要信息系統(tǒng)災(zāi)難恢復(fù)規(guī)劃指南; 災(zāi)備系統(tǒng)自身業(yè)務(wù)需要: 災(zāi)備系統(tǒng)目前日常研發(fā)工作依賴于 Oracle 數(shù)據(jù)庫軟件,這套軟件分別運(yùn)行在 2 套由 HP 小型機(jī)組成的 HA 集群中,此配置保證了數(shù)據(jù)庫服務(wù)應(yīng)用在 單機(jī)出現(xiàn)故障時(shí)可以迅速切換到集群中的另一臺機(jī)器上去。當(dāng)整個(gè)機(jī)房出現(xiàn)比較大的災(zāi)難時(shí)(如水災(zāi)、火災(zāi)等), 2 套 HA 集群內(nèi)的主機(jī)都不能提供服務(wù),更嚴(yán)重的是:災(zāi)難可能會對目前存放在 EVA4000 磁盤陣列中的數(shù)據(jù)造成損壞和丟失。即使事后可以通過備份來恢復(fù)數(shù)據(jù),但是數(shù)據(jù)的部分丟失不可避免;而且新購買陣列、小型機(jī)的流程較長,災(zāi)備系統(tǒng)正常正常使用在較長的一段時(shí)間內(nèi)都會受到嚴(yán)重的影響。因此,為了保證數(shù)據(jù)的安全性和應(yīng)用的連續(xù)性,我們建議 在一個(gè)備場地建立一個(gè)災(zāi)備數(shù)據(jù)中心,災(zāi)備數(shù)據(jù)中心的數(shù)據(jù)和主數(shù)據(jù)中心數(shù)據(jù)實(shí)時(shí)保持同步。 隨著 災(zāi)備系統(tǒng)的業(yè)務(wù)開展的深入,數(shù)據(jù)量的增加,必然要考慮建設(shè)災(zāi)難備份中心,其目的就是在于防止一些災(zāi)難性的小概率事件可能對集中式信息系統(tǒng)造成的不可恢復(fù)的原始數(shù)據(jù)的丟失,這些災(zāi)難性事件可能包括為火災(zāi)、水災(zāi)、地震、電源故障及一些人為的操作失誤等等。 綜上所述,災(zāi)備系統(tǒng)建設(shè)災(zāi)難備份中心有如下的意義: 重要業(yè)務(wù)數(shù)據(jù)在災(zāi)難發(fā)生后得以保護(hù)。 重要業(yè)務(wù),核心數(shù)據(jù)庫系統(tǒng)在災(zāi)難發(fā)生后可以在設(shè)定的時(shí)間內(nèi)恢復(fù),從而實(shí)現(xiàn)業(yè)務(wù)的連續(xù)運(yùn)行 業(yè)務(wù)計(jì)算機(jī)系統(tǒng)抵御突發(fā)性災(zāi)難的能力和級別提高 4.2.6 什么是容災(zāi)系統(tǒng) 容災(zāi)系統(tǒng)是業(yè)務(wù)永續(xù)運(yùn)行的重要的組成部分。 所謂災(zāi)難,通常是指引起關(guān)鍵業(yè)務(wù)的信息服務(wù)中斷,且中斷的時(shí)間及造成的損失超出企業(yè)所能承受的范圍之外的意外情況。引起災(zāi)難的因素很多,可以是系統(tǒng)環(huán)境中的軟件、硬件故障,有意或過失的人為破壞,還可能是因火災(zāi)、颶風(fēng)、地震而引起的數(shù)據(jù)處理設(shè)備的損壞等等,只要造成了關(guān)鍵業(yè)務(wù)的中斷,都是災(zāi)難。而容災(zāi)就是通過預(yù)先建立的備份中心、備份設(shè)備和備份數(shù)據(jù)等,在可以容忍的時(shí)間內(nèi)恢復(fù)業(yè)務(wù)系統(tǒng)的正常運(yùn)行,將企業(yè)因業(yè)務(wù)中斷而導(dǎo)致的損失降低到預(yù)定的程度。 相對于業(yè)務(wù)永續(xù)運(yùn)行來說,容災(zāi)強(qiáng)調(diào)的是企業(yè)的關(guān)鍵業(yè)務(wù)在災(zāi)難發(fā)生時(shí)的應(yīng)對能力和恢復(fù)能力,即通 過盡可能快速的、全面的企業(yè)業(yè)務(wù)恢復(fù)運(yùn)作,將因?yàn)?zāi)難造成的損失降低到最小程度。顯然,它并不保證業(yè)務(wù)的零間斷能力;實(shí)際上,容災(zāi)系統(tǒng)的整個(gè)災(zāi)難恢復(fù)過程必須會造成一段時(shí)間的業(yè)務(wù)中斷。另外,也正是因?yàn)榭梢匀萑桃欢螘r(shí)間的業(yè)務(wù)間斷,所以其實(shí)施難度、周期和規(guī)模都要遠(yuǎn)遠(yuǎn)小于實(shí)現(xiàn)業(yè)務(wù)持續(xù)性系統(tǒng)的建設(shè)。 從廣義上講,任何提高系統(tǒng)可用性的努力,都可稱之為容災(zāi)。本地容災(zāi),例如主機(jī)集群:當(dāng)某臺主機(jī)出現(xiàn)故障,不能正常工作時(shí),其他的主機(jī)可以替代該主機(jī),繼續(xù)進(jìn)行正常工作。而我們平時(shí)講到的容災(zāi),尤其是值得重視的容災(zāi),一般都是指遠(yuǎn)程容災(zāi)。遠(yuǎn)程容災(zāi) 可以這樣理解:在各行業(yè)企業(yè)用戶的IT 系統(tǒng)中,必然有一部分(尤其是核心部分)是非常重要的,我們叫它生產(chǎn)中心。人們往往給生產(chǎn)中心配備一個(gè)備份中心,該備份中心是遠(yuǎn)程的,并且在生產(chǎn)中心的內(nèi)部,已經(jīng)實(shí)施了各種各樣的數(shù)據(jù)保護(hù)。不論采取什么方式進(jìn)行保護(hù),當(dāng)火災(zāi)、地震這類突發(fā)性災(zāi)難發(fā)生時(shí),一旦生產(chǎn)中心癱瘓了,備份中心將能接管生產(chǎn)系統(tǒng),繼續(xù)提供網(wǎng)絡(luò)服務(wù)。比如,全國鐵路調(diào)度中心網(wǎng) 絡(luò)系統(tǒng),當(dāng)發(fā)生火災(zāi)、地震等災(zāi)難性事件時(shí),該系統(tǒng)仍要保持正常進(jìn)行,不能因?yàn)檎{(diào)度中心出現(xiàn)災(zāi)難性事件,全國的鐵路系統(tǒng)就處于癱瘓狀態(tài),讓災(zāi)難不合理地蔓延。 我 們認(rèn)為,一個(gè)有效的高可靠性計(jì)算環(huán)境應(yīng)該能夠做到: 數(shù)據(jù)中心任何計(jì)算機(jī)系統(tǒng)硬件,軟件及應(yīng)用的單點(diǎn)故障將不會影響整個(gè)數(shù)據(jù)中心的處理工作; 數(shù)據(jù)中心由于災(zāi)難 (火災(zāi)、地震、斷電 )等原因無法工作時(shí),應(yīng)有一個(gè)備份數(shù)據(jù)中心能夠迅速接管關(guān)鍵應(yīng)用,繼續(xù)運(yùn)行; 主數(shù)據(jù)中心恢復(fù)后,應(yīng)用系統(tǒng)、業(yè)務(wù)數(shù)據(jù)應(yīng)能迅速切換回主中心運(yùn)行。 4.2.7 災(zāi)難及應(yīng)對分析 4.2.7.1 災(zāi)難的定義 一般來說,人們可將災(zāi)難分為下面幾個(gè)類型:自然災(zāi)難(洪水、颶風(fēng)、地震),外在事件(電力或通訊中斷)、技術(shù)失靈(電腦宕機(jī)或網(wǎng)絡(luò)受損)、設(shè)備受損(火災(zāi))及人為操作(黑 客入侵、惡意破壞、員工誤操作)等。在本文中,災(zāi)難的定義主要是指自然的和人為的災(zāi)難,包括系統(tǒng)硬件,網(wǎng)絡(luò)故障,機(jī)房斷電,人為破壞甚至火災(zāi)地震等,例如臺灣的臺北大地震導(dǎo)致該區(qū)域內(nèi)建筑及大部分機(jī)器均遭到嚴(yán)重破壞。而突發(fā)性災(zāi)難發(fā)生從而引發(fā)的 IT系統(tǒng)崩潰的后果將可能導(dǎo)致生產(chǎn)停頓,失去客戶以及減少定單、收入,甚至威脅到企業(yè)的生存。 災(zāi)備系統(tǒng)面臨著多種可能出現(xiàn)的風(fēng)險(xiǎn)和災(zāi)難因素,從類型上可以大致分為自然災(zāi)害和人為因素;從發(fā)生的概率看可以分為比較可能,可能,和基本不可能。分析各種風(fēng)險(xiǎn)是制定相應(yīng)的容災(zāi)策略以預(yù)防或盡可能降低災(zāi)難影 響的基礎(chǔ)。 對業(yè)務(wù)環(huán)境中可能發(fā)生的突發(fā)性災(zāi)難歸納如下: 比較可能 可能 基本不可能 人為過失 /故意破壞(對公司不滿的員工,外部黑客,計(jì)算機(jī)病毒等) 氣候?yàn)?zāi)難(暴風(fēng)雪,嚴(yán)寒等) 設(shè)備 /硬件 /系統(tǒng)故障 業(yè)務(wù)應(yīng)用軟件故障 火災(zāi) 基礎(chǔ)設(shè)施故障(網(wǎng)絡(luò),通信,電力,空調(diào),通風(fēng)等) 氣候?yàn)?zāi)難(臺風(fēng),洪水等,沙塵暴) 城市事件(罷工,動亂等) 工作場所的環(huán)境緊急事件(化學(xué)污染等) 地震 流行疾病 社會性恐慌 恐怖襲擊(炸彈威脅,爆炸,挾持人質(zhì)等) 戰(zhàn)爭 核戰(zhàn) 以上列出的災(zāi)難因素分析僅作一般性參考。災(zāi)備系統(tǒng)的具體情況( IT系統(tǒng)環(huán)境,地理,人文,社會服務(wù)環(huán)境等),可以在項(xiàng)目的風(fēng)險(xiǎn)分析階段針對性的明確與細(xì)化。 另一方面,從災(zāi)難的后果和影響來看,大致可以分為兩大類: 業(yè)務(wù)停頓,但一般可以在能忍受的時(shí)間內(nèi)完成本地修復(fù),不需要異地切換。 例如:機(jī)房電源設(shè)備發(fā)生故障、 IT 設(shè)備軟硬件故障、消防系統(tǒng)和空調(diào)系統(tǒng)等機(jī)房環(huán)境告警、人為因素誤操作的情況等,電信供應(yīng)商的 IT 系統(tǒng)普遍建立了相應(yīng)的本地高可用性系統(tǒng)( HA)、備份 /恢復(fù)策略,運(yùn)維管理流程,并購買了 IT 廠商高級別支持服務(wù),以及其它一些基礎(chǔ)設(shè)施的防護(hù)措施等。我們建議 首先應(yīng)立足于現(xiàn)有系統(tǒng)環(huán) 境,在現(xiàn)有條件下解決自身的災(zāi)難預(yù) 防和風(fēng)險(xiǎn)規(guī)避問題,盡可能避免發(fā)生大的突發(fā)性災(zāi)難并降低災(zāi)難的破壞力。同時(shí)需要統(tǒng)籌規(guī)劃容災(zāi)系統(tǒng)的建設(shè),按系統(tǒng)的方法論分階段、有步驟進(jìn)行相應(yīng)的分析、設(shè)計(jì)、實(shí)施、測試、人員培訓(xùn)等工作。這也正是目前容災(zāi)規(guī)劃所關(guān)注的課題。 4.2.7.2 容災(zāi)可以達(dá)到的目標(biāo)層次 根據(jù)企業(yè)自身的現(xiàn)有環(huán)境、客觀條件、投資規(guī)模、實(shí)施階段的不同,容災(zāi)方案可以達(dá)到多種目標(biāo)層次,這些層次可以在企業(yè)不同的層面上實(shí)現(xiàn)不同的容災(zāi)功能要求。下面的圖表展示了各個(gè)容災(zāi)層次: 地區(qū)運(yùn) 營 節(jié) 點(diǎn)數(shù) 據(jù) 中 心網(wǎng)絡(luò)系統(tǒng)數(shù)據(jù)應(yīng) 急 后 備 中 心 ( E O C )指 揮 中 心災(zāi)難 / 危 機(jī) 管 理后 備 節(jié) 點(diǎn)( 本 地 區(qū) ) 異 地 群 集冗 余 網(wǎng) 絡(luò) 備 份本 地 群 集應(yīng) 用 及 數(shù) 據(jù) 庫 備 份數(shù) 據(jù) 復(fù) 制異 地 數(shù) 據(jù) 存 放應(yīng) 用 、 數(shù) 據(jù) 庫可 能 的 解 決 方 案容 災(zāi) 保 護(hù) 目 標(biāo) 層 次 示 意 圖 關(guān)于這些層次的描述如下: 數(shù)據(jù)保護(hù): 數(shù)據(jù)保護(hù)的目標(biāo)是防止企業(yè)在意外情況及突發(fā)災(zāi)難下丟失數(shù)據(jù),通常采用異地?cái)?shù)據(jù)備份或存儲介質(zhì)鏡像的方法保護(hù)企業(yè)的數(shù)據(jù)資產(chǎn)。 應(yīng)用保護(hù): 應(yīng)用保護(hù)的目標(biāo)是在發(fā)生意外時(shí)不僅可以實(shí)現(xiàn)數(shù)據(jù)恢復(fù),還要能夠?qū)?shù)據(jù)恢復(fù)到災(zāi)難發(fā)生前的存儲狀態(tài),以重新恢復(fù)應(yīng)用系統(tǒng),由于應(yīng)用系統(tǒng)的數(shù)據(jù)通常都保存在數(shù)據(jù)庫中,所以應(yīng)用保護(hù)要保護(hù)應(yīng)用數(shù)據(jù)以及調(diào)用這些數(shù)據(jù)的數(shù)據(jù)庫,這層保護(hù)所采用的方法包括利用數(shù)據(jù)庫事務(wù)日志和數(shù)據(jù)庫 /應(yīng)用的備份。 同時(shí)應(yīng)用保護(hù)使企業(yè)在意外發(fā)生時(shí)可以使用備用的系統(tǒng)進(jìn)行業(yè)務(wù)操作 ,通常的策略是使用冗余的后備系統(tǒng),利用高可用方案或群集技術(shù)實(shí)現(xiàn)系統(tǒng)切換。 系統(tǒng)保護(hù): 系統(tǒng)保護(hù)更提高一個(gè)層次,它的目標(biāo)是使企業(yè)在意外發(fā)生時(shí)可以使用備用的 IT 系統(tǒng)環(huán)境進(jìn)行業(yè)務(wù)操作,通常的策略是使用冗余的后備系統(tǒng),利用高可用方案或群集技術(shù)實(shí)現(xiàn)系統(tǒng)切換。 網(wǎng)絡(luò)保護(hù): 網(wǎng)絡(luò)保護(hù)的目標(biāo)是保證整個(gè)企業(yè)內(nèi)網(wǎng)絡(luò)環(huán)境的高可用性,通常的保護(hù)策略包括冗余網(wǎng)絡(luò),自動或手動路由調(diào)整,備份網(wǎng)絡(luò)設(shè)備,以及網(wǎng)絡(luò)環(huán)境數(shù)據(jù)的備份保護(hù)等。 數(shù)據(jù)中心保護(hù): 數(shù)據(jù)中心保護(hù)的目標(biāo)是保護(hù)作為整個(gè)業(yè)務(wù)節(jié)點(diǎn)的數(shù)據(jù)中心的高可用性,即在整個(gè)業(yè)務(wù)節(jié)點(diǎn)所依賴的所有 IT 系統(tǒng)崩潰時(shí),使用后備的數(shù)據(jù)中心支持業(yè)務(wù)節(jié)點(diǎn)的工作。 運(yùn)營節(jié)點(diǎn)保護(hù): 和數(shù)據(jù)中心保護(hù)不同的是,運(yùn)營節(jié)點(diǎn)保護(hù)的目標(biāo)是抵御影響整個(gè)運(yùn)營節(jié)點(diǎn)的物理建筑的災(zāi)難,這預(yù)示著需要有備份地點(diǎn)來用于業(yè)務(wù)處理。它和數(shù)據(jù)中心通常都使用包含整個(gè)業(yè)務(wù)支撐系統(tǒng)的冗余備份節(jié)點(diǎn)來實(shí)現(xiàn),但是出于運(yùn)營節(jié)點(diǎn)保護(hù)的需要,該備份節(jié)點(diǎn)距原來的運(yùn)營節(jié)點(diǎn)的物理距離應(yīng)至少在 75 公里以上,而且在災(zāi)備運(yùn)營節(jié)點(diǎn)不但要有冗余的 IT 系統(tǒng)環(huán)境和網(wǎng)絡(luò)環(huán)境,還應(yīng)包括能夠?qū)崿F(xiàn)業(yè)務(wù)運(yùn)營的相關(guān)資源,如業(yè)務(wù)人員、營業(yè)環(huán)境等。 地區(qū)保護(hù): 最外層是地域的保護(hù),它應(yīng)對的對象是影響整 個(gè)地區(qū)的災(zāi)難,如颶風(fēng),地震,暴風(fēng)雪等。通常采用的容災(zāi)方式為遠(yuǎn)距離的容災(zāi)備份節(jié)點(diǎn)。 4.2.7.3 數(shù)據(jù)的遠(yuǎn)程復(fù)制 通常說來,對于遠(yuǎn)程災(zāi)難恢復(fù)方案建議用戶建立兩個(gè)數(shù)據(jù)中心,主中心和備份中心。正常情況下,應(yīng)用運(yùn)行在主數(shù)據(jù)中心的計(jì)算機(jī)系統(tǒng)上,數(shù)據(jù)也存放在主中心的存儲系統(tǒng)中。當(dāng)主數(shù)據(jù)中心由于斷電,火災(zāi)甚至地震等災(zāi)難無法工作時(shí),則立即采取一系列相關(guān)措施,將網(wǎng)絡(luò)、電話線路切換至備份中心,并且利用備份中心計(jì)算機(jī)系統(tǒng)重新啟動應(yīng)用系統(tǒng)。 而這里最關(guān)鍵的問題就是切換過程時(shí)間最短,同時(shí)盡可能保持主數(shù)據(jù)中心和備份中心數(shù)據(jù)的連續(xù)性 和完整性。而由于財(cái)務(wù)數(shù)據(jù)的重要性,如何解決主、備中心數(shù)據(jù)庫數(shù)據(jù)備份,恢復(fù)則是災(zāi)難恢復(fù)方案的重點(diǎn)。 傳統(tǒng)的磁帶備份方式一般采取定點(diǎn)備份,而當(dāng)系統(tǒng)崩潰時(shí)。距最近一次備份時(shí)間之間的數(shù)據(jù)將全部丟失,無法恢復(fù)。而且磁盤備份恢復(fù)時(shí)間比較長。由于速度慢,缺乏實(shí)時(shí)性,無法滿足用戶大數(shù)據(jù)量數(shù)據(jù)恢復(fù)及數(shù)據(jù)庫連續(xù)性,實(shí)時(shí)性的要求。 而現(xiàn)在流行的災(zāi)難恢復(fù)方案主要是采用實(shí)時(shí)的數(shù)據(jù)備份的方式。它的主要原理是通過通信線路,實(shí)時(shí)地將主中心更新數(shù)據(jù)拷貝至備份中心存儲系統(tǒng)中,保證主、備中心數(shù)據(jù)的實(shí)時(shí)一致性。當(dāng)主中心無法工作時(shí),備份中心可以立即 接管業(yè)務(wù),并且確保數(shù)據(jù)的最大完整性。 其主要實(shí)施方法有: 應(yīng)用中間件軟件的實(shí)現(xiàn)方式 :通過對應(yīng)用程序的修改,利用交易中間件軟件,將在線交易同時(shí)在生產(chǎn)中心和災(zāi)備中心執(zhí)行;或者通過交易中間件軟件將任何主中心的數(shù)據(jù)改變發(fā)送到備份中心,從而保證生產(chǎn)中心和災(zāi)備中心的數(shù)據(jù)一致性。這種方式的優(yōu)點(diǎn)是對網(wǎng)路帶寬的要求較低,缺點(diǎn)是需要 修改應(yīng)用。 利用數(shù)據(jù)庫廠家的軟件產(chǎn)品完成遠(yuǎn)程備份 :現(xiàn)有的一些數(shù)據(jù)庫廠家例如 Oracle 數(shù)據(jù)庫可以提供 STANDBY 數(shù)據(jù)庫功能,通過通信網(wǎng)絡(luò)將實(shí)際數(shù)據(jù)庫日志文件傳至備份中心存儲系統(tǒng),備份中心的 STANDBY 數(shù)據(jù)庫按照主數(shù)據(jù)庫結(jié)構(gòu)從日志文件中重新恢復(fù)數(shù)據(jù)庫。這種方法投資成本小,數(shù)據(jù)恢復(fù)相對磁帶較快,缺點(diǎn)就是占用主機(jī)資源,日志文件建立過程中發(fā)生災(zāi)難時(shí),則該日志數(shù)據(jù)將丟失。 利用數(shù)據(jù)復(fù)制軟件完成遠(yuǎn)程備份 :現(xiàn)有的一些 EAI 廠家的產(chǎn)品,例如 TIBCO 可以提供數(shù)據(jù)庫和應(yīng)用的數(shù)據(jù)的遠(yuǎn)程復(fù)制功能,通過安裝在數(shù)據(jù)庫和應(yīng)用上的 agent 對數(shù)據(jù)庫數(shù)據(jù)和應(yīng)用數(shù)據(jù)進(jìn)行監(jiān)控,如果發(fā)生數(shù)據(jù)的變化就將變化發(fā)布到通信網(wǎng)絡(luò)上,由具備接收能力的 agent 將數(shù)據(jù)接收下來,通過數(shù)據(jù)庫接口將數(shù)據(jù)輸入備用數(shù)據(jù)庫。這種方法投資成本小,數(shù)據(jù)恢復(fù)相對磁帶 較快,可以實(shí)現(xiàn)靈活的數(shù)據(jù)復(fù)制策略,可以是不同的數(shù)據(jù)庫軟件和不同的平臺,缺點(diǎn)就是占用主機(jī)資源和存儲資源。 利用系統(tǒng)軟件的鏡像功能完成遠(yuǎn)程備份: 利用操作系統(tǒng)的鏡像工具軟件,如 HP MirrorDisk/UX 和 Volume Replicator,同時(shí)將數(shù)據(jù)寫到本地和遠(yuǎn)程的數(shù)據(jù)中心。采用這種方式與應(yīng)用和存儲都無關(guān),可實(shí)現(xiàn)異構(gòu)存儲且不需修改應(yīng)用,缺點(diǎn)是對通信的質(zhì)量要求較高。 基于存儲的災(zāi)難備份方式: 通過高端存儲陣列容災(zāi):通過惠普高端存儲陣列產(chǎn)品 HP EVA 系列,可以實(shí)現(xiàn)主數(shù)據(jù)中心和備份中心的操作系統(tǒng)、文件系統(tǒng)、數(shù)據(jù)庫 的實(shí)時(shí)拷貝維護(hù)。不占用主機(jī) CPU,內(nèi)存, I/O 資源,如果企業(yè)已經(jīng)擁有高端存儲設(shè)備,則采用該方案非常理想,其缺點(diǎn)是兩端必須采用同樣的存儲設(shè)備。 容災(zāi)技術(shù)對比表 容災(zāi)分類 數(shù)據(jù)復(fù)制方法 對主機(jī)影響 (經(jīng)驗(yàn)值) 適用環(huán)境 描述 交易數(shù) TUXCEDO, 5% 異構(gòu)主機(jī) 設(shè)備投資最節(jié)省。但由于 據(jù)復(fù)制 CICS 異構(gòu)存儲 需要修改應(yīng)用,所以大部分用戶不會采用。 數(shù)據(jù)庫數(shù)據(jù)復(fù)制 數(shù)據(jù)庫本身的復(fù)制功能。 QUEST 5% 同構(gòu)主機(jī) 異構(gòu)存儲 相同數(shù)據(jù)庫 Oracle 采用的是異步傳輸 Achieve Log 的方式。缺點(diǎn)是災(zāi)難發(fā)生時(shí)會丟失部分?jǐn)?shù)據(jù),只能保護(hù)數(shù)據(jù)庫內(nèi)的數(shù)據(jù),而且只能保護(hù)數(shù)據(jù)庫的數(shù)據(jù),遠(yuǎn)程數(shù)據(jù)中心必須配置主機(jī)參與數(shù)據(jù)拷貝過程。 數(shù)據(jù)復(fù)制軟件 數(shù)據(jù)庫數(shù)據(jù)的復(fù)制功能。 TIBCO 5% 異構(gòu)主機(jī) 異構(gòu)存儲 不同數(shù)據(jù)庫 實(shí)現(xiàn)數(shù)據(jù)庫數(shù)據(jù)的異步復(fù)制。非常靈活,易于實(shí)施,缺點(diǎn)是占用主機(jī)資源和存儲資源,遠(yuǎn)程數(shù)據(jù)中心必須配置主機(jī)參與數(shù)據(jù)拷貝過程。 鏡像軟件復(fù)制 HP MirrorDisk/UX等磁盤鏡像軟件。 5% 同構(gòu)主機(jī) 異構(gòu)存儲 只支持同步方式,所以建議在 10公里范圍內(nèi)采用,采用 DWDM 設(shè)備擴(kuò)展后,可支持 100 公里的距離。好處是可以異構(gòu)存儲,即兩個(gè)數(shù)據(jù)中心的存儲可以不同,缺點(diǎn)是需要消耗主機(jī) CPU 資源,而且對通信質(zhì)量要求高。 Volume Replicator 510% 與磁盤鏡像原理相同,但功能更強(qiáng),可以支持異步方式,所以距離可以不受限制。 不支持 AIX。 存儲硬件級復(fù)制 高端磁盤陣列本身的遠(yuǎn)程數(shù)據(jù)拷貝 無 同構(gòu)主機(jī) 同構(gòu)存儲 HP XP, HP EVA, EMC Sysmetrix, IBM Shark系列存儲之間的數(shù)據(jù)拷貝方式,光纖直連方式可以支持到 10 公里,采用CNT 設(shè)備擴(kuò)展后距離不受限制。是采 用較廣的容災(zāi)方式,必須在同一廠商的高端存儲設(shè)備間才支持遠(yuǎn)程數(shù)據(jù)拷貝。 根據(jù)災(zāi)備系統(tǒng)的現(xiàn)狀,我們認(rèn)為采用基于存儲硬件級的復(fù)制方式來的實(shí)現(xiàn)異地系統(tǒng)的容災(zāi)方案才是符合災(zāi)備系統(tǒng)實(shí)際需求的,以下對將采取的技術(shù)進(jìn)行介紹。 4.2.8 系統(tǒng)建設(shè)的目標(biāo) 災(zāi)難備份恢復(fù)系統(tǒng)的設(shè)計(jì)目標(biāo)主要應(yīng)從以下四個(gè)方面來考慮: 具體數(shù)據(jù)類型與目標(biāo)的災(zāi)難保護(hù): 從災(zāi)備系統(tǒng)正常運(yùn)作的角度分析各種業(yè)務(wù)數(shù)據(jù),作出重要性與可恢復(fù)性要求的評估,并由此制定系統(tǒng)的數(shù)據(jù)災(zāi)難保護(hù)策略。 災(zāi)難發(fā)生后的可恢復(fù)業(yè)務(wù)分析: 對災(zāi)備系統(tǒng)各個(gè)業(yè)務(wù)與管理流程進(jìn)行分析評估,并由此制定系統(tǒng) 業(yè)務(wù)的災(zāi)難備份政策,建議通過智能存儲設(shè)備進(jìn)行實(shí)時(shí)遠(yuǎn)程數(shù)據(jù)復(fù)制,首先實(shí)現(xiàn)數(shù)據(jù)級容災(zāi)。同時(shí)系統(tǒng)通過備份管理軟件將其數(shù)據(jù)備份到大容量磁帶庫,實(shí)現(xiàn)對制證數(shù)據(jù)的本地保護(hù)。 災(zāi)難發(fā)生后的可恢復(fù)分析: 對于突發(fā)性災(zāi)難這樣的重大事件,有時(shí)受災(zāi)地區(qū)并不茍求所有系統(tǒng)的所有應(yīng)用必須立即恢復(fù)運(yùn)營,故可按比例和實(shí)際需求進(jìn)行分析,并由此配備相應(yīng)的設(shè)備。 災(zāi)難發(fā)生后的業(yè)務(wù)可恢復(fù)時(shí)間指標(biāo): 我們通常將災(zāi)難的發(fā)生分為兩類,一類 是可以預(yù)計(jì)具體時(shí)間的災(zāi)難,如損害性極大的臺風(fēng),計(jì)劃內(nèi)的大面積電力系統(tǒng)檢修等;另一類是不可預(yù)計(jì)突發(fā)性的災(zāi)難,如地震、恐怖襲 擊,主機(jī)系統(tǒng)的非計(jì)劃性宕機(jī)等。針對兩種不同災(zāi)難,要設(shè)定不同的恢復(fù)時(shí)間指標(biāo);并根據(jù)不同業(yè)務(wù)系統(tǒng)的各自特點(diǎn),確定不同業(yè)務(wù)系統(tǒng)的災(zāi)難恢復(fù)時(shí)間 4.2.9 系統(tǒng)建設(shè)的原則 根據(jù)災(zāi)備系統(tǒng)的實(shí)際情況,充分利用現(xiàn)有軟硬件資源、網(wǎng)絡(luò)資源,建立高性能、低成本的容災(zāi)系統(tǒng)。災(zāi)備系統(tǒng)容災(zāi)系統(tǒng)的建設(shè)原則應(yīng)包括: ( 1) 確保災(zāi)難情況下重要數(shù)據(jù)的安全存儲; ( 2) 確保災(zāi)難發(fā)生后系統(tǒng)運(yùn)行的及時(shí)恢復(fù),包括數(shù)據(jù)的恢復(fù); ( 3) 將災(zāi)備系統(tǒng)因?yàn)?zāi)害而導(dǎo)致的利益損失降低到最小程度; ( 4) 堅(jiān)持容災(zāi)備份系統(tǒng)建設(shè)投資經(jīng)濟(jì)合理性的原則; ( 5) 確保系統(tǒng)的可擴(kuò)充性、可維護(hù)性、可操作性; ( 6) 建立健全相 應(yīng)嚴(yán)密的管理制度和操作流程。 4.2.10 業(yè)務(wù)系統(tǒng)現(xiàn)狀 災(zāi)備系統(tǒng)是以計(jì)算機(jī)技術(shù)為依托的信息處理系統(tǒng)。其安全性、可靠性極為重要,如果數(shù)據(jù)發(fā)生損壞、丟失,其后果將極為嚴(yán)重,不僅僅是影響了災(zāi)備系統(tǒng)的正常運(yùn)行,有時(shí)甚至可能給個(gè)人、單位以至國家都帶來無法估量的損失。尤其核心存儲系統(tǒng)屬于整個(gè)災(zāi)備系統(tǒng)業(yè)務(wù)集中處理系統(tǒng),如果發(fā)生不可預(yù)見的故障和災(zāi)難,導(dǎo)致整個(gè)系統(tǒng)的崩潰,其影響將更大。因此,業(yè)務(wù)的拓展與災(zāi)難的防范是我們必須同等重視的問題。 災(zāi)備系統(tǒng)隨著業(yè)務(wù)開展的深入,數(shù)據(jù)量的增加,必然要考慮建設(shè)災(zāi)難 備份中心,其目的就是在于防止一些災(zāi)難 性的小概率事件可能對集中式信息系統(tǒng)造成的不可恢復(fù)的原始數(shù)據(jù)的丟失,這些災(zāi)難性事件可能包括為火災(zāi)、水災(zāi)、地震、電源故障及一些人為的操作失誤等等。 目前的容災(zāi)系統(tǒng)絕大多數(shù)是以硬件容災(zāi)為主,因?yàn)槠淇煽啃宰罡?、性能最佳。硬件容?zāi)要求存儲陣列為較高檔次的存儲系統(tǒng),這種高檔次的陣列能夠做到數(shù)據(jù)不通過主機(jī)就可以進(jìn)行遠(yuǎn)程復(fù)制,如 HP 公司的 EVA 系列等可以實(shí)現(xiàn)硬件 容災(zāi)。 針對這些需求,我們?yōu)?災(zāi)備系統(tǒng)設(shè)計(jì)了一套容災(zāi)方案供參考。 4.2.11 災(zāi)備系統(tǒng)災(zāi)難備份系統(tǒng)解決方案 (以下設(shè)備型號為示例) 在異地容災(zāi)方式下,主中心與災(zāi)備中心 同處 在的城市 *。主中心的地點(diǎn)選在 所在地;災(zāi)備中心則可根據(jù)用戶選擇。 在主中心,核心的數(shù)據(jù)系統(tǒng)是由兩臺 RX6600 服務(wù)器和一臺 EVA4000存儲組成的業(yè)務(wù)系統(tǒng)。其連接方式均采用光纖連接。 在異地災(zāi)備中心我們同樣選擇 EVA4000 作為核心存儲設(shè)備,并作為數(shù)據(jù)遠(yuǎn)程復(fù)制的介質(zhì)。服務(wù)器我們選擇一臺 RX6600 作為災(zāi)難或緊急情況下業(yè)務(wù)恢復(fù)使用。連接方式同樣采用光纖連接。數(shù)據(jù)的遠(yuǎn)程復(fù)制通過基于存儲設(shè)備的 HP Continuous Access EVA 軟件來實(shí)現(xiàn)。 主備中心之間的數(shù)據(jù)傳送鏈路是容災(zāi)方案 的一個(gè)重要部分??梢圆捎弥苯舆B接光纖或者 DDN 專線的方式。 該同城容災(zāi)方案的配備如下: 主中心 容災(zāi)中心 服務(wù)器 RX6600*2 RX6600*1 存儲 EVA4000*1(10TB) EVA4000*1(10TB) SAN Switch 4/8*2 Switch 4/8*2 網(wǎng)絡(luò) 根據(jù)距離情況選擇光纖直連方式或者專線 這一同城容災(zāi)方案的特點(diǎn)為: 在同城構(gòu)建容災(zāi)平臺,具有了一定的防災(zāi)抗災(zāi)能力; 無須對主機(jī)平臺,應(yīng)用系統(tǒng)和數(shù)據(jù)庫結(jié)構(gòu)進(jìn)行任何修改,大大降低容災(zāi)方案實(shí)施風(fēng)險(xiǎn); 數(shù)據(jù)容災(zāi)對主機(jī)系統(tǒng) 透明,無須占用主機(jī)資源; 可以在主機(jī)或 EVA 磁盤陣列上靈活實(shí)現(xiàn)數(shù)據(jù)鏡像卷對的生成,拆分,同步和刪除操作,并可與應(yīng)用腳本集成,自動運(yùn)行; 容災(zāi)方案成功案例眾多,技術(shù)成熟,安全穩(wěn)定; 用戶可以根據(jù)容災(zāi)距離和對性能的要求,選擇采用 CA 同步復(fù)制方式,保證數(shù)據(jù)傳輸一致性和完整性,不會造成業(yè)務(wù)數(shù)據(jù)的癱瘓; 災(zāi)備中心配備主機(jī),可以支持查詢業(yè)務(wù),同時(shí)也具有了在緊急情況下快速恢復(fù)業(yè)務(wù)的能力。 4.2.11.2 在災(zāi)備中心增加查詢功能(未來) 容災(zāi)在保證數(shù)據(jù)安全性和在生產(chǎn)系統(tǒng)正常運(yùn)轉(zhuǎn)的情況下,還可以被用來開展諸如數(shù)據(jù)挖掘、經(jīng) 營分析以及用戶查詢等其他業(yè)務(wù),從而使為防止災(zāi)難而采購的軟硬件設(shè)備在平時(shí)也能得到很好的應(yīng)用。 災(zāi)備系統(tǒng)的容災(zāi)方案設(shè)計(jì)保證了在災(zāi)備中心有一份完整的業(yè)務(wù)數(shù)據(jù)的拷貝,因此這部分?jǐn)?shù)據(jù)可以利用來進(jìn)行數(shù)據(jù)查詢系統(tǒng)的構(gòu)建。 由于用戶對于查詢系統(tǒng)的要求是 24 小時(shí)在線的業(yè)務(wù),目前業(yè)界支持的一種實(shí)現(xiàn)方式是在災(zāi)備中心的存儲上利用設(shè)備本地?cái)?shù)據(jù)拷貝功能生成一個(gè)鏡像卷,然后利用這個(gè)鏡像卷來進(jìn)行查詢工作。 4.2.11.3 數(shù)據(jù)復(fù)制方式建議 通過磁盤陣列實(shí)現(xiàn)容災(zāi)備份功能,有兩種實(shí)現(xiàn)模式:同步工作模式與異步工作模式。 同步工作模式在服 務(wù)器向存儲寫數(shù)據(jù)時(shí),每一個(gè) IO 會同時(shí)寫往遠(yuǎn)程備份中心的存儲陣列,并且在確認(rèn)往本地和遠(yuǎn)程都寫成功后才會應(yīng)答服務(wù)器,表示寫操作成功,在生產(chǎn)中心和備份中心正常運(yùn)行過程中,同步機(jī)制會保證生產(chǎn)中心和備份中心的存儲陣列中的應(yīng)用數(shù)據(jù)完全保持一致,當(dāng)生產(chǎn)中心發(fā)生災(zāi)難時(shí),備份中心的數(shù)據(jù)完全保留了生產(chǎn)中心發(fā)生災(zāi)難前的數(shù)據(jù),最大程度的保護(hù)了業(yè)務(wù)數(shù)據(jù)的安全。同步模式適用于對業(yè)務(wù)數(shù)據(jù)的安全性要求比較高的業(yè)務(wù)與應(yīng)用,要求帶寬有保證,適用于生產(chǎn)中心與備份中心在同一個(gè)城市內(nèi)部的容災(zāi)備份系統(tǒng)。另外,由于光纖傳輸?shù)乃俣?,距離會影響系統(tǒng)的性能。 對于異步模式,在生產(chǎn)中心,每一個(gè) IO 寫往本地存儲陣列后馬上應(yīng)答主機(jī)服務(wù)器寫成功,應(yīng)用繼續(xù)運(yùn)行。存儲陣列本身在把數(shù)據(jù)傳往遠(yuǎn)程備份中心。由于異步遠(yuǎn)程更新的執(zhí)行,應(yīng)用程序不必等待遠(yuǎn)程更新的完成,因此遠(yuǎn)程數(shù)據(jù)備份的性能的影響通常較小,并且備份磁盤的距離和生產(chǎn)磁盤間的距離理論上沒有限制。然而,當(dāng)傳送中的數(shù)據(jù)在生產(chǎn)磁盤控制器中還沒有形成數(shù)據(jù)一致組時(shí)生產(chǎn)中心發(fā)生災(zāi)難,這些數(shù)據(jù)就會丟失。因此在系統(tǒng)和應(yīng)用程序重新啟動之前,需要額外的數(shù)據(jù)恢復(fù)。所花費(fèi)的時(shí)間和造成的影響取決于實(shí)際應(yīng)用環(huán)境,例如應(yīng)用程序和設(shè)備配置的復(fù)雜性,更新的 完整性等等。對于異步復(fù)制方式 Continuous Access EVA 是通過取得 Oracle OSCP 認(rèn)證的 time stamping 技術(shù)可以充分保障數(shù)據(jù)的完整性,這也是目前唯一的通過了 Oracle 認(rèn)證的存儲設(shè)備異步技術(shù)。通過這一技術(shù)實(shí)現(xiàn)了遠(yuǎn)端寫數(shù)據(jù)的序列的正確性。保證數(shù)據(jù)的有效和可恢復(fù)能力。 考慮到災(zāi)備系統(tǒng)采用異地的災(zāi)備中心,在應(yīng)用性能允許的情況下可以采用同步復(fù)制方式容災(zāi),從而在最大程度上保護(hù)業(yè)務(wù)數(shù)據(jù)的安全。 4.2.11.4 鏈路選擇和帶寬分析 由于主中心和備份中心的距離并不代表實(shí)際的網(wǎng)絡(luò)鏈路或裸光 纖的長度,因?yàn)榫€路的敷設(shè)實(shí)際上是很曲折的。我們在系統(tǒng)建設(shè)時(shí),還要采用不同路由的兩條線路實(shí)現(xiàn)在傳輸上的高可用性,避免因?yàn)橐馔馔诰蛟斐删€路的中斷。有可能兩條線路的長度有很大的差異。 無論采用同步和異步方式的遠(yuǎn)程復(fù)制,帶寬都決定著數(shù)據(jù)復(fù)制的速度和系統(tǒng)運(yùn)行的效能。因此主備中心之間的通訊鏈路帶寬是決定著業(yè)務(wù)連續(xù)系統(tǒng)容災(zāi)能力的一個(gè)重要因素。 我們認(rèn)為該鏈路的帶寬應(yīng)該能夠滿足日常遠(yuǎn)程數(shù)據(jù)復(fù)制的要求和個(gè)別情況下主中心服務(wù)器訪問備用中心存儲進(jìn)行業(yè)務(wù)運(yùn)行的需求也可以叫做存儲切換的帶寬需求。如果采用同步的復(fù)制方式,這兩種需求是基 本一樣的,因?yàn)閿?shù)據(jù)都要實(shí)時(shí)的傳送到遠(yuǎn)端的存儲上,然后返回確認(rèn)信息。如果采用異步復(fù)制方式,為保證業(yè)務(wù)運(yùn)行存儲切換的帶寬會高于遠(yuǎn)程復(fù)制的要求,因?yàn)楫惒降膹?fù)制不需要和業(yè)務(wù)處理速度一致。我們以兩者中間最高的標(biāo)準(zhǔn)作為系統(tǒng)設(shè)計(jì)依據(jù)。 一般計(jì)算帶寬的原則為 : 生產(chǎn)中心與備份中心的容災(zāi)線路帶寬應(yīng)該為生產(chǎn)中心業(yè)務(wù)交易中寫操作所產(chǎn)生的數(shù)據(jù)量的最大峰值 ( 因?yàn)橹挥袑懖僮鞑艜?fù)制到遠(yuǎn)方 ,讀操作則不會 ),這樣一來 ,根據(jù)數(shù)據(jù)傳輸?shù)幕驹?, 就可以保證本地處理的性能不會因?yàn)檫h(yuǎn)程數(shù)據(jù)的傳輸而帶來大的性能影響。 4.2.11.5 應(yīng)用 系統(tǒng)切換 在實(shí)施應(yīng)用級的遠(yuǎn)程容災(zāi)方案之后,當(dāng)主數(shù)據(jù)中心因?yàn)楦鞣N突發(fā)性災(zāi)難造成無法正常運(yùn)行時(shí),原來運(yùn)行在主數(shù)據(jù)中心的業(yè)務(wù)系統(tǒng)將切換到備份中心繼續(xù)運(yùn)行;切換方式分為兩種,即手工方式和自動方式 當(dāng)用戶選擇采用手工方式進(jìn)行應(yīng)用切換時(shí),在主數(shù)據(jù)中心因?yàn)橥话l(fā)性災(zāi)難造成崩潰后,需由容災(zāi)系統(tǒng)管理員在備份數(shù)據(jù)中心啟動預(yù)先編寫的,并已通過嚴(yán)格測試的業(yè)務(wù)系統(tǒng)切換腳本完成應(yīng)用系統(tǒng)的切換過程當(dāng)用戶不希望因?yàn)楦鞣N偶然性的因素(如網(wǎng)絡(luò)故障,應(yīng)用程序 bug 等)造成業(yè)務(wù)系統(tǒng)的遠(yuǎn)程切換,以及手工切換造成的業(yè)務(wù)中斷時(shí)間在業(yè)務(wù)系統(tǒng)可以接受 的時(shí)間范圍內(nèi),或備份數(shù)據(jù)中心24 小時(shí)有人值守的條件下,可以選擇使用手工切換的方式完成應(yīng)用系統(tǒng)的遠(yuǎn)程切換,這種方式可以使容災(zāi)系統(tǒng)管理人員對災(zāi)難備份與恢復(fù)操作進(jìn)行更多的控制與管理在通常情況下,應(yīng)用系統(tǒng)的切換腳本包括以下內(nèi)容 : 磁盤鏡像卷的拆分( pairsplit); 備份數(shù)據(jù)卷組( VG)的激活( vgchange a y)和文件系統(tǒng)的一致性檢查( fsck); 網(wǎng)絡(luò)配置的修改; 數(shù)據(jù)庫恢復(fù)操作( DB recovery); 啟動數(shù)據(jù)庫; 啟動應(yīng)用系統(tǒng)等 當(dāng)用戶選擇采用自動切換的方式進(jìn) 行應(yīng)用切換時(shí),需要借助于高可用性集群軟件,如 MC/Service Guard, Metro Cluster 等; HP 公司資深高可用性技術(shù)專家將結(jié)合 災(zāi)備 系統(tǒng)的應(yīng)用實(shí)際情況和容災(zāi)環(huán)境的實(shí)際需求,對集群軟件進(jìn)行客戶化配置,從而實(shí)現(xiàn)應(yīng)用系統(tǒng)的自動切換功能;保證當(dāng)突發(fā)性災(zāi)難發(fā)生時(shí),即使在 無人值守的情況下,也能夠?qū)崿F(xiàn)業(yè)務(wù)系統(tǒng)的正常切換,確保業(yè)務(wù)系統(tǒng)能夠?qū)崿F(xiàn)全天候的正常運(yùn)行。 4.2.12 容災(zāi)系統(tǒng)的管理 4.2.12.1 組織機(jī)構(gòu) 容災(zāi)備份系統(tǒng)需要由專門機(jī)構(gòu)(指定現(xiàn)有相關(guān)部門或者設(shè)立新機(jī)構(gòu))負(fù)責(zé)日常的管理、維護(hù)、以及災(zāi)難發(fā)生后的系統(tǒng)恢 復(fù)等工作。該機(jī)構(gòu)的主要職責(zé)、職能主要包括: ( 1)備份系統(tǒng)的日常維護(hù)工作,確保當(dāng)前備份系統(tǒng)是正常、有效的、以及數(shù)據(jù)備份的完整性、一致性; ( 2)測試及研究工作。測試工作包括對當(dāng)前備份系統(tǒng)、備份數(shù)據(jù)有效性、可用性的測試、以及對應(yīng)用軟件的升級測試等;研究與容災(zāi)備份相關(guān)的技術(shù)方案優(yōu)化以及相關(guān)制度、規(guī)程的完善; ( 3)日常管理、協(xié)調(diào)職能。負(fù)責(zé)本部門的日常管理工作,并負(fù)責(zé)與主用中心、以及相關(guān)方面的協(xié)調(diào)工作; ( 4)災(zāi)難發(fā)生后的系統(tǒng)恢復(fù)以及生產(chǎn)組織職能。 4.2.12.2 管理制度和操作規(guī)程 容災(zāi)備份系統(tǒng)的管理、維護(hù) 、系統(tǒng)恢復(fù)、生產(chǎn)組織等需要完善的管理制度和嚴(yán)密的操作規(guī)程予以約束、規(guī)范,以確保備份系統(tǒng)的可用性和生產(chǎn)恢復(fù)的有效性。 在建設(shè)容災(zāi)備份系統(tǒng)的同時(shí),應(yīng)結(jié)合自身情況建立并不斷完善相關(guān)的管理制度、操作規(guī)程,其中包括: ( 1)容災(zāi)備份工作的領(lǐng)導(dǎo)與組織分工; ( 2)容災(zāi)備份中心機(jī)構(gòu)的職能、職責(zé);人員崗位責(zé)任制度; ( 3)日常維護(hù)管理制度和操作規(guī)程; ( 4)測試管理制度;(包括備份系統(tǒng)有效性測試、應(yīng)用軟件升級測試等) ( 5)災(zāi)難 /故障的監(jiān)測與分析、報(bào)告制度、以及審批流程規(guī)定; ( 6)系統(tǒng)恢復(fù) /切換的操作流程和規(guī)范; ( 7) 備份系統(tǒng)恢復(fù)運(yùn)行后的生產(chǎn)組織制度;(其中應(yīng)包含數(shù)據(jù)的安全與備份) ( 8)主用系統(tǒng)重新恢復(fù)工作的管理與組織制度。 4.2.12.3 災(zāi)難的預(yù)防 系統(tǒng)容災(zāi)應(yīng)包含災(zāi)難預(yù)防的內(nèi)容,即研究相應(yīng)對策將災(zāi)難帶來的損失降低到最小程度,這包括: ( 1)系統(tǒng)技術(shù)設(shè)計(jì)方案的不斷優(yōu)化,在不斷提升系統(tǒng)自身安全可靠性的同時(shí),使系統(tǒng)和數(shù)據(jù)備份的實(shí)施、管理、操作更簡便、運(yùn)行更可靠; ( 2)容災(zāi)備份策略和技術(shù)方案的不斷完善,不斷提高備份數(shù)據(jù)的一致性、完整性,縮短系統(tǒng)運(yùn)行中斷的時(shí)間; ( 3)相關(guān)管理制度、操作流程和規(guī)程的不斷完善、改進(jìn); ( 4)努力減少系統(tǒng)的安全隱患; ( 5)可能也包括備份系統(tǒng)機(jī)房地點(diǎn)的合理選擇等。 4.2.12.4 災(zāi)難恢復(fù)計(jì)劃的測試、試運(yùn)行和維護(hù) 通過測試、試運(yùn)行可檢驗(yàn)災(zāi)難恢復(fù)系統(tǒng)功能是否達(dá)到設(shè)計(jì)要求。測試和模擬試運(yùn)行可以檢驗(yàn)災(zāi)難恢復(fù)計(jì)劃文檔資料的完整性,恢復(fù)策略的正確性,可以提高工作人員的操作熟練程度。應(yīng)選擇適當(dāng)?shù)臑?zāi)難恢復(fù)計(jì)劃測試策略。通過測試可以提高災(zāi)難恢復(fù)計(jì)劃的質(zhì)量,改進(jìn)災(zāi)難恢復(fù)過程,可以使相關(guān)部門配合有序,同時(shí)由于應(yīng)用系統(tǒng)環(huán)境如系統(tǒng)環(huán)境、網(wǎng)絡(luò)配置、應(yīng)用系統(tǒng)恢復(fù)的優(yōu)先級不斷變化,災(zāi)難恢復(fù)計(jì)劃也應(yīng)隨之進(jìn)行修改。 培訓(xùn) 測試及維護(hù) 經(jīng)過努力建立起的災(zāi)難恢復(fù)計(jì)劃系統(tǒng), 必須通過內(nèi)部培訓(xùn)和周期性的測試才能為各層次參予人員所了解、掌握。同時(shí)隨著災(zāi)備系統(tǒng)數(shù)據(jù)中心業(yè)務(wù)的不斷完善和發(fā)展,各方面的條件和情況亦會變化,因此還需要有穩(wěn)定可靠的維護(hù)。 4.2.13 培訓(xùn) 成立專門的災(zāi)難恢復(fù)計(jì)劃小組; 選定一些對業(yè)務(wù)或技術(shù)非常熟悉的關(guān)鍵人員作為災(zāi)難恢復(fù)小組參予人員。以保證在危機(jī)處理的正確、高效。 制定培訓(xùn)計(jì)劃: 讓大家了解項(xiàng)目的背景,以及各人在災(zāi)難發(fā)生時(shí)的相應(yīng)責(zé)任,應(yīng)掌握的知識與技能; 計(jì)劃培訓(xùn)進(jìn)度與日程; 協(xié)調(diào)各相關(guān)部門負(fù)責(zé)人,保證培訓(xùn)時(shí)間; 管理培訓(xùn) 質(zhì)量。 4.2.14 測試災(zāi)難恢復(fù)計(jì)劃 測試災(zāi)難恢復(fù)計(jì)劃,不僅可以驗(yàn)證計(jì)劃的有效性、完整性,亦可以幫助大家熟悉過程,做好準(zhǔn)備工作。 歸納如下: 驗(yàn)證計(jì)劃過程與策略,發(fā)現(xiàn)疵暇之處 可以獲得具體的恢復(fù)時(shí)間概念(如網(wǎng)絡(luò)是如何被恢復(fù)的,速度如何) 可以測試備份主機(jī)系統(tǒng)與網(wǎng)絡(luò)系統(tǒng)的效率 可以向領(lǐng)導(dǎo)、審計(jì)、管理、媒體等展示 可以使整個(gè)隊(duì)伍熟練其各自的角色與責(zé)任 4.2.15 測試方法 測試的很重要的一個(gè)原則是不停生產(chǎn)機(jī),采用獨(dú)立或并行的方式進(jìn)行。如果是并行則可以與生產(chǎn)環(huán)境比較結(jié)果。 測試的第二個(gè)原則是按模塊進(jìn)行,即將龐大的系統(tǒng)分解開來,按模塊獨(dú)立 測試,而非一開始就動員全面測試。由于各模塊的相對獨(dú)立性,測試是可以分解成一個(gè)一個(gè)模塊進(jìn)行的。這樣的難度較小,也易于組織與管理。 4.2.15.1 測試的頻率 測試目標(biāo)是為了保持系統(tǒng)的現(xiàn)時(shí)性,即系統(tǒng)能跟上變化的步伐,但同時(shí)亦要考慮費(fèi)用問題等。 4.2.15.2 可能引起變化的因素 主要操作系統(tǒng)的升級 重要應(yīng)用軟件和改變 主要硬件改變 人員變動 4.2.15.3 測試流程的制定 測試流程的制定是在測試中最為重要的一環(huán),只有測試是在可控的前提下,測試才具備檢驗(yàn)系統(tǒng)安全性、鍛煉應(yīng)急隊(duì)伍的意義。因此客戶測試流程 的制訂需要在最終客戶、相關(guān)設(shè)備的供應(yīng)商和災(zāi)備系統(tǒng)實(shí)施方三方共同協(xié)商確定,已確保原有系統(tǒng)的穩(wěn)定運(yùn)行。 4.2.16 維護(hù) 為保證災(zāi)難恢復(fù)計(jì)劃的穩(wěn)定可靠運(yùn)行,需要有明確的維護(hù)政策,保證人員及資金的適當(dāng)投入。并定期檢查報(bào)告,管理層可以了解其狀態(tài)。 4.2.17 惠普公司容災(zāi)實(shí)施服務(wù)內(nèi)容 HP 公司為災(zāi)備系統(tǒng)提供的遠(yuǎn)程災(zāi)難備份解決方案由 HP EVA 系列磁盤陣列以及相應(yīng)的光纖交換機(jī)和用來連接主數(shù)據(jù)中心和備份數(shù)據(jù)中心的光纖網(wǎng)絡(luò)設(shè)備 組成 , 利用磁盤陣列本身所具備的遠(yuǎn)程數(shù)據(jù)復(fù)制功能 (Continuous Access ) 通過遠(yuǎn)程數(shù)據(jù)鏡像的方式實(shí) 現(xiàn)關(guān)鍵業(yè)務(wù)數(shù)據(jù)的遠(yuǎn)程備份和恢復(fù)。 在災(zāi)備系統(tǒng)容災(zāi)項(xiàng)目的實(shí)施過程中 ,HP公司將委派具有豐富項(xiàng)目實(shí)施經(jīng)驗(yàn)的項(xiàng)目經(jīng)理 ,使用項(xiàng)目管理的方法對容災(zāi)方案的實(shí)施進(jìn)行高效的統(tǒng)一管理 ;并利用HP 容災(zāi)專家豐富的容災(zāi)知識和實(shí)施經(jīng)驗(yàn),結(jié)合廣泛驗(yàn)證的容災(zāi)方法和設(shè)計(jì)技術(shù)將大大縮短實(shí)現(xiàn)容災(zāi)方案的時(shí)間 ,確保實(shí)現(xiàn)容災(zāi)方案的設(shè)計(jì)目標(biāo) ,并盡量減少和避免在容災(zāi)方案的實(shí)施過程中對用戶業(yè)務(wù)系統(tǒng)的影響 ,從而全面降低容災(zāi)實(shí)施過程中的風(fēng)險(xiǎn) ,確保災(zāi)備系統(tǒng)的容災(zāi)方案能夠得到平穩(wěn)順利的高質(zhì)量實(shí)施。 4.2.17.1 方案實(shí)施核心服務(wù)( Core Service) 項(xiàng)目管理服務(wù) 由惠普項(xiàng)目經(jīng)理對容災(zāi)項(xiàng)目的整體實(shí)施過程進(jìn)行管理,包括項(xiàng)目啟動、制定項(xiàng)目實(shí)施計(jì)劃、項(xiàng)目采購管理、項(xiàng)目資源管理、項(xiàng)目的整體進(jìn)度管理以及跟蹤項(xiàng)目進(jìn)展并執(zhí)行變更和應(yīng)急情形管理。 容災(zāi)方案規(guī)劃設(shè)計(jì) 在確認(rèn)容災(zāi)的恢復(fù)策略之后,惠普和客戶將合作進(jìn)行恢復(fù)技術(shù)方案的詳細(xì)設(shè)計(jì),詳細(xì)方案包括具體的服務(wù)器配置、存儲配置、 SAN配置、容災(zāi)軟件配置、網(wǎng)絡(luò)配置、數(shù)據(jù)復(fù)制對應(yīng)關(guān)系、備份策略、災(zāi)難切換方案。 容災(zāi)系統(tǒng)產(chǎn)品及主機(jī)代理軟件安裝配置服務(wù) 容災(zāi)系統(tǒng)的安裝服務(wù),除了基本的相關(guān)存儲設(shè)備及存儲系統(tǒng)軟件的安裝,還包括數(shù)據(jù)復(fù)制 軟件的安裝和 LTU激活、相關(guān)邏輯卷,文件系統(tǒng)及應(yīng)用數(shù)據(jù)庫的配置、系統(tǒng)主機(jī)代理軟件包的安裝和配置。 遠(yuǎn)程 SAN互聯(lián)服務(wù)(光纖直連) 容災(zāi)系統(tǒng)遠(yuǎn)程連接鏈路的搭建服務(wù),基本服務(wù)中只包括光纖直連的方式。服務(wù)內(nèi)容除了光纖交換機(jī)的基本安裝,還包括 SAN的綜合布線、跨區(qū)域遠(yuǎn)程 SAN的配置, Zoning的劃分和合并、光纖數(shù)據(jù)復(fù)制鏈路功能測試以及光纖網(wǎng)絡(luò)容災(zāi)參數(shù)配置服務(wù)。 災(zāi)難切換腳本開發(fā) 開發(fā)容災(zāi)系統(tǒng)切換所需要的腳本,服務(wù)內(nèi)容包括設(shè)計(jì)容災(zāi)系統(tǒng)的切換策略,并與用戶討論確定;編寫腳本,形成指令切換或自動切換;各種腳本的測試和驗(yàn) 證、優(yōu)化工作。 技術(shù)切換測試 在容災(zāi)系統(tǒng)搭建完成后,對容災(zāi)系統(tǒng)的基本切換功能進(jìn)行測試。包括建立、檢驗(yàn)及執(zhí)行異地故障切換機(jī)制、系統(tǒng)測試方案的設(shè)計(jì),并與用戶討論確定、容災(zāi)系統(tǒng)切換及回切測試。 災(zāi)難恢復(fù)技術(shù)切換流程開發(fā) 對容災(zāi)系統(tǒng)日常維護(hù)和災(zāi)難發(fā)生時(shí)的技術(shù)恢復(fù)流程進(jìn)行設(shè)計(jì),包括容災(zāi)系統(tǒng)維護(hù)方案設(shè)計(jì)、業(yè)務(wù)部門恢復(fù)數(shù)據(jù)的步驟和所需資源的設(shè)計(jì)、故障流程觸發(fā)模式、升級模式的設(shè)計(jì)。 容災(zāi)系統(tǒng)現(xiàn)場培訓(xùn)服務(wù) 針對用戶容災(zāi)系統(tǒng)提供的現(xiàn)場技術(shù)培訓(xùn),在項(xiàng)目實(shí)施過程中提供 1天的現(xiàn)場培訓(xùn)(不限人數(shù))。培訓(xùn)形式為惠普顧問和工程師就容災(zāi)系統(tǒng)的安裝配置現(xiàn)場指導(dǎo)用戶 IT技術(shù)人員。 容災(zāi)演習(xí)服務(wù)一次 容災(zāi)演習(xí)服務(wù)將幫助客戶準(zhǔn)備和執(zhí)行模擬的災(zāi)難恢復(fù)演習(xí)?;萜胀ㄟ^實(shí)施這一服務(wù)幫助客戶制定演習(xí)的恢復(fù)目標(biāo)、描述災(zāi)難場景、制定演習(xí)計(jì)劃,并完成一次災(zāi)難恢復(fù)演習(xí)。服務(wù)內(nèi)容包括為測試演習(xí)而模擬的故障或?yàn)?zāi)難的設(shè)計(jì)、制定系統(tǒng)整體演習(xí)的測試計(jì)劃、召開演習(xí)前的溝通會議、建立測試小組,觀察測試過程及提出建議、按照測試計(jì)劃進(jìn)行容災(zāi)演
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中西醫(yī)結(jié)合與特色療法
- 產(chǎn)科護(hù)理實(shí)踐與臨床經(jīng)驗(yàn)分享
- 2026年黑龍江林業(yè)職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試備考題庫有答案解析
- 2026年廣州體育職業(yè)技術(shù)學(xué)院單招職業(yè)技能筆試備考試題帶答案解析
- 生命科學(xué)領(lǐng)域的納米技術(shù)應(yīng)用
- 住院部工作質(zhì)量回顧
- 個(gè)性化醫(yī)療與精準(zhǔn)治療方案
- 2026年常州工業(yè)職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)筆試備考題庫帶答案解析
- 醫(yī)院感染預(yù)防與控制規(guī)范解讀
- 醫(yī)療行業(yè)禮儀在護(hù)理操作中的重要性
- 云南師大附中2026屆高三高考適應(yīng)性月考卷(六)歷史試卷(含答案及解析)
- 2026廣東韶關(guān)市公安局武江分局招聘警務(wù)輔助人員13人(第一次)筆試備考試題及答案解析
- 消渴?。? 型糖尿病)中醫(yī)護(hù)理方案
- 2026年內(nèi)蒙古化工職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試參考題庫及答案解析
- 2332《高等數(shù)學(xué)基礎(chǔ)》國家開放大學(xué)期末考試題庫
- 喉癌患者吞咽功能康復(fù)護(hù)理
- DB32∕T 5167-2025 超低能耗建筑技術(shù)規(guī)程
- 地球小博士知識競賽練習(xí)試題及答案
- 殯儀館鮮花采購?fù)稑?biāo)方案
- 中小學(xué)生意外傷害防范
- 動靜脈瘺課件
評論
0/150
提交評論