容災(zāi)系統(tǒng),對于IT而言,就是為計算機信息系統(tǒng)提供的一個能應(yīng)付各種災(zāi)難的環(huán)境。當(dāng)計算機系統(tǒng)在遭受如火災(zāi)、水災(zāi)、地震、戰(zhàn)爭等不可抗拒的自然災(zāi)難以及計算機犯罪、計算機病毒、掉電、網(wǎng)絡(luò)/通信失敗、硬件/軟件錯誤和人為操作錯誤等人為災(zāi)難時,容災(zāi)系統(tǒng)將保證用戶數(shù)據(jù)的安全性(數(shù)據(jù)容災(zāi)),甚至,一個更加完善的容災(zāi)系統(tǒng),還能提供不間斷的應(yīng)用服務(wù)(應(yīng)用容災(zāi))??梢哉f,容災(zāi)系統(tǒng)是數(shù)據(jù)存儲備份的最高層次。12
系統(tǒng)類型從其對系統(tǒng)的保護程度來分,可以將容災(zāi)系統(tǒng)分為:數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi)。
數(shù)據(jù)容災(zāi)所謂數(shù)據(jù)容災(zāi),就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應(yīng)用數(shù)據(jù)的一個可用復(fù)制。在本地數(shù)據(jù)及整個應(yīng)用系統(tǒng)出現(xiàn)災(zāi)難時,系統(tǒng)至少在異地保存有一份可用的關(guān)鍵業(yè)務(wù)的數(shù)據(jù)。該數(shù)據(jù)可以是與本地生產(chǎn)數(shù)據(jù)的完全實時復(fù)制,也可以比本地數(shù)據(jù)略微落后,但一定是可用的。采用的主要技術(shù)是數(shù)據(jù)備份和數(shù)據(jù)復(fù)制技術(shù)。
數(shù)據(jù)容災(zāi)技術(shù),又稱為異地數(shù)據(jù)復(fù)制技術(shù),按照其實現(xiàn)的技術(shù)方式來說,主要可以分為同步傳輸方式和異步傳輸方式(各廠商在技術(shù)用語上可能有所不同),另外,也有如“半同步”這樣的方式。半同步傳輸方式基本與同步傳輸方式相同,只是在Read占 I/O比重比較大時,相對同步傳輸方式,可以略微提高I/O的速度。而根據(jù)容災(zāi)的距離,數(shù)據(jù)容災(zāi)又可以分成遠程數(shù)據(jù)容災(zāi)和近程數(shù)據(jù)容災(zāi)方式。下面,我們將主要按同步傳輸方式和異步異步傳輸方式對數(shù)據(jù)容災(zāi)展開討論,其中也會涉及到遠程容災(zāi)和近程容災(zāi)的概念,并作相應(yīng)的分析。
應(yīng)用容災(zāi)所謂應(yīng)用容災(zāi),是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng) (可以是互為備份)。建立這樣一個系統(tǒng)是相對比較復(fù)雜的,不僅需要一份可用的數(shù)據(jù)復(fù)制,還要有包括網(wǎng)絡(luò)、主機、應(yīng)用、甚至IP等資源,以及各資源之間的良好協(xié)調(diào)。主要的技術(shù)包括負載均衡、集群技術(shù)。數(shù)據(jù)容災(zāi)是應(yīng)用容災(zāi)的基礎(chǔ),應(yīng)用容災(zāi)是數(shù)據(jù)容災(zāi)的目標(biāo)。3
系統(tǒng)選擇在選擇容災(zāi)系統(tǒng)的構(gòu)造時,還要建立多層次的廣域網(wǎng)絡(luò)故障切換機制。本地的高可用系統(tǒng)指在多個服務(wù)器運行一個或多種應(yīng)用的情況下,應(yīng)確保任意服務(wù)器出現(xiàn)任何故障時,其運行的應(yīng)用不能中斷,應(yīng)用程序和系統(tǒng)應(yīng)能迅速切換到其它服務(wù)器上運行,即本地系統(tǒng)集群和熱備份。4
在遠程的容災(zāi)系統(tǒng)中,要實現(xiàn)完整的應(yīng)用容災(zāi),既要包含本地系統(tǒng)的安全機制、遠程的數(shù)據(jù)復(fù)制機制,還應(yīng)具有廣域網(wǎng)范圍的遠程故障切換能力和故障診斷能力。也就是說,一旦故障發(fā)生,系統(tǒng)要有強大的故障診斷和切換策略制訂機制,確??焖俚姆磻?yīng)和迅速的業(yè)務(wù)接管。實際上,廣域網(wǎng)范圍的高可用能力與本地系統(tǒng)的高可用能力應(yīng)形成一個整體,實現(xiàn)多級的故障切換和恢復(fù)機制,確保系統(tǒng)在各個范圍的可靠和安全。
系統(tǒng)等級參照國際災(zāi)難備份行業(yè)的通行災(zāi)難備份等級劃分原則,根據(jù)異地數(shù)據(jù)的多寡,異地數(shù)據(jù)與生產(chǎn)數(shù)據(jù)的差異程度,以及災(zāi)難恢復(fù)環(huán)境的完備程度,將災(zāi)難備份系統(tǒng)從低到高劃分為如下四個等級:
第0級:沒有備援中心
這一級容災(zāi)備份,實際上沒有災(zāi)難恢復(fù)能力,它只在本地進行數(shù)據(jù)備份,并且被備份的數(shù)據(jù)只在本地保存,沒有送往異地。
第1級:本地磁帶備份,異地保存
在本地將關(guān)鍵數(shù)據(jù)備份,然后送到異地保存。災(zāi)難發(fā)生后,按預(yù)定數(shù)據(jù)恢復(fù)程序恢復(fù)系統(tǒng)和數(shù)據(jù)。這種方案成本低、易于配置。但當(dāng)數(shù)據(jù)量增大時,存在存儲介質(zhì)難管理的問題,并且當(dāng)災(zāi)難發(fā)生時存在大量數(shù)據(jù)難以及時恢復(fù)的問題。為了解決此問題,災(zāi)難發(fā)生時,先恢復(fù)關(guān)鍵數(shù)據(jù),后恢復(fù)非關(guān)鍵數(shù)據(jù)。
第2級:熱備份站點備份
在異地建立一個熱備份點,通過網(wǎng)絡(luò)進行數(shù)據(jù)備份。也就是通過網(wǎng)絡(luò)以同步或異步方式,把主站點的數(shù)據(jù)備份到備份站點,備份站點一般只備份數(shù)據(jù),不承擔(dān)業(yè)務(wù)。當(dāng)出現(xiàn)災(zāi)難時,備份站點接替主站點的業(yè)務(wù),從而維護業(yè)務(wù)運行的連續(xù)性。
第3級:活動備援中心
在相隔較遠的地方分別建立兩個數(shù)據(jù)中心,它們都處于工作狀態(tài),并進行相互數(shù)據(jù)備份。當(dāng)某個數(shù)據(jù)中心發(fā)生災(zāi)難時,另一個數(shù)據(jù)中心接替其工作任務(wù)。這種級別的備份根據(jù)實際要求和投入資金的多少,又可分為兩種:①兩個數(shù)據(jù)中心之間只限于關(guān)鍵數(shù)據(jù)的相互備份;②兩個數(shù)據(jù)中心之間互為鏡像,即零數(shù)據(jù)丟失等。零數(shù)據(jù)丟失是目前要求最高的一種容災(zāi)備份方式,它要求不管什么災(zāi)難發(fā)生,系統(tǒng)都能保證數(shù)據(jù)的安全。所以,它需要配置復(fù)雜的管理軟件和專用的硬件設(shè)備,需要投資相對而言是最大的,但恢復(fù)速度也是最快的。
不同等級的災(zāi)難備份系統(tǒng),其投資差異非常巨大,企業(yè)需要根據(jù)實際情況,主要是遭受嚴(yán)重災(zāi)難后的損失情況,以及發(fā)生災(zāi)難的幾率,建立滿足企業(yè)需求的災(zāi)難備份系統(tǒng)。5
技術(shù)指標(biāo)衡量容災(zāi)系統(tǒng)的兩個技術(shù)指標(biāo):
RPO(Recovery Point Objective):即數(shù)據(jù)恢復(fù)點目標(biāo),主要指的是業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量。
RTO(Recovery Time Objective):即恢復(fù)時間目標(biāo),主要指的是所能容忍的業(yè)務(wù)停止服務(wù)的最長時間,也就是從災(zāi)難發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時間周期。
RPO針對的是數(shù)據(jù)丟失,而RTO針對的是服務(wù)丟失,二者沒有必然的關(guān)聯(lián)性。RTO和RPO的確定必須在進行風(fēng)險分析和業(yè)務(wù)影響分析后根據(jù)不同的業(yè)務(wù)需求確定。對于不同企業(yè)的同一種業(yè)務(wù),RTO和RPO的需求也會有所不同。
關(guān)鍵技術(shù)在建立容災(zāi)備份系統(tǒng)時會涉及到多種技術(shù),如:SAN或NAS技術(shù)、遠程鏡像技術(shù)、基于IP的SAN的互連技術(shù)、快照技術(shù)等。這里重點介紹遠程鏡像、快照和互連技術(shù)。6
遠程鏡像遠程鏡像技術(shù)是在主數(shù)據(jù)中心和備援中心之間的數(shù)據(jù)備份時用到。鏡像是在兩個或多個磁盤或磁盤子系統(tǒng)上產(chǎn)生同一個數(shù)據(jù)的鏡像視圖的信息存儲過程,一個叫主鏡像系統(tǒng),另一個叫從鏡像系統(tǒng)。按主從鏡像存儲系統(tǒng)所處的位置可分為本地鏡像和遠程鏡像。遠程鏡像又叫遠程復(fù)制,是容災(zāi)備份的核心技術(shù),同時也是保持遠程數(shù)據(jù)同步和實現(xiàn)災(zāi)難恢復(fù)的基礎(chǔ)。遠程鏡像按請求鏡像的主機是否需要遠程鏡像站點的確認(rèn)信息,又可分為同步遠程鏡像和異步遠程鏡像。
同步遠程鏡像(同步復(fù)制技術(shù))是指通過遠程鏡像軟件,將本地數(shù)據(jù)以完全同步的方式復(fù)制到異地,每一本地的I/O事務(wù)均需等待遠程復(fù)制的完成確認(rèn)信息,方予以釋放。同步鏡像使遠程拷貝總能與本地機要求復(fù)制的內(nèi)容相匹配。當(dāng)主站點出現(xiàn)故障時,用戶的應(yīng)用程序切換到備份的替代站點后,被鏡像的遠程副本可以保證業(yè)務(wù)繼續(xù)執(zhí)行而沒有數(shù)據(jù)的丟失。但它存在往返傳播造成延時較長的缺點,只限于在相對較近的距離上應(yīng)用。
異步遠程鏡像(異步復(fù)制技術(shù))保證在更新遠程存儲視圖前完成向本地存儲系統(tǒng)的基本I/O操作,而由本地存儲系統(tǒng)提供給請求鏡像主機的I/O操作完成確認(rèn)信息。遠程的數(shù)據(jù)復(fù)制是以后臺同步的方式進行的,這使本地系統(tǒng)性能受到的影響很小,傳輸距離長(可達1000公里以上),對網(wǎng)絡(luò)帶寬要求小。但是,許多遠程的從屬存儲子系統(tǒng)的寫沒有得到確認(rèn),當(dāng)某種因素造成數(shù)據(jù)傳輸失敗,可能出現(xiàn)數(shù)據(jù)一致性問題。為了解決這個問題,大多采用延遲復(fù)制的技術(shù)(本地數(shù)據(jù)復(fù)制均在后臺日志區(qū)進行),即在確保本地數(shù)據(jù)完好無損后進行遠程數(shù)據(jù)更新。
快照技術(shù)遠程鏡像技術(shù)往往同快照技術(shù)結(jié)合起來實現(xiàn)遠程備份,即通過鏡像把數(shù)據(jù)備份到遠程存儲系統(tǒng)中,再用快照技術(shù)把遠程存儲系統(tǒng)中的信息備份到遠程的磁帶庫、光盤庫中。
快照是通過軟件對要備份的磁盤子系統(tǒng)的數(shù)據(jù)快速掃描,建立一個要備份數(shù)據(jù)的快照邏輯單元號 LUN和快照cache。在快速掃描時,把備份過程中即將要修改的數(shù)據(jù)塊同時快速拷貝到快照cache中。快照LUN是一組指針,它指向快照cache和磁盤子系統(tǒng)中不變的數(shù)據(jù)塊(在備份過程中)。在正常業(yè)務(wù)進行的同時,利用快照LUN實現(xiàn)對原數(shù)據(jù)的一個完全的備份。它可使用戶在正常業(yè)務(wù)不受影響的情況下(主要指容災(zāi)備份系統(tǒng)),實時提取當(dāng)前在線業(yè)務(wù)數(shù)據(jù)。其“備份窗口”接近于零,可大大增加系統(tǒng)業(yè)務(wù)的連續(xù)性,為實現(xiàn)系統(tǒng)真正的7×24運轉(zhuǎn)提供了保證。
快照是通過內(nèi)存作為緩沖區(qū)(快照cache),由快照軟件提供系統(tǒng)磁盤存儲的即時數(shù)據(jù)映像,它存在緩沖區(qū)調(diào)度的問題。
互連技術(shù)早期的主數(shù)據(jù)中心和備援?dāng)?shù)據(jù)中心之間的數(shù)據(jù)備份,主要是基于SAN的遠程復(fù)制(鏡像),即通過光纖通道FC,把兩個SAN連接起來,進行遠程鏡像(復(fù)制)。當(dāng)災(zāi)難發(fā)生時,由備援?dāng)?shù)據(jù)中心替代主數(shù)據(jù)中心保證系統(tǒng)工作的連續(xù)性。這種遠程容災(zāi)備份方式存在一些缺陷,如:實現(xiàn)成本高、設(shè)備的互操作性差、跨越的地理距離短(10公里)等,這些因素阻礙了它的進一步推廣和應(yīng)用。
出現(xiàn)了多種基于IP的SAN的遠程數(shù)據(jù)容災(zāi)備份技術(shù)。它們是利用基于IP的SAN的互連協(xié)議,將主數(shù)據(jù)中心SAN中的信息通過現(xiàn)有的TCP/IP網(wǎng)絡(luò),遠程復(fù)制到備援中心SAN中。當(dāng)備援中心存儲的數(shù)據(jù)量過大時,可利用快照技術(shù)將其備份到磁帶庫或光盤庫中。這種基于IP的SAN的遠程容災(zāi)備份,可以跨越LAN、MAN和WAN,成本低、可擴展性好,具有廣闊的發(fā)展前景。基于IP的互連協(xié)議包括:FCIP、iFCP、Infiniband、iSCSI等。
注意事項數(shù)據(jù)安全
目前國內(nèi)用戶所能購買到的災(zāi)難備份產(chǎn)品,在技術(shù)上并不落后于國外用戶,但是國外用戶在災(zāi)難備份意識上,明顯比國內(nèi)用戶強。國外很多企業(yè)是全球性運作,要求業(yè)務(wù)能夠7×24小時不間斷工作,對業(yè)務(wù)的連續(xù)性要求高,一旦出現(xiàn)中斷將造成巨大損失。而目前國內(nèi)企業(yè)的規(guī)模相對較小,對業(yè)務(wù)連續(xù)運行的需求沒有那么強烈,因此對災(zāi)難備份的意識相比國外客戶來說要淡薄些。但隨著中國加入WTO市場以及跨區(qū)域、跨國企業(yè)的逐漸增加,國內(nèi)客戶的認(rèn)識、需求正逐漸提高。
在數(shù)據(jù)安全意識方面,國內(nèi)企業(yè)常常會走兩個極端。有的企業(yè)是沒有數(shù)據(jù)安全的防衛(wèi)意識,而一旦意識到要保證數(shù)據(jù)安全了,就想到容災(zāi)。數(shù)據(jù)安全其實不僅僅是容災(zāi),它應(yīng)該是一個體制,是一個管理范疇的問題,例如人員的管理,大樓的安全,網(wǎng)絡(luò)的安全等,這些對于企業(yè)保證數(shù)據(jù)安全才是最重要的;其次才是技術(shù)的問題。容災(zāi)系統(tǒng)應(yīng)該具有三個層次,包括了主機的高可用系統(tǒng)、備份系統(tǒng)和整體系統(tǒng)故障異地容災(zāi)。但是國內(nèi)的許多企業(yè)在做異地容災(zāi)的時候都只重視第三個層次,殊不知前兩個層次能夠有效地屏蔽掉單點故障等局部故障問題,在整個容災(zāi)系統(tǒng)中也起著重要的作用。
因地制宜
企業(yè)在制定數(shù)據(jù)安全方案時,首先要加強人員管理,建立安全體制,避免人為失誤;第二步是采用磁帶和雙機熱備份來確保本地的數(shù)據(jù)安全;第三步才是用到遠程災(zāi)難備份。其實災(zāi)難備份只是業(yè)務(wù)連續(xù)性的一部分,保證業(yè)務(wù)連續(xù)性應(yīng)包括兩個方面:一是計劃內(nèi)的停機,如備份、系統(tǒng)升級、維護等造成的計劃停機;另一方面是非計劃的中斷,如電源、通信鏈路、災(zāi)難等引起的災(zāi)難性備份。
根據(jù)企業(yè)的規(guī)模、所處地域、業(yè)務(wù)類型、網(wǎng)絡(luò)狀況、數(shù)據(jù)量等因素,容災(zāi)備份系統(tǒng)的建設(shè)需因地制宜地采取不同容災(zāi)技術(shù)以免造成不必要的成本消耗。如果是防火災(zāi),則容災(zāi)中心距離容災(zāi)數(shù)據(jù)中心只需要幾百米就可以了。如果要是水災(zāi),則要求它們之間的距離在數(shù)公里以上。如果要是預(yù)防地震的話,則需要保持幾百公里的距離。此外,不同的地域需求也有不同,例如在北京,就可以不用考慮水災(zāi)的問題,而在有的地區(qū),地震就不用考慮。
成本考慮
企業(yè)在建立災(zāi)難備份系統(tǒng)時,須考慮整個系統(tǒng)成本問題。如果實現(xiàn)遠程異地自動備份,租賃通信鏈路所付出的代價較大。國內(nèi)中小企業(yè)一般采用的多是本地備份,這主要是因為資金和中國通信廣域網(wǎng)線路的限制。而國外用戶一般都租用比較寬的帶寬。
100公里以上的異地災(zāi)難備份將是未來的一種趨勢。這種備份分為兩種形式,一種是歷史備份,一般采用每天凌晨備份的形式,出現(xiàn)問題可以恢復(fù)一天前的數(shù)據(jù)。如果對數(shù)據(jù)要求不是很高的話,可以采用3天,甚至一周備份的方式,可以節(jié)約很多成本。
災(zāi)難恢復(fù)
要想做好針對災(zāi)難性的備份系統(tǒng),數(shù)據(jù)大集中是亟待解決的問題。由于災(zāi)難性備份系統(tǒng)的建立需要耗費很大的資金,如果每一個地市都建立一個災(zāi)難性備份中心,企業(yè)是很難承受的。有效整合資源,建立全省性的,或是區(qū)域性的數(shù)據(jù)集中系統(tǒng),可以減少災(zāi)難備份系統(tǒng)建設(shè)的成本。
目前最有效的備份方式是“數(shù)據(jù)大集中”,以“數(shù)據(jù)大集中”為基礎(chǔ)的災(zāi)難備份手段,可以有效避免企業(yè)各分部各自進行備份而導(dǎo)致的各自為政、管理不統(tǒng)一的問題出現(xiàn)。以“數(shù)據(jù)大集中”為基礎(chǔ)的災(zāi)難備份會使管理更有效,也便于數(shù)據(jù)統(tǒng)計。
系統(tǒng)構(gòu)建實現(xiàn)了數(shù)據(jù)集中處理之后,企業(yè)的業(yè)務(wù)運行和經(jīng)營管理將更依賴于信息系統(tǒng)的可靠運行。服務(wù)的連續(xù)性以及業(yè)務(wù)數(shù)據(jù)的完整性、正確性和有效性,將直接關(guān)系到企業(yè)的生產(chǎn)、經(jīng)營與決策。一旦因自然災(zāi)害、設(shè)備故障或人為因素等引起了信息系統(tǒng)的停頓,導(dǎo)致了數(shù)據(jù)丟失或業(yè)務(wù)處理的中斷,將會造成巨大的經(jīng)濟損失和聲譽損害,甚至?xí)屍髽I(yè)受到致命打擊。
當(dāng)然,企業(yè)的業(yè)務(wù)信息數(shù)據(jù)是有生命周期的,從產(chǎn)生那一刻起就進入到一個循環(huán)周期,從收集、復(fù)制、訪問、遷移到刪除,周而復(fù)始,而處在生命周期不同階段的信息數(shù)據(jù)的價值又是不一樣的。因此,業(yè)務(wù)信息需要不同級別的保護,其中一些信息和事務(wù)需要比以前更高的保護級別; 而另外一些信息和事務(wù)則僅需要用更有吸引力的價位提供標(biāo)準(zhǔn)保護就行了。企業(yè)在構(gòu)建自己的容災(zāi)系統(tǒng)時,有必要根據(jù)信息價值的變化實施分級存儲,以合理調(diào)配存儲資源,降低整體擁有成本。
技術(shù)工具建立容災(zāi)系統(tǒng)的初衷就是以最合理的代價保護應(yīng)用數(shù)據(jù)的完整性與安全性,在災(zāi)難發(fā)生后盡快恢復(fù)系統(tǒng)運行,減少業(yè)務(wù)停頓時間,盡可能不中斷或不影響業(yè)務(wù)的正常進行,并讓災(zāi)難對企業(yè)造成的損失降到最低。也就是說,無論兩個系統(tǒng)相隔多遠,當(dāng)一個數(shù)據(jù)中心出現(xiàn)問題時,另一個數(shù)據(jù)中心就能迅速接替運行,同時既要保證業(yè)務(wù)數(shù)據(jù)的完整性,又要保證關(guān)鍵業(yè)務(wù)的連續(xù)性。
保持業(yè)務(wù)連續(xù)性就對災(zāi)難恢復(fù)系統(tǒng)提出了更高的要求—要保證業(yè)務(wù)的連續(xù)性,要保證業(yè)務(wù)數(shù)據(jù)的連續(xù)性,就要對系統(tǒng)提供連續(xù)完整的基本數(shù)據(jù); 縮小或取消應(yīng)用系統(tǒng)用于批處理和數(shù)據(jù)備份(如磁帶備份)的時間,保證關(guān)鍵業(yè)務(wù)服務(wù)24小時不中斷; 為業(yè)務(wù)發(fā)展及應(yīng)用提供與生產(chǎn)系統(tǒng)完全一致的開發(fā)與測試環(huán)境。
在構(gòu)建容災(zāi)系統(tǒng)方面出現(xiàn)了四個不同發(fā)展方向的技術(shù)趨勢,這為保證企業(yè)數(shù)據(jù)的完整性及業(yè)務(wù)的連續(xù)性提供了新的不同的選擇。
1. 實時熱備份技術(shù)實時熱備份技術(shù)雖然缺點非常明顯,比如一次性投資昂貴、通信費用高等,但其優(yōu)點也很明顯,就是對數(shù)據(jù)的完整性以及對業(yè)務(wù)連續(xù)性的高保證。隨著業(yè)務(wù)的發(fā)展及競爭的需要,企業(yè)對業(yè)務(wù)連續(xù)性的要求將越來越高,因此用實時熱備份技術(shù)來實現(xiàn)災(zāi)難備份已經(jīng)成為了主流的發(fā)展趨勢。
2. 外包方式災(zāi)難恢復(fù)計劃涉及業(yè)務(wù)風(fēng)險分析、方案選擇、實施、測試、培訓(xùn)、演習(xí)等內(nèi)容,是一項既復(fù)雜又煩鎖的工作。采用外包方式則可以將災(zāi)難恢復(fù)計劃交給專業(yè)公司來完成,企業(yè)就可以專心從事核心業(yè)務(wù)的生產(chǎn)和經(jīng)營了。
3. 開發(fā)災(zāi)難恢復(fù)計劃輔助工具 災(zāi)難恢復(fù)計劃是一項系統(tǒng)工程,開發(fā)災(zāi)難恢復(fù)計劃輔助工具與系統(tǒng)是非常有必要的,這其中包括備份策略決策系統(tǒng)、災(zāi)難恢復(fù)指引系統(tǒng)及自動運行管理系統(tǒng)等。
備份策略決策系統(tǒng)是以風(fēng)險及損失分析為基礎(chǔ)的,同時考慮成本、恢復(fù)速度、防災(zāi)種類、數(shù)據(jù)的完整性等因素,通過科學(xué)的分析及決策方法來確定應(yīng)采用的備份策略;災(zāi)難恢復(fù)指引系統(tǒng)是通過將相應(yīng)的災(zāi)難恢復(fù)處理流程編成相應(yīng)的在線指引性軟件系統(tǒng),在災(zāi)難發(fā)生后指導(dǎo)管理維護人員一步一步地依照設(shè)定好的步驟,準(zhǔn)備相應(yīng)的資源,執(zhí)行相應(yīng)的操作,從而準(zhǔn)確地進行災(zāi)難恢復(fù); 自動運行管理系統(tǒng)是指通過軟硬件等措施,實現(xiàn)生產(chǎn)系統(tǒng)及備份系統(tǒng)的全部或部分自動操作,這樣既可減少人員的投入,又可減少由于人為失誤而帶來的損失,從而提高整個系統(tǒng)的安全性與可靠性。7
4. 遠程容災(zāi)前面提到,根據(jù)業(yè)務(wù)種類的不同,各種數(shù)據(jù)的安全級別是不同的,為防范高級別的故障(如火災(zāi)、地震),可以通過遠程監(jiān)控體系和報警體系實現(xiàn)遠程切換,切換包括IP、域名和應(yīng)用等。一旦故障解除,應(yīng)用系統(tǒng)的主備站點恢復(fù)傳輸,采用異地復(fù)制中斷傳輸?shù)幕謴?fù)流程(軟件方式復(fù)制),斷點序號重傳,增量異地同步實現(xiàn)增量塊復(fù)制。
規(guī)劃原則首先,在制定容災(zāi)系統(tǒng)方案的過程中要考慮的就是容災(zāi)系統(tǒng)建設(shè)對原有業(yè)務(wù)系統(tǒng)帶來的影響。比如,采用數(shù)據(jù)復(fù)制技術(shù)對系統(tǒng)I/O帶來的延遲,應(yīng)用數(shù)據(jù)同步對日常業(yè)務(wù)處理系統(tǒng)帶來的壓力等。因此,企業(yè)要通過周密的測試和分析來規(guī)避容災(zāi)系統(tǒng)建設(shè)時帶來的這些風(fēng)險,以保證業(yè)務(wù)系統(tǒng)不會因容災(zāi)系統(tǒng)的建設(shè)而出現(xiàn)在處理性能上下降的問題。
第二,數(shù)據(jù)狀態(tài)要保持同步。為保證在災(zāi)難發(fā)生時,業(yè)務(wù)可以成功地切換到備份中心,就必須保證容災(zāi)系統(tǒng)數(shù)據(jù)同步機制的可靠性。因此,建立可靠的數(shù)據(jù)同步校驗機制是必須的; 同時,還要考慮建立定時的、自動的數(shù)據(jù)同步核查對比機制,以檢驗兩個中心數(shù)據(jù)的一致性,這是數(shù)據(jù)容災(zāi)工作中非常重要的一部分。
第三,容災(zāi)系統(tǒng)的日常維護工作要盡可能輕,并能承擔(dān)部分業(yè)務(wù)處理和測試的工作。容災(zāi)系統(tǒng)的維護和管理是容災(zāi)切換成功的重要保證,在系統(tǒng)建設(shè)中,就必須要考慮系統(tǒng)的維護管理流程。生產(chǎn)中心任何業(yè)務(wù)處理過程的改變都必須完整地復(fù)制到備份中心; 所有新業(yè)務(wù)系統(tǒng)上線時,必須通知備份中心,并在備份中心配置好數(shù)據(jù)同步機制; 對原程序的改動也必須保證兩個中心同時上線。
第四,系統(tǒng)恢復(fù)時間要盡可能短。容災(zāi)系統(tǒng)主要是為了實現(xiàn)在主中心系統(tǒng)發(fā)生災(zāi)難時,可以在規(guī)定時間切換到備份中心,保證數(shù)據(jù)不會丟失,并且繼續(xù)向用戶提供服務(wù)。但往往在災(zāi)難發(fā)生時,主要技術(shù)人員不能及時到達現(xiàn)場,為了順利實現(xiàn)系統(tǒng)間的切換,應(yīng)該讓系統(tǒng)切換操作盡可能地簡單; 并建立固定化的、標(biāo)準(zhǔn)化的切換流程,要求維護人員在切換演習(xí)時嚴(yán)格按照流程的指導(dǎo)步驟進行操作。
第五,可實現(xiàn)部分業(yè)務(wù)子系統(tǒng)的切換和回切。當(dāng)人事變動、業(yè)務(wù)變化、IT設(shè)施變化以及其他可能引起恢復(fù)規(guī)劃文檔失效的變化發(fā)生時,應(yīng)及時更新各恢復(fù)規(guī)劃文檔,并在必要時啟動模擬測試或演習(xí),確保業(yè)務(wù)連續(xù)性系統(tǒng)的工作能力。
第六,技術(shù)方案選擇要遵循成熟穩(wěn)定、高可靠性、可擴展性、透明性的原則。國際上比較成熟的容災(zāi)技術(shù)包括: SAN/NAS技術(shù)、遠程鏡像技術(shù)、虛擬存儲、基于IP的SAN互連技術(shù)以及快照技術(shù)等。其中基于IP的SAN遠程數(shù)據(jù)容災(zāi)備份技術(shù)應(yīng)用比較廣泛,其是利用基于IP的SAN的互連協(xié)議,將主數(shù)據(jù)中心SAN中的信息通過現(xiàn)有的TCP/IP網(wǎng)絡(luò),遠程復(fù)制到備份中心的SAN中的。當(dāng)備份中心存儲的數(shù)據(jù)量過大時,可利用快照技術(shù)將其備份到磁帶庫或光盤庫。這種基于IP的SAN遠程容災(zāi)備份,可以跨越LAN、MAN和WAN,成本低、可擴展性好?;贗P的互連協(xié)議主要包括FCIP、iFCP、InfiniBand、iSCSI等。
第七,構(gòu)建系統(tǒng)方案可以選擇多種技術(shù)組合方式。業(yè)內(nèi)應(yīng)用較多的容災(zāi)方案是基于智能存儲系統(tǒng)的遠程數(shù)據(jù)復(fù)制技術(shù),它是由智能存儲系統(tǒng)自身實現(xiàn)的數(shù)據(jù)遠程復(fù)制和同步,即智能存儲系統(tǒng)將對該系統(tǒng)中的存儲器I/O操作請求復(fù)制到遠端的存儲系統(tǒng)中并執(zhí)行。由于在這種方式下,數(shù)據(jù)復(fù)制軟件運行在存儲系統(tǒng)內(nèi),因此較容易實現(xiàn)主中心和容災(zāi)備份中心的操作系統(tǒng)、數(shù)據(jù)庫、系統(tǒng)庫和目錄的實時拷貝及維護能力,且不會影響主中心主機系統(tǒng)的性能。如果在系統(tǒng)恢復(fù)場具備了實時數(shù)據(jù),那么就可以做到在災(zāi)難發(fā)生時,及時開始應(yīng)用處理過程的恢復(fù)。但這種方案也有開放性差(不同廠家的存儲設(shè)備系統(tǒng)一般不能配合使用)、對于主、備中心之間的網(wǎng)絡(luò)條件(穩(wěn)定性、帶寬、鏈路空間距離)要求較苛刻等缺點。
制度流程按照容災(zāi)能力的高低,數(shù)據(jù)容災(zāi)可分為多個層次,按國際標(biāo)準(zhǔn)SHARE 78定義的容災(zāi)系統(tǒng)有七個層次:從最簡單的僅在本地進行磁帶備份,到將備份的磁帶存儲在異地,再到建立應(yīng)用系統(tǒng)實時切換的異地備份系統(tǒng); 恢復(fù)時間也可以從幾天到小時級再到分鐘級、秒級或0數(shù)據(jù)丟失等。
無論是采用哪種容災(zāi)方案,數(shù)據(jù)備份還是最基礎(chǔ)的,沒有備份的數(shù)據(jù),任何容災(zāi)方案都是沒有現(xiàn)實意義的。當(dāng)然,光有備份也是不夠的,容災(zāi)也必不可少。在建立容災(zāi)系統(tǒng)的過程中,建設(shè)容災(zāi)系統(tǒng)模型、容災(zāi)演習(xí)制度以及容災(zāi)系統(tǒng)管理流程都非常重要。
而容災(zāi)系統(tǒng)主要是從業(yè)務(wù)連續(xù)能力、應(yīng)用系統(tǒng)連續(xù)能力、網(wǎng)絡(luò)連續(xù)能力三個方面來保證業(yè)務(wù)應(yīng)用系統(tǒng)的正常運行的。
對于數(shù)據(jù)級容災(zāi),可以采用定期拷貝的方式,如磁帶備份、數(shù)據(jù)快照、廉價存儲等。定期拷貝是在業(yè)務(wù)運行過程中某一時刻對生產(chǎn)數(shù)據(jù)的保護,這種保護一般在業(yè)務(wù)正常運行時生成,主要預(yù)防業(yè)務(wù)因生產(chǎn)數(shù)據(jù)的邏輯故障而造成的停頓。當(dāng)產(chǎn)生的數(shù)據(jù)因人為誤操作而損壞時,可以利用該定期拷貝將業(yè)務(wù)狀態(tài)恢復(fù)到損壞發(fā)生前的某一時刻(即執(zhí)行定期拷貝時)的業(yè)務(wù)狀態(tài)。在業(yè)務(wù)恢復(fù)過程中,輔以其他手段(如手工錄入等),補充自定期拷貝生成時至業(yè)務(wù)中斷時這一段時間內(nèi)業(yè)務(wù)運行產(chǎn)生的數(shù)據(jù)。
對于應(yīng)用級容災(zāi),可以采用連續(xù)復(fù)制的方式,如應(yīng)用分發(fā)、數(shù)據(jù)庫復(fù)制、文件系統(tǒng)復(fù)制、邏輯卷復(fù)制、智能存儲等。連續(xù)復(fù)制是對業(yè)務(wù)狀態(tài)數(shù)據(jù)進行持續(xù)不斷的復(fù)制,主要是預(yù)防業(yè)務(wù)系統(tǒng)遭遇嚴(yán)重故障而造成生產(chǎn)系統(tǒng)長時間無法修復(fù),利用該復(fù)制作為恢復(fù)生產(chǎn)的基礎(chǔ)。在進行業(yè)務(wù)恢復(fù)時,利用復(fù)制結(jié)果可以恢復(fù)系統(tǒng)中斷現(xiàn)場的生產(chǎn)數(shù)據(jù),從而恢復(fù)業(yè)務(wù)。
容災(zāi)演習(xí)是對容災(zāi)項目建設(shè)是否成功的檢驗標(biāo)準(zhǔn),也是對容災(zāi)維護管理流程和文檔檢測的重要手段。通過演習(xí)可以及時發(fā)現(xiàn)問題,并確保各相關(guān)部門的配合和人員的操作準(zhǔn)確無誤。容災(zāi)演習(xí)的主要工作內(nèi)容包括:對業(yè)務(wù)影響的評估、核查恢復(fù)規(guī)劃、制定回退計劃、觸發(fā)演習(xí)場景、執(zhí)行恢復(fù)規(guī)劃、總結(jié)報告、維護等。
此外,容災(zāi)系統(tǒng)管理流程的建立也至關(guān)重要,容災(zāi)項目的實現(xiàn)過程是人員、流程、技術(shù)相輔相成的過程,容災(zāi)管理流程的建立是容災(zāi)系統(tǒng)成功運作的保證。通過固化的流程,指導(dǎo)維護人員按照實現(xiàn)規(guī)定的步驟進行系統(tǒng)切換和演習(xí)工作,才能保證容災(zāi)技術(shù)的最終實現(xiàn)。
技術(shù)范疇我們常說的容災(zāi)系統(tǒng)就屬于IT容災(zāi)和恢復(fù)的技術(shù)范疇,這是一個完整的業(yè)務(wù)連續(xù)性大框架內(nèi)的一個極為重要的部分,甚至于可能是最有份量的部分。一般而言,建設(shè)災(zāi)備系統(tǒng),需要根據(jù)業(yè)務(wù)的要求和投入規(guī)模,確定業(yè)務(wù)連續(xù)性管理的范圍和程度,然后,針對IT容災(zāi)和恢復(fù)提出切實可行的方案。缺少任何一個環(huán)節(jié),整個災(zāi)備體系的建設(shè)都是不完整的。沒有IT容災(zāi)和恢復(fù)的技術(shù)實現(xiàn),整個災(zāi)備體系的規(guī)劃和計劃就是無源之水和空中樓閣,根本沒有根基。而沒有一個完善的業(yè)務(wù)連續(xù)性體系,則使得整個業(yè)務(wù)的災(zāi)難后的連續(xù)運行無法有效進行,整個組織無法形成聯(lián)動機制,做到危機響應(yīng)和危機應(yīng)急。
技術(shù)手段IT系統(tǒng)的災(zāi)備技術(shù)手段根據(jù)IT系統(tǒng)的構(gòu)成有很大的差異,各類手段在適合系統(tǒng)的程度上主要取決于系統(tǒng)本身的組成和建設(shè)要求。比如,IT系統(tǒng)由多操作系統(tǒng)組成,并且災(zāi)備系統(tǒng)不能更改生產(chǎn)系統(tǒng)原有的格局,則可行的技術(shù)手段就極為嚴(yán)格,需要相當(dāng)慎重的選擇。災(zāi)備技術(shù)實現(xiàn)手段中最為重要的一個步驟就是通過網(wǎng)絡(luò)的連接,將本地端的數(shù)據(jù)復(fù)制一份到遠程保存,聽起來似乎不難,但在復(fù)雜的IT架構(gòu)下,要想成功實現(xiàn)確也并不容易。以往,受制于容災(zāi)技術(shù)實現(xiàn)手段的局限,主要有主機型和存儲型兩大類容災(zāi)方式,而今天,更是出現(xiàn)了具有更強能力的存儲網(wǎng)絡(luò)型的虛擬化容災(zāi)方式,使得容災(zāi)的技術(shù)手段開始豐富起來?,F(xiàn)在開始流行的CDP連續(xù)備份技術(shù)更是使容災(zāi)和備份兩大不同的體系開始走向融合。
遠程容災(zāi)主機型遠程容災(zāi)簡單的說,就是通過安裝在服務(wù)器的數(shù)據(jù)復(fù)制軟件,或是應(yīng)用程序提供的數(shù)據(jù)復(fù)制/災(zāi)難恢復(fù)工具(如數(shù)據(jù)庫的相關(guān)工具),利用TCP/IP網(wǎng)絡(luò)連接遠端的容備服務(wù)器,實現(xiàn)異地數(shù)據(jù)復(fù)制。
主機型遠程容災(zāi)的優(yōu)點是在服務(wù)器較少的環(huán)境下,所需的成本較低,用戶不需更換太多現(xiàn)有的系統(tǒng)架構(gòu),也不用擔(dān)心后端存儲系統(tǒng)的兼容性問題,只需支付軟件的授權(quán)費和災(zāi)備端的硬件設(shè)備費用即可。但如果是服務(wù)器數(shù)量較多的環(huán)境,管理上的復(fù)雜程度就會增加,整體的投入成本成也會增加。它的另一個缺點是軟件安裝在應(yīng)用程序主機上,運行時會消耗主機的運行資源,如果硬件的等級不高,就可能給應(yīng)用程序帶來影響。
異地容災(zāi)存儲系統(tǒng)型異地容災(zāi)顧名思義是基于存儲系統(tǒng)(光纖磁盤陣列、NAS)的模式。通過存儲系統(tǒng)內(nèi)建的固件(firmware)或操作系統(tǒng),通過IP網(wǎng)絡(luò)或DWDM、光纖通道等傳輸介面連結(jié),將數(shù)據(jù)以同步或異步的方式復(fù)制到遠端。知名的存儲系統(tǒng)型遠程容災(zāi)方案有SRDF、TrueCopy、PPRC等。
系統(tǒng)比較與主機型遠程容災(zāi)相比,存儲系統(tǒng)型遠程容災(zāi)的優(yōu)點就是將數(shù)據(jù)與運行分開,對主機系統(tǒng)的運行資源影響比較小。另外,由于運行機制大多是利用鏡像(mirror)來復(fù)制數(shù)據(jù),并借助高速緩沖存儲器加速I/O存取,兩端的數(shù)據(jù)差異時間點比較小,加上存儲系統(tǒng)本身具備一定的容錯能力,具有一定的運行性能和可靠性。
而存儲系統(tǒng)型遠程容災(zāi)的最大的限制就在于其昂貴的構(gòu)造成本。由于用戶必須在本地端和災(zāi)備端分?e配置兩套相同的存儲系統(tǒng),不僅采購成本高,而且還要受制于單一的設(shè)備廠商,未來的擴展性勢必缺乏彈性。此外,光纖通道存儲系統(tǒng)如果要構(gòu)造遠程容災(zāi),必須在本地端和災(zāi)備端各安裝一臺FC-to-IP轉(zhuǎn)接器,硬件成本就會超過5萬美元,再加上網(wǎng)絡(luò)帶寬成本的話,整體費用投入定會令人咋舌。如果企業(yè)在安裝前沒有經(jīng)過謹(jǐn)慎評估的話,建置存儲系統(tǒng)型遠程容災(zāi)極有可能造成IT支出的黑洞,加重財務(wù)負擔(dān)。另外,存儲型容災(zāi)方式對于數(shù)據(jù)庫的一致性容災(zāi)存在很大的缺陷。在多點到一點的容災(zāi)架構(gòu)上存在不適用性。
使用方式虛擬化容災(zāi)方式一種網(wǎng)絡(luò)存儲型遠程容災(zāi)架構(gòu),是在前端應(yīng)用服務(wù)器與后端存儲系統(tǒng)之間的存儲區(qū)域網(wǎng)絡(luò)(SAN),加入一層存儲網(wǎng)關(guān),這個網(wǎng)關(guān)和我們所了解的網(wǎng)絡(luò)網(wǎng)關(guān)不同,以虛擬存儲的代表技術(shù)美國飛康軟件公司的方案為例,它結(jié)合了IPStor專用管理器,前端連接服務(wù)器主機,后端連接存儲設(shè)備,它的角色就好像是存儲網(wǎng)絡(luò)中的交通警察,所有的I/O都交由它來控制管理。當(dāng)然,出現(xiàn)了旁路(side-band)的控制方式,對于IO流量進行旁路監(jiān)控和分流,實現(xiàn)異地數(shù)據(jù)復(fù)制。
系統(tǒng)特點虛擬化遠程容災(zāi)的優(yōu)點就是功能強大。由于數(shù)據(jù)復(fù)制是通過存儲網(wǎng)關(guān)來執(zhí)行,應(yīng)用服務(wù)器只需數(shù)據(jù)庫執(zhí)行代理程序,相對于主機型遠程容災(zāi)來說,它的性能影響十分低。另外,通過存儲網(wǎng)關(guān)的虛擬化技術(shù),可以整合前端異構(gòu)平臺的服務(wù)器和后端不同品牌的存儲設(shè)備,本地端和災(zāi)備端的設(shè)備無需成對配置,用戶可以根據(jù)RTO和RPO,在遠端建立完整的熱備份中心,當(dāng)本地端發(fā)生災(zāi)難時立即接管業(yè)務(wù)運行;或是采取僅在災(zāi)備端安裝存儲設(shè)備的溫站配置,先保護數(shù)據(jù)的完整性和安全性,在本地端修復(fù)完成后再進行恢復(fù)。
除了上述的不占用主機運行資源,以及不具備存儲平臺局限性之外,成本更是存儲網(wǎng)絡(luò)型遠程容災(zāi)的最大優(yōu)勢。
首先,構(gòu)造時不需更換原有的IT基礎(chǔ)架構(gòu),只需在原本的存儲區(qū)域網(wǎng)絡(luò)中加入存儲網(wǎng)關(guān),本地端的主機和存儲設(shè)備可以是任何品牌,災(zāi)備端的主機和存儲設(shè)備也不需和本地端相同,用戶甚至可以在災(zāi)備端采用等級較低的存儲系統(tǒng)(如SATA磁盤陣列),根據(jù)統(tǒng)計,投資成本可節(jié)省多達30%左右,對于那些有構(gòu)造遠程容災(zāi)的熱切需要而IT預(yù)算又十分有限的客戶來說,虛擬化遠程容災(zāi)無疑是最佳的選擇。其次,針對數(shù)據(jù)庫專用代理確保數(shù)據(jù)庫具有完整的容災(zāi)和啟動能力,無需擔(dān)憂無法啟動的現(xiàn)象發(fā)生。更為重要的是,在存儲數(shù)據(jù)上進行的多點快照等增值功能,能使得各種數(shù)據(jù)的人為破壞均可以得到瞬間恢復(fù)的能力(也就是歷史數(shù)據(jù)的恢復(fù)能力,這在前兩種容災(zāi)方式中是一種恢復(fù)的盲點),是一種相當(dāng)完整的容災(zāi)體系,其涵蓋的災(zāi)難抗擊范圍遠超過前述的各類方式。另外,對于異地傳輸?shù)膸捳加?,虛擬化容災(zāi)方式具有各類調(diào)優(yōu)方式,使得這種方式能夠最大限度適應(yīng)用戶現(xiàn)有的網(wǎng)絡(luò)環(huán)境。在這種容災(zāi)體系中,容災(zāi)的構(gòu)建已經(jīng)不再是難事,災(zāi)難也不再是極為可怕的事情。
CDP的技術(shù)也是虛擬化容災(zāi)方式所衍生出來的一種實時系統(tǒng)備份技術(shù),是一種容災(zāi)和備份的合成技術(shù)。
北京和力記易是一家專注于數(shù)據(jù)容災(zāi)備份解決方案的廠家,我們的產(chǎn)品UPM數(shù)據(jù)庫保鏢已經(jīng)被20多萬家企業(yè)客戶所使用,并受到他們的好評。
恢復(fù)七要素在明確了災(zāi)備建設(shè)中災(zāi)難恢復(fù)能力等級目標(biāo)之后,另一個重要問題是在具體建設(shè)中應(yīng)該考慮哪些資源要素。下表是對《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》中災(zāi)備建設(shè)內(nèi)容的總結(jié),我們稱之為災(zāi)備建設(shè)的七要素,《規(guī)范》中對災(zāi)備恢復(fù)資源七要素的詳細定義,可以引導(dǎo)災(zāi)備建設(shè)單位全面考慮災(zāi)難恢復(fù)建設(shè)的各個相關(guān)方面,防止片面強調(diào)個別要素而忽略整體。廣道容災(zāi)備份系統(tǒng)對信息系統(tǒng)關(guān)鍵數(shù)據(jù)進行實時保護的同時,保證業(yè)務(wù)持續(xù)運行,全面覆蓋信息系統(tǒng)常見故障及災(zāi)難,為數(shù)據(jù)中心提供最為全面的保護與快速恢復(fù)機制。
備用基礎(chǔ)設(shè)施
災(zāi)難備份中心選址與建設(shè)
備用的機房及工作輔助設(shè)施和生活設(shè)施
數(shù)據(jù)備份系統(tǒng)
數(shù)據(jù)備份范圍與RPO
數(shù)據(jù)備份技術(shù)
數(shù)據(jù)備份線路
數(shù)據(jù)處理系統(tǒng)
數(shù)據(jù)處理能力
與生產(chǎn)系統(tǒng)的兼容性要求
平時的狀態(tài)(處于就緒還是運行)
備用網(wǎng)絡(luò)系統(tǒng)
備用網(wǎng)絡(luò)通信設(shè)備系統(tǒng)與備用通信線路的選擇
備用通信線路的使用狀況
災(zāi)難恢復(fù)預(yù)案
明確災(zāi)難恢復(fù)預(yù)案的整體要求、制訂過程的要求、教育、培訓(xùn)和演練要求、管理要求
維護管理能力
運行維護管理組織架構(gòu)
人員的數(shù)量和素質(zhì)
運行維護管理制度
其他要求
技術(shù)支持能力
軟件、硬件和網(wǎng)絡(luò)等方面的技術(shù)支持要求
技術(shù)支持的組織架構(gòu)
各類技術(shù)支持人員的數(shù)量和素質(zhì)等
本詞條內(nèi)容貢獻者為:
徐恒山 - 講師 - 西北農(nóng)林科技大學(xué)