容災備份是通過在異地建立和維護一個備份存儲系統,利用地理上的分離來保證系統和數據對災難性事件的抵御能力。
根據容災系統對災難的抵抗程度,可分為數據容災和應用容災。數據容災是指建立一個異地的數據系統,該系統是對本地系統關鍵應用數據實時復制。當出現災難時,可由異地系統迅速接替本地系統而保證業務的連續性。應用容災比數據容災層次更高,即在異地建立一套完整的、與本地數據系統相當的備份應用系統(可以同本地應用系統互為備份,也可與本地應用系統共同工作)。在災難出現后,遠程應用系統迅速接管或承擔本地應用系統的業務運行。
設計一個容災備份系統,需要考慮多方面的因素,如備份/恢復數據量大小、應用數據中心和備援數據中心之間的距離和數據傳輸方式、災難發生時所要求的恢復速度、備援中心的管理及投入資金等。根據這些因素和不同的應用場合,通常可將容災備份分為四個等級。
第0級:沒有備援中心
這一級容災備份,實際上沒有災難恢復能力,它只在本地進行數據備份,并且被備份的數據只在本地保存,沒有送往異地。
第1級:本地磁帶備份,異地保存
在本地將關鍵數據備份,然后送到異地保存。災難發生后,按預定數據恢復程序恢復系統和數據。這種方案成本低、易于配置。但當數據量增大時,存在存儲介質難管理的問題,并且當災難發生時存在大量數據難以及時恢復的問題。為了解決此問題,災難發生時,先恢復關鍵數據,后恢復非關鍵數據。
第2級:熱備份站點備份
在異地建立一個熱備份點,通過網絡進行數據備份。也就是通過網絡以同步或異步方式,把主站點的數據備份到備份站點,備份站點一般只備份數據,不承擔業務。當出現災難時,備份站點接替主站點的業務,從而維護業務運行的連續性。
第3級:活動備援中心
在相隔較遠的地方分別建立兩個數據中心,它們都處于工作狀態,并進行相互數據備份。當某個數據中心發生災難時,另一個數據中心接替其工作任務。這種級別的備份根據實際要求和投入資金的多少,又可分為兩種:①兩個數據中心之間只限于關鍵數據的相互備份;②兩個數據中心之間互為鏡像,即零數據丟失等。零數據丟失是目前要求最高的一種容災備份方式,它要求不管什么災難發生,系統都能保證數據的安全。所以,它需要配置復雜的管理軟件和專用的硬件設備,需要投資相對而言是最大的,但恢復速度也是最快的。
容災備份的關鍵技術
在建立容災備份系統時會涉及到多種技術,如:SAN或NAS技術、遠程鏡像技術、基于IP的SAN的互連技術、快照技術等。這里重點介紹遠程鏡像、快照和互連技術。
1. 遠程鏡像技術
遠程鏡像技術是在主數據中心和備援中心之間的數據備份時用到。鏡像是在兩個或多個磁盤或磁盤子系統上產生同一個數據的鏡像視圖的信息存儲過程,一個叫主鏡像系統,另一個叫從鏡像系統。按主從鏡像存儲系統所處的位置可分為本地鏡像和遠程鏡像。遠程鏡像又叫遠程復制,是容災備份的核心技術,同時也是保持遠程數據同步和實現災難恢復的基礎。遠程鏡像按請求鏡像的主機是否需要遠程鏡像站點的確認信息,又可分為同步遠程鏡像和異步遠程鏡像。
同步遠程鏡像(同步復制技術)是指通過遠程鏡像軟件,將本地數據以完全同步的方式復制到異地,每一本地的I/O事務均需等待遠程復制的完成確認信息,方予以釋放。同步鏡像使遠程拷貝總能與本地機要求復制的內容相匹配。當主站點出現故障時,用戶的應用程序切換到備份的替代站點后,被鏡像的遠程副本可以保證業務繼續執行而沒有數據的丟失。但它存在往返傳播造成延時較長的缺點,只限于在相對較近的距離上應用。
異步遠程鏡像(異步復制技術)保證在更新遠程存儲視圖前完成向本地存儲系統的基本I/O操作,而由本地存儲系統提供給請求鏡像主機的I/O操作完成確認信息。遠程的數據復制是以后臺同步的方式進行的,這使本地系統性能受到的影響很小,傳輸距離長(可達1000公里以上),對網絡帶寬要求小。但是,許多遠程的從屬存儲子系統的寫沒有得到確認,當某種因素造成數據傳輸失敗,可能出現數據一致性問題。為了解決這個問題,目前大多采用延遲復制的技術(本地數據復制均在后臺日志區進行),即在確保本地數據完好無損后進行遠程數據更新。
2.快照技術
遠程鏡像技術往往同快照技術結合起來實現遠程備份,即通過鏡像把數據備份到遠程存儲系統中,再用快照技術把遠程存儲系統中的信息備份到遠程的磁帶庫、光盤庫中。
快照是通過軟件對要備份的磁盤子系統的數據快速掃描,建立一個要備份數據的快照邏輯單元號LUN和快照cache。在快速掃描時,把備份過程中即將要修改的數據塊同時快速拷貝到快照cache中。快照LUN是一組指針,它指向快照cache和磁盤子系統中不變的數據塊(在備份過程中)。在正常業務進行的同時,利用快照LUN實現對原數據的一個完全的備份。它可使用戶在正常業務不受影響的情況下(主要指容災備份系統),實時提取當前在線業務數據。其“備份窗口”接近于零,可大大增加系統業務的連續性,為實現系統真正的7×24運轉提供了保證。
快照是通過內存作為緩沖區(快照cache),由快照軟件提供系統磁盤存儲的即時數據映像,它存在緩沖區調度的問題。
3.互連技術
早期的主數據中心和備援數據中心之間的數據備份,主要是基于SAN的遠程復制(鏡像),即通過光纖通道FC,把兩個SAN連接起來,進行遠程鏡像(復制)。當災難發生時,由備援數據中心替代主數據中心保證系統工作的連續性。這種遠程容災備份方式存在一些缺陷,如:實現成本高、設備的互操作性差、跨越的地理距離短(10公里)等,這些因素阻礙了它的進一步推廣和應用。
目前,出現了多種基于IP的SAN的遠程數據容災備份技術。它們是利用基于IP的SAN的互連協議,將主數據中心SAN中的信息通過現有的TCP/IP網絡,遠程復制到備援中心SAN中。當備援中心存儲的數據量過大時,可利用快照技術將其備份到磁帶庫或光盤庫中。這種基于IP的SAN的遠程容災備份,可以跨越LAN、MAN和WAN,成本低、可擴展性好,具有廣闊的發展前景。基于IP的互連協議包括:FCIP、iFCP、Infiniband、iSCSI等。
衡量容災備份的兩個技術指標
RPO(Recovery Point Objective):即數據恢復點目標,主要指的是業務系統所能容忍的數據丟失量。
RTO(Recovery Time Objective):即恢復時間目標,主要指的是所能容忍的業務停止服務的最長時間,也就是從災難發生到業務系統恢復服務功能所需要的最短時間周期。
RPO針對的是數據丟失,而RTO針對的是服務丟失,二者沒有必然的關聯性。RTO和RPO的確定必須在進行風險分析和業務影響分析后根據不同的業務需求確定。對于不同企業的同一種業務,RTO和RPO的需求也會有所不同。