災難復原系統等級不同 對應備援等級亦大不同 智慧應用 影音
vishay
ST Microsite

災難復原系統等級不同 對應備援等級亦大不同

  • 耿慧茹台北

前言:
企業的系統、資料要達到最佳保護狀態,自然就是盡可能縮短系統中斷到回復的時間,且將系統中斷所造成的資料損失降到最低。不過,這也代表企業必須支付相當的金錢代價。在金錢與保護間要達到怎樣的平衡,並無定論,還是要回歸到業務面的考量。

本文:
企業資訊系統面臨的風險可概略分天災與人禍。天災從地震、水災、到各種無預警的災難屬之;而人禍則包括火災、人為操作失誤、惡意破壞等。這些災難發生的頻率不一,但都會對系統造成不可彌補的損傷。

LR6C13C1異地備援系統建置七層級

LR6C13C1異地備援系統建置七層級

在當下企業營運已全由資訊來啟動、維持的狀況,包括客戶資料、財會、稅務與庫存記錄、訂單細節等,全部儲存在系統中,若沒有足夠的保護,將直接影響到企業的運作、獲利。因此,企業對備援解決方案的需求,也日益殷切。

異地備援主要任務 為企業建立第二個資料與回復設備

所謂的災難復原(Disaster Recovery;DR),是針對企業資訊架構進行異地備援,也稱為異地備援系統。它是主系統外的另一套系統,當主系統中斷後,這套備用設備可以立刻接手,企業不需等待原有系統修復,只需將作業環境切換,即可持續正常的工作,讓業務不中斷(Business Continuity)的目標得以達成。

異地備援與企業系統所使用的叢集式架構(Cluster)不同,它具備資料叢集特性的資料,可以讓多台伺服器主機同時透過光纖(Fiber)或SCSI介面來存取、使用。

一般來說,企業針對本地的系統,都會建立叢集式架構,讓多組設備共同支援一個工作,以便在其中1組設備中斷時,其他設備可以接手。但叢集式架構,不管以軟體、伺服器來做,都是在相鄰近的區域、機房進行,系統內只存有1份資料,如果此機房遭到不可測的意外,工作一樣會中斷。

然異地備援不等於系統的高可用性架構(High Availability;HA),所謂的高可用性運算環境,是指在伺服器主機或儲存設備端,提供冗餘(Redundancy)的各種元件,讓系統不會因為單點失效(Single Point of Failure)造成存取動作中斷,但在HA架構下,系統中的資料仍然是存有1份。

技術的發展,讓主機端的HA,已經開發出結合資料異地複製的進階技術,可做到在異地端也產生一個資料副本,當災難發生時,可透過HA的軟體,將系統服務從本地端切換到異地端,達到異地備援的目的。

企業比較熟悉的資料保護是備份(Backup),備份針對的是企業資料的保護,而備援則是確認這些資料,不只被保護,且能夠繼續作業、使用,對業務的支援程度遠大於備份。

備援最主要目的,就是讓另一套設備,將原來系統的工作拯救回來。建立1套異地備援系統,除了伺服器主機,至少必須具備相對應的作業系統(Unix、Window、Linux)、磁碟陣列、磁帶機,其他包括風扇、電源供應器等元件,傳輸資料的網路,都得一應俱全,更重要的是,必須選擇適當的地點,放置這些設備。

異地備援7個層級的分別與作法

根據IBM的定義,災難復原系統可依照對系統保護的程度與等級,分7個層次。這7個層級基本上可以區分為非在線系統、伺服器層次、儲存設備層次。層次由0到7,依照這個定義下的分類,被訂為等級0的企業,就是完全沒有備份或備援的相關設備與策略。

被定義為第一層級的企業,稱之為人工接駁啟動(Pickup Truck Access Method;PTAM),就是必須藉由人力,將存放於第二個地點的資料,運送回來,讓系統可以重新作業。PTAM的企業,沒有第二地機房或備援設備,只針對資料進行備份。系統重新開始運作的時間,視第二個據點距離而定,通常需要數天以至於1個星期。

被定義為第二層級的企業,稱為PTAM加上備援系統(Hot Site)。同樣是以資料備份為主,但在主機以外的第二個地點,是有機房的,也就是具備基本的備援條件,只是未建構成隨時複製資料的系統。

被定義為第三層級的企業,稱為電子式分批複製(Electronic Vaulting),本地系統所產生的資料,會在間隔一段時間後,就出現於異地系統;至於被定義為第四層級的企業,是Electronic Vaulting加上Hot-Site,就是兩點間已經有線上的資料庫複製設備,再連接高速網路,傳輸資料,因此系統復原時,可直接由第二地系統接手,只是必須透過軟體來複製,因此接手的時間距離系統中斷,大概會產生十幾個小時的時間差。

被定義為第五層級的企業,基本上兩個地點都佈建相同的設備,特別是儲存設備已經是對等的,因此回復時間在12個小時內;被定義為第六層級的企業,設備間直接傳輸,因此回復時間在數小時,甚至是幾分鐘內。第五層級和第六層級雖同為儲存設備等級的備援,但仍有差別。至於差別在兩端的系統,是否會主動偵測對方的狀況,達到第六層級的備援架構,通常會裝設偵測系統,發生當機事件,異地系統會在第一時間內發現,自行啟動。

至於第七層級則稱為完全自動化,無中斷時間的設備(Automation Zero Downtime)。就是只要本地系統一發生中斷,異地系統立刻接手,中間沒有等候時間。台灣富士通產品行銷處專案經理吳明宗指出,這種系統稱之為Active-active,即兩端系統都是自動且資料備份的工作完全同步。

這7個層級的定義,是由系統中斷到重新回復間隔的時間,及建置系統所花費的成本等因素來定義的。第一層級所需的恢復時間最長,但成本最少;而第七層級正好相反,恢復系統運作的時間幾近於0,不過建置成本相對來說非常高。吳明宗指出,完全自動、同步的系統所以昂貴,在於本地系統的每一筆資料,都必須直接對兩地的系統寫入,因此第二地系統需要另外購買資料庫虛擬軟體(如:Oracle RAC),為第二地系統虛擬出寫入窗口,此外,由於兩邊的資料庫是同時運作,因此資料庫軟體得購買兩倍的數量,加上頻寬租賃費用,自然非常可觀。

業務運作需求 是決定備援系統層級的關鍵因素

到底要做到哪一層次的備援,企業最重視的仍然在總體持有成本(Total Cost)。決定異地備援系統成本的兩個重要因素,為回復所需時間(Recovery Time Objective;RTO)和資料損失量(Recovery Point Objective;RPO)。RTO計算的是系統中斷到重新啟動間所經歷的時間;RPO則是指在系統中斷時間間隔中,資料損失的狀況。

企業的系統、資料要達到最佳保護狀態,自然就是系統中斷時間到回復時間盡可能縮短,且因系統中斷所造成的資料損失降到最低,這也代表企業必須支付相當的金錢代價。

金錢與保護間要達到怎樣的平衡,並無定論;企業型態不同,所需要的備援系統也大相逕庭,一般說來,金融、電信、高科技產業,因為系統必須達到不間斷服務的需求,因此無論是RTO或RPO,都需要達到最短、最少的目標,甚至必須達到第七層級的最高可用性(即99.99999%的可靠性),也就是容錯式架構(Fault Tolerable;FA)。

有些系統不需要時刻維持服務,就可以用伺服器層次的解決方案;對於沒有線上服務的中小企業,則只需將資料挽救回來即可。根據廠商建置的經驗,台灣絕大部分中小企業都集中在第二層次的保護;而中大型企業則以第五、第六層級為多。

要針對哪些系統建置異地備援,也是決定建置預算的要素。為了控制成本,企業多只會針對最重要的系統來作。以製造業為例,生產製造執行系統是最重要的,因為這個系統中的任何一個模組(諸如:CP、WAT、DDMS、RTD、EDA)若發生問題,生產線必然無法繼續運作,因此多數高科技製造業的備援,會以此為主;而在金融業或電信業,帳務、交易、櫃臺系統的備援則特別重要;如果是零售業,前端銷售系統(Point of Sales;POS)的備援就是最先被考量的了。