一行命令致使的數據丟失,阿里工程師是如何恢復的?

阿里妹導讀:數據安全性被提到了史無前例的高度,數據保護的話題愈來愈成爲敏感。由於,業務的中斷時間對用戶形成的影響越來越大。阿里技術專家凡鈞從數據安全的形勢與發展,面臨的挑戰,問題的定義,傳統的解決方案,當前雲廠商的解決方案,去闡述什麼是連續數據保護並提出了彈性的可驗證的連續數據保護方案(Elastic Assured Continuous Data Protection)。數據庫

1、摘要

相比於傳統的連續數據保護等的解決方案,須要在Guest OS 層面或者在專有的存儲層面,進行寫時數據變化日誌的獲取,或多或少對生產機的存儲性能有很大的影響,一旦上雲,必將加劇客戶的計算成本及存儲成本。即便是混合的架構部署,在網絡的帶寬,實施的複雜性層面也很難與雲端實施相比,很難知足傳統企業客戶的更低的RPO(Recovery Point Objective)及RTO(Recovery Time Objective)的訴求。雖然,連續數據保護的產品定位與快照,複製(Replication)的功能有所重合,但CDP的定位更加寬泛,注重數據的保護,恢復,更高效的業務連續性,不只僅侷限於快照的實現及數據的搬移。安全

新的Pangu2.0的塊存儲的全新的架構爲實現雲端連續性數據保護提供了契機,特別是日誌結構塊設備(Log Structure Block Device),其中包括:全新的數據寫入方式,日誌存儲方式及快照方式等都極大地方便了連續數據保護的的實現。相信隨着企業上雲的加速,在兼顧存儲性能的同時,將會知足傳統高級企業用戶的低RTO及低RPO的數據保護的緊迫需求。但數據備份及數據備份在考慮可操做的同時,數據可恢復的操做性在很大程度上決定了數據保護的有效性。網絡

2、數據保護的挑戰

在當今,數據安全性被提到了史無前例的高度,數據保護的話題愈來愈成爲敏感。由於,業務的中斷時間對用戶形成的影響越來越大。在2017年,病毒,勒索軟件,如WannCry, Peta 及 Locky及頻繁的刪庫誤操做,甚至有些對用戶的備份軟件進行直接攻擊,使得雲端用戶對數據安全及數據保護的指望越來越高。架構

數據變得愈來愈重要: 數據=資產 數據=資源框架

2017年1月,「Gitlab誤刪庫事件」引發業界對信息安全和重大風險的敏感神經。值得關注的是,在Gitlab恢復的過程當中,發現只有db1.staging的數據庫能夠用於恢復,而其它的5種備份機制都不可用。而db1.staging 是6小時前的數據,並且傳輸速率有限,致使恢復進程緩慢,Gitlab 最終丟掉了差很少6個小時的數據。異步

所以,如何下降數據丟失的風險,減少數據保護的窗口,下降用戶的損失,提供高效的恢復機制,是用戶的迫切須要。另外,從一個側面能夠看出,低RTO及可驗證的恢復性,對數據保護的重要性;數據的可恢復性相對於存儲成本在此刻是及其重要的救命稻草。分佈式

3、連續性數據保護的定義

存儲網絡協會(SNIA)對於連續性數據保護的定義爲:連續數據保護是一套方法,它能夠捕獲或跟蹤數據的變化,並將其獨立保存放在生產數據之外,以確保數據能夠恢復到過去的任意時間點。連續數據保護,能夠基於塊、文件或應用實現,能夠爲恢復提供足夠的恢復粒度,實現幾乎無限多的恢復時間點。性能

全球最具權威的IT研究與顧問諮詢公司(Gartner)的定義爲:連續數據保護是一種恢復方法,它連續或者近似連續的捕獲或跟蹤數據文件或者數據塊的變化,同時以日誌的形式進行保存。這種能力提供了更加細粒度的實時點,以減小數據的的丟失,而且使得任意的恢復點成爲可能。一些CDP解決方案能夠被配置去抓取連續的數據改變(真的CDP)或者以必定的時間抓取數據改變(準CDP)。spa

爲了更好的表達CDP的狀態,須要引入兩個概念:RPO和RTO。操作系統

  • RPO(Recovery Point Objective):恢復點目標,指出現災難的時候會丟失多長時間的數據,便是備份間隔。
  • RTO(Recovery Time Objective):恢復時間目標,指出現災難的時候多長時間可讓業務繼續運做,即恢復時間。
  • 真正的CDP概念被定義爲RPO=0,RTO趨近於0,才能被成爲CDP。當RPO不爲0時稱之爲:Near CDP(準CDP)。

4、連續性數據保護的特色

傳統的數據保護解決方案專一在對數據的週期性備份上,所以一直伴隨有備份窗口、數據一致性以及對生產系統的影響等問題。而CDP爲用戶提供了新的數據保護手段,系統管理者無須關注數據的備份過程(由於CDP系統會不斷監測關鍵數據的變化,從而不斷地自動實現數據的保護),而是僅僅當災難發生後,簡單地選擇須要恢復到的數據備份時間點便可實現數據的快速恢復。

連續數據保護和傳統的災難恢復技術相比,連續數據保護具備以下明顯的特色:

一、首先能夠大大提升數據恢復時間點目標(RPO)。備份技術實現的數據保護間隔通常爲24小時(天天備份一次),所以用戶會面臨數據丟失多達24小時的風險,採用快照技術,能夠將數據的丟失風險下降到幾個小時以內,而CDP可以實現的數據丟失量能夠下降到幾秒(固然,不一樣的CDP產品和解決方案提供的時間精度也不盡相同)。實際上,在傳統數據保護技術中採用的是對「單時間點(SinglePoint-In-Time)」的數據拷貝進行管理的模式,而連續數據保護保護能夠實現對「任意時間點(Any Point-In-Time)」的數據保護。

二、雖然複製(Replication)技術能夠經過與生產數據的同步得到數據的最新狀態,但其沒法規避由人爲的邏輯錯誤或病毒攻擊所形成的數據丟失。當生產數據因爲以上緣由致使數據遭到破壞時(例如數據被誤刪除),複製技術會將遭到破壞的數據狀態同步到後備數據存儲系統,使後備數據也受到破壞。CDP系統可使數據狀態恢復到數據遭到破壞以前的任意一個時間點,也就能夠消除前者具備的風險。

三、因爲恢復時間和恢復對象的粒度更細,因此連續數據保護保護的數據恢復也更加靈活。目前的部分產品和解決方案容許最終用戶(而不只僅是系統管理員)直接對數據進行恢復操做,這在很大程度上方便了使用者。

5、實現方式

連續數據保護實現的關鍵技術是對數據變化的記錄和保存,以便實現任意時間點的快速恢復。通常來說,有三種實現方式:

- 基準參考數據模式。創建參考數據拷貝,根據生產數據變化記錄數據差別日誌,根據日誌差別按需恢復數據。基準參考數據模式原理簡單,實現起來比較容易,但因爲數據恢復時須要從最原始的參考數據開始,逐步進行數據恢復,所以恢復時間比較長,尤爲是恢復時間點越靠近當前的時間,恢復所須要的時間就越長。 
- 複製參考數據模式。生產數據和參考數據副本實時同步,在同步的同時記錄回退日誌或事件,基於回退日誌(Undo Log)差別實現數據按需恢復。複製參考數據模式和基準參考數據模式在實現原理上剛好相反。複製參考數據模式在數據恢復時,恢復的時間點越靠近當前,所須要的恢復時間越短。但在數據的保存過程當中,須要同時進行數據和日誌記錄的同步,須要較多的系統資源。 
- 合成參考數據模式。合成參考數據模式是以上兩種模式的折衷,較好地實現了以上兩種模式的妥協,所以能夠獲得較好的資源佔用和恢復時間效果。但須要複雜的軟件管理和數據處理功能,實現起來比較複雜。 連續數據保護技術或解決方案的實現有多種模式。

不一樣的傳統廠商創建了不一樣的連續數據保護保護模型,參考SNIA的存儲共享模型, 能夠將實現連續數據保護的產品或解決方案分爲基於應用、基於文件和基於數據塊的連續數據保護保護。本文主要從數據塊層面講CDP的實現。基於塊的CDP功能直接運行在物理的存儲設備或邏輯的卷管理器上,甚至也能夠運行在數據傳輸層上。當數據塊寫入生產數據的存儲設備時,CDP系統能夠捕獲數據的拷貝並將其存放在另一個存儲設備中。 基於數據塊的數據保護又有基於主機層、基於傳輸層和基於存儲層三類實現方式。

6、傳統數據保護產品的CDP

下面以FalconStorCDP、VeeamCDP及EMC RecoverPoint這3個廠商,從不一樣背景進行分析,具備必定的表明性:飛康是傳統的連續數據保護產品的表明。EMC傳統的存儲廠商,收購之前的RecoverPoint打造本身的數據保護套件, 方案創建在本身的存儲上,提供物理機到虛擬機的保護方案。Veeam 是虛擬機保護的後起之秀,主打虛擬化平臺上,VMWARE 及 HYPERV的數據保護,擴展到雲端,目前的方案依賴於VMWare的VAIO 虛擬化數據獲取框架。

EMCRecoverPoint/SE 是針對 EMC CLARiiON 系列陣列的全面解決方案,而 EMC RecoverPoint則是針對整個數據中心的全面解決方案。兩種產品都提供了使用連續數據保護 (CDP)的同步本地複製,以及具備任意時間點恢復功能的同步和異步連續遠程複製 (CRR)。在RecoverPoint 應用裝置上同時運行CDP和CRR實現本地和遠程(CLR) 數據保護,使您可以用單個解決方案同時在本地和遠程保護相同數據。 飛康CDP解決方案整合了數據備份、系統恢復、災難恢復、本地及異地容災等多項功能。飛康CDP是基於磁盤的備份與容災一體化解決方案,實現文件/數據庫/操做系統的實時備份與瞬間恢復;實現了驗證、演練的本地/異地容災功能整合。

**7、主要雲廠商的數據保護方式

**
AWS僅提供原生的快照功能及幫助客戶上雲的手段,數據備份等功能依賴於傳統的數據保護廠商;Azure提供基於虛擬機的基本的備份及恢復方式,沒有提供CDP等高級功能。

8、可驗證的彈性的連續數據保護CDP

根據Gartner的描述的彈性的雲備份引擎,其中規定的了成功彈性備份的幾個特徵:

  • 彈性的雲備份引擎須要快速的RTO,這就要求備份引擎和數據恢復在一個數據中心。
  • 彈性的雲備份引擎須要有全備份,沒有過大的WAN數據傳輸,將備份與生產機職責分開。
  • 而且要確保數據的可恢復性。

連續數據保護CDP本質上做爲一種高級的數據保護方案,由雲廠商進行,具備傳統備份所不具備的彈性。傳統廠商爲了上雲,必然須要將數據通過WAN傳輸到雲端,必然耗費CPU資源,必然耗費IO資源。爲了躲避資源的耗費,可能採起定時開啓的任務方式,連基本的彈性的備份都保證不了,更談不上CDP。可驗證性,強調了CDP方案的可靠性,可操做性。爲了保證應用程序的數據的跨卷一致性,須要卷之間創建一致性組(Consistency Group)及應用程序的一致性(Application Consistency)。

9、結論

數據保護不是亡羊補牢,須要未雨綢繆。隨着企業上雲的快速增加,傳統企業對雲端數據保護的訴求更加突出;隨着數據重要性的日益提升,用戶對數據丟失的敏感程度史無前例,從而使得雲端數據保護與用戶需求之間的矛盾更加凸顯。傳統的基於塊存儲的連續數據保護由於大多依賴於特定的存儲設備,並不具備雲端實現所具備的彈性,並不適應雲端分佈式環境的複雜性。連續數據保護做爲傳統或者混合雲數據保護的重要補充,定會以新的解決方案的出現而被企業用戶所重視。全新的Pangu2.0的塊存儲的架構爲實現雲端連續性數據保護提供了契機,隨着企業上雲的加速,在兼顧存儲性能的同時,將會知足傳統高級企業用戶的低RTO及低RPO的數據保護的緊迫需求。後續文章將會着重闡述基於基準參考數據模型的雲端連續數據保護,該方案基於Pangu2.0的Block Storage實現連續性數據保護,着重描述連續數據保護的秒級數據恢復機制。


原文連接 本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索