Redis持久化(persistence)

Redis 持久化

Redis 提供了多種不一樣級別的持久化方式:python

  • RDB 持久化能夠在指定的時間間隔內生成數據集的時間點快照(point-in-time snapshot)。
  • AOF 持久化記錄服務器執行的全部寫操做命令,並在服務器啓動時,經過從新執行這些命令來還原數據集。 AOF 文件中的命令所有以 Redis 協議的格式來保存,新命令會被追加到文件的末尾。 Redis 還能夠在後臺對 AOF 文件進行重寫(rewrite),使得 AOF 文件的體積不會超出保存數據集狀態所需的實際大小。
  • Redis 還能夠同時使用 AOF 持久化和 RDB 持久化。 在這種狀況下, 當 Redis 重啓時, 它會優先使用 AOF 文件來還原數據集, 由於 AOF 文件保存的數據集一般比 RDB 文件所保存的數據集更完整。
  • 你甚至能夠關閉持久化功能,讓數據只在服務器運行時存在。

瞭解 RDB 持久化和 AOF 持久化之間的異同是很是重要的, 如下幾個小節將詳細地介紹這這兩種持久化功能, 並對它們的相同和不一樣之處進行說明。redis

RDB 的優勢

  • RDB 是一個很是緊湊(compact)的文件,它保存了 Redis 在某個時間點上的數據集。 這種文件很是適合用於進行備份: 好比說,你能夠在最近的 24 小時內,每小時備份一次 RDB 文件,而且在每月的每一天,也備份一個 RDB 文件。 這樣的話,即便趕上問題,也能夠隨時將數據集還原到不一樣的版本。
  • RDB 很是適用於災難恢復(disaster recovery):它只有一個文件,而且內容都很是緊湊,能夠(在加密後)將它傳送到別的數據中心,或者亞馬遜 S3 中。
  • RDB 能夠最大化 Redis 的性能:父進程在保存 RDB 文件時惟一要作的就是 fork 出一個子進程,而後這個子進程就會處理接下來的全部保存工做,父進程無須執行任何磁盤 I/O 操做。
  • RDB 在恢復大數據集時的速度比 AOF 的恢復速度要快。

RDB 的缺點

  • 若是你須要儘可能避免在服務器故障時丟失數據,那麼 RDB 不適合你。 雖然 Redis 容許你設置不一樣的保存點(save point)來控制保存 RDB 文件的頻率, 可是, 由於RDB 文件須要保存整個數據集的狀態, 因此它並非一個輕鬆的操做。 所以你可能會至少 5 分鐘才保存一次 RDB 文件。 在這種狀況下, 一旦發生故障停機, 你就可能會丟失好幾分鐘的數據。
  • 每次保存 RDB 的時候,Redis 都要 fork() 出一個子進程,並由子進程來進行實際的持久化工做。 在數據集比較龐大時, fork() 可能會很是耗時,形成服務器在某某毫秒內中止處理客戶端; 若是數據集很是巨大,而且 CPU 時間很是緊張的話,那麼這種中止時間甚至可能會長達整整一秒。 雖然 AOF 重寫也須要進行 fork() ,但不管 AOF 重寫的執行間隔有多長,數據的耐久性都不會有任何損失。

AOF 的優勢

  • 使用 AOF 持久化會讓 Redis 變得很是耐久(much more durable):你能夠設置不一樣的 fsync 策略,好比無 fsync ,每秒鐘一次 fsync ,或者每次執行寫入命令時 fsync 。 AOF 的默認策略爲每秒鐘 fsync 一次,在這種配置下,Redis 仍然能夠保持良好的性能,而且就算髮生故障停機,也最多隻會丟失一秒鐘的數據( fsync 會在後臺線程執行,因此主線程能夠繼續努力地處理命令請求)。
  • AOF 文件是一個只進行追加操做的日誌文件(append only log), 所以對 AOF 文件的寫入不須要進行 seek , 即便日誌由於某些緣由而包含了未寫入完整的命令(好比寫入時磁盤已滿,寫入中途停機,等等), redis-check-aof 工具也能夠輕易地修復這種問題。
  • Redis 能夠在 AOF 文件體積變得過大時,自動地在後臺對 AOF 進行重寫: 重寫後的新 AOF 文件包含了恢復當前數據集所需的最小命令集合。 整個重寫操做是絕對安全的,由於 Redis 在建立新 AOF 文件的過程當中,會繼續將命令追加到現有的 AOF 文件裏面,即便重寫過程當中發生停機,現有的 AOF 文件也不會丟失。 而一旦新 AOF 文件建立完畢,Redis 就會從舊 AOF 文件切換到新 AOF 文件,並開始對新 AOF 文件進行追加操做。
  • AOF 文件有序地保存了對數據庫執行的全部寫入操做, 這些寫入操做以 Redis 協議的格式保存, 所以 AOF 文件的內容很是容易被人讀懂, 對文件進行分析(parse)也很輕鬆。 導出(export) AOF 文件也很是簡單: 舉個例子, 若是你不當心執行了 FLUSHALL 命令, 但只要 AOF 文件未被重寫, 那麼只要中止服務器, 移除 AOF 文件末尾的 FLUSHALL 命令, 並重啓 Redis , 就能夠將數據集恢復到 FLUSHALL 執行以前的狀態。

AOF 的缺點

  • 對於相同的數據集來講,AOF 文件的體積一般要大於 RDB 文件的體積。
  • 根據所使用的 fsync 策略,AOF 的速度可能會慢於 RDB 。 在通常狀況下, 每秒 fsync 的性能依然很是高, 而關閉 fsync 可讓 AOF 的速度和 RDB 同樣快, 即便在高負荷之下也是如此。 不過在處理巨大的寫入載入時,RDB 能夠提供更有保證的最大延遲時間(latency)。
  • AOF 在過去曾經發生過這樣的 bug : 由於個別命令的緣由,致使 AOF 文件在從新載入時,沒法將數據集恢復成保存時的原樣。 (舉個例子,阻塞命令 BRPOPLPUSH 就曾經引發過這樣的 bug 。) 測試套件裏爲這種狀況添加了測試: 它們會自動生成隨機的、複雜的數據集, 並經過從新載入這些數據來確保一切正常。 雖然這種 bug 在 AOF 文件中並不常見, 可是對比來講, RDB 幾乎是不可能出現這種 bug 的。

RDB 和 AOF ,我應該用哪個?

通常來講, 若是想達到足以媲美 PostgreSQL 的數據安全性, 你應該同時使用兩種持久化功能。數據庫

若是你很是關心你的數據, 但仍然能夠承受數分鐘之內的數據丟失, 那麼你能夠只使用 RDB 持久化。緩存

有不少用戶都只使用 AOF 持久化, 但咱們並不推薦這種方式: 由於定時生成 RDB 快照(snapshot)很是便於進行數據庫備份, 而且 RDB 恢復數據集的速度也要比 AOF 恢復的速度要快, 除此以外, 使用 RDB 還能夠避免以前提到的 AOF 程序的 bug 。安全

 

RDB 快照

在默認狀況下, Redis 將數據庫快照保存在名字爲 dump.rdb 的二進制文件中。服務器

你能夠對 Redis 進行設置, 讓它在「 N 秒內數據集至少有 M 個改動」這一條件被知足時, 自動保存一次數據集。app

你也能夠經過調用 SAVE 或者 BGSAVE , 手動讓 Redis 進行數據集保存操做。工具

好比說, 如下設置會讓 Redis 在知足「 60 秒內有至少有 1000 個鍵被改動」這一條件時, 自動保存一次數據集:性能

save 60 1000

這種持久化方式被稱爲快照(snapshot)。測試

快照的運做方式

當 Redis 須要保存 dump.rdb 文件時, 服務器執行如下操做:

  1. Redis 調用 fork() ,同時擁有父進程和子進程。
  2. 子進程將數據集寫入到一個臨時 RDB 文件中。
  3. 當子進程完成對新 RDB 文件的寫入時,Redis 用新 RDB 文件替換原來的 RDB 文件,並刪除舊的 RDB 文件。

這種工做方式使得 Redis 能夠從寫時複製(copy-on-write)機制中獲益。

只進行追加操做的文件(append-only file,AOF)

快照功能並非很是耐久(durable): 若是 Redis 由於某些緣由而形成故障停機, 那麼服務器將丟失最近寫入、且仍未保存到快照中的那些數據。

儘管對於某些程序來講, 數據的耐久性並非最重要的考慮因素, 可是對於那些追求徹底耐久能力(full durability)的程序來講, 快照功能就不太適用了。

從 1.1 版本開始, Redis 增長了一種徹底耐久的持久化方式: AOF 持久化。

你能夠經過修改配置文件來打開 AOF 功能:

appendonly yes

從如今開始, 每當 Redis 執行一個改變數據集的命令時(好比 SET), 這個命令就會被追加到 AOF 文件的末尾。

這樣的話, 當 Redis 從新啓時, 程序就能夠經過從新執行 AOF 文件中的命令來達到重建數據集的目的。

AOF 重寫

由於 AOF 的運做方式是不斷地將命令追加到文件的末尾, 因此隨着寫入命令的不斷增長, AOF 文件的體積也會變得愈來愈大。

舉個例子, 若是你對一個計數器調用了 100 次 INCR , 那麼僅僅是爲了保存這個計數器的當前值, AOF 文件就須要使用 100 條記錄(entry)。

然而在實際上, 只使用一條 SET 命令已經足以保存計數器的當前值了, 其他 99 條記錄實際上都是多餘的。

爲了處理這種狀況, Redis 支持一種有趣的特性: 能夠在不打斷服務客戶端的狀況下, 對 AOF 文件進行重建(rebuild)。

執行 BGREWRITEAOF 命令, Redis 將生成一個新的 AOF 文件, 這個文件包含重建當前數據集所需的最少命令。

Redis 2.2 須要本身手動執行 BGREWRITEAOF 命令; Redis 2.4 則能夠自動觸發 AOF 重寫, 具體信息請查看 2.4 的示例配置文件。

AOF 的耐久性如何?

你能夠配置 Redis 多久纔將數據 fsync 到磁盤一次。

有三個選項:

  • 每次有新命令追加到 AOF 文件時就執行一次 fsync :很是慢,也很是安全。
  • 每秒 fsync 一次:足夠快(和使用 RDB 持久化差很少),而且在故障時只會丟失 1 秒鐘的數據。
  • 從不 fsync :將數據交給操做系統來處理。更快,也更不安全的選擇。

推薦(而且也是默認)的措施爲每秒 fsync 一次, 這種 fsync 策略能夠兼顧速度和安全性。

老是 fsync 的策略在實際使用中很是慢, 即便在 Redis 2.0 對相關的程序進行了改進以後還是如此 —— 頻繁調用 fsync 註定了這種策略不可能快得起來。

若是 AOF 文件出錯了,怎麼辦?

服務器可能在程序正在對 AOF 文件進行寫入時停機, 若是停機形成了 AOF 文件出錯(corrupt), 那麼 Redis 在重啓時會拒絕載入這個 AOF 文件, 從而確保數據的一致性不會被破壞。

當發生這種狀況時, 能夠用如下方法來修復出錯的 AOF 文件:

  1. 爲現有的 AOF 文件建立一個備份。
  2. 使用 Redis 附帶的 redis-check-aof 程序,對原來的 AOF 文件進行修復。
$ redis-check-aof --fix
  1. (可選)使用 diff -u 對比修復後的 AOF 文件和原始 AOF 文件的備份,查看兩個文件之間的不一樣之處。
  2. 重啓 Redis 服務器,等待服務器載入修復後的 AOF 文件,並進行數據恢復。

AOF 的運做方式

AOF 重寫和 RDB 建立快照同樣,都巧妙地利用了寫時複製機制。

如下是 AOF 重寫的執行步驟:

  1. Redis 執行 fork() ,如今同時擁有父進程和子進程。
  2. 子進程開始將新 AOF 文件的內容寫入到臨時文件。
  3. 對於全部新執行的寫入命令,父進程一邊將它們累積到一個內存緩存中,一邊將這些改動追加到現有 AOF 文件的末尾: 這樣即便在重寫的中途發生停機,現有的 AOF 文件也仍是安全的。
  4. 當子進程完成重寫工做時,它給父進程發送一個信號,父進程在接收到信號以後,將內存緩存中的全部數據追加到新 AOF 文件的末尾。
  5. 搞定!如今 Redis 原子地用新文件替換舊文件,以後全部命令都會直接追加到新 AOF 文件的末尾。

怎麼從 RDB 持久化切換到 AOF 持久化

在 Redis 2.2 或以上版本,能夠在不重啓的狀況下,從 RDB 切換到 AOF :

  1. 爲最新的 dump.rdb 文件建立一個備份。
  2. 將備份放到一個安全的地方。
  3. 執行如下兩條命令:
redis-cli> CONFIG SET appendonly yes

redis-cli> CONFIG SET save ""
  1. 確保命令執行以後,數據庫的鍵的數量沒有改變。
  2. 確保寫命令會被正確地追加到 AOF 文件的末尾。

步驟 3 執行的第一條命令開啓了 AOF 功能: Redis 會阻塞直到初始 AOF 文件建立完成爲止, 以後 Redis 會繼續處理命令請求, 並開始將寫入命令追加到 AOF 文件末尾。

步驟 3 執行的第二條命令用於關閉 RDB 功能。 這一步是可選的, 若是你願意的話, 也能夠同時使用 RDB 和 AOF 這兩種持久化功能。

RDB 和 AOF 之間的相互做用

在版本號大於等於 2.4 的 Redis 中, BGSAVE 執行的過程當中, 不能夠執行 BGREWRITEAOF 。 反過來講, 在 BGREWRITEAOF 執行的過程當中, 也不能夠執行 BGSAVE 。

這能夠防止兩個 Redis 後臺進程同時對磁盤進行大量的 I/O 操做。

若是 BGSAVE 正在執行, 而且用戶顯示地調用 BGREWRITEAOF 命令, 那麼服務器將向用戶回覆一個 OK 狀態, 並告知用戶,BGREWRITEAOF 已經被預約執行: 一旦 BGSAVE 執行完畢, BGREWRITEAOF 就會正式開始。

當 Redis 啓動時, 若是 RDB 持久化和 AOF 持久化都被打開了, 那麼程序會優先使用 AOF 文件來恢復數據集, 由於 AOF 文件所保存的數據一般是最完整的。

備份 Redis 數據

在閱讀這個小節前, 先將下面這句話銘記於心: 必定要備份你的數據庫!

磁盤故障, 節點失效, 諸如此類的問題均可能讓你的數據消失不見, 不進行備份是很是危險的。

Redis 對於數據備份是很是友好的, 由於你能夠在服務器運行的時候對 RDB 文件進行復制: RDB 文件一旦被建立, 就不會進行任何修改。 當服務器要建立一個新的 RDB 文件時, 它先將文件的內容保存在一個臨時文件裏面, 當臨時文件寫入完畢時, 程序才使用 rename(2) 原子地用臨時文件替換原來的 RDB 文件。

這也就是說, 不管什麼時候, 複製 RDB 文件都是絕對安全的。

如下是咱們的建議:

  • 建立一個按期任務(cron job), 每小時將一個 RDB 文件備份到一個文件夾, 而且天天將一個 RDB 文件備份到另外一個文件夾。
  • 確保快照的備份都帶有相應的日期和時間信息, 每次執行按期任務腳本時, 使用 find 命令來刪除過時的快照: 好比說, 你能夠保留最近 48 小時內的每小時快照, 還能夠保留最近一兩個月的每日快照。
  • 至少天天一次, 將 RDB 備份到你的數據中心以外, 或者至少是備份到你運行 Redis 服務器的物理機器以外。

容災備份

Redis 的容災備份基本上就是對數據進行備份, 並將這些備份傳送到多個不一樣的外部數據中心。

容災備份能夠在 Redis 運行併產生快照的主數據中心發生嚴重的問題時, 仍然讓數據處於安全狀態。

由於不少 Redis 用戶都是創業者, 他們沒有大把大把的錢能夠浪費, 因此下面介紹的都是一些實用又便宜的容災備份方法:

  • Amazon S3 ,以及其餘相似 S3 的服務,是一個構建災難備份系統的好地方。 最簡單的方法就是將你的每小時或者每日 RDB 備份加密並傳送到 S3 。 對數據的加密能夠經過 gpg -c 命令來完成(對稱加密模式)。 記得把你的密碼放到幾個不一樣的、安全的地方去(好比你能夠把密碼複製給你組織裏最重要的人物)。 同時使用多個儲存服務來保存數據文件,能夠提高數據的安全性。
  • 傳送快照可使用 SCP 來完成(SSH 的組件)。 如下是簡單而且安全的傳送方法: 買一個離你的數據中心很是遠的 VPS , 裝上 SSH , 建立一個無口令的 SSH 客戶端 key , 並將這個 key 添加到 VPS 的 authorized_keys 文件中, 這樣就能夠向這個 VPS 傳送快照備份文件了。 爲了達到最好的數據安全性,至少要從兩個不一樣的提供商那裏各購買一個 VPS 來進行數據容災備份。

須要注意的是, 這類容災系統若是沒有當心地進行處理的話, 是很容易失效的。

最低限度下, 你應該在文件傳送完畢以後, 檢查所傳送備份文件的體積和原始快照文件的體積是否相同。 若是你使用的是 VPS , 那麼還能夠經過比對文件的 SHA1 校驗和來確認文件是否傳送完整。

另外, 你還須要一個獨立的警報系統, 讓它在負責傳送備份文件的傳送器(transfer)失靈時通知你。

相關文章
相關標籤/搜索