本文來自https://www.cnblogs.com/zhoujinyi/p/5570024.htmlhtml
背景:node
Redis-Sentinel是Redis官方推薦的高可用性(HA)解決方案,當用Redis作Master-slave的高可用方案時,假如master宕機了,Redis自己(包括它的不少客戶端)都沒有實現自動進行主備切換,而Redis-sentinel自己也是一個獨立運行的進程,它能監控多個master-slave集羣,發現master宕機後能進行自動切換,更多的信息見前一篇說明。它的主要功能有如下幾點:git
1,不時地監控redis是否按照預期良好地運行; 2,若是發現某個redis節點運行出現情況,可以通知另一個進程(例如它的客戶端); 3,可以進行自動切換。當一個master節點不可用時,可以選舉出master的多個slave(若是有超過一個slave的話)中的一個來做爲新的master,其它的slave節點會將它所追隨的master的地址改成被提高爲master的slave的新地址。
Redis-Replication
正則表達式
1)搭建redis
複製的配置很簡單,就一個參數:數據庫
slaveof <主數據庫IP> <端口>
能夠添加在配置文件裏,也能夠在命令行中執行。如主數據庫IP是192.168.200.25 端口是6379:(配置多臺從數據庫的方法也同樣)api
slaveof 192.168.200.25 6379
注意:經過命令行進行的複製,在主從斷開或則主從重啓以後複製信息會丟失,即不能保證持久複製,須要再次執行slaveof。可是在配置文件裏寫死slaveof不會有該問題。默認狀況下從庫是隻讀的,不能進行修改,須要修改須要設置配置文件中的slave-read-only爲no。在命令行裏執行slaveof no one可讓一個從庫變成主庫。服務器
2)原理(執行步驟)網絡
①從數據庫向主數據庫發送sync命令。less
②主數據庫接收sync命令後,執行BGSAVE命令(保存快照),建立一個RDB文件,在建立RDB文件期間的命令將保存在緩衝區中。
③當主數據庫執行完BGSAVE時,會向從數據庫發送RDB文件,而從數據庫會接收並載入該文件。
④主數據庫將緩衝區的全部寫命令發給從服務器執行。
⑤以上處理完以後,以後主數據庫每執行一個寫命令,都會將被執行的寫命令發送給從數據庫。
注意:在Redis2.8以前,主從斷線或則重啓以後再重鏈接,都須要作一次完整的sync操做(5步驟),即便斷線期間只有幾條的更新操做或則是沒有操做,致使系統資源極度浪費。Redis2.8以後,會用一個psync來替換sync,不會進行完成的sync操做,只須要同步斷線期間的記錄。相關參數:repl-backlog-size、repl-backlog-ttl
大體的示意圖以下:
3)相關的參數,註釋掉的參數都是使用默認值。
################################# REPLICATION ################################# #複製選項,slave複製對應的master。 # slaveof <masterip> <masterport> #若是master設置了requirepass,那麼slave要連上master,須要有master的密碼才行。masterauth就是用來配置master的密碼,這樣能夠在連上master後進行認證。 # masterauth <master-password>
#當從庫同主機失去鏈接或者複製正在進行,從機庫有兩種運行方式:1) 若是slave-serve-stale-data設置爲yes(默認設置),從庫會繼續響應客戶端的請求。2) 若是slave-serve-stale-data設置爲no,除去INFO和SLAVOF命令以外的任何請求都會返回一個錯誤」SYNC with master in progress」。 slave-serve-stale-data yes #做爲從服務器,默認狀況下是隻讀的(yes),能夠修改爲NO,用於寫(不建議)。 slave-read-only yes #是否使用socket方式複製數據。目前redis複製提供兩種方式,disk和socket。若是新的slave連上來或者重連的slave沒法部分同步,就會執行全量同步,master會生成rdb文件。有2種方式:disk方式是master建立一個新的進程把rdb文件保存到磁盤,再把磁盤上的rdb文件傳遞給slave。socket是master建立一個新的進程,直接把rdb文件以socket的方式發給slave。disk方式的時候,當一個rdb保存的過程當中,多個slave都能共享這個rdb文件。socket的方式就的一個個slave順序複製。在磁盤速度緩慢,網速快的狀況下推薦用socket方式。 repl-diskless-sync no #diskless複製的延遲時間,防止設置爲0。一旦複製開始,節點不會再接收新slave的複製請求直到下一個rdb傳輸。因此最好等待一段時間,等更多的slave連上來。 repl-diskless-sync-delay 5 #slave根據指定的時間間隔向服務器發送ping請求。時間間隔能夠經過 repl_ping_slave_period 來設置,默認10秒。 # repl-ping-slave-period 10 #複製鏈接超時時間。master和slave都有超時時間的設置。master檢測到slave上次發送的時間超過repl-timeout,即認爲slave離線,清除該slave信息。slave檢測到上次和master交互的時間超過repl-timeout,則認爲master離線。須要注意的是repl-timeout須要設置一個比repl-ping-slave-period更大的值,否則會常常檢測到超時。 # repl-timeout 60 #是否禁止複製tcp連接的tcp nodelay參數,可傳遞yes或者no。默認是no,即便用tcp nodelay。若是master設置了yes來禁止tcp nodelay設置,在把數據複製給slave的時候,會減小包的數量和更小的網絡帶寬。可是這也可能帶來數據的延遲。默認咱們推薦更小的延遲,可是在數據量傳輸很大的場景下,建議選擇yes。 repl-disable-tcp-nodelay no #複製緩衝區大小,這是一個環形複製緩衝區,用來保存最新複製的命令。這樣在slave離線的時候,不須要徹底複製master的數據,若是能夠執行部分同步,只須要把緩衝區的部分數據複製給slave,就能恢復正常複製狀態。緩衝區的大小越大,slave離線的時間能夠更長,複製緩衝區只有在有slave鏈接的時候才分配內存。沒有slave的一段時間,內存會被釋放出來,默認1m。 # repl-backlog-size 5mb #master沒有slave一段時間會釋放複製緩衝區的內存,repl-backlog-ttl用來設置該時間長度。單位爲秒。 # repl-backlog-ttl 3600 #當master不可用,Sentinel會根據slave的優先級選舉一個master。最低的優先級的slave,當選master。而配置成0,永遠不會被選舉。 slave-priority 100 #redis提供了可讓master中止寫入的方式,若是配置了min-slaves-to-write,健康的slave的個數小於N,mater就禁止寫入。master最少得有多少個健康的slave存活才能執行寫命令。這個配置雖然不能保證N個slave都必定能接收到master的寫操做,可是能避免沒有足夠健康的slave的時候,master不能寫入來避免數據丟失。設置爲0是關閉該功能。 # min-slaves-to-write 3 #延遲小於min-slaves-max-lag秒的slave才認爲是健康的slave。 # min-slaves-max-lag 10
4)總結
Redis目前的複製是異步的,只保證最終一致性,而不是強一致性(主從數據庫的更新仍是分前後,先主後從)。要是一致性要求高的應用,目前仍是讀寫都在主庫上去。
Redis-Sentinel:須要對redis和sentinel的配置文件有rewrite的權限。
1)搭建:(環境:redis服務3個實例1008六、1008七、10088;sentinel服務3個監控:2008六、2008七、20088)
sentinel是一個"監視器",根據被監視實例的身份和狀態來判斷該執行何種操做。經過給定的配置文件來發現主服務器的,再經過向主服務器發送的info信息來發現該主服務器的從服務器。Sentinel 實際上就是一個運行在 Sentienl 模式下的 Redis 服務器,因此咱們一樣可使用如下命令來啓動一個 Sentinel實例。運行方式以下:
redis-sentinel /path/to/sentinel.conf
參數配置文件:
port 20086 #默認端口26379 dir "/tmp" logfile "/var/log/redis/sentinel_20086.log" daemonize yes #格式:sentinel <option_name> <master_name> <option_value>;#該行的意思是:監控的master的名字叫作T1(自定義),地址爲127.0.0.1:10086,行尾最後的一個2表明在sentinel集羣中,多少個sentinel認爲masters死了,才能真正認爲該master不可用了。 sentinel monitor T1 127.0.0.1 10086 2
#sentinel會向master發送心跳PING來確認master是否存活,若是master在「必定時間範圍」內不迴應PONG 或者是回覆了一個錯誤消息,那麼這個sentinel會主觀地(單方面地)認爲這個master已經不可用了(subjectively down, 也簡稱爲SDOWN)。而這個down-after-milliseconds就是用來指定這個「必定時間範圍」的,單位是毫秒,默認30秒。 sentinel down-after-milliseconds T1 15000
#failover過時時間,當failover開始後,在此時間內仍然沒有觸發任何failover操做,當前sentinel將會認爲這次failoer失敗。默認180秒,即3分鐘。 sentinel failover-timeout T1 120000
#在發生failover主備切換時,這個選項指定了最多能夠有多少個slave同時對新的master進行同步,這個數字越小,完成failover所需的時間就越長,可是若是這個數字越大,就意味着越多的slave由於replication而不可用。能夠經過將這個值設爲 1 來保證每次只有一個slave處於不能處理命令請求的狀態。 sentinel parallel-syncs T1 1
#sentinel 鏈接設置了密碼的主和從
#sentinel auth-pass <master_name> xxxxx
#發生切換以後執行的一個自定義腳本:如發郵件、vip切換等
##sentinel notification-script <master-name> <script-path> ##不會執行,疑問?
#sentinel client-reconfig-script <master-name> <script-path> ##這個會執行
注意:要是參數配置的是默認值,在sentinel運行時該參數會在配置文件文件裏被刪除掉,直接不顯示。也能夠在運行時用命令SENTINEL SET command
動態修改,後面說明。
很顯然,只使用單個sentinel進程來監控redis集羣是不可靠的,當sentinel進程宕掉後(sentinel自己也有單點問題,single-point-of-failure)整個集羣系統將沒法按照預期的方式運行。因此有必要將sentinel集羣,這樣有幾個好處:
1:即便有一些sentinel進程宕掉了,依然能夠進行redis集羣的主備切換; 2:若是隻有一個sentinel進程,若是這個進程運行出錯,或者是網絡堵塞,那麼將沒法實現redis集羣的主備切換(單點問題); 3:若是有多個sentinel,redis的客戶端能夠隨意地鏈接任意一個sentinel來得到關於redis集羣中的信息。
本文開啓sentinel集羣用了3個實例,保證各個端口和目錄不一致,配置文件以下:
sentinel_20086.conf :
port 20086 dir "/var/lib/sentinel_20086" logfile "/var/log/redis/sentinel_20086.log" daemonize yes sentinel monitor T1 127.0.0.1 10086 2 sentinel down-after-milliseconds T1 15000 sentinel failover-timeout T1 120000 sentinel parallel-syncs T1 1 #發生切換以後執行的一個自定義腳本:如發郵件、vip切換等 #sentinel notification-script <master-name> <script-path>
port 20086 dir "/var/lib/sentinel_20086" logfile "/var/log/redis/sentinel_20086.log" daemonize yes sentinel monitor T1 127.0.0.1 10086 2 sentinel down-after-milliseconds T1 15000 sentinel failover-timeout T1 120000 sentinel parallel-syncs T1 1 #發生切換以後執行的一個自定義腳本:如發郵件、vip切換等 #sentinel notification-script <master-name> <script-path>
sentinel_20087.conf :
port 20087 dir "/var/lib/sentinel_20087" logfile "/var/log/redis/sentinel_20087.log" daemonize yes sentinel monitor T1 127.0.0.1 10086 2 sentinel down-after-milliseconds T1 15000 sentinel failover-timeout T1 120000 sentinel parallel-syncs T1 1 #發生切換以後執行的一個自定義腳本:如發郵件、vip切換等 #sentinel notification-script <master-name> <script-path>
port 20087 dir "/var/lib/sentinel_20087" logfile "/var/log/redis/sentinel_20087.log" daemonize yes sentinel monitor T1 127.0.0.1 10086 2 sentinel down-after-milliseconds T1 15000 sentinel failover-timeout T1 120000 sentinel parallel-syncs T1 1 #發生切換以後執行的一個自定義腳本:如發郵件、vip切換等 #sentinel notification-script <master-name> <script-path>
sentinel_20088.conf :
port 20088 dir "/var/lib/sentinel_20086" logfile "/var/log/redis/sentinel_20088.log" daemonize yes sentinel monitor T1 127.0.0.1 10086 2 sentinel down-after-milliseconds T1 15000 sentinel failover-timeout T1 120000 sentinel parallel-syncs T1 1 #發生切換以後執行的一個自定義腳本:如發郵件、vip切換等 #sentinel notification-script <master-name> <script-path>
port 20088 dir "/var/lib/sentinel_20086" logfile "/var/log/redis/sentinel_20088.log" daemonize yes sentinel monitor T1 127.0.0.1 10086 2 sentinel down-after-milliseconds T1 15000 sentinel failover-timeout T1 120000 sentinel parallel-syncs T1 1 #發生切換以後執行的一個自定義腳本:如發郵件、vip切換等 #sentinel notification-script <master-name> <script-path>
疑問:這裏的參數 sentinel notification-script <master-name> <script-path>好像切換的時候不會執行,參數sentinel client-reconfig-script <master-name> <script-path>卻是會執行,能夠用這個參數來替換上面的參數。
啓動sentinel:
root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20086.conf root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20087.conf root@zhoujinyi:/etc/redis# redis-sentinel /etc/redis/sentinel_20088.conf
注意:當一個master配置爲須要密碼才能鏈接時,客戶端和slave在鏈接時都須要提供密碼。master經過requirepass設置自身的密碼,不提供密碼沒法鏈接到這個master。slave經過masterauth來設置訪問master時的密碼。客戶端須要auth提供密碼,可是當使用了sentinel時,因爲一個master可能會變成一個slave,一個slave也可能會變成master,因此須要同時設置上述兩個配置項,而且sentinel須要鏈接master和slave,須要設置參數:sentinel auth-pass <master_name> xxxxx。
啓動後各個sentinel的日誌信息以下:
3462:X 08 Jun 18:07:54.820 # Sentinel runid is b44bb512b3b756c97f48aff1dc37b54a30659ee9 3462:X 08 Jun 18:07:54.820 # +monitor master T1 127.0.0.1 10086 quorum 2 #主加入監控 3462:X 08 Jun 18:07:54.823 * +slave slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 #檢測到一個slave並添加進slave列表 3462:X 08 Jun 18:07:54.823 * +slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 #檢測到一個slave並添加進slave列表 3462:X 08 Jun 18:07:59.515 * +sentinel sentinel 127.0.0.1:20087 127.0.0.1 20087 @ T1 127.0.0.1 10086 #增長了一個sentinel 3462:X 08 Jun 18:08:01.820 * +sentinel sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10086 #增長了一個sentinel
關於更多的信息見:
+reset-master <instance details> -- 當master被重置時. +slave <instance details> -- 當檢測到一個slave並添加進slave列表時. +failover-state-reconf-slaves <instance details> -- Failover狀態變爲reconf-slaves狀態時 +failover-detected <instance details> -- 當failover發生時 +slave-reconf-sent <instance details> -- sentinel發送SLAVEOF命令把它從新配置時 +slave-reconf-inprog <instance details> -- slave被從新配置爲另一個master的slave,但數據複製還未發生時。 +slave-reconf-done <instance details> -- slave被從新配置爲另一個master的slave而且數據複製已經與master同步時。 -dup-sentinel <instance details> -- 刪除指定master上的冗餘sentinel時 (當一個sentinel從新啓動時,可能會發生這個事件). +sentinel <instance details> -- 當master增長了一個sentinel時。 +sdown <instance details> -- 進入SDOWN狀態時; -sdown <instance details> -- 離開SDOWN狀態時。 +odown <instance details> -- 進入ODOWN狀態時。 -odown <instance details> -- 離開ODOWN狀態時。 +new-epoch <instance details> -- 當前配置版本被更新時。 +try-failover <instance details> -- 達到failover條件,正等待其餘sentinel的選舉。 +elected-leader <instance details> -- 被選舉爲去執行failover的時候。 +failover-state-select-slave <instance details> -- 開始要選擇一個slave當選新master時。 no-good-slave <instance details> -- 沒有合適的slave來擔當新master selected-slave <instance details> -- 找到了一個適合的slave來擔當新master failover-state-send-slaveof-noone <instance details> -- 當把選擇爲新master的slave的身份進行切換的時候。 failover-end-for-timeout <instance details> -- failover因爲超時而失敗時。 failover-end <instance details> -- failover成功完成時。 switch-master <master name> <oldip> <oldport> <newip> <newport> -- 當master的地址發生變化時。一般這是客戶端最感興趣的消息了。 +tilt -- 進入Tilt模式。 -tilt -- 退出Tilt模式。
+reset-master <instance details> -- 當master被重置時. +slave <instance details> -- 當檢測到一個slave並添加進slave列表時. +failover-state-reconf-slaves <instance details> -- Failover狀態變爲reconf-slaves狀態時 +failover-detected <instance details> -- 當failover發生時 +slave-reconf-sent <instance details> -- sentinel發送SLAVEOF命令把它從新配置時 +slave-reconf-inprog <instance details> -- slave被從新配置爲另一個master的slave,但數據複製還未發生時。 +slave-reconf-done <instance details> -- slave被從新配置爲另一個master的slave而且數據複製已經與master同步時。 -dup-sentinel <instance details> -- 刪除指定master上的冗餘sentinel時 (當一個sentinel從新啓動時,可能會發生這個事件). +sentinel <instance details> -- 當master增長了一個sentinel時。 +sdown <instance details> -- 進入SDOWN狀態時; -sdown <instance details> -- 離開SDOWN狀態時。 +odown <instance details> -- 進入ODOWN狀態時。 -odown <instance details> -- 離開ODOWN狀態時。 +new-epoch <instance details> -- 當前配置版本被更新時。 +try-failover <instance details> -- 達到failover條件,正等待其餘sentinel的選舉。 +elected-leader <instance details> -- 被選舉爲去執行failover的時候。 +failover-state-select-slave <instance details> -- 開始要選擇一個slave當選新master時。 no-good-slave <instance details> -- 沒有合適的slave來擔當新master selected-slave <instance details> -- 找到了一個適合的slave來擔當新master failover-state-send-slaveof-noone <instance details> -- 當把選擇爲新master的slave的身份進行切換的時候。 failover-end-for-timeout <instance details> -- failover因爲超時而失敗時。 failover-end <instance details> -- failover成功完成時。 switch-master <master name> <oldip> <oldport> <newip> <newport> -- 當master的地址發生變化時。一般這是客戶端最感興趣的消息了。 +tilt -- 進入Tilt模式。 -tilt -- 退出Tilt模式。
2)原理
①sentinel集羣經過給定的配置文件發現master,啓動時會監控master。經過向master發送info信息得到該服務器下面的全部從服務器。
②sentinel集羣經過命令鏈接向被監視的主從服務器發送hello信息(每秒一次),該信息包括sentinel自己的ip、端口、id等內容,以此來向其餘sentinel宣告本身的存在。
③sentinel集羣經過訂閱鏈接接收其餘sentinel發送的hello信息,以此來發現監視同一個主服務器的其餘sentinel;集羣之間會互相建立命令鏈接用於通訊,由於已經有主從服務器做爲發送和接收hello信息的中介,sentinel之間不會建立訂閱鏈接。
④sentinel集羣使用ping命令來檢測實例的狀態,若是在指定的時間內(down-after-milliseconds)沒有回覆或則返回錯誤的回覆,那麼該實例被判爲下線。
⑤當failover主備切換被觸發後,failover並不會立刻進行,還須要sentinel中的大多數sentinel受權後才能夠進行failover,即進行failover的sentinel會去得到指定quorum個的sentinel的受權,成功後進入ODOWN狀態。如在5個sentinel中配置了2個quorum,等到2個sentinel認爲master死了就執行failover。
⑥sentinel向選爲master的slave發送SLAVEOF NO ONE
命令,選擇slave的條件是sentinel首先會根據slaves的優先級來進行排序,優先級越小排名越靠前。若是優先級相同,則查看複製的下標,哪一個從master接收的複製數據多,哪一個就靠前。若是優先級和下標都相同,就選擇進程ID較小的。
⑦sentinel被受權後,它將會得到宕掉的master的一份最新配置版本號(config-epoch),當failover執行結束之後,這個版本號將會被用於最新的配置,經過廣播形式通知其它sentinel,其它的sentinel則更新對應master的配置。
①到③是自動發現機制:
④是檢測機制,⑤和⑥是failover機制,⑦是更新配置機制。
注意:由於redis採用的是異步複製,沒有辦法避免數據的丟失。但能夠經過如下配置來使得數據不會丟失:min-slaves-to-write 1 、 min-slaves-max-lag 10。一個redis不管是master仍是slave,都必須在配置中指定一個slave優先級。要注意到master也是有可能經過failover變成slave的。若是一個redis的slave優先級配置爲0,那麼它將永遠不會被選爲master,可是它依然會從master哪裏複製數據。
3)運行測試
上面已經搭好了一個簡單的測試環境:redis服務3個實例10086(M)、10087(S)、10088(S);sentinel服務3個監控:2008六、2008七、20088
如今進行一個故障轉移的操做:0點30分14秒kill掉10086,Sentinel日誌信息:
3466:X 09 Jun 00:30:29.067 # +sdown master T1 127.0.0.1 10086 ##進入主觀不可用(SDOWN) 3466:X 09 Jun 00:30:29.169 # +odown master T1 127.0.0.1 10086 #quorum 2/2 ##投票好了,達到了quorum,進入客觀不可用(ODOWN) 3466:X 09 Jun 00:30:29.169 # +new-epoch 1 ##當前配置版本被更新 3466:X 09 Jun 00:30:29.169 # +try-failover master T1 127.0.0.1 10086 ##達到failover條件,正等待其餘sentinel的選舉 3466:X 09 Jun 00:30:29.179 # +vote-for-leader e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##選舉 3466:X 09 Jun 00:30:29.183 # 127.0.0.1:20088 voted for e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##選舉 3466:X 09 Jun 00:30:29.184 # 127.0.0.1:20086 voted for e106f1eaffdaa10babef3f5858a7cb8d05ffe9ea 1 ##選舉 3466:X 09 Jun 00:30:29.241 # +elected-leader master T1 127.0.0.1 10086 ##執行failover 3466:X 09 Jun 00:30:29.242 # +failover-state-select-slave master T1 127.0.0.1 10086 ##開始要選擇一個slave當選新master 3466:X 09 Jun 00:30:29.344 # +selected-slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 ##找到了一個適合的slave來擔當新master 3466:X 09 Jun 00:30:29.344 * +failover-state-send-slaveof-noone slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 ##當把選擇爲新master的slave的身份進行切換 3466:X 09 Jun 00:30:29.447 * +failover-state-wait-promotion slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 3466:X 09 Jun 00:30:30.206 # +promoted-slave slave 127.0.0.1:10088 127.0.0.1 10088 @ T1 127.0.0.1 10086 3466:X 09 Jun 00:30:30.207 # +failover-state-reconf-slaves master T1 127.0.0.1 10086 ##Failover狀態變爲reconf-slaves 3466:X 09 Jun 00:30:30.273 * +slave-reconf-sent slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##sentinel發送SLAVEOF命令把它從新配置,從新配置到新主 3466:X 09 Jun 00:30:31.250 * +slave-reconf-inprog slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##slave被從新配置爲另一個master的slave,但數據複製還未發生 3466:X 09 Jun 00:30:31.251 * +slave-reconf-done slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10086 ##slave被從新配置爲另一個master的slave而且數據複製已經與master同步 3466:X 09 Jun 00:30:31.340 # -odown master T1 127.0.0.1 10086 ##離開客觀不可用(ODOWN) 3466:X 09 Jun 00:30:31.340 # +failover-end master T1 127.0.0.1 10086 ##failover成功完成 3466:X 09 Jun 00:30:31.341 # +switch-master T1 127.0.0.1 10086 127.0.0.1 10088 ##master的地址發生變化 3466:X 09 Jun 00:30:31.341 * +slave slave 127.0.0.1:10087 127.0.0.1 10087 @ T1 127.0.0.1 10088 ##檢測到一個slave並添加進slave列表 3466:X 09 Jun 00:30:31.351 * +slave slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 3466:X 09 Jun 00:30:46.362 # +sdown slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ##原主進入主觀不可用狀態
經過日誌信息看到,15秒(down-after-milliseconds)以後進行了failvoer操做,最後操做成功,10088變成了新主,能夠經過info sentinel和sentinel maters查看主的信息。把原主開起來,日誌信息:
3466:X 09 Jun 01:00:35.306 # -sdown slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ##離開主觀不可用狀態 3466:X 09 Jun 01:00:45.249 * +convert-to-slave slave 127.0.0.1:10086 127.0.0.1 10086 @ T1 127.0.0.1 10088 ## 檢測到一個slave並添加進slave列表
經過日誌看到,原主起來以後變成了從。這裏能夠發如今redis配置文件(可寫權限)的最後被添加了:
# Generated by CONFIG REWRITE slaveof 127.0.0.1 10088
在新主上操做,能夠同步複製到從庫:
root@zhoujinyi:~# redis-cli -p 10088 127.0.0.1:10088> set dxy dxy OK 127.0.0.1:10088> get dxy "dxy" 127.0.0.1:10088> root@zhoujinyi:~# redis-cli -p 10086 127.0.0.1:10086> get dxy "dxy" 127.0.0.1:10086> root@zhoujinyi:~# redis-cli -p 10087 127.0.0.1:10087> get dxy "dxy"
上面測試說明sentinel自動failover成功。要是kill掉一個sentinel實例會怎麼樣?能夠看日誌:
3466:X 09 Jun 01:14:51.039 # +sdown sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087 ##進入主觀不可用 3466:X 09 Jun 01:15:32.610 # -sdown sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087 ##進入客觀不可用 3466:X 09 Jun 01:15:34.497 * -dup-sentinel master T1 127.0.0.1 10087 #duplicate of 127.0.0.1:20088 or a79f189986ab9d3940de48099e18a99abef4d595 ##刪除指定master上的冗餘sentinel時 (當一個sentinel從新啓動時,可能會發生這個事件) 3466:X 09 Jun 01:15:34.498 * +sentinel sentinel 127.0.0.1:20088 127.0.0.1 20088 @ T1 127.0.0.1 10087 ##檢測到一個sentinel,並進入列表
說明sentinel實例也被其餘sentinel監視(上面介紹了各個sentinel相互通訊),防止sentinel單點故障。經過日誌看到這麼多信息,這裏須要注意下下面的概念:
① Leader選舉:
其實在sentinels故障轉移中,仍然須要一個「Leader」來調度整個過程:master的選舉以及slave的重配置和同步。當集羣中有多個sentinel實例時,如何選舉其中一個sentinel爲leader呢?
在配置文件中「can-failover」「quorum」參數,以及「is-master-down-by-addr」指令配合來完成整個過程。
A) 「can-failover」用來代表當前sentinel是否能夠參與「failover」過程,若是爲「YES」則代表它將有能力參與「Leader」的選舉,不然它將做爲「Observer」,observer參與leader選舉投票但不能被選舉;
B) 「quorum」不只用來控制master ODOWN狀態確認,同時還用來選舉leader時最小「贊同票」數;
C) 「is-master-down-by-addr」,在上文中以及提到,它能夠用來檢測「ip + port」的master是否已經處於SDOWN狀態,不過此指令不只可以得到master是否處於SDOWN,同時它還額外的返回當前sentinel本地「投票選舉」的Leader信息(runid);
每一個sentinel實例都持有其餘的sentinels信息,在Leader選舉過程當中(當爲leader的sentinel實例失效時,有可能master server並沒失效,注意分開理解),sentinel實例將從全部的sentinels集合中去除「can-failover = no」和狀態爲SDOWN的sentinels,在剩餘的sentinels列表中按照runid按照「字典」順序排序後,取出runid最小的sentinel實例,並將它「投票選舉」爲Leader,並在其餘sentinel發送的「is-master-down-by-addr」指令時將推選的runid追加到響應中。每一個sentinel實例都會檢測「is-master-down-by-addr」的響應結果,若是「投票選舉」的leader爲本身,且狀態正常的sentinels實例中,「贊同者」的本身的sentinel個數不小於(>=) 50% + 1,且不小與<quorum>,那麼此sentinel就會認爲選舉成功且leader爲本身。
在sentinel.conf文件中,咱們指望有足夠多的sentinel實例配置「can-failover yes」,這樣可以確保當leader失效時,可以選舉某個sentinel爲leader,以便進行failover。若是leader沒法產生,好比較少的sentinels實例有效,那麼failover過程將沒法繼續。
② failover過程:
在Leader觸發failover以前,首先wait數秒(隨即0~5),以便讓其餘sentinel實例準備和調整(有可能多個leader??),若是一切正常,那麼leader就須要開始將一個salve提高爲master,此slave必須爲狀態良好(不能處於SDOWN/ODOWN狀態)且權重值最低(redis.conf中)的,當master身份被確認後,開始failover
A)「+failover-triggered」: Leader開始進行failover,此後緊跟着「+failover-state-wait-start」,wait數秒。
B)「+failover-state-select-slave」: Leader開始查找合適的slave
C)「+selected-slave」: 已經找到合適的slave
D) 「+failover-state-sen-slaveof-noone」: Leader向slave發送「slaveof no one」指令,此時slave已經完成角色轉換,此slave即爲master
E) 「+failover-state-wait-promotition」: 等待其餘sentinel確認slave
F)「+promoted-slave」:確認成功
G)「+failover-state-reconf-slaves」: 開始對slaves進行reconfig操做。
H)「+slave-reconf-sent」:向指定的slave發送「slaveof」指令,告知此slave跟隨新的master
I)「+slave-reconf-inprog」: 此slave正在執行slaveof + SYNC過程,如過slave收到「+slave-reconf-sent」以後將會執行slaveof操做。
J)「+slave-reconf-done」: 此slave同步完成,此後leader能夠繼續下一個slave的reconfig操做。循環G)
K)「+failover-end」: 故障轉移結束
L)「+switch-master」:故障轉移成功後,各個sentinel實例開始監控新的master。
4)命令查看、修改
查看:
①:info命令
127.0.0.1:20086> info # Server redis_version:3.0.0 #版本號 redis_git_sha1:00000000 redis_git_dirty:0 redis_build_id:e7768317ba5bdca5 redis_mode:sentinel #開啓模式 os:Linux 3.16.0-71-generic x86_64 #系統位數 arch_bits:64 multiplexing_api:epoll gcc_version:4.8.2 process_id:2767 #線程ID run_id:319d8c58b9bf26c26ca040b53bdc0764a543648b tcp_port:20086 #端口 uptime_in_seconds:923 #容許時間 uptime_in_days:0 hz:11 lru_clock:6041117 config_file:/etc/redis/sentinel_20086.conf #配置文件 # Sentinel sentinel_masters:1 sentinel_tilt:0 sentinel_running_scripts:0 sentinel_scripts_queue_length:0 master0:name=T1,status=ok,address=127.0.0.1:10087,slaves=2,sentinels=3 #主name,主ip,多少個slave,多少個sentinel
127.0.0.1:20086> info # Server redis_version:3.0.0 #版本號 redis_git_sha1:00000000 redis_git_dirty:0 redis_build_id:e7768317ba5bdca5 redis_mode:sentinel #開啓模式 os:Linux 3.16.0-71-generic x86_64 #系統位數 arch_bits:64 multiplexing_api:epoll gcc_version:4.8.2 process_id:2767 #線程ID run_id:319d8c58b9bf26c26ca040b53bdc0764a543648b tcp_port:20086 #端口 uptime_in_seconds:923 #容許時間 uptime_in_days:0 hz:11 lru_clock:6041117 config_file:/etc/redis/sentinel_20086.conf #配置文件 # Sentinel sentinel_masters:1 sentinel_tilt:0 sentinel_running_scripts:0 sentinel_scripts_queue_length:0 master0:name=T1,status=ok,address=127.0.0.1:10087,slaves=2,sentinels=3 #主name,主ip,多少個slave,多少個sentinel
也能夠單個顯示:info server、info sentinel。
②:sentinel masters,顯示被監控的全部master以及它們的狀態。要是有多個master就顯示多個(複用,監控多個redis,即一個配置文件寫多個),例子就1個master
127.0.0.1:20086> SENTINEL masters 1) 1) "name" #master name 2) "T1" 3) "ip" #master ip 4) "127.0.0.1" 5) "port" #master port 6) "10087" 7) "runid" 8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b" 9) "flags" 10) "master" 11) "pending-commands" 12) "0" 13) "last-ping-sent" 14) "0" 15) "last-ok-ping-reply" 16) "261" 17) "last-ping-reply" 18) "261" 19) "down-after-milliseconds" #ping的響應時間 20) "15000" 21) "info-refresh" 22) "620" 23) "role-reported" 24) "master" 25) "role-reported-time" 26) "1205058" 27) "config-epoch" #配置文件版本號 28) "2" 29) "num-slaves" #從的數量 30) "2" 31) "num-other-sentinels" #除自己外還有多少個sentinel 32) "2" 33) "quorum" #投票數量 34) "2" 35) "failover-timeout" #failover超時時間 36) "120000" 37) "parallel-syncs" #多少個從同步 38) "1"
③:sentinel master <master_name>,顯示指定master的信息和狀態。
127.0.0.1:20086> sentinel master T1 1) "name" 2) "T1" 3) "ip" 4) "127.0.0.1" 5) "port" 6) "10087" 7) "runid" 8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b" 9) "flags" 10) "master" 11) "pending-commands" 12) "0" 13) "last-ping-sent" 14) "0" 15) "last-ok-ping-reply" 16) "909" 17) "last-ping-reply" 18) "909" 19) "down-after-milliseconds" 20) "15000" 21) "info-refresh" 22) "5820" 23) "role-reported" 24) "master" 25) "role-reported-time" 26) "1501345" 27) "config-epoch" 28) "2" 29) "num-slaves" 30) "2" 31) "num-other-sentinels" 32) "2" 33) "quorum" 34) "2" 35) "failover-timeout" 36) "120000" 37) "parallel-syncs" 38) "1"
127.0.0.1:20086> sentinel master T1 1) "name" 2) "T1" 3) "ip" 4) "127.0.0.1" 5) "port" 6) "10087" 7) "runid" 8) "508e7de9f5aa4fdb70126d62a54392fbefc0b11b" 9) "flags" 10) "master" 11) "pending-commands" 12) "0" 13) "last-ping-sent" 14) "0" 15) "last-ok-ping-reply" 16) "909" 17) "last-ping-reply" 18) "909" 19) "down-after-milliseconds" 20) "15000" 21) "info-refresh" 22) "5820" 23) "role-reported" 24) "master" 25) "role-reported-time" 26) "1501345" 27) "config-epoch" 28) "2" 29) "num-slaves" 30) "2" 31) "num-other-sentinels" 32) "2" 33) "quorum" 34) "2" 35) "failover-timeout" 36) "120000" 37) "parallel-syncs" 38) "1"
④:sentinel slaves <master_name>,顯示指定master的全部slave以及它們的狀態。
127.0.0.1:20086> sentinel slaves T1 1) 1) "name" 2) "127.0.0.1:10088" 3) "ip" 4) "127.0.0.1" 5) "port" 6) "10088" 7) "runid" 8) "380a4d9e32aefd3a00c7a64ba8bce451643044f1" 9) "flags" 10) "slave" 11) "pending-commands" 12) "0" 13) "last-ping-sent" 14) "0" 15) "last-ok-ping-reply" 16) "15" 17) "last-ping-reply" 18) "15" 19) "down-after-milliseconds" 20) "15000" 21) "info-refresh" 22) "7558" 23) "role-reported" 24) "slave" 25) "role-reported-time" 26) "1934978" 27) "master-link-down-time" 28) "0" 29) "master-link-status" 30) "ok" 31) "master-host" 32) "127.0.0.1" 33) "master-port" 34) "10087" 35) "slave-priority" 36) "100" 37) "slave-repl-offset" 38) "361068" 2) 1) "name" 2) "127.0.0.1:10086" 3) "ip" 4) "127.0.0.1" 5) "port" 6) "10086" 7) "runid" 8) "9babf78ee2b420d2671b12f93b68c4d19a5edf08" 9) "flags" 10) "slave" 11) "pending-commands" 12) "0" 13) "last-ping-sent" 14) "0" 15) "last-ok-ping-reply" 16) "15" 17) "last-ping-reply" 18) "15" 19) "down-after-milliseconds" 20) "15000" 21) "info-refresh" 22) "7558" 23) "role-reported" 24) "slave" 25) "role-reported-time" 26) "1934978" 27) "master-link-down-time" 28) "0" 29) "master-link-status" 30) "ok" 31) "master-host" 32) "127.0.0.1" 33) "master-port" 34) "10087" 35) "slave-priority" 36) "100" 37) "slave-repl-offset" 38) "361068"
127.0.0.1:20086> sentinel slaves T1 1) 1) "name" 2) "127.0.0.1:10088" 3) "ip" 4) "127.0.0.1" 5) "port" 6) "10088" 7) "runid" 8) "380a4d9e32aefd3a00c7a64ba8bce451643044f1" 9) "flags" 10) "slave" 11) "pending-commands" 12) "0" 13) "last-ping-sent" 14) "0" 15) "last-ok-ping-reply" 16) "15" 17) "last-ping-reply" 18) "15" 19) "down-after-milliseconds" 20) "15000" 21) "info-refresh" 22) "7558" 23) "role-reported" 24) "slave" 25) "role-reported-time" 26) "1934978" 27) "master-link-down-time" 28) "0" 29) "master-link-status" 30) "ok" 31) "master-host" 32) "127.0.0.1" 33) "master-port" 34) "10087" 35) "slave-priority" 36) "100" 37) "slave-repl-offset" 38) "361068" 2) 1) "name" 2) "127.0.0.1:10086" 3) "ip" 4) "127.0.0.1" 5) "port" 6) "10086" 7) "runid" 8) "9babf78ee2b420d2671b12f93b68c4d19a5edf08" 9) "flags" 10) "slave" 11) "pending-commands" 12) "0" 13) "last-ping-sent" 14) "0" 15) "last-ok-ping-reply" 16) "15" 17) "last-ping-reply" 18) "15" 19) "down-after-milliseconds" 20) "15000" 21) "info-refresh" 22) "7558" 23) "role-reported" 24) "slave" 25) "role-reported-time" 26) "1934978" 27) "master-link-down-time" 28) "0" 29) "master-link-status" 30) "ok" 31) "master-host" 32) "127.0.0.1" 33) "master-port" 34) "10087" 35) "slave-priority" 36) "100" 37) "slave-repl-offset" 38) "361068"
⑤:sentinel get-master-addr-by-name <master_name>,
返回指定master的ip和端口,若是正在進行failover或者failover已經完成,將會顯示被提高爲master的slave的ip和端口。
27.0.0.1:20086> sentinel get-master-addr-by-name T1 1) "127.0.0.1" 2) "10087"
⑥:sentinel reset <pattern>:重置名字匹配該正則表達式的全部的master的狀態信息,清除其以前的狀態信息,以及slaves信息。好比刪除一個slave或則sentinel時候,先關閉中止想要刪除的進程,再執行:
sentinel reset *
⑦:sentinel failover <master_name>
強制sentinel執行failover,而且不須要獲得其餘sentinel的贊成。可是failover後會將最新的配置發送給其餘sentinel。
127.0.0.1:20086> sentinel failover T1 OK 127.0.0.1:20086> sentinel get-master-addr-by-name T1 1) "127.0.0.1" 2) "10088" #主被切換了
⑧:查看其餘sentinel信息
sentinel sentinels T1
⑨:檢查sentinel監控是否正確
sentinel ckquorum T1
⑩:配置文件丟失,重寫配置文件
sentinel flushconfig
修改:包括參數
①:sentinel monitor <master_mname> <ip> <port> <quorum> ,監控一個新的redis master(這時經過sentinel masters能夠看到多個)
127.0.0.1:20086> SENTINEL MONITOR T2 127.0.0.1 10089 2 OK
②:sentinel remove <master_name>
命令sentinel放棄對某個master的監聽。刪掉上一個加的:
127.0.0.1:20086> sentinel remove T2 OK
③:sentinel set <master_name> <option> <value>
這個命令很像Redis的CONFIG SET
命令,用來改變指定master的配置。支持多個<option><value>。
127.0.0.1:20086> sentinel masters 1) ... 37) "parallel-syncs" 38) "1" 127.0.0.1:20086> sentinel set T1 parallel-syncs 2 #格式 OK 127.0.0.1:20086> sentinel masters 1) ... 37) "parallel-syncs" 38) "2"
注意:只要是配置文件中存在的配置項,均可以用SENTINEL SET
命令來設置。這個還能夠用來設置master的屬性,好比說quorum(票數),而不須要先刪除master,再從新添加master。
5) 增長或刪除Sentinel
增長一個sentinel很簡單,直接配置好參數開啓一個sentinel便可。添加時最好一個接着一個添加,這樣能夠預防網絡隔離帶來的問題,能夠每一個30秒添加一個sentinel。經過SENTINEL MASTER mastername(T1)中的num-other-sentinels來查看是否成功添加sentinel。刪除一個sentinel稍微複雜一點,sentinel永遠不會刪除一個已經存在過的sentinel,即便它已經與組織失去聯繫。遵循以下步驟:
中止所要刪除的sentinel
發送一個SENTINEL RESET *
命令給全部其它的sentinel實例,若是你想要重置指定master上面的sentinel,只須要把*號改成特定的名字,注意,須要一個接一個發,每次發送的間隔不低於30秒。
檢查一下全部的sentinels是否都有一致的當前sentinel數。使用SENTINEL MASTER mastername
來查詢。
首先 kill 掉一個sentinel
127.0.0.1:20086> sentinel master T1 1) "name" 2) "T1" 3) "ip" 4) "127.0.0.1" 5) "port" 6) "10088" ... 31) "num-other-sentinels" 32) "2" ... 127.0.0.1:20086> sentinel reset T1 #從新導入或則執行下面的 (integer) 1 127.0.0.1:20086> sentinel reset * #由於只有監視一個主,因此和上面一致 (integer) 1 127.0.0.1:20086> sentinel masters 1) 1) "name" 2) "T1" 3) "ip" 4) "127.0.0.1" 5) "port" 6) "10088" ... ... 31) "num-other-sentinels" #sentinel slave的數量 32) "1" ...
6)刪除舊master或者不可達slave
要永久地刪除掉一個slave(有可能它曾經是個master),你只須要發送一個SENTINEL RESET master
命令給全部的sentinels,它們將會更新列表裏可以正確地複製master數據的slave。 遵循以下步驟:
中止所要刪除的redis slave。
發送一個SENTINEL RESET *
命令給全部其它的sentinel實例,若是你想要重置指定master上面的slave,只須要把*號改成特定的名字。
檢查一下全部的sentinels是否都有一致的當前sentinel數。使用SENTINEL MASTER mastername
來查詢。
首先 kill 掉一個slave 127.0.0.1:20086> sentinel masters 1) 1) "name" 2) "T1" 3) "ip" 4) "127.0.0.1" 5) "port" 6) "10088" ... 29) "num-slaves" #多少個slave 30) "2" ... 127.0.0.1:20086> sentinel reset T1 #從新導入或則執行下面的 (integer) 1 127.0.0.1:20086> sentinel reset * #和上面一致 (integer) 1 127.0.0.1:20086> sentinel masters 1) 1) "name" 2) "T1" 3) "ip" 4) "127.0.0.1" 5) "port" 6) "10088" ... 29) "num-slaves" #多少個slave 30) "1" ...
注意:要是再次開啓關閉掉的redis slave會繼續當成一個slave,若要完全關閉slave,則須要修改關閉掉的redis配置文件中最後的:
# Generated by CONFIG REWRITE slaveof 127.0.0.1 10088 #關閉改參數
7)總結
Redis-Sentinel是Redis官方推薦的高可用性(HA) 解決方案,Redis-sentinel自己也是一個獨立運行的進程,它能監控多個master-slave集羣,發現master宕機後能進行自動切換。Sentinel能夠監視任意多個主服務器(複用),以及主服務器屬下的從服務器,並在被監視的主服務器下線時,自動執行故障轉移操做。
爲了防止sentinel的單點故障,能夠對sentinel進行集羣化,建立多個sentinel。