-----------------------------------------------------------------------------------------------------------------------html
三個重要的標準:java
---大型緩存架構中須要首先說一下:node
海量數據:支持海量數據緩存,支持大規模數據;mysql
高併發:在億級QPS的場景下,能夠作到知足業務需求;linux
高可用:表示redis能夠作到而且儘量的作到能夠持續使用。好比整年保持99.99%的時間處在可用狀態,除非遇到各類斷電等特殊災害;nginx
-------------------------------------------------------------------------------------------------------web
商品詳情頁的系統架構介紹-->兩種設計類型:redis
靜態模板是固定的 數據庫中的數據全量喧嚷到模板中,下次請求來了直接返回,速度也很快;算法
缺點:當數據上億的時候,若是模板改定,把這些全部的數據在mysql中取出後渲染進模板,很是耗時,不現實;sql
設計緩存數據生產服務模塊;
不須要再進行全量從新渲染,直接將最新的html模板推送到nginx服務器,請求過來後直接在nginx本地進行渲染進模板中返回請求;
-------------------------------------------------------------------------------------------------------
虛擬機中安裝CentOS
啓動一個virtual box虛擬機管理軟件 使用CentOS 6.5鏡像便可,CentOS-6.5-i386-minimal.iso
配置網絡
vi /etc/sysconfig/network-scripts/ifcfg-eth0 ---- 修改linux的網絡配置
刪除對應的項目,保留以下的配置:
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=dhcp
wq保存;
重啓網絡:
service network restart
使用ifconfig查詢當前自動分配的網址;
將當前的網址設置爲靜態ip,加入下面的靜態配置:
BOOTPROTO=static
IPADDR=192.168.0.X
NETMASK=255.255.255.0
GATEWAY=192.168.0.1
網絡服務重啓:
service network restart
配置hosts【至關於給本機起別名】
vi /etc/hosts
192.168.0.X eshop-cache01
其餘主機,添加相似配置。實現本機的hostname到ip地址的映射
配置SecureCRT【本人使用的Xshell 感受也很好用】
此時就可使用SecureCRT從本機鏈接到虛擬機進行操做了
關閉linux防火牆
service iptables stop
service ip6tables stop
chkconfig iptables off
chkconfig ip6tables off
vi /etc/selinux/config
SELINUX=disabled
關閉windows的防火牆
配置yum
yum clean all
yum makecache
yum install wget
------------------------------------------------------------------------------------------
在每一個CentOS中都安裝Java和Perl
(WinSCP,就是在windows宿主機和linux虛擬機之間互相傳遞文件的一個工具。)
(1)安裝JDK
一、將jdk-7u60-linux-i586.rpm經過WinSCP上傳到虛擬機中
二、安裝JDK:rpm -ivh jdk-7u65-linux-i586.rpm
三、配置jdk相關的環境變量
vi .bashrc
export JAVA_HOME=/usr/java/latest
export PATH=$PATH:$JAVA_HOME/bin
source .bashrc
四、測試jdk安裝是否成功:java -version
(2)安裝Perl
yum install -y gcc
wget http://www.cpan.org/src/5.0/perl-5.16.1.tar.gz
tar -xzf perl-5.16.1.tar.gz
cd perl-5.16.1
./Configure -des -Dprefix=/usr/local/perl
make && make test && make install
perl -v
爲何要裝perl?咱們整個大型電商網站的詳情頁系統,複雜。java+nginx+lua,須要perl。
perl,是一個基礎的編程語言的安裝,tomcat,跑java web應用
------------------------------------------------------------------------------------------
三、在4個虛擬機中安裝CentOS集羣
(1)按照上述步驟,再安裝三臺如出一轍環境的linux機器
(2)另外三臺機器的hostname分別設置爲eshop-cache02,eshop-cache03,eshop-cache04
(3)安裝好以後,在每臺機器的hosts文件裏面,配置好全部的機器的ip地址到hostname的映射關係
好比說,在eshop-cache01的hosts裏面
192.168.31.187 eshop-cache01
192.168.31.xxx eshop-cache02
192.168.31.xxx eshop-cache03
192.168.31.xxx eshop-cache04
------------------------------------------------------------------------------------------
四、配置4臺CentOS爲ssh免密碼互相通訊【此時四臺linux虛擬機能夠經過ssh實現無密碼輸入通訊】
(1)首先在四臺機器上配置對本機的ssh免密碼登陸
ssh-keygen -t rsa
生成本機的公鑰,過程當中不斷敲回車便可,ssh-keygen命令默認會將公鑰放在/root/.ssh目錄下
cd /root/.ssh
cp id_rsa.pub authorized_keys
將公鑰複製爲authorized_keys文件,此時使用ssh鏈接本機就不須要輸入密碼了
(2)接着配置三臺機器互相之間的ssh免密碼登陸
使用ssh-copy-id -i hostname命令將本機的公鑰拷貝到指定機器的authorized_keys文件中
一、安裝單機版tcl + redis
1. wget http://downloads.sourceforge.net/tcl/tcl8.6.1-src.tar.gz
2. tar -xzvf tcl8.6.1-src.tar.gz
3. cd /usr/local/tcl8.6.1/unix/
4. ./configure
5. make && make install
6. 使用redis-3.2.8.tar.gz(截止2017年4月的最新穩定版)
7. tar -zxvf redis-3.2.8.tar.gz
8. cd redis-3.2.8
9. make && make test && make install
------------------------------------------------------------------------
二、redis的生產環境啓動方案
若是通常的學習課程,你就隨便用redis-server啓動一下redis,作一些實驗,這樣的話,沒什麼意義
1. 要把redis做爲一個系統的daemon進程去運行的,每次系統啓動,redis進程一塊兒啓動
(1)redis utils目錄下,有個redis_init_script腳本
(2)將redis_init_script腳本拷貝到linux的/etc/init.d目錄中(初始化目錄),將redis_init_script重命名爲redis_6379,6379是咱們但願這個redis實例監聽的端口號
(3)修改redis_6379腳本的第6行的REDISPORT,設置爲相同的端口號(默認就是6379)
(4)建立兩個目錄:
/etc/redis(存放redis的配置文件),
/var/redis/6379(存放redis的持久化文件,也就是後面要使用的redis備份)
(5)修改redis配置文件(默認在根目錄下,redis.conf),拷貝到/etc/redis目錄中,修更名稱爲6379.conf
(6)修改redis.conf中的部分配置爲生產環境
daemonize yes 讓redis以daemon進程運行(守護線程,能夠理解爲java運行時的jvm線程,在後臺進行service服務) pidfile /var/run/redis_6379.pid 設置redis的pid文件位置 【/var/run 目錄下放的是各程序的pid】 port 6379 設置redis的監聽端口號 dir /var/redis/6379 設置持久化文件的存儲位置
(7)啓動redis,執行cd /etc/init.d, chmod 777 redis_6379,
./redis_6379 start
(8)確認redis進程是否啓動,ps -ef | grep redis
(9)讓redis跟隨系統啓動自動啓動
在redis_6379腳本中,最上面,加入兩行註釋
# chkconfig: 2345 90 10
# description: Redis is a persistent key-value database
在Xshell中執行 chkconfig redis_6379 on
------------------------------------------------------------------------
三、redis cli的使用
redis-cli SHUTDOWN,鏈接本機的6379端口中止redis進程;
redis-cli -h 127.0.0.1 -p 6379 SHUTDOWN,制定要鏈接的ip和端口號
redis-cli PING,ping redis的端口,看是否正常
redis-cli,進入交互式命令行:
存取刪測試:
set k1 v1
get k1
del k1
------------------------------------------------------------------------------------------------
redis的技術,包括4塊:
redis各類數據結構和命令的使用,包括java api的使用,這類操做命令其餘的博客很是完善,能夠常常性的查詢熟悉;
redis一些特殊的解決方案的使用,pub/sub消息系統,分佈式鎖,輸入的自動完成等;
redis平常的管理相關的命令;
redis企業級的集羣部署和架構;
Note:
--- Redis在不使用備份的狀況下會產生緩存雪崩問題,也就是redis宕機後,沒有備份的狀況下,全部查詢操做所有直接涌入數據庫,致使數據庫機器宕機;
兩種備份方式分析:
---下邊堆 redis 寫如數據的兩種方式進行分析:
原理圖:
redis 的 AOF 下的 rewrite 機制原理:
AOF和RDB兩種模式:
AOF機制對每條寫入命令做爲日誌,以append-only的模式寫入一個日誌文件中,在redis重啓的時候,能夠經過回放AOF日誌中的寫入指令來從新構建整個數據集
若是咱們想要redis僅僅做爲純內存的緩存來用,那麼能夠禁止RDB和AOF全部的持久化機制【可是採用這種方式的項目是個高危項目】
經過RDB或AOF,均可以將redis內存中的數據給持久化到磁盤上面來,而後能夠將這些數據備份到別的地方去,好比雲服務
若是redis掛了,服務器上的內存和磁盤上的數據都丟了,能夠從雲服務上拷貝回來以前的數據,放到指定的目錄中,而後從新啓動redis,redis就會自動根據持久化數據文件中的數據,去恢復內存中的數據,繼續對外提供服務【這個地方就能夠看出redis確實很高級】
若是同時使用RDB和AOF兩種持久化機制,那麼在redis重啓的時候,會使用AOF來從新構建數據,由於AOF中的數據更加完整
RDB持久化機制,對redis中的數據執行週期性的持久化,也就是每一個固定的時間去作一次內存快照的保存工做,適合作冷備份。
-------------------------------------------------------------------------------------
RDB持久化機制的優勢
(1)RDB會生成多個數據文件,每一個數據文件都表明了某一個時刻中redis的數據,這種多個數據文件的方式,很是適合作冷備,能夠將這種完整的數據文件發送到一些遠程的安全存儲上去,好比說Amazon的S3雲服務上去,在國內能夠是阿里雲的ODPS分佈式存儲上,以預約好的備份策略來按期備份redis中的數據
(2)RDB對redis對外提供的讀寫服務,影響很是小,可讓redis保持高性能,由於redis主進程只須要fork一個子進程,讓子進程執行磁盤IO操做來進行RDB持久化便可
(3)相對於AOF持久化機制來講,直接基於RDB數據文件【AOF爲指令日誌】來重啓和恢復redis進程,更加快速。【rdb基於數據,恢復速度快】
-------------------------------------------------------------------------------------
RDB持久化機制的缺點
(1)若是想要在redis故障時,儘量少的丟失數據,那麼RDB沒有AOF好。
通常來講,RDB數據快照文件,都是每隔5分鐘,或者更長時間生成一次,這個時候就得接受一旦redis進程宕機,那麼會丟失最近5分鐘的數據。
(2)RDB每次在fork子進程來執行RDB快照數據文件生成的時候,若是數據文件特別大,可能會致使對客戶端提供的服務暫停數毫秒,或者甚至數秒
-------------------------------------------------------------------------------------
AOF持久化機制的優勢
(1)AOF能夠更好的保護數據不丟失,通常AOF會每隔1秒,經過一個後臺線程執行一次fsync操做,最多丟失1秒鐘的數據。
(2)AOF日誌文件以append-only模式寫入,因此沒有任何磁盤尋址的開銷,寫入性能很是高,並且文件不容易破損,即便文件尾部破損,也很容易修復
(3)AOF日誌文件即便過大的時候,出現後臺重寫操做,也不會影響客戶端的讀寫。由於在rewrite log的時候,會對其中的指導進行壓縮,建立出一份須要恢復數據的最小日誌出來。在建立新日誌文件的時候,老的日誌文件仍是照常寫入。當新的merge後的日誌文件ready的時候,再交換新老日誌文件便可。
(4)AOF日誌文件的命令經過很是可讀的方式進行記錄,這個特性很是適合作災難性的誤刪除的緊急恢復。好比某人不當心用 【 flushall 】 命令清空了全部數據,只要這個時候後臺rewrite尚未發生,那麼就能夠當即拷貝AOF文件,將最後一條flushall命令給刪了,而後再將該AOF文件放回去,就能夠經過恢復機制,自動恢復全部數據。
-------------------------------------------------------------------------------------
AOF持久化機制的缺點
(1)對於同一份數據來講,AOF日誌文件一般比RDB數據快照文件更大
(2)AOF開啓後,支持的寫QPS會比RDB支持的寫QPS低,由於AOF通常會配置成每秒fsync一第二天志文件,固然,每秒一次fsync,性能也仍是很高的
(3)之前AOF發生過bug,就是經過AOF記錄的日誌,進行數據恢復的時候,沒有恢復如出一轍的數據出來。因此說,相似AOF這種較爲複雜的基於命令日誌/merge/回放的方式,比基於RDB每次持久化一份完整的數據快照文件的方式,更加脆弱一些,容易有bug。不過AOF就是爲了不rewrite過程致使的bug,所以每次rewrite並非基於舊的指令日誌進行merge的,而是基於當時內存中的數據進行指令的從新構建,這樣健壯性會好不少。
-------------------------------------------------------------------------------------
linux環境下 redis 的默認配置中 AOF 模式是關閉的 能夠從配置文件 appendonly=no 看到,而 默認打開的是 RDB 模式;
在兩種模式都開啓的狀況下,作數據恢復的時候優先使用AOF的數據;
下面重點對AOF模式的配置進行分析:
設置appendonly=yes;
設置appendfsync,對於設置linux緩存oscache支持的選項 always, everysec,no;
設置auto-aof-rewrite-percentage 1-100 用來設置如今aof文件大小相比於上次rewrite時空間增長的比例 好比設置爲100 則表示 在比上一次增大了一倍時再次rewrite
設置auto-aof-rewrite-min-size XXmb 最小rewrite空間大小,以mb爲單位,必須超過該空間纔有可能觸發rewrite,每次都會進行比較;
rewrite的實現圖,在建立新aof文件時若是有新的client加入數據時的場景,新的數據會都保存在新舊aof文件中後再刪除舊的aof文件;
RDB很是適合作冷備,每次生成以後,就不會再有修改了。
一、數據備份方案
(1)寫linux的定時任務調度腳本,使用crontab定時調度腳本去作數據備份
(2)每小時都copy一份rdb的備份,到一個目錄中去,僅僅保留最近48小時的備份
(3)天天都保留一份當日的rdb的備份,到一個目錄中去,僅僅保留最近1個月的備份【至關於每月保存30份備份】
(4)每次copy備份的時候,都把太舊的備份給刪了
(5)天天晚上將當前服務器上全部的數據備份,發送一份到遠程的雲服務上去【雲服務上覺得單位】
二、數據恢復方案
(1)若是是redis進程掛掉,那麼重啓redis進程便可,直接基於AOF日誌文件恢復數據
(2)若是是redis進程所在機器掛掉,那麼重啓機器後,嘗試重啓redis進程,嘗試直接基於AOF日誌文件進行數據恢復,AOF沒有破損,也是能夠直接基於AOF恢復的,AOF append-only,順序寫入,若是AOF文件破損,那麼用 redis-check-aof fix【損壞部分容忍丟失,其實只丟失了一秒的數據量】
(3)若是redis當前最新的AOF和RDB文件出現了丟失/損壞,那麼能夠嘗試基於該機器上當前的某個最新的RDB數據副本進行數據恢復
當前最新的AOF和RDB文件都出現了丟失/損壞到沒法恢復,通常不是機器的故障,人爲
/var/redis/6379下的文件給刪除了,找到RDB最新的一份備份,小時級的備份能夠了,小時級的確定是最新的,copy到redis裏面去,就能夠恢復到某一個小時的數據
容災演練
中止redis,關閉aof,拷貝rdb備份,重啓redis,確認數據恢復,直接在命令行熱修改redis配置,打開aof,這個redis就會將內存中的數據對應的日誌,寫入aof文件中,此時aof和rdb兩份數據文件的數據就同步了。
redis config set
熱修改配置參數,可能配置文件中的實際的參數沒有被持久化的修改,再次中止redis,手動修改配置文件,打開aof的命令,再次重啓redis。
(4)若是當前機器上的全部RDB文件所有損壞,那麼從遠程的雲服務上拉取最新的RDB快照回來恢復數據。
(5)若是是發現有重大的數據錯誤,好比某個小時上線的程序一會兒將數據所有污染了,數據全錯了,那麼能夠選擇某個更早的時間點,對數據進行恢復
單機的redis的通常場景下的極限值差很少讀的QPS在5萬左右,固然也收服務器的性能配置影響,因此高於這個極限值很大的境況下,redis隨時有崩掉的危險,那麼
怎麼作到更高的QPS呢,總的思路就是讀寫分離,同時增長讀的redis個數,由於在一般的場景下,讀遠遠大於寫;
這就引出了redis的主從結構話設計;
主從結構框架配置 必須實現 master 的持久化!!!
主從reids間的同步原理:
runid的做用:
一、複製的完整流程
(1)slave node啓動,僅僅保存master node的信息,包括master node的host和ip,可是複製流程沒開始
master host和ip是從哪兒來的,redis.conf裏面的slaveof配置的
(2)slave node內部有個定時任務,每秒檢查是否有新的master node要鏈接和複製,若是發現,就跟master node創建socket網絡鏈接
(3)slave node發送ping命令給master node
(4)口令認證,若是master設置了requirepass,那麼salve node必須發送masterauth的口令過去進行認證
(5)master node第一次執行全量複製,將全部數據發給slave node
(6)master node後續持續將寫命令,異步複製給slave node
二、數據同步相關的核心機制
指的就是第一次slave鏈接msater的時候,執行的全量複製,那個過程裏面你的一些細節的機制
(1)master和slave都會維護一個offset
master會在自身不斷累加offset,slave也會在自身不斷累加offset
slave每秒都會上報本身的offset給master,同時master也會保存每一個slave的offset
這個倒不是說特定就用在全量複製的,主要是master和slave都要知道各自的數據的offset,才能知道互相之間的數據不一致的狀況
(2)backlog
master node有一個backlog,默認是1MB大小
master node給slave node複製數據時,也會將數據在backlog中同步寫一份
backlog主要是用來作全量複製中斷候的增量複製的
(3)master run id
info server,能夠看到master run id
若是根據host+ip定位master node,是不靠譜的,若是master node重啓或者數據出現了變化,那麼slave node應該根據不一樣的run id區分,run id不一樣就作全量複製
若是須要不更改run id重啓redis,可使用redis-cli debug reload命令
(4)psync
從節點使用psync從master node進行復制,psync runid offset
master node會根據自身的狀況返回響應信息,多是FULLRESYNC runid offset觸發全量複製,多是CONTINUE觸發增量複製
三、全量複製
(1)master執行bgsave,在本地生成一份rdb快照文件
(2)master node將rdb快照文件發送給salve node,若是rdb複製時間超過60秒(repl-timeout),那麼slave node就會認爲複製失敗,能夠適當調節大這個參數
(3)對於千兆網卡的機器,通常每秒傳輸100MB,6G文件,極可能超過60s
(4)master node在生成rdb時,會將全部新的寫命令緩存在內存中,在salve node保存了rdb以後,再將新的寫命令複製給salve node
(5)client-output-buffer-limit slave 256MB 64MB 60,若是在複製期間,內存緩衝區持續消耗超過64MB,或者一次性超過256MB,那麼中止複製,複製失敗
(6)slave node接收到rdb以後,清空本身的舊數據,而後從新加載rdb到本身的內存中,同時基於舊的數據版本對外提供服務
(7)若是slave node開啓了AOF,那麼會當即執行BGREWRITEAOF,重寫AOF
rdb生成、rdb經過網絡拷貝、slave舊數據的清理、slave aof rewrite,很耗費時間
若是複製的數據量在4G~6G之間,那麼極可能全量複製時間消耗到1分半到2分鐘
四、增量複製
(1)若是全量複製過程當中,master-slave網絡鏈接斷掉,那麼salve從新鏈接master時,會觸發增量複製
(2)master直接從本身的backlog中獲取部分丟失的數據,發送給slave node,默認backlog就是1MB
(3)msater就是根據slave發送的psync中的offset來從backlog中獲取數據的
五、heartbeat
主從節點互相都會發送heartbeat信息
master默認每隔10秒發送一次heartbeat,salve node每隔1秒發送一個heartbeat
六、異步複製
master每次接收到寫命令以後,如今內部寫入數據,而後異步發送給slave node
一、在slave node上配置以下便可:
slaveof 192.168.X.X 6379
二、強制讀寫分離
基於主從複製架構,實現讀寫分離 redis slave node必須設置爲只讀模式,默認開啓,
slave-read-only yes
開啓了只讀的redis slave node,會拒絕全部的寫操做,這樣能夠強制搭建成讀寫分離的架構
三、集羣安全認證
master上啓用安全認證,requirepass passwd
slave上設置鏈接口令,masterauth passwd
兩個passwd須要保持一致
四、bind 對應的 IP
在master 和 slave 上都設置bind IP,默認爲127.0.0.1 這裏須要設置本身的虛擬機的ip
----------------------------------------------
五、進行驗證
先開啓master,使用
redis-cli -h IP -a passwd
命令操做,本人操做過,若是不加 -a passwd參數會出現 (error) NOAUTH Authentication required.錯誤,輸入後進入redis命令號 輸入
info replication
------------------------------------------------
進行驗證
驗證結果
【從中也能夠看到 master和slave的offset此時是不一致的】
六、而後開啓slave從redis; 輸入
redis-cli -h IP
而後輸入
info replication
進行信息驗證;
驗證結果
主從數據驗證:
master:
slave:
能夠看到master的RDB數據已經傳到了slave中; 同時咱們也能夠知道,若是在slave上試圖添加數據,會被無情的拒絕;
----------------------------------------------------- 更新至2018.8.19 22.46 -----------------------------------------------------
進入 redis 安裝目錄的 src目錄下;
執行
redis-benchmark -h IP -c n1 -n n2 -d n3
進行測試
-c <clients> Number of parallel connections (default 50) -n <requests> Total number of requests (default 100000) -d <size> Data size of SET/GET value in bytes (default 2)
本人機器測試以下:
咱們能夠看到 在Get操做中 QPS 爲 76863 至關於每秒1.7W的訪問量,虛擬機的配置爲1G內存單CPU,若是進行水平擴容2臺,架構由一臺master加三臺slave,則支持7.6W*2 = 22W的QPS,固然在生產場景下,與訪問的數據大小存在關係;
------------------------------------------------------------------------------------------
----主備切換
在主從架構中slave發生問題時,若是是一臺slave出現問題,不會影響整個架構的運行,由於其餘的slave會頂替該宕機的slave,可是若是master出現了宕機,就沒有機器繼續給
slave機器複製數據,因此這時候須要採用一種機制來實現高可用性;
如何實現緩存架構的高可用性
-----【增長哨兵 Sentinel Node】
------------------------------------------------------------------------------------------
經典的三點哨兵集羣介紹:
-----【爲何最少是3個哨兵,由於只要quorum 和 majority 都知足的狀況下才能夠進行故障轉移】
若是哨兵集羣中一個哨兵認爲主節點宕機了,這種狀況爲sdowm,也就是主觀宕機,此時可能存在誤判,因此須要設置quorum,好比有三臺機器,quorum設置
爲2,則在有兩臺機器認爲是sdown的狀況下,變爲odowm,也就是客觀宕機,此時的判斷通常是準確的。
哨兵是redis集羣架構中很是重要的一個組件,主要功能以下:
(1)集羣監控,負責監控redis master和slave進程是否正常工做
(2)消息通知,若是某個redis實例有故障,那麼哨兵負責發送消息做爲報警通知給管理員
(3)故障轉移,若是master node掛掉了,會自動轉移到slave node上
(4)配置中心,若是故障轉移發生了,通知client客戶端新的master地址
哨兵自己也是分佈式的,做爲一個哨兵集羣去運行,互相協同工做
(1)故障轉移時,判斷一個master node是宕機了,須要大部分的哨兵都贊成才行,涉及到了分佈式選舉的問題
(2)即便部分哨兵節點掛掉了,哨兵集羣仍是能正常工做的,由於若是一個做爲高可用機制重要組成部分的故障轉移系統自己是單點的,那就很坑爹了
哨兵的核心知識 ----- 哨兵+redis部署架構
(1)哨兵至少須要3個實例,來保證本身的健壯性
(2)哨兵 + redis主從的部署架構,是不會保證數據零丟失的,只能保證redis集羣的高可用性
(3)對於哨兵 + redis主從這種複雜的部署架構,儘可能在測試環境和生產環境,都進行充足的測試和演練
------------------------------------------------------------------------------------------
首先說一下這裏有個坑爹的地方就是 坑了我三天才得以解決,就是哨兵在監視master 和 slave的時候,都須要配置密碼,sentinel auth-pass mymaster redis-pass 這一步我配置的過程當中漏掉了,致使哨兵一直監視不了主從架構,因此在配置的過程當中必定要加上;
基本配置:
哨兵默認用26379端口,默認不能跟其餘機器在指定端口連通,只能在本地訪問 mkdir /etc/sentinal mkdir -p /var/sentinal/5000 /etc/sentinal/5000.conf
在5000.conf文件中進行配置: port 5000 bind 192.168.1.108 dir /var/sentinal/5000 sentinel monitor mymaster 192.168.1.108 6379 2 sentinel down-after-milliseconds mymaster 30000 //超過多少毫秒跟一個redis實例斷了鏈接,哨兵就可能認爲這個redis實例掛了 sentinel failover-timeout mymaster 60000 //執行故障轉移的timeout超時時長 sentinel parallel-syncs mymaster 1 //選舉出新的master後 一次性把幾個slave掛載上去
sentinel auth-pass mymaster redis-pass
port 5000 bind 192.168.1.109 dir /var/sentinal/5000 sentinel monitor mymaster 192.168.1.108 6379 2 sentinel down-after-milliseconds mymaster 30000 sentinel failover-timeout mymaster 60000 sentinel parallel-syncs mymaster 1
sentinel auth-pass mymaster redis-pass
port 5000 bind 192.168.1.105 dir /var/sentinal/5000 sentinel monitor mymaster 192.168.1.108 6379 2 sentinel down-after-milliseconds mymaster 30000 sentinel failover-timeout mymaster 60000
sentinel parallel-syncs mymaster 1
sentinel auth-pass mymaster redis-pass
3、啓動哨兵進程 在eshop-cache0一、eshop-cache0二、eshop-cache03三臺機器上,分別啓動三個哨兵進程,組成一個集羣,觀察一下日誌的輸出
redis-sentinel /etc/sentinal/5000.conf
redis-server /etc/sentinal/5000.conf --sentinel
日誌裏會顯示出來,每一個哨兵都能去監控到對應的redis master,並可以自動發現對應的slave,哨兵之間互相會自動進行發現,用的就是以前說的pub/sub,消息發佈和訂閱channel消息系統和機制
4、檢查哨兵狀態 redis-cli -h 192.168.1.108 -p 5000
sentinel master mymaster
SENTINEL slaves mymaster
SENTINEL sentinels mymaster
SENTINEL get-master-addr-by-name mymaster
配置成功後的運行截圖:
master的哨兵信息:
Slave上的哨兵信息:
master的哨兵監視信息:
slave的監視信息:
模式master 宕機後的情景:
將master的端口關閉掉,或者直接關閉master虛擬機,
第一種狀況:在client不斷往master寫入數據,在準備將數據異步拷貝給各個slave的時候,此時master宕機的狀況下,哨兵會選舉新的master,而後clinet就會向
新的master寫入數據,此時原來的master裏邊原來寫入的那塊數據就丟失了;
第二種狀況腦裂:
也就是master因爲異常緣由,獨立出slave所在的網絡,可是master能夠繼續工做,但此時哨兵檢測到master的異常後,從新選出一個slave做爲新的master,
此時的場景下存在了兩個master,在新的master選舉出來以前,而後client繼續向原來的master寫入數據,當選舉新master完成後,原來的master恢復被被設置
爲slave,此時舊的master緩存的數據就會被覆蓋,致使數據丟失;
------------------------------------------------------------------
一、兩種數據丟失的狀況
主備切換的過程,可能會致使數據丟失
(1)異步複製致使的數據丟失
由於master -> slave的複製是異步的,因此可能有部分數據還沒複製到slave,master就宕機了,此時這些部分數據就丟失了
(2)腦裂致使的數據丟失
腦裂,也就是說,某個master所在機器忽然脫離了正常的網絡,跟其餘slave機器不能鏈接,可是實際上master還運行着
此時哨兵可能就會認爲master宕機了,而後開啓選舉,將其餘slave切換成了master
這個時候,集羣裏就會有兩個master,也就是所謂的腦裂
此時雖然某個slave被切換成了master,可是可能client還沒來得及切換到新的master,還繼續寫向舊master的數據可能也丟失了
所以舊master再次恢復的時候,會被做爲一個slave掛到新的master上去,本身的數據會清空,從新重新的master複製數據
------------------------------------------------------------------
解決方案:
在redis的配置文件配置參數:
min-slaves-to-write 1
min-slaves-max-lag 10
要求至少有1個slave,數據複製和同步的延遲不能超過10秒,若是說一旦全部的slave,數據複製和同步的延遲都超過了10秒鐘,那麼這個時候,master就不會再接收任何請求了.
要求至少有1個slave,數據複製和同步的延遲不能超過10秒
若是說一旦全部的slave,數據複製和同步的延遲都超過了10秒鐘,那麼這個時候,master就不會再接收任何請求了
上面兩個配置能夠減小異步複製和腦裂致使的數據丟失
(1)減小異步複製的數據丟失
有了min-slaves-max-lag這個配置,就能夠確保說,一旦slave複製數據和ack延時太長,就認爲可能master宕機後損失的數據太多了,那麼就拒絕寫請求[可能redis會處理暫時寫入,保存到本身一個緩存區,詳見上邊的「處理圖」],這樣能夠把master宕機時因爲部分數據未同步到slave致使的數據丟失下降的可控範圍內
(2)減小腦裂的數據丟失
若是一個master出現了腦裂,跟其餘slave丟了鏈接,那麼上面兩個配置能夠確保說,若是不能繼續給指定數量的slave發送數據,並且slave超過10秒沒有給本身ack消息,那麼就直接拒絕客戶端的寫請求
這樣腦裂後的舊master就不會接受client的新數據,也就避免了數據丟失
上面的配置就確保了,若是跟任何一個slave丟了鏈接,在10秒後發現沒有slave給本身ack,那麼就拒絕新的寫請求
所以在腦裂場景下,最多就丟失10秒的數據
------------------------------------------------------------------------------------------
如何在保持讀寫分離+高可用的架構下,還能橫向擴容支撐1T+海量數據
一、redis cluster vs. replication + sentinal
replication + sentinal:若是你的數據量不多,主要是承載高併發高性能的場景,好比你的緩存通常就幾個G,單機足夠了一個mater,多個slave,要幾個slave跟你的要求的讀吞吐量有關係,
而後本身搭建一個sentinal集羣,去保證redis主從架構的高可用性,就能夠了。
redis cluster:主要是針對海量數據+高併發+高可用的場景,海量數據,若是你的數據量很大,那麼建議就用redis cluster
二、單機redis在海量數據面前的瓶頸
三、怎麼纔可以突破單機瓶頸,讓redis支撐海量數據?
四、redis的集羣架構
redis cluster
支撐N個redis master node,每一個master node均可以掛載多個slave node
讀寫分離的架構,對於每一個master來講,寫就寫到master,而後讀就從mater對應的slave去讀
高可用,由於每一個master都有salve節點,那麼若是mater掛掉,redis cluster這套機制,就會自動將某個slave切換成master
redis cluster(多master + 讀寫分離 + 高可用)
咱們只要基於redis cluster去搭建redis集羣便可,不須要手工去搭建replication複製+主從架構+讀寫分離+哨兵集羣+高可用
------針對海量數據+高併發+高可用的場景
講解分佈式數據存儲的核心算法,數據分佈的算法:
hash算法 -> 一致性hash算法(memcached) -> redis cluster,hash slot算法
用不一樣的算法,就決定了在多個master節點的時候,數據如何分佈到這些節點上去,解決這個問題。
簡單的取模 hash函數實現:
【嚴重的弊端,對機器的個數進行取模】
一致性hash算法:
對於一致性hash算法熱點問題的改進:
之前寫的內容是master機器和slave機器分離,分別負責讀寫,可是到了 redis cluster以後,就再也不讀寫分離,全部的讀和寫都是經過master進行的;
針對key進行hash slot運算找slot;
關於redis cluster再也不使用三點哨兵集羣模式那種讀寫分離的架構,全部的讀和寫都經過master就能夠,若是想提升讀或者寫的QPS,則咱們只須要進行水平擴容,增長master就能夠,其中
多臺slave的做用是爲了增長高可用,用來作主備切換使用;
理論補充部分:
---- 記得須要補充;------ 2019-3-31補充以下:
**********************
一、redis cluster 搭建部署:
中止以前全部的實例,包括redis主從和哨兵集羣,使用 redis cluster。
redis cluster: 自動,master+slave複製和讀寫分離,master+slave高可用和主備切換,支持多個master的hash slot支持數據分佈式存儲。 1、redis cluster的重要配置 cluster-enabled <yes/no> cluster-config-file <filename>:
這是指定一個文件,供cluster模式下的redis實例將集羣狀態保存在那裏,包括集羣中其餘機器的信息,好比節點的上線和下限,故障轉移,不是咱們去維護的,給它指定一個文件,讓redis本身去維護的 cluster-node-timeout <milliseconds>:
節點存活超時時長,超過必定時長,認爲節點宕機,master宕機的話就會觸發主備切換,slave宕機就不會提供服務 2、在三臺機器上啓動6個redis實例 --- 以其中一臺舉例 --- (1)在eshop-cache01上部署目錄 /etc/redis/XXX (存放redis的配置文件)
/var/redis/XXX (存放redis的持久化文件) (2)編寫配置文件 redis cluster集羣,要求至少3個master,去組成一個高可用,健壯的分佈式的集羣,每一個master都建議至少給一個slave,3個master,3個slave,最少的要求,正式環境下,建議都是說在6臺機器上去搭建,至少3臺機器。 保證,每一個master都跟本身的slave不在同一臺機器上,若是是6臺天然更好,一個master+一個slave就死了 3臺機器去搭建6個redis實例的redis cluster:
拿一臺舉例 ------------------------------------------------------- mkdir -p /etc/redis-cluster mkdir -p /var/log/redis mkdir -p /var/redis/7001 port 7001 cluster-enabled yes cluster-config-file /etc/redis-cluster/node-7001.conf cluster-node-timeout 15000 daemonize yes pidfile /var/run/redis_7001.pid dir /var/redis/7001 logfile /var/log/redis/7001.log bind 192.168.31.187 appendonly yes -------------------------------------------------------
至少要用3個master節點啓動,每一個master加一個slave節點,先選擇6個節點,啓動6個實例,將上面的配置文件,在/etc/redis下放6個,分別爲:
eshop-cache01:
7001.conf,7002.conf,
eshop-cache02:
7003.conf,7004.conf,
eshop-cache03:
7005.conf,7006.conf (3)準備生產環境的啓動腳本 在/etc/init.d下,放6個啓動腳本,分別爲: redis_7001, redis_7002, redis_7003, redis_7004, redis_7005, redis_7006 每一個啓動腳本內,都修改對應的端口號,以下圖:
(4)分別在3臺機器上,啓動6個redis實例 將每一個配置文件中的slaveof給刪除 3、建立集羣 下面方框內的內容廢棄掉 ======================================================================= wget https://cache.ruby-lang.org/pub/ruby/2.3/ruby-2.3.1.tar.gz
tar -zxvf ruby-2.3.1.tar.gz ./configure -prefix=/usr/local/ruby make && make install cd /usr/local/ruby cp bin/ruby /usr/local/bin cp bin/gem /usr/local/bin wget http://rubygems.org/downloads/redis-3.3.0.gem
gem install -l ./redis-3.3.0.gem gem list --check redis gem ======================================================================= 由於,之前好比公司裏面搭建集羣,公司裏的機器的環境,運維會幫你作好不少事情 在講課的話,咱們手工用從零開始裝的linux虛擬機去搭建,那確定會碰到各類各樣的問題 yum install -y ruby yum install -y rubygems gem install redis cp /usr/local/redis-3.2.8/src/redis-trib.rb /usr/local/bin redis-trib.rb create --replicas 1 192.168.31.187:7001 192.168.31.187:7002 192.168.31.19:7003 192.168.31.19:7004 192.168.31.227:7005 192.168.31.227:7006
--replicas: 每一個master有幾個slave 6臺機器,3個master,3個slave,儘可能本身讓master和slave不在一臺機器上 yes redis-trib.rb check 192.168.31.187:7001
4、讀寫分離+高可用+多master 讀寫分離:每一個master都有一個slave 高可用:master宕機,slave自動被切換過去 多master:橫向擴容支持更大數據量
二、redis cluster的實驗,多master寫入,主從複製,高可用
redis cluster搭建起來了
redis cluster,提供了多個master,數據能夠分佈式存儲在多個master上; 每一個master都帶着slave,自動就作讀寫分離; 每一個master若是故障,那麼久會自動將slave切換成master,高可用
redis cluster的基本功能,來測試一下
一、實驗多master寫入 -> 海量數據的分佈式存儲
你在redis cluster寫入數據的時候,實際上是你能夠將請求發送到任意一個master上去執行
可是,每一個master都會計算這個key對應的CRC16值,而後對16384個hashslot取模,找到key對應的hashslot,找到hashslot對應的master
若是對應的master就在本身本地的話,set mykey1 v1,mykey1這個key對應的hashslot就在本身本地,那麼本身就處理掉了
可是若是計算出來的hashslot在其餘master上,那麼就會給客戶端返回一個moved error,告訴你,你獲得哪一個master上去執行這條寫入的命令
什麼叫作多master的寫入,就是每條數據只能存在於一個master上,不一樣的master負責存儲不一樣的數據,分佈式的數據存儲
100w條數據,5個master,每一個master就負責存儲20w條數據,分佈式數據存儲
大型的java系統架構,還專一在大數據系統架構,分佈式,分佈式存儲,hadoop hdfs,分佈式資源調度,hadoop yarn,分佈式計算,hadoop mapreduce/hive
分佈式的nosql數據庫,hbase,分佈式的協調,zookeeper,分佈式通用計算引擎,spark,分佈式的實時計算引擎,storm
若是你要處理海量數據,就涉及到了一個名詞,叫作大數據,只要涉及到大數據,那麼其實就會涉及到分佈式
redis cluster,分佈式
由於我來說java系統的架構,有時候跟其餘人不同,純搞java,可是我由於工做時間很長,早期專一作java架構,好多年,大數據興起,就一直專一大數據系統架構
大數據相關的系統,也涉及不少的java系統架構,高併發、高可用、高性能、可擴展、分佈式系統
會給你們稍微拓展一下知識面,從不一樣的角度去講解一塊知識
redis,高併發、高性能、每日上億流量的大型電商網站的商品詳情頁系統的緩存架構,來說解的,redis是做爲大規模緩存架構中的底層的核心存儲的支持
高併發、高性能、每日上億流量,redis持久化 -> 災難的時候,作數據恢復,複製 -> 讀寫分離,擴容slave,支撐更高的讀吞吐,redis怎麼支撐讀QPS超過10萬,幾十萬; 哨兵,在redis主從,一主多從,怎麼保證99.99%可用性; redis cluster,海量數據
java架構課,架構思路和設計是很重要的,可是另一點,我但願可以帶着你們用真正java架構師的角度去看待一些技術,而不是僅僅停留在技術的一些細節的點
給你們從一些大數據的角度,去分析一下咱們java架構領域中的一些技術
天下武功,都出自一脈,研究過各類大數據的系統,redis cluster講解了不少原理,跟elasticsearch,不少底層的分佈式原理,都是相似的
redis AOF,fsync
elasticsearch創建索引的時候,先寫內存緩存,每秒鐘把數據刷入os cache,接下來再每隔必定時間fsync到磁盤上去
redis cluster,寫能夠到任意master,任意master計算key的hashslot之後,告訴client,重定向,路由到其餘mater去執行,分佈式存儲的一個經典的作法
elasticsearch,創建索引的時候,也會根據doc id/routing value,作路由,路由到某個其餘節點,重定向到其餘節點去執行
分佈式的一些,hadoop,spark,storm裏面不少核心的思想都是相似的
後面,立刻把redis架構給講完以後,就開始講解業務系統的開發,包括高併發的商品詳情頁系統的大型的緩存架構,jedis cluster相關api去封裝和測試對redis cluster的訪問
jedis cluster api,就能夠自動針對多個master進行寫入和讀取
二、實驗不一樣master各自的slave讀取 -> 讀寫分離
在這個redis cluster中,若是你要在slave讀取數據,那麼須要帶上readonly指令,get mykey1
redis-cli -c -h xxxx -p xxxxx
啓動,就會自動進行各類底層的重定向的操做
實驗redis cluster的讀寫分離的時候,會發現有必定的限制性,默認狀況下,redis cluster的核心的理念,主要是用slave作高可用的,每一個master掛一兩個slave,主要是作數據的熱備,還有master故障時的主備切換,實現高可用的
redis cluster默認是不支持slave節點讀或者寫的,跟咱們手動基於replication搭建的主從架構不同的
slave node,readonly,get,這個時候才能在slave node進行讀取
redis cluster,主從架構是出來,讀寫分離,複雜了點,也能夠作,jedis客戶端,對redis cluster的讀寫分離支持不太好的
默認的話就是讀和寫都到master上去執行的
若是你要讓最流行的jedis作redis cluster的讀寫分離的訪問,那可能還得本身修改一點jedis的源碼,成本比較高
要否則你就是本身基於jedis,封裝一下,本身作一個redis cluster的讀寫分離的訪問api
核心的思路,就是說,redis cluster的時候,就沒有所謂的讀寫分離的概念了
讀寫分離,是爲了什麼,主要是由於要創建一主多從的架構,才能橫向任意擴展slave node去支撐更大的讀吞吐量
redis cluster的架構下,實際上自己master就是能夠任意擴展的,你若是要支撐更大的讀吞吐量,或者寫吞吐量,或者數據量,均可以直接對master進行橫向擴展就能夠了
也能夠實現支撐更高的讀吞吐的效果
不會去跟你們直接講解的,不少東西都要帶着一些疑問,未知,實際通過一些實驗和操做以後,讓你體會的更加深入一些
redis cluster,主從架構,讀寫分離,沒說錯,沒有撒謊
redis cluster,不太好,server層面,jedis client層面,對master作擴容,因此說擴容master,跟以前擴容slave,效果是同樣的
三、實驗自動故障切換 -> 高可用性
redis-trib.rb check 192.168.31.187:7001
好比把master1,187:7001,殺掉,看看它對應的19:7004能不能自動切換成master,能夠自動切換
切換成master後的19:7004,能夠直接讀取數據
再試着把187:7001給從新啓動,恢復過來,自動做爲slave掛載到了19:7004上面去
三、實現redis cluster的水平擴容
redis cluster模式下,不建議作物理的讀寫分離了
咱們建議經過master的水平擴容,來橫向擴展讀寫吞吐量,還有支撐更多的海量數據
redis單機,讀吞吐是5w/s,寫吞吐2w/s
擴展redis更多master,那麼若是有5臺master,不就讀吞吐能夠達到總量25/s QPS,寫能夠達到10w/s QPS
redis單機,內存,6G,8G,fork類操做的時候很耗時,會致使請求延時的問題
擴容到5臺master,能支撐的總的緩存數據量就是30G,40G
100臺,600G,800G,甚至1T+,海量數據
----------------------------------------------------------
redis是怎麼擴容的
------- 加入master 加入slave
一、加入新master
mkdir -p /var/redis/7007
port 7007
cluster-enabled yes
cluster-config-file /etc/redis-cluster/node-7007.conf
cluster-node-timeout 15000
daemonize yes
pidfile /var/run/redis_7007.pid
dir /var/redis/7007
logfile /var/log/redis/7007.log
bind 192.168.31.227
appendonly yes
搞一個7007.conf,再搞一個redis_7007啓動腳本
手動啓動一個新的redis實例,在7007端口上
redis-trib.rb add-node 192.168.31.227:7007 192.168.31.187:7001
redis-trib.rb check 192.168.31.187:7001
鏈接到新的redis實例上,cluster nodes,確認本身是否加入了集羣,做爲了一個新的master,
二、reshard一些數據過去
resharding的意思就是把一部分hash slot從一些node上遷移到另一些node上
redis-trib.rb reshard 192.168.31.187:7001
要把以前3個master上,總共4096個hashslot遷移到新的第四個master上去
How many slots do you want to move (from 1 to 16384)? 4096
檢查一下分配的狀況:
三、添加node做爲slave
eshop-cache03
mkdir -p /var/redis/7008
port 7008
cluster-enabled yes
cluster-config-file /etc/redis-cluster/node-7008.conf
cluster-node-timeout 15000
daemonize yes
pidfile /var/run/redis_7008.pid
dir /var/redis/7008
logfile /var/log/redis/7008.log
bind 192.168.31.227
appendonly yes
redis-trib.rb add-node --slave --master-id 28927912ea0d59f6b790a50cf606602a5ee48108 192.168.31.227:7008 192.168.31.187:7001
檢查加入狀況:
四、刪除node
先用resharding將數據都移除到其餘節點,確保node爲空以後,才能執行remove操做
先將slot移空
移空後執行刪除:
redis-trib.rb del-node 192.168.31.187:7001 bd5a40a6ddccbd46a0f4a2208eb25d2453c2a8db
2個是1365,1個是1366
當你清空了一個master的hashslot時,redis cluster就會自動將其slave掛載到其餘master上去
這個時候就只要刪除掉master就能夠了
四、slave的自動遷移
---------爲何要存在冗餘slave
好比如今有10個master,每一個有1個slave,而後新增了3個slave做爲冗餘,有的master就有2個slave了,有的master出現了salve冗餘
若是某個master的slave掛了,那麼redis cluster會自動遷移一個冗餘的slave給那個master
只要多加一些冗餘的slave就能夠了
爲了不的場景,就是說,若是你每一個master只有一個slave,萬一說一個slave死了,而後很快,master也死了,那可用性仍是下降了
可是若是你給整個集羣掛載了一些冗餘slave,那麼某個master的slave死了,冗餘的slave會被自動遷移過去,做爲master的新slave,此時即便那個master也死了
仍是有一個slave會切換成master的
以前有一個master是有冗餘slave的,直接讓其餘master其中的一個slave死掉,而後看有冗餘slave會不會自動掛載到那個master
自動化遷移後:
五、redis cluster的核心原理分析:gossip通訊、jedis smart定位、主備切換
1、節點間的內部通訊機制
一、基礎通訊原理
(1)redis cluster節點間採起gossip協議進行通訊
跟集中式不一樣,不是將集羣元數據(節點信息,故障,等等)集中存儲在某個節點上,而是互相之間不斷通訊,保持整個集羣全部節點的數據是完整的
維護集羣的元數據用得,集中式,一種叫作gossip
集中式:好處在於,元數據的更新和讀取,時效性很是好,一旦元數據出現了變動,當即就更新到集中式的存儲中,其餘節點讀取的時候當即就能夠感知到; 很差在於,全部的元數據的跟新壓力所有集中在一個地方,可能會致使元數據的存儲有壓力
gossip:好處在於,元數據的更新比較分散,不是集中在一個地方,更新請求會陸陸續續,打到全部節點上去更新,有必定的延時,下降了壓力; 缺點,元數據更新有延時,可能致使集羣的一些操做會有一些滯後
咱們剛纔作reshard,去作另一個操做,會發現說,configuration error,達成一致
(2)10000端口
每一個節點都有一個專門用於節點間通訊的端口,就是本身提供服務的端口號+10000,好比7001,那麼用於節點間通訊的就是17001端口
每隔節點每隔一段時間都會往另外幾個節點發送ping消息,同時其餘幾點接收到ping以後返回pong
(3)交換的信息
故障信息,節點的增長和移除,hash slot信息,等等
二、gossip協議
gossip協議包含多種消息,包括ping,pong,meet,fail,等等
meet: 某個節點發送meet給新加入的節點,讓新節點加入集羣中,而後新節點就會開始與其餘節點進行通訊
redis-trib.rb add-node
其實內部就是發送了一個gossip meet消息,給新加入的節點,通知那個節點去加入咱們的集羣
ping: 每一個節點都會頻繁給其餘節點發送ping,其中包含本身的狀態還有本身維護的集羣元數據,互相經過ping交換元數據
每一個節點每秒都會頻繁發送ping給其餘的集羣,ping,頻繁的互相之間交換數據,互相進行元數據的更新
pong: 返回ping和meet,包含本身的狀態和其餘信息,也能夠用於信息廣播和更新
fail: 某個節點判斷另外一個節點fail以後,就發送fail給其餘節點,通知其餘節點,指定的節點宕機了
三、ping消息深刻
ping很頻繁,並且要攜帶一些元數據,因此可能會加劇網絡負擔
每一個節點每秒會執行10次ping,每次會選擇5個最久沒有通訊的其餘節點
固然若是發現某個節點通訊延時達到了cluster_node_timeout / 2,那麼當即發送ping,避免數據交換延時過長,落後的時間太長了
好比說,兩個節點之間都10分鐘沒有交換數據了,那麼整個集羣處於嚴重的元數據不一致的狀況,就會有問題
因此cluster_node_timeout能夠調節,若是調節比較大,那麼會下降發送的頻率
每次ping,一個是帶上本身節點的信息,還有就是帶上1/10其餘節點的信息,發送出去,進行數據交換
至少包含3個其餘節點的信息,最多包含總節點-2個其餘節點的信息
-------------------------------------------------------------------------------------------------------
2、面向集羣的jedis內部實現原理
開發,jedis,redis的java client客戶端,redis cluster,jedis cluster api
jedis cluster api與redis cluster集羣交互的一些基本原理
一、基於重定向的客戶端
redis-cli -c,自動重定向
(1)請求重定向
客戶端可能會挑選任意一個redis實例去發送命令,每一個redis實例接收到命令,都會計算key對應的hash slot
若是在本地就在本地處理,不然返回moved給客戶端,讓客戶端進行重定向
cluster keyslot mykey,能夠查看一個key對應的hash slot是什麼
用redis-cli的時候,能夠加入-c參數,支持自動的請求重定向,redis-cli接收到moved以後,會自動重定向到對應的節點執行命令
(2)計算hash slot
計算hash slot的算法,就是根據key計算CRC16值,而後對16384取模,拿到對應的hash slot
用hash tag能夠手動指定key對應的slot,同一個hash tag下的key,都會在一個hash slot中,好比set mykey1:{100}和set mykey2:{100}
(3)hash slot查找
節點間經過gossip協議進行數據交換,就知道每一個hash slot在哪一個節點上
二、smart jedis
(1)什麼是smart jedis
基於重定向的客戶端,很消耗網絡IO,由於大部分狀況下,可能都會出現一次請求重定向,才能找到正確的節點
因此大部分的客戶端,好比java redis客戶端,就是jedis,都是smart的
本地維護一份hashslot -> node的映射表,緩存,大部分狀況下,直接走本地緩存就能夠找到hashslot -> node,不須要經過節點進行moved重定向
(2)JedisCluster的工做原理
在JedisCluster初始化的時候,就會隨機選擇一個node,初始化hashslot -> node映射表,同時爲每一個節點建立一個JedisPool鏈接池
每次基於JedisCluster執行操做,首先JedisCluster都會在本地計算key的hashslot,而後在本地映射表找到對應的節點
若是那個node正好仍是持有那個hashslot,那麼就ok; 若是說進行了reshard這樣的操做,可能hashslot已經不在那個node上了,就會返回moved
若是JedisCluter API發現對應的節點返回moved,那麼利用該節點的元數據,更新本地的hashslot -> node映射表緩存
重複上面幾個步驟,直到找到對應的節點,若是重試超過5次,那麼就報錯,JedisClusterMaxRedirectionException
jedis老版本,可能會出如今集羣某個節點故障還沒完成自動切換恢復時,頻繁更新hash slot,頻繁ping節點檢查活躍,致使大量網絡IO開銷
jedis最新版本,對於這些過分的hash slot更新和ping,都進行了優化,避免了相似問題
(3)hashslot遷移和ask重定向
若是hash slot正在遷移,那麼會返回ask重定向給jedis
jedis接收到ask重定向以後,會從新定位到目標節點去執行,可是由於ask發生在hash slot遷移過程當中,因此JedisCluster API收到ask是不會更新hashslot本地緩存
已經能夠肯定說,hashslot已經遷移完了,moved是會更新本地hashslot->node映射表緩存的
-------------------------------------------------------------------------------------------------------
3、高可用性與主備切換原理
redis cluster的高可用的原理,幾乎跟哨兵是相似的
一、判斷節點宕機
若是一個節點認爲另一個節點宕機,那麼就是pfail,主觀宕機
若是多個節點都認爲另一個節點宕機了,那麼就是fail,客觀宕機,跟哨兵的原理幾乎同樣,sdown,odown
在cluster-node-timeout內,某個節點一直沒有返回pong,那麼就被認爲pfail
若是一個節點認爲某個節點pfail了,那麼會在gossip ping消息中,ping給其餘節點,若是超過半數的節點都認爲pfail了,那麼就會變成fail
二、從節點過濾
對宕機的master node,從其全部的slave node中,選擇一個切換成master node
檢查每一個slave node與master node斷開鏈接的時間,若是超過了cluster-node-timeout * cluster-slave-validity-factor,那麼就沒有資格切換成master
這個也是跟哨兵是同樣的,從節點超時過濾的步驟
三、從節點選舉
哨兵:對全部從節點進行排序,slave priority,offset,run id
每一個從節點,都根據本身對master複製數據的offset,來設置一個選舉時間,offset越大(複製數據越多)的從節點,選舉時間越靠前,優先進行選舉
全部的master node開始slave選舉投票,給要進行選舉的slave進行投票,若是大部分master node(N/2 + 1)都投票給了某個從節點,那麼選舉經過,那個從節點能夠切換成master
從節點執行主備切換,從節點切換爲主節點
四、與哨兵比較
整個流程跟哨兵相比,很是相似,因此說,redis cluster功能強大,直接集成了replication和sentinal的功能
----------------------------------------------------------------------------------------------------
沒有辦法去給你們深刻講解redis底層的設計的細節,核心原理和設計的細節,
那個除非單獨開一門課,redis底層原理深度剖析,redis源碼對於我們這個架
構課來講,主要關注的是架構,不是底層的細節,對於架構來講,核心的原理
的基本思路,是要梳理清晰的。
----------------------------------------------------------------------------------------------------
咱們以前的三十講,主要是在講解redis如何支撐海量數據、高併發讀寫、高可用服務的架構,redis架構。redis架構,在咱們的真正相似商品詳情頁讀高併發的系統中,redis就是底層的緩存存儲的支持。
從這一講開始,咱們正式開始作業務系統的開發億級流量以上的電商網站的商品詳情頁的系統,商品詳情頁系統,大量的業務,十幾我的作一兩年,堆出來複雜的業務系統
幾十個小時的課程,講解複雜的業務,把總體的架構給你們講解清楚,而後濃縮和精煉裏面的業務,提取部分業務,作一些簡化,把整個詳情頁系統的流程跑出來。
架構,骨架,有少許的業務,血和肉,把整個項目串起來,在業務背景下,去學習架構。
講解商品詳情頁系統,緩存架構,90%大量的業務代碼(沒有什麼技術含量),10%的最優技術含量的就是架構,上億流量,每秒QPS幾萬,上十萬的,讀併發,緩存架構
架構理解:
採用三級緩存:nginx本地緩存+redis分佈式緩存+tomcat堆緩存的多級緩存架構
時效性要求很是高的數據:庫存
通常來講,顯示的庫存,都是時效性要求會相對高一些,由於隨着商品的不斷的交易,庫存會不斷的變化。
固然,咱們就但願當庫存變化的時候,儘量更快將庫存顯示到頁面上去,而不是說等了很長時間,庫存才反應到頁面上去。
時效性要求不高的數據:時效性要求不高的數據:商品的基本信息(名稱、顏色、版本、規格參數,等等)。
時效性高:商品價格/庫存等時效性要求高的數據,並且種類較少,採起相關的服務系統每次發生了變動的時候,直接採起數據庫和redis緩存雙寫的方案,這樣緩存的時效性最高。
時效性不高:商品基本信息等時效性不高的數據,並且種類繁多,來自多種不一樣的系統,採起MQ異步通知的方式,寫一個數據生產服務,監聽MQ消息,而後異步拉取服務的數據,更新tomcat jvm緩存+redis緩存
---------------------------------------------------------------------------------
nginx+lua腳本作頁面動態生成的工做,每次請求過來,優先從nginx本地緩存中提取各類數據,結合頁面模板,生成須要的頁面若是nginx本地緩存過時了,那麼就從nginx到redis中去拉取數據,更新到nginx本地
若是redis中也被LRU算法清理掉了,那麼就從nginx走http接口到後端的服務中拉取數據,數據生產服務中,如今本地tomcat裏的jvm堆緩存中找,ehcache,若是也被LRU清理掉了,那麼就從新發送請求到源頭的服務中去拉取數據,而後再次更新tomcat堆內存緩存+redis緩存,並返回數據給nginx,nginx緩存到本地
---------------------------------------------------------------------------------
二、多級緩存架構中每一層的意義
nginx本地緩存,抗的是熱數據的高併發訪問,通常來講,商品的購買老是有熱點的,好比天天購買iphone、nike、海爾等知名品牌的東西的人,老是比較多的
這些熱數據,利用nginx本地緩存,因爲常常被訪問,因此能夠被鎖定在nginx的本地緩存內
大量的熱數據的訪問,就是常常會訪問的那些數據,就會被保留在nginx本地緩存內,那麼對這些熱數據的大量訪問,就直接走nginx就能夠了
那麼大量的訪問,直接就能夠走到nginx就好了,不須要走後續的各類網絡開銷了
redis分佈式大規模緩存,抗的是很高的離散訪問,支撐海量的數據,高併發的訪問,高可用的服務
redis緩存最大量的數據,最完整的數據和緩存,1T+數據; 支撐高併發的訪問,QPS最高到幾十萬; 可用性,很是好,提供很是穩定的服務
nginx本地內存有限,也就能cache住部分熱數據,除了各類iphone、nike等熱數據,其餘相對不那麼熱的數據,可能流量會常常走到redis那裏
利用redis cluster的多master寫入,橫向擴容,1T+以上海量數據支持,幾十萬的讀寫QPS,99.99%高可用性,那麼就能夠抗住大量的離散訪問請求
tomcat jvm堆內存緩存,主要是抗redis大規模災難的,若是redis出現了大規模的宕機,致使nginx大量流量直接涌入數據生產服務,那麼最後的tomcat堆內存緩存至少能夠再抗一下,不至於讓數據庫直接裸奔
同時tomcat jvm堆內存緩存,也能夠抗住redis沒有cache住的最後那少許的部分緩存
在請求進行讀和更新時候,對於緩存的操做是如何進行的:
讀:先讀緩存,無則進入數據庫,而後更新緩存;
更新:刪除緩存,更新數據庫
一:不優先刪除緩存的狀況下,寫入數據後,若是再清空緩存若是出現問題,則此時會出現不一致問
先產緩存 在刪除
讀寫併發讀寫的時候可能出現下面這種雙寫不一致的問題:
在讀併發很低的狀況,不多的狀況會出現這種雙寫不一致問題,若是天天商議的流量,則會可能出現不一致狀況;
解決方案【創建串行寫讀隊列】:
對讀寫串行隊列須要考慮讀的狀況下,讀的操做可能會hang的太久,須要根據業務場景進行測試;
繼續補充中。。。。。