【Tair】淘寶分佈式NOSQL框架：Tair

時間 2019-12-10

原文原文鏈接

Tair是淘寶的一個開源項目，它是一個分佈式的key/value結構數據的解決方案。算法

1、基本組成

做爲一個分佈式系統，Tair由一箇中心控制節點（config server）和一系列的服務節點（data server）組成，緩存

一、config server

config server 負責管理全部的data server，並維護data server的狀態信息；爲了保證高可用（High Available），config server可經過hearbeat 以一主一備形式提供服務安全

client 和 config server的交互主要是爲了獲取數據分佈的對照表，當client啓動時獲取到對照表後，會cache這張表，而後經過查這張表決定數據存儲的節點，因此請求不須要和config server交互，這使得Tair對外的服務不依賴configserver，因此它不是傳統意義上的中心節點，也並不會成爲集羣的瓶頸。併發

config server維護的對照表有一個版本號，每次新生成表，該版本號都會增長。當有data server狀態發生變化（好比新增節點或者有節點不可用了）時，configserver會根據當前可用的節點從新生成對照表，並經過數據節點的心跳，將新表同步給data server。當client請求data server時，後者每次都會將本身的對照表的版本號放入response中返回給客client，client接收到response後，會將data server返回的版本號和本身的版本號比較，若是不相同，則主動和config server通訊，請求新的對照表。負載均衡

這使得在正常的狀況下，client不須要和configserver通訊，即便config server不可用了，也不會對整個集羣的服務形成大的影響。有了config server，client不須要配置data server列表，也不須要處理節點的的狀態變化，這使得Tair對最終用戶來講使用和配置都很簡單。分佈式

二、data server

data server 對外提供各類數據服務，並以心跳的形式將自身情況彙報給config server；全部的 data server 地位都是等價的。ui

2、存儲引擎

tair 分爲持久化和非持久化兩種使用方式：spa

非持久化的 tair 能夠當作是一個分佈式緩存；
持久化的 tair 將數據存放於磁盤中，爲了解決磁盤損壞致使數據丟失，tair 能夠配置數據的備份數目。tair 自動將一份數據的不一樣備份放到不一樣的主機上，當有主機發生異常，沒法正常提供服務的時候，其他的備份會繼續提供服務。

3、分佈式策略

一、tair 的分佈採用的是一致性哈希算法

對於全部的key，分到Q個桶中，桶是負載均衡和數據遷移的基本單位。config server 根據必定的策略把每一個桶指派到不一樣的data server上，由於數據按照key作hash算法，因此能夠認爲每一個桶中的數據基本是平衡的，保證了桶分佈的均衡性, 就保證了數據分佈的均衡性。插件

具體說，首先計算Hash(key)，獲得key所對應的bucket，而後再去config server查找該bucket對應的data server，再與相應的data server進行通訊。也就是說，config server維護了一張由bucket映射到data server的對照表，好比：code

bucket   data server
0    192.168.10.1
1    192.168.10.2
2    192.168.10.1
3    192.168.10.2
4    192.168.10.1
5    192.168.10.2

這裏共6個bucket，由兩臺機器負責，每臺機器負責3個bucket。客戶端將key hash後，對6取模，找到負責的數據節點，而後和其直接通訊。表的大小（行數）一般會遠大於集羣的節點數，這和consistent hash中的虛擬節點很類似。

假設咱們加入了一臺新的機器——192.168.10.3，Tair會自動調整對照表，將部分bucket交由新的節點負責，好比新的表極可能相似下表：

0    192.168.10.1
1    192.168.10.2
2    192.168.10.1
3    192.168.10.2
4    192.168.10.3
5    192.168.10.3

在老的表中，每一個節點負責3個桶，當擴容後，每一個節點將負責2個桶，數據被均衡的分佈到全部節點上。

二、複製功能保證高可用

爲了加強數據的安全性，Tair支持配置數據的備份數（COPY_COUNT）。好比你能夠配置備份數爲3，則每一個bucket都會寫在不一樣的3臺機器上。當數據寫入一個節點（一般咱們稱其爲主節點）後，主節點會根據對照表自動將數據寫入到其餘備份節點，整個過程對用戶是透明的。

若是有多個備份，那麼對照表將包含多列，好比備份是爲3，則表有4列，後面的3列都是數據存儲的節點。

三、擴容和容災的數據轉移

當有新節點加入或者有節點不可用時，config server會根據當前可用的節點，從新build一張對照表。數據節點同步到新的對照表時，會自動將在新表中不禁本身負責的數據遷移到新的目標節點。遷移完成後，客戶端能夠從config server同步到新的對照表，完成擴容或者容災過程。整個過程對用戶是透明的，服務不中斷。

3.一、擴容

當系統增長data server的時候，config server根據負載，協調data server將他們控制的部分桶遷移到新的data server上，遷移完成後調整路由。

注意：

不論是發生故障仍是擴容，每次路由的變動，config server都會將新的配置信息推給data server。在client訪問data server的時候，會發送client緩存的路由表的版本號，若是data server發現client的版本號過舊，則會通知client去config server取一次新的路由表。若是client訪問某臺data server 發生了不可達的狀況(該 data server可能宕機了)，客戶端會主動去config server取新的路由表。

3.二、遷移

當發生遷移的時候，假設data server A 要把桶 3,4,5 遷移給data server B。由於遷移完成前，client的路由表沒有變化，所以對 3, 4, 5 的訪問請求都會路由到A。如今假設 3還沒遷移，4 正在遷移中，5已經遷移完成，那麼：

若是是對3的訪問，則沒什麼特別，跟之前同樣；
若是是對5的訪問，則A會把該請求轉發給B，而且將B的返回結果返回給client；
若是是對4的訪問，在A處理，同時若是是對4的修改操做，會記錄修改log，桶4遷移完成的時候，還要把log發送到B，在B上應用這些log，最終A B上對於桶4來講，數據徹底一致纔是真正的遷移完成；

四、生成對照表的策略

負載均衡優先，config server會盡可能的把桶均勻的分佈到各個data server上，所謂儘可能是指在不違背下面的原則的條件下儘可能負載均衡：每一個桶必須有COPY_COUNT份數據；一個桶的各份數據不能在同一臺主機上；
位置安全優先，通常咱們經過控制 _pos_mask（Tair的一個配置項）來使得不一樣的機房具備不一樣的位置信息，一個桶的各份數據不能都位於相同的一個位置（不在同一個機房）。

位置優先策略還有一個問題，假如只有兩個機房，機房1中有100臺data server，機房2中只有1臺data server。這個時候，機房2中data server的壓力必然會很是大，因而這裏產生了一個控制參數 _build_diff_ratio（參見安裝部署文檔），當機房差別比率大於這個配置值時，config server也再也不build新表，機房差別比率是如何計出來的呢？首先找到機器最多的機房，不妨設使RA，data server數量是SA，那麼其他的data server的數量記作SB，則機房差別比率=|SA – SB|/SA，由於通常咱們線上系統配置的COPY_COUNT=3，在這個狀況下，不妨設只有兩個機房RA和RB，那麼兩個機房什麼樣的data server數量是均衡的範圍呢? 當差別比率小於 0.5的時候是能夠作到各臺data server負載都徹底均衡的。這裏有一點要注意，假設RA機房有機器6臺，RB有機器3臺，那麼差別比率 = 6 – 3 / 6 = 0.5，這個時候若是進行擴容，在機房A增長一臺data server，擴容後的差別比率 = 7 – 3 / 7 = 0.57，也就是說，只在機器數多的機房增長data server會擴大差別比率。若是咱們的_build_diff_ratio配置值是0.5，那麼進行這種擴容後，config server會拒絕再繼續build新表。