Apache ZooKeeper是Apache軟件基金會的一個軟件項目,他爲大型分佈式計算提供開源的分佈式配置服務、同步服務和命名註冊。ZooKeeper曾經是Hadoop的一個子項目,但如今是一個獨立的頂級項目。java
ZooKeeper的架構經過冗餘服務實現高可用性。所以,若是第一次無應答,客戶端就能夠詢問另外一臺ZooKeeper主機。ZooKeeper節點將它們的數據存儲於一個分層的命名空間,很是相似於一個文件系統或一個前綴樹結構。客戶端能夠在節點讀寫,從而以這種方式擁有一個共享的配置服務。node
使用ZooKeeper的公司包括Rackspace、雅虎和eBay,以及相似於像Solr這樣的開源企業級搜索系統。算法
文件系統:zookeeper維護一個相似文件系統的數據結構,每一個子目錄項如 NameService 都被稱做爲 znode,和文件系統同樣,自由增長及刪除,惟一不一樣其可存儲數據。Znode分爲四種類型apache
PERSISTENT-持久化目錄節點。(客戶端與zookeeper斷開鏈接後,該節點依舊存在)。bash
PERSISTENT_SEQUENTIAL-持久化順序編號目錄節點。(客戶端與zookeeper斷開鏈接後,該節點依舊存在,只是Zookeeper給該節點名稱進行順序編號)服務器
EPHEMERAL-臨時目錄節點(客戶端與zookeeper斷開鏈接後,該節點被刪除)網絡
EPHEMERAL_SEQUENTIAL-臨時順序編號目錄節點。(客戶端與zookeeper斷開鏈接後,該節點被刪除,只是Zookeeper給該節點名稱進行順序編號)數據結構
通知機制:客戶端註冊監聽它關心的目錄節點,當目錄節點發生變化(數據改變、被刪除、子目錄節點增長刪除)時,zookeeper會通知客戶端。架構
命名服務:在zookeeper的文件系統裏建立一個目錄,即有惟一的path。在咱們使用tborg沒法肯定上游程序的部署機器時便可與下游程序約定好path,經過path即能互相探索發現。eclipse
配置管理:把應用配置放置zookeeper上去,保存在 Zookeeper 的某個目錄節點中,而後全部相關應用程序對這個目錄節點進行監聽,一旦配置信息發生變化,每一個應用程序就會收到 Zookeeper 的通知,而後從 Zookeeper 獲取新的配置信息應用到系統中就好。
集羣管理:節點(機器)增刪及Master選取。節點增刪:全部機器約定在父目錄GroupMembers下建立臨時目錄節點,而後監聽父目錄節點的子節點變化消息。一旦有機器掛掉,該機器與 zookeeper的鏈接斷開,其所建立的臨時目錄節點被刪除,全部其餘機器都收到通知:某個兄弟目錄被刪除,因而,全部人都知道:它上船了。新機器加入 也是相似,全部機器收到通知:新兄弟目錄加入,highcount又有了。Master選取:全部機器建立臨時順序編號目錄節點,每次選取編號最小的機器做爲master就好。
分佈式鎖:基於zookeeper一致性文件系統,實現鎖服務。鎖服務分爲保存獨佔及時序控制兩類。保存獨佔:將zookeeper上的一個znode看做是一把鎖,經過createznode的方式來實現。全部客戶端都去建立 /distribute_lock 節點,最終成功建立的那個客戶端也即擁有了這把鎖。用完刪除本身建立的distribute_lock 節點就釋放鎖。時序控制:基於/distribute_lock鎖,全部客戶端在它下面建立臨時順序編號目錄節點,和選master同樣,編號最小的得到鎖,用完刪除,依次方便。
隊列管理:分同步隊列,FIFO隊列(入隊與出隊),同步隊列:當一個隊列的成員都聚齊時,這個隊列纔可用,不然一直等待全部成員到達。在約定目錄下建立臨時目錄節點,監聽節點數目是不是咱們要求的數目。FIFO隊列:和分佈式鎖服務中的控制時序場景基本原理一致,入列有編號,出列按編號。
分佈式與數據複製:Zookeeper做爲一個集羣提供一致的數據服務,必然在全部機器間作數據複製。數據複製好處:(1)容錯:一個節點出錯,不致於讓整個系統中止工做,別的節點能夠接管它的工做。(2)提升系統的擴展能力:把負載分佈到多個節點上,或者增長節點來提升系統的負載能力;(3)性能提高:讓客戶端本地訪問就近節點,提升用戶訪問速度。
Zookeeper角色分爲三類,領導者:負責進行投票的發起和決議,更新系統狀態。跟隨者:Follower用於接收客戶請求並向客戶端返回結果,在選中過程當中參與投票。觀察者:Observer能夠接收客戶端鏈接,將寫請求轉發給leader節點。但不參加投票過程,只同步leader狀態。Observer目的在於擴展系統,提升讀取速度。
一致性:client不論鏈接到哪一個Server,展現給它都是同一個視圖,這是zookeeper最重要的性能。
可靠性:具備簡單、健壯、良好的性能,若是消息m被到一臺服務器接受,那麼它將被全部的服務器接受。
實時性:Zookeeper保證客戶端將在一個時間間隔範圍內得到服務器的更新信息,或者服務器失效的信息。但因爲網絡延時等緣由,Zookeeper不能保證兩個客戶端能同時獲得剛更新的數據,若是須要最新數據,應該在讀數據以前調用sync()接口。
等待無關(wait-free):慢的或者失效的client不得干預快速的client的請求,使得每一個client都能有效的等待。
原子性:更新只能成功或者失敗,沒有中間狀態。
順序性:包括全局有序和偏序兩種:全局有序是指若是在一臺服務器上消息a在消息b前發佈,則在全部Server上消息a都將在消息b前被髮布;偏序是指若是一個消息b在消息a後被同一個發送者發佈,a必將排在b前面。
當leader崩潰或者leader失去大多數的follower,這時候zk進入恢復模式,恢復模式須要從新選舉出一個新的leader,讓全部的Server都恢復到一個正確的狀態。Zk的選舉算法有兩種:一種是基於basic paxos實現的,另一種是基於fast paxos算法實現的。系統默認的選舉算法爲fast paxos。先介紹basic paxos流程:
選舉線程由當前Server發起選舉的線程擔任,其主要功能是對投票結果進行統計,並選出推薦的Server; 選舉線程首先向全部Server發起一次詢問(包括本身); 選舉線程收到回覆後,驗證是不是本身發起的詢問(驗證zxid是否一致),而後獲取對方的id(myid),並存儲到當前詢問對象列表中,最後獲取對方提議的leader相關信息(id,zxid),並將這些信息存儲到當次選舉的投票記錄表中; 收到全部Server回覆之後,就計算出zxid最大的那個Server,並將這個Server相關信息設置成下一次要投票的Server; 線程將當前zxid最大的Server設置爲當前Server要推薦的Leader,若是此時獲勝的Server得到n/2 + 1的Server票數, 設置當前推薦的leader爲獲勝的Server,將根據獲勝的Server相關信息設置本身的狀態,不然,繼續這個過程,直到leader被選舉出來。 經過流程分析咱們能夠得出:要使Leader得到多數Server的支持,則Server總數必須是奇數2n+1,且存活的Server的數目不得少於n+1.
每一個Server啓動後都會重複以上流程。在恢復模式下,若是是剛從崩潰狀態恢復的或者剛啓動的server還會從磁盤快照中恢復數據和會話信息,zk會記錄事務日誌並按期進行快照,方便在恢復時進行狀態恢復。
fast paxos流程是在選舉過程當中,某Server首先向全部Server提議本身要成爲leader,當其它Server收到提議之後,解決epoch和zxid的衝突,並接受對方的提議,而後向對方發送接受提議完成的消息,重複這個流程,最後必定能選舉出Leader。
wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.8/zookeeper-3.4.8.tar.gz
tar zxvf zookeeper-3.4.8.tar.gz -C /usr/local/
cd $ZOOKEEPER_HOME
cp conf/zoo_sample.cfg conf/zoo.cfg
# 集羣須要在zoo.cfg配置
server.1=192.168.1.148:2888:3888
server.2=192.168.1.149:2888:3888
server.3=192.168.1.150:2888:3888
# 在zookeeper的臨時目錄建立myid
mkdir -p /tmp/zookeeper
# 分別在不一樣節點建立myid文件裏面的數字對應節點的編號好比server.1就對應1,server.2就對應2
echo 1 > /tmp/zookeeper/myid
# 最後分別啓動集羣上的節點
$ZOOKEEPER_HOME/bin/zkServer.sh start
# 查看zookeeper的狀態
$ZOOKEEPER_HOME/bin/zkServer.sh status
# 中止zookeeper服務
$ZOOKEEPER_HOME/bin/zkServer.sh stop
複製代碼
啓動zookeeper服務後到bin目錄啓動zookeeper的客戶端$ZOOKEEPER_HOME/bin/zkCli.sh
# 輸入help
[zk: localhost:2181(CONNECTED) 0] help
ZooKeeper -server host:port cmd args
stat path [watch]
set path data [version]
ls path [watch]
delquota [-n|-b] path
ls2 path [watch]
setAcl path acl
setquota -n|-b val path
history
redo cmdno
printwatches on|off
delete path [version]
sync path
listquota path
rmr path
get path [watch]
create [-s] [-e] path data acl
addauth scheme auth
quit
getAcl path
close
connect host:port
複製代碼
建立節點
[zk: localhost:2181(CONNECTED) 14] create /test test-data
Created /test
複製代碼
查看節點
[zk: localhost:2181(CONNECTED) 1] ls /
[abc, zookeeper, eclipse]
複製代碼
獲取節點
[zk: localhost:2181(CONNECTED) 10] get /test
test-update
cZxid = 0x38
ctime = Sat Dec 22 10:11:46 CST 2018
mZxid = 0x39
mtime = Sat Dec 22 10:12:05 CST 2018
pZxid = 0x38
cversion = 0
dataVersion = 1
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 11
numChildren = 0
複製代碼
修改節點
[zk: localhost:2181(CONNECTED) 11] set /test test-update
cZxid = 0x38
ctime = Sat Dec 22 10:11:46 CST 2018
mZxid = 0x3a
mtime = Sat Dec 22 10:15:04 CST 2018
pZxid = 0x38
cversion = 0
dataVersion = 2
aclVersion = 0
ephemeralOwner = 0x0
dataLength = 11
numChildren = 0
複製代碼
刪除節點
[zk: localhost:2181(CONNECTED) 13] delete /test
複製代碼
/**
* @author leone
* @since 2018-06-16
**/
public class ZkClient {
private final static Logger logger = LoggerFactory.getLogger(ZkClient.class);
private final static String ZK_URL = "xxx.xxx.xxx.xxx:2181";
private final static int TIME_OUT = 5000;
private static ZooKeeper zkClient = null;
@Before
public void init() throws Exception {
zkClient = new ZooKeeper(ZK_URL, TIME_OUT, (WatchedEvent event) -> {
// 收到事件通知後的回調函數(應該是咱們本身的事件處理邏輯)
logger.info(event.getType() + "---" + event.getPath());
try {
zkClient.getChildren("/", true);
} catch (Exception e) {
e.printStackTrace();
}
});
}
/**
* 設置值
*
* @throws Exception
*/
@Test
public void testSetData() throws Exception {
zkClient.setData("/eclipse", "world".getBytes(), -1);
byte[] data = zkClient.getData("/eclipse", false, null);
System.out.println(new String(data));
}
/**
* 建立節點
*
* @throws Exception
*/
@Test
public void testCreate() throws Exception {
// 參數1:要建立的節點的路徑 參數2:節點數據 參數3:節點的權限 參數4:節點的類型
zkClient.create("/eclipse/aaa", "aaaData".getBytes(), ZooDefs.Ids.OPEN_ACL_UNSAFE, CreateMode.PERSISTENT);
}
/**
* 測試某節點是否存在
*
* @throws Exception
*/
@Test
public void testExists() throws Exception {
Stat stat = zkClient.exists("/eclipse", false);
System.out.println(stat == null ? "not exist" : "exist");
}
/**
* 獲取子節點
*
* @throws Exception
*/
@Test
public void testGetChild() throws Exception {
List<String> children = zkClient.getChildren("/", true);
for (String child : children) {
System.out.println(child);
}
}
/**
* 刪除節點
*
* @throws Exception
*/
@Test
public void testDelete() throws Exception {
// 參數2:指定要刪除的版本,-1表示刪除全部版本
zkClient.delete("/abc", -1);
}
/**
* 獲取節點的數據
*
* @throws Exception
*/
@Test
public void testGetDate() throws Exception {
byte[] data = zkClient.getData("/eclipse", false, null);
System.out.println(new String(data));
}
}
複製代碼