相信你們對 ZooKeeper 應該不算陌生。可是你真的瞭解 ZooKeeper 到底有啥用不?若是別人/面試官讓你給他講講對於 ZooKeeper 的認識,你能回答到什麼地步呢?html
拿我本身來講吧!我本人曾經使用 Dubbo 來作分佈式項目的時候,使用了 ZooKeeper 做爲註冊中心。爲了保證分佈式系統可以同步訪問某個資源,我還使用 ZooKeeper 作過度布式鎖。另外,我在學習 Kafka 的時候,知道 Kafka 不少功能的實現依賴了 ZooKeeper。node
前幾天,總結項目經驗的時候,我忽然問本身 ZooKeeper 究竟是個什麼東西?想了半天,腦海中只是簡單的能浮現出幾句話:面試
因而可知,我對於 ZooKeeper 的理解僅僅是停留在了表面。算法
因此,經過本文,但願帶你們稍微詳細的瞭解一下 ZooKeeper 。若是沒有學過 ZooKeeper ,那麼本文將會是你進入 ZooKeeper 大門的墊腳磚。若是你已經接觸過 ZooKeeper ,那麼本文將帶你回顧一下 ZooKeeper 的一些基礎概念。shell
另外,本文不光會涉及到 ZooKeeper 的一些概念,後面的文章會介紹到 ZooKeeper 常見命令的使用以及使用 Apache Curator 做爲 ZooKeeper 的客戶端。服務器
若是文章有任何須要改善和完善的地方,歡迎在評論區指出,共同進步!網絡
正式介紹 ZooKeeper 以前,咱們先來看看 ZooKeeper 的由來,還挺有意思的。session
下面這段內容摘自《從 Paxos 到 ZooKeeper 》第四章第一節,推薦你們閱讀一下:數據結構
ZooKeeper 最先起源於雅虎研究院的一個研究小組。在當時,研究人員發現,在雅虎內部不少大型系統基本都須要依賴一個相似的系統來進行分佈式協調,可是這些系統每每都存在分佈式單點問題。因此,雅虎的開發人員就試圖開發一個通用的無單點問題的分佈式協調框架,以便讓開發人員將精力集中在處理業務邏輯上。關於「ZooKeeper」這個項目的名字,其實也有一段趣聞。在立項初期,考慮到以前內部不少項目都是使用動物的名字來命名的(例如著名的 Pig 項目),雅虎的工程師但願給這個項目也取一個動物的名字。時任研究院的首席科學家 RaghuRamakrishnan 開玩笑地說:「在這樣下去,咱們這兒就變成動物園了!」此話一出,你們紛紛表示就叫動物園管理員吧一一一由於各個以動物命名的分佈式組件放在一塊兒,雅虎的整個分佈式系統看上去就像一個大型的動物園了,而 ZooKeeper 正好要用來進行分佈式環境的協調一一因而,ZooKeeper 的名字也就由此誕生了。架構
ZooKeeper 是一個開源的分佈式協調服務,它的設計目標是將那些複雜且容易出錯的分佈式一致性服務封裝起來,構成一個高效可靠的原語集,並以一系列簡單易用的接口提供給用戶使用。
原語: 操做系統或計算機網絡用語範疇。是由若干條指令組成的,用於完成必定功能的一個過程。具備不可分割性·即原語的執行必須是連續的,在執行過程當中不容許被中斷。
ZooKeeper 爲咱們提供了高可用、高性能、穩定的分佈式數據一致性解決方案,一般被用於實現諸如數據發佈/訂閱、負載均衡、命名服務、分佈式協調/通知、集羣管理、Master 選舉、分佈式鎖和分佈式隊列等功能。
另外,ZooKeeper 將數據保存在內存中,性能是很是棒的。 在「讀」多於「寫」的應用程序中尤爲地高性能,由於「寫」會致使全部的服務器間同步狀態。(「讀」多於「寫」是協調服務的典型場景)。
ZooKeeper 概覽中,咱們介紹到使用其一般被用於實現諸如數據發佈/訂閱、負載均衡、命名服務、分佈式協調/通知、集羣管理、Master 選舉、分佈式鎖和分佈式隊列等功能。
下面選 3 個典型的應用場景來專門說說:
實際上,這些功能的實現基本都得益於 ZooKeeper 能夠保存數據的功能,可是 ZooKeeper 不適合保存大量數據,這一點須要注意。
破音:拿出小本本,下面的內容很是重要哦!
ZooKeeper 數據模型採用層次化的多叉樹形結構,每一個節點上均可以存儲數據,這些數據能夠是數字、字符串或者是二級制序列。而且。每一個節點還能夠擁有 N 個子節點,最上層是根節點以「/」來表明。每一個數據節點在 ZooKeeper 中被稱爲 znode,它是 ZooKeeper 中數據的最小單元。而且,每一個 znode 都一個惟一的路徑標識。
強調一句:ZooKeeper 主要是用來協調服務的,而不是用來存儲業務數據的,因此不要放比較大的數據在 znode 上,ZooKeeper 給出的上限是每一個結點的數據大小最大是 1M。
從下圖能夠更直觀地看出:ZooKeeper 節點路徑標識方式和 Unix 文件系統路徑很是類似,都是由一系列使用斜槓"/"進行分割的路徑表示,開發人員能夠向這個節點中寫人數據,也能夠在節點下面建立子節點。這些操做咱們後面都會介紹到。
介紹了 ZooKeeper 樹形數據模型以後,咱們知道每一個數據節點在 ZooKeeper 中被稱爲 znode,它是 ZooKeeper 中數據的最小單元。你要存放的數據就放在上面,是你使用 ZooKeeper 過程當中常常須要接觸到的一個概念。
咱們一般是將 znode 分爲 4 大類:
/node1/app0000000001
、/node1/app0000000002
。每一個 znode 由 2 部分組成:
以下所示,我經過 get 命令來獲取 根目錄下的 dubbo 節點的內容。(get 命令在下面會介紹到)。
[zk: 127.0.0.1:2181(CONNECTED) 6] get /dubbo # 該數據節點關聯的數據內容爲空 null # 下面是該數據節點的一些狀態信息,其實就是 Stat 對象的格式化輸出 cZxid = 0x2 ctime = Tue Nov 27 11:05:34 CST 2018 mZxid = 0x2 mtime = Tue Nov 27 11:05:34 CST 2018 pZxid = 0x3 cversion = 1 dataVersion = 0 aclVersion = 0 ephemeralOwner = 0x0 dataLength = 0 numChildren = 1
Stat 類中包含了一個數據節點的全部狀態信息的字段,包括事務 ID-cZxid、節點建立時間-ctime 和子節點個數-numChildren 等等。
下面咱們來看一下每一個 znode 狀態信息究竟表明的是什麼吧!(下面的內容來源於《從 Paxos 到 ZooKeeper 分佈式一致性原理與實踐》,由於 Guide 確實也不是特別清楚,要學會參考資料的嘛! ) :
znode 狀態信息 | 解釋 |
---|---|
cZxid | create ZXID,即該數據節點被建立時的事務 id |
ctime | create time,即該節點的建立時間 |
mZxid | modified ZXID,即該節點最終一次更新時的事務 id |
mtime | modified time,即該節點最後一次的更新時間 |
pZxid | 該節點的子節點列表最後一次修改時的事務 id,只有子節點列表變動纔會更新 pZxid,子節點內容變動不會更新 |
cversion | 子節點版本號,當前節點的子節點每次變化時值增長 1 |
dataVersion | 數據節點內容版本號,節點建立時爲 0,每更新一次節點內容(無論內容有無變化)該版本號的值增長 1 |
aclVersion | 節點的 ACL 版本號,表示該節點 ACL 信息變動次數 |
ephemeralOwner | 建立該臨時節點的會話的 sessionId;若是當前節點爲持久節點,則 ephemeralOwner=0 |
dataLength | 數據節點內容長度 |
numChildren | 當前節點的子節點個數 |
在前面咱們已經提到,對應於每一個 znode,ZooKeeper 都會爲其維護一個叫做 Stat 的數據結構,Stat 中記錄了這個 znode 的三個相關的版本:
ZooKeeper 採用 ACL(AccessControlLists)策略來進行權限控制,相似於 UNIX 文件系統的權限控制。
對於 znode 操做的權限,ZooKeeper 提供瞭如下 5 種:
其中尤爲須要注意的是,CREATE 和 DELETE 這兩種權限都是針對 子節點 的權限控制。
對於身份認證,提供瞭如下幾種方式:
Watcher(事件監聽器),是 ZooKeeper 中的一個很重要的特性。ZooKeeper 容許用戶在指定節點上註冊一些 Watcher,而且在一些特定事件觸發的時候,ZooKeeper 服務端會將事件通知到感興趣的客戶端上去,該機制是 ZooKeeper 實現分佈式協調服務的重要特性。
破音:很是有用的一個特性,都能出小本本記好了,後面用到 ZooKeeper 基本離不開 Watcher(事件監聽器)機制。
Session 能夠看做是 ZooKeeper 服務器與客戶端的之間的一個 TCP 長鏈接,經過這個鏈接,客戶端可以經過心跳檢測與服務器保持有效的會話,也可以向 ZooKeeper 服務器發送請求並接受響應,同時還可以經過該鏈接接收來自服務器的 Watcher 事件通知。
Session 有一個屬性叫作:sessionTimeout
,sessionTimeout
表明會話的超時時間。當因爲服務器壓力太大、網絡故障或是客戶端主動斷開鏈接等各類緣由致使客戶端鏈接斷開時,只要在sessionTimeout
規定的時間內可以從新鏈接上集羣中任意一臺服務器,那麼以前建立的會話仍然有效。
另外,在爲客戶端建立會話以前,服務端首先會爲每一個客戶端都分配一個 sessionID
。因爲 sessionID
是 ZooKeeper 會話的一個重要標識,許多與會話相關的運行機制都是基於這個 sessionID
的,所以,不管是哪臺服務器爲客戶端分配的 sessionID
,都務必保證全局惟一。
爲了保證高可用,最好是以集羣形態來部署 ZooKeeper,這樣只要集羣中大部分機器是可用的(可以容忍必定的機器故障),那麼 ZooKeeper 自己仍然是可用的。一般 3 臺服務器就能夠構成一個 ZooKeeper 集羣了。ZooKeeper 官方提供的架構圖就是一個 ZooKeeper 集羣總體對外提供服務。
上圖中每個 Server 表明一個安裝 ZooKeeper 服務的服務器。組成 ZooKeeper 服務的服務器都會在內存中維護當前的服務器狀態,而且每臺服務器之間都互相保持着通訊。集羣間經過 ZAB 協議(ZooKeeper Atomic Broadcast)來保持數據的一致性。
最典型集羣模式: Master/Slave 模式(主備模式)。在這種模式中,一般 Master 服務器做爲主服務器提供寫服務,其餘的 Slave 服務器從服務器經過異步複製的方式獲取 Master 服務器最新的數據提供讀服務。
可是,在 ZooKeeper 中沒有選擇傳統的 Master/Slave 概念,而是引入了 Leader、Follower 和 Observer 三種角色。以下圖所示
ZooKeeper 集羣中的全部機器經過一個 Leader 選舉過程 來選定一臺稱爲 「Leader」 的機器,Leader 既能夠爲客戶端提供寫服務又能提供讀服務。除了 Leader 外,Follower 和 Observer 都只能提供讀服務。Follower 和 Observer 惟一的區別在於 Observer 機器不參與 Leader 的選舉過程,也不參與寫操做的「過半寫成功」策略,所以 Observer 機器能夠在不影響寫性能的狀況下提高集羣的讀性能。
角色 | 說明 |
---|---|
Leader | 爲客戶端提供讀和寫的服務,負責投票的發起和決議,更新系統狀態。 |
Follower | 爲客戶端提供讀服務,若是是寫服務則轉發給 Leader。在選舉過程當中參與投票。 |
Observer | 爲客戶端提供讀服務器,若是是寫服務則轉發給 Leader。不參與選舉過程當中的投票,也不參與「過半寫成功」策略。在不影響寫性能的狀況下提高集羣的讀性能。此角色於 ZooKeeper3.3 系列新增的角色。 |
當 Leader 服務器出現網絡中斷、崩潰退出與重啓等異常狀況時,就會進入 Leader 選舉過程,這個過程會選舉產生新的 Leader 服務器。
這個過程大體是這樣的:
ZooKeeper 集羣在宕掉幾個 ZooKeeper 服務器以後,若是剩下的 ZooKeeper 服務器個數大於宕掉的個數的話整個 ZooKeeper 才依然可用。假如咱們的集羣中有 n 臺 ZooKeeper 服務器,那麼也就是剩下的服務數必須大於 n/2。先說一下結論,2n 和 2n-1 的容忍度是同樣的,都是 n-1,你們能夠先本身仔細想想,這應該是一個很簡單的數學問題了。 好比假如咱們有 3 臺,那麼最大容許宕掉 1 臺 ZooKeeper 服務器,若是咱們有 4 臺的的時候也一樣只容許宕掉 1 臺。 假如咱們有 5 臺,那麼最大容許宕掉 2 臺 ZooKeeper 服務器,若是咱們有 6 臺的的時候也一樣只容許宕掉 2 臺。
綜上,何須增長那一個沒必要要的 ZooKeeper 呢?
Paxos 算法應該能夠說是 ZooKeeper 的靈魂了。可是,ZooKeeper 並無徹底採用 Paxos算法 ,而是使用 ZAB 協議做爲其保證數據一致性的核心算法。另外,在ZooKeeper的官方文檔中也指出,ZAB協議並不像 Paxos 算法那樣,是一種通用的分佈式一致性算法,它是一種特別爲Zookeeper設計的崩潰可恢復的原子消息廣播算法。
ZAB(ZooKeeper Atomic Broadcast 原子廣播) 協議是爲分佈式協調服務 ZooKeeper 專門設計的一種支持崩潰恢復的原子廣播協議。 在 ZooKeeper 中,主要依賴 ZAB 協議來實現分佈式數據一致性,基於該協議,ZooKeeper 實現了一種主備模式的系統架構來保持集羣中各個副本之間的數據一致性。
ZAB 協議包括兩種基本的模式,分別是
關於 ZAB 協議&Paxos算法 須要講和理解的東西太多了,具體能夠看下面這兩篇文章: