Zookeeper知識點整理

基礎篇

一、zookeeper是什麼
Zookeeper,一種分佈式應用的協做服務,是Google的Chubby一個開源的實現,是Hadoop的分佈式協調服務,它包含一個簡單的原語集,應用於分佈式應用的協做服務,使得分佈式應用能夠基於這些接口實現諸如同步、配置維護和分集羣或者命名的服務。html

zookeeper是一個由多個service組成的集羣,一個leader,多個follower,每一個server保存一份數據部分,全局數據一致,分佈式讀寫,更新請求轉發由leader實施.node

更新請求順序進行,來自同一個client的更新請求按其發送順序依次執行,數據更新原子性,一次數據更新要麼成功,要麼失敗,全局惟一數據試圖,client不管鏈接到哪一個server,數據試圖是一致的.服務器

二、爲何要用zookeeper
大部分分佈式應用須要一個主控、協調器或控制器來管理物理分佈的子進程(如資源、任務分配等),目前,大部分應用須要開發私有的協調程序,缺少一個通用的機制.協調程序的反覆編寫浪費,且難以造成通用、伸縮性好的協調器,ZooKeeper:提供通用的分佈式鎖服務,用以協調分佈式應用數據結構

三、zookeeper工做原理
zookeeper的核心是原子廣播,這個機制保證了各個server之間的同步,實現這個機制的協議叫作Zab協議.Zab協議有兩種模式,他們分別是恢復模式和廣播模式.分佈式

  (1)當服務啓動或者在領導者崩潰後,Zab就進入了恢復模式,當領導着被選舉出來,且大多數server都完成了和leader的狀態同步後,恢復模式就結束了.狀態同步保證了leader和server具備相同的系統狀態.ide

  (2)一旦leader已經和多數的follower進行了狀態同步後,他就能夠開始廣播消息了,即進入廣播狀態.這時候當一個server加入zookeeper服務中,它會在恢復模式下啓動,發下leader,並和leader進行狀態同步,待到同步結束,它也參與廣播消息.oop

說明:學習

廣播模式須要保證proposal被按順序處理,所以zk採用了遞增的事務id號(zxid)來保證.全部的提議(proposal)都在被提出的時候加上了zxid.實現中zxid是一個64爲的數字,它高32位是epoch用來標識leader關係是否改變,每次一個leader被選出來,它都會有一個新的epoch.低32位是個遞增計數.

當leader崩潰或者leader失去大多數的follower,這時候zk進入恢復模式,恢復模式須要從新選舉出一個新的leader,讓全部的server都恢復到一個正確的狀態.

zookeeper服務一致維持在Broadcast狀態,直到leader崩潰了或者leader失去了大部分的followers支持.

Broadcast模式極其相似於分佈式事務中的2pc(two-phrase commit 兩階段提交):即leader提起一個決議,由followers進行投票,leader對投票結果進行計算決定是否經過該決議,若是經過執行該決議(事務),不然什麼也不作.

三、Leader選舉
每一個Server啓動之後都詢問其它的Server它要投票給誰,對於其餘server的詢問,server每次根據本身的狀態都回複本身推薦的leader的id和上一次處理事務的zxid(系統啓動時每一個server都會推薦本身),收到全部Server回覆之後,就計算出zxid最大的哪一個Server,並將這個Server相關信息設置成下一次要投票的Server.計算這過程當中得到票數最多的的sever爲獲勝者,若是獲勝者的票數超過半數,則改server被選爲leader.不然,繼續這個過程,直到leader被選舉出來.leader就會開始等待server鏈接,Follower鏈接leader,將最大的zxid發送給leader,Leader根據follower的zxid肯定同步點,完成同步後通知follower 已經成爲uptodate狀態,Follower收到uptodate消息後,又能夠從新接受client的請求進行服務了.設計

四、zookeeper的數據模型
層次化的目錄結構,命名符合常規文件系統規範
每一個節點在zookeeper中叫作znode,而且其有一個惟一的路徑標識
節點Znode能夠包含數據和子節點,可是EPHEMERAL類型的節點不能有子節點
Znode中的數據能夠有多個版本,好比某一個路徑下存有多個數據版本,那麼查詢這個路徑下的數據就須要帶上版本
客戶端應用能夠在節點上設置監視器,節點不支持部分讀寫,而是一次性完整讀寫日誌

Zoopkeeper 提供了一套很好的分佈式集羣管理的機制,就是它這種基於層次型的目錄樹的數據結構,並對樹中的節點進行有效管理,從而能夠設計出多種多樣的分佈式的數據管理模型

五、Zookeeper的節點
Znode有兩種類型,短暫的(ephemeral)和持久的(persistent)
Znode的類型在建立時肯定而且以後不能再修改
短暫znode的客戶端會話結束時,zookeeper會將該短暫znode刪除,短暫znode不能夠有子節點
持久znode不依賴於客戶端會話,只有當客戶端明確要刪除該持久znode時纔會被刪除
Znode有四種形式的目錄節點,PERSISTENT、PERSISTENT_SEQUENTIAL、EPHEMERAL、EPHEMERAL_SEQUENTIAL.

znode 能夠被監控,包括這個目錄節點中存儲的數據的修改,子節點目錄的變化等,一旦變化能夠通知設置監控的客戶端,這個功能是zookeeper對於應用最重要的特性,經過這個特性能夠實現的功能包括配置的集中管理,集羣管理,分佈式鎖等等.

六、Zookeeper的角色
(1)領導者(leader):負責進行投票的發起和決議,更新系統狀態
(2)學習者(learner):包括跟隨者(follower)和觀察者(observer).
a、follower用於接受客戶端請求並想客戶端返回結果,在選主過程當中參與投票
b、Observer能夠接受客戶端鏈接,將寫請求轉發給leader,但observer不參加投票過程,只同步leader的狀態,observer的目的是爲了擴展系統,提升讀取速度
(3)客戶端(client),請求發起方

Watcher

Watcher 在 ZooKeeper 是一個核心功能,Watcher 能夠監控目錄節點的數據變化以及子目錄的變化,一旦這些狀態發生變化,服務器就會通知全部設置在這個目錄節點上的 Watcher,從而每一個客戶端都很快知道它所關注的目錄節點的狀態發生變化,而作出相應的反應

能夠設置觀察的操做:exists,getChildren,getData

能夠觸發觀察的操做:create,delete,setData

znode以某種方式發生變化時,「觀察」(watch)機制可讓客戶端獲得通知.

能夠針對ZooKeeper服務的「操做」來設置觀察,該服務的其餘 操做能夠觸發觀察.

好比,客戶端能夠對某個客戶端調用exists操做,同時在它上面設置一個觀察,若是此時這個znode不存在,則exists返回 false,若是一段時間以後,這個znode被其餘客戶端建立,則這個觀察會被觸發,以前的那個客戶端就會獲得通知.

七、Zookeeper集羣搭建

Zookeeper 不只能夠單機提供服務,同時也支持多機組成集羣來提供服務,實際上Zookeeper還支持另一種僞集羣的方式,也就是能夠在一臺物理機上運行多個Zookeeper實例.

Zookeeper經過複製來實現高可用性,只要集合體中半數以上的機器處於可用狀態,它就可以保證服務繼續。

命令篇

  • 鏈接遠程Server:zkCli.sh –server <ip>:<port>
    好比鏈接到本地Zoopker服務: ./zkCli.sh -server localhost:2181
  • 查看節點數據:ls <path>,好比ls / 則查看根目錄節點數據
  • 查看某個服務Service的提供者
    ls 服務名/providers
  • 查看節點數據並能看到更新次數等數據:ls2 <path>,輸出字段含義以下:
    cZxid:建立節點的事務id
    ctime:建立節點的時間
    mZxid:修改節點的事務id
    mtime:修改節點的時間
    pZxid:子節點列表最後一次修改的事務id。刪除或添加子節點,不包含修改子節點的數據
    cversion:子節點的版本號,刪除或添加子節點,版本號會自增
    dataVersion:節點數據版本號,數據寫入操做,版本號會遞增
    aclVersion:節點ACL權限版本,權限寫入操做,版本號會遞增
    ephemeralOwner:臨時節點建立時的事務id,若是節點是永久節點,則它的值爲0
    dataLength:節點數據長度(單位:byte),中文佔3個byte
    numChildren:子節點數量
  • 建立節點:create <path> <data>
  • 獲取節點,包含數據和更新次數等數據:get <path>
  • 修改節點:set <path> <data>
  • 刪除節點:delete <path>,若是有子節點存在則刪除失敗

配置篇

一、zoo.cfx文件解析:
假設以下配置:

#zookeeper-3.4.6-node1的配置
tickTime=2000
initLimit=10
syncLimit=5
clientPort=2181
dataDir=/export/search/zookeeper-cluster/zookeeper-3.4.6-node1/data
server.1=localhost:2887:3887
server.2=localhost:2888:3888
server.3=localhost:2889:3889

解析:
tickTime=2000:
tickTime這個時間是做爲Zookeeper服務器之間或客戶端與服務器之間維持心跳的時間間隔,也就是每一個tickTime時間就會發送一個心跳;

initLimit=10:
initLimit這個配置項是用來配置Zookeeper接受客戶端(這裏所說的客戶端不是用戶鏈接Zookeeper服務器的客戶端,而是Zookeeper服務器集羣中鏈接到Leader的Follower 服務器)初始化鏈接時最長能忍受多少個心跳時間間隔數。
當已經超過10個心跳的時間(也就是tickTime)長度後 Zookeeper 服務器尚未收到客戶端的返回信息,那麼代表這個客戶端鏈接失敗。總的時間長度就是 10*2000=20 秒;

syncLimit=5:
syncLimit這個配置項標識Leader與Follower之間發送消息,請求和應答時間長度,最長不能超過多少個tickTime的時間長度,總的時間長度就是5*2000=10秒;

dataDir=/export/search/zookeeper-cluster/zookeeper-3.4.6-node1/data
dataDir顧名思義就是Zookeeper保存數據的目錄,默認狀況下Zookeeper將寫數據的日誌文件也保存在這個目錄裏;

clientPort=2181
clientPort這個端口就是客戶端鏈接Zookeeper服務器的端口,Zookeeper會監聽這個端口接受客戶端的訪問請求;

server.1=localhost:2887:3887
server.2=localhost:2888:3888
server.3=localhost:2889:3889
server.A=B:C:D:
A是一個數字,表示這個是第幾號服務器,B是這個服務器的ip地址
C第一個端口用來集羣成員的信息交換,表示的是這個服務器與集羣中的Leader服務器交換信息的端口
D是在leader掛掉時專門用來進行選舉leader所用

參考:https://www.cnblogs.com/denni...

相關文章
相關標籤/搜索