Leaf——來自美團點評的分佈式ID生成系統

時間 2019-11-19

原文原文鏈接

背景介紹node

在複雜分佈式系統中，每每須要對大量的數據和消息進行惟一標識。如在美團點評的金融、支付、餐飲、酒店、貓眼電影等產品的系統中，數據日漸增加，對數據分庫分表後須要有一個惟一ID來標識一條數據或消息，數據庫的自增ID顯然不能知足需求；特別一點的如訂單、騎手、優惠券也都須要有惟一ID作標識。此時一個可以生成全局惟一ID的系統是很是必要的。歸納下來，那業務系統對ID號的要求有哪些呢？算法

全局惟一性：不能出現重複的ID號，既然是惟一標識，這是最基本的要求。數據庫
趨勢遞增：在MySQL InnoDB引擎中使用的是彙集索引，因爲多數RDBMS使用B-tree的數據結構來存儲索引數據，在主鍵的選擇上面咱們應該儘可能使用有序的主鍵保證寫入性能。緩存
單調遞增：保證下一個ID必定大於上一個ID，例如事務版本號、IM增量消息、排序等特殊需求。安全
信息安全：若是ID是連續的，惡意用戶的扒取工做就很是容易作了，直接按照順序下載指定URL便可；若是是訂單號就更危險了，競對能夠直接知道咱們一天的單量。因此在一些應用場景下，會須要ID無規則、不規則。網絡

上述123對應三類不一樣的場景，3和4需求仍是互斥的，沒法使用同一個方案知足。數據結構

同時除了對ID號碼自身的要求，業務還對ID號生成系統的可用性要求極高，想象一下，若是ID生成系統癱瘓，整個美團點評支付、優惠券發券、騎手派單等關鍵動做都沒法執行，這就會帶來一場災難。架構

由此總結下一個ID生成系統應該作到以下幾點：負載均衡

平均延遲和TP999延遲都要儘量低；框架
可用性5個9；
高QPS。

常見方法介紹

UUID

UUID(Universally Unique Identifier)的標準型式包含32個16進制數字，以連字號分爲五段，形式爲8-4-4-4-12的36個字符，示例：550e8400-e29b-41d4-a716-446655440000，到目前爲止業界一共有5種方式生成UUID，詳情見IETF發佈的UUID規範（http://www.ietf.org/rfc/rfc4122.txt）。

優勢：

性能很是高：本地生成，沒有網絡消耗。

缺點：

不易於存儲：UUID太長，16字節128位，一般以36長度的字符串表示，不少場景不適用。
信息不安全：基於MAC地址生成UUID的算法可能會形成MAC地址泄露，這個漏洞曾被用於尋找梅麗莎病毒的製做者位置。
ID做爲主鍵時在特定的環境會存在一些問題，好比作DB主鍵的場景下，UUID就很是不適用：

① MySQL官方有明確的建議主鍵要儘可能越短越好[4]，36個字符長度的UUID不符合要求。

② 對MySQL索引不利：若是做爲數據庫主鍵，在InnoDB引擎下，UUID的無序性可能會引發數據位置頻繁變更，嚴重影響性能。

類snowflake方案

這種方案大體來講是一種以劃分命名空間（UUID也算，因爲比較常見，因此單獨分析）來生成ID的一種算法，這種方案把64-bit分別劃分紅多段，分開來標示機器、時間等，好比在snowflake中的64-bit分別表示以下圖（圖片來自網絡）所示：

41-bit的時間能夠表示（1L<<41）/（1000L*3600*24*365）=69年的時間，10-bit機器能夠分別表示1024臺機器。若是咱們對IDC劃分有需求，還能夠將10-bit分5-bit給IDC，分5-bit給工做機器。這樣就能夠表示32個IDC，每一個IDC下能夠有32臺機器，能夠根據自身需求定義。12個自增序列號能夠表示2^12個ID，理論上snowflake方案的QPS約爲409.6w/s，這種分配方式能夠保證在任何一個IDC的任何一臺機器在任意毫秒內生成的ID都是不一樣的。

這種方式的優缺點是：

優勢：

毫秒數在高位，自增序列在低位，整個ID都是趨勢遞增的。
不依賴數據庫等第三方系統，以服務的方式部署，穩定性更高，生成ID的性能也是很是高的。
能夠根據自身業務特性分配bit位，很是靈活。

缺點：

強依賴機器時鐘，若是機器上時鐘回撥，會致使發號重複或者服務會處於不可用狀態。

應用舉例Mongdb objectID

MongoDB官方文檔 ObjectID能夠算做是和snowflake相似方法，經過「時間+機器碼+pid+inc」共12個字節，經過4+3+2+3的方式最終標識成一個24長度的十六進制字符。

數據庫生成

以MySQL舉例，利用給字段設置auto_increment_increment和auto_increment_offset來保證ID自增，每次業務使用下列SQL讀寫MySQL獲得ID號。

begin;
REPLACE INTO Tickets64 (stub) VALUES ('a');
SELECT LAST_INSERT_ID();
commit;

這種方案的優缺點以下：

優勢：

很是簡單，利用現有數據庫系統的功能實現，成本小，有DBA專業維護。
ID號單調自增，能夠實現一些對ID有特殊要求的業務。

缺點：

強依賴DB，當DB異常時整個系統不可用，屬於致命問題。配置主從複製能夠儘量的增長可用性，可是數據一致性在特殊狀況下難以保證。主從切換時的不一致可能會致使重複發號。
ID發號性能瓶頸限制在單臺MySQL的讀寫性能。

對於MySQL性能問題，可用以下方案解決：在分佈式系統中咱們能夠多部署幾臺機器，每臺機器設置不一樣的初始值，且步長和機器數相等。好比有兩臺機器。設置步長step爲2，TicketServer1的初始值爲1（1，3，5，7，9，11...）、TicketServer2的初始值爲2（2，4，6，8，10...）。這是Flickr團隊在2010年撰文介紹的一種主鍵生成策略（Ticket Servers: Distributed Unique Primary Keys on the Cheap ）。以下所示，爲了實現上述方案分別設置兩臺機器對應的參數，TicketServer1從1開始發號，TicketServer2從2開始發號，兩臺機器每次發號以後都遞增2。

TicketServer1:
auto-increment-increment = 2
auto-increment-offset = 1

TicketServer2:
auto-increment-increment = 2
auto-increment-offset = 2

假設咱們要部署N臺機器，步長需設置爲N，每臺的初始值依次爲0,1,2...N-1那麼整個架構就變成了以下圖所示：

這種架構貌似可以知足性能的需求，但有如下幾個缺點：

系統水平擴展比較困難，好比定義好了步長和機器臺數以後，若是要添加機器該怎麼作？假設如今只有一臺機器發號是1,2,3,4,5（步長是1），這個時候須要擴容機器一臺。能夠這樣作：把第二臺機器的初始值設置得比第一臺超過不少，好比14（假設在擴容時間以內第一臺不可能發到14），同時設置步長爲2，那麼這臺機器下發的號碼都是14之後的偶數。而後摘掉第一臺，把ID值保留爲奇數，好比7，而後修改第一臺的步長爲2。讓它符合咱們定義的號段標準，對於這個例子來講就是讓第一臺之後只能產生奇數。擴容方案看起來複雜嗎？貌似還好，如今想象一下若是咱們線上有100臺機器，這個時候要擴容該怎麼作？簡直是噩夢。因此係統水平擴展方案複雜難以實現。
ID沒有了單調遞增的特性，只能趨勢遞增，這個缺點對於通常業務需求不是很重要，能夠容忍。
數據庫壓力仍是很大，每次獲取ID都得讀寫一次數據庫，只能靠堆機器來提升性能。

Leaf 方案實現

Leaf這個名字是來自德國哲學家、數學家萊布尼茨的一句話：

There are no two identical leaves in the world

"世界上沒有兩片相同的樹葉"

綜合對比上述幾種方案，每種方案都不徹底符合咱們的要求。因此Leaf分別在上述第二種和第三種方案上作了相應的優化，實現了Leaf-segment和Leaf-snowflake方案。

Leaf-segment數據庫方案

第一種Leaf-segment方案，在使用數據庫的方案上，作了以下改變：

原方案每次獲取ID都得讀寫一次數據庫，形成數據庫壓力大。改成利用proxy server批量獲取，每次獲取一個segment(step決定大小)號段的值。用完以後再去數據庫獲取新的號段，能夠大大的減輕數據庫的壓力。
各個業務不一樣的發號需求用biz_tag字段來區分，每一個biz-tag的ID獲取相互隔離，互不影響。若是之後有性能需求須要對數據庫擴容，不須要上述描述的複雜的擴容操做，只須要對biz_tag分庫分表就行。

數據庫表設計以下：

重要字段說明：biz_tag用來區分業務，max_id表示該biz_tag目前所被分配的ID號段的最大值，step表示每次分配的號段長度。原來獲取ID每次都須要寫數據庫，如今只須要把step設置得足夠大，好比1000。那麼只有當1000個號被消耗完了以後纔會去從新讀寫一次數據庫。讀寫數據庫的頻率從1減少到了1/step，大體架構以下圖所示：

test_tag在第一臺Leaf機器上是1~1000的號段，當這個號段用完時，會去加載另外一個長度爲step=1000的號段，假設另外兩臺號段都沒有更新，這個時候第一臺機器新加載的號段就應該是3001~4000。同時數據庫對應的biz_tag這條數據的max_id會從3000被更新成4000，更新號段的SQL語句以下：

Begin
UPDATE table SET max_id=max_id+step WHERE biz_tag=xxx
SELECT tag, max_id, step FROM table WHERE biz_tag=xxx
Commit

這種模式有如下優缺點：

優勢：

Leaf服務能夠很方便的線性擴展，性能徹底可以支撐大多數業務場景。
ID號碼是趨勢遞增的8byte的64位數字，知足上述數據庫存儲的主鍵要求。
容災性高：Leaf服務內部有號段緩存，即便DB宕機，短期內Leaf仍能正常對外提供服務。
能夠自定義max_id的大小，很是方便業務從原有的ID方式上遷移過來。

缺點：

ID號碼不夠隨機，可以泄露發號數量的信息，不太安全。
TP999數據波動大，當號段使用完以後仍是會hang在更新數據庫的I/O上，tg999數據會出現偶爾的尖刺。
DB宕機會形成整個系統不可用。

雙buffer優化

對於第二個缺點，Leaf-segment作了一些優化，簡單的說就是：

Leaf 取號段的時機是在號段消耗完的時候進行的，也就意味着號段臨界點的ID下發時間取決於下一次從DB取回號段的時間，而且在這期間進來的請求也會由於DB號段沒有取回來，致使線程阻塞。若是請求DB的網絡和DB的性能穩定，這種狀況對系統的影響是不大的，可是假如取DB的時候網絡發生抖動，或者DB發生慢查詢就會致使整個系統的響應時間變慢。

爲此，咱們但願DB取號段的過程可以作到無阻塞，不須要在DB取號段的時候阻塞請求線程，即當號段消費到某個點時就異步的把下一個號段加載到內存中。而不須要等到號段用盡的時候纔去更新號段。這樣作就能夠很大程度上的下降系統的TP999指標。詳細實現以下圖所示：

採用雙buffer的方式，Leaf服務內部有兩個號段緩存區segment。當前號段已下發10%時，若是下一個號段未更新，則另啓一個更新線程去更新下一個號段。當前號段所有下發完後，若是下個號段準備好了則切換到下個號段爲當前segment接着下發，循環往復。

每一個biz-tag都有消費速度監控，一般推薦segment長度設置爲服務高峯期發號QPS的600倍（10分鐘），這樣即便DB宕機，Leaf仍能持續發號10-20分鐘不受影響。
每次請求來臨時都會判斷下個號段的狀態，從而更新此號段，因此偶爾的網絡抖動不會影響下個號段的更新。

Leaf高可用容災

對於第三點「DB可用性」問題，咱們目前採用一主兩從的方式，同時分機房部署，Master和Slave之間採用半同步方式[5]同步數據。同時使用公司Atlas數據庫中間件（已開源，更名爲DBProxy）作主從切換。固然這種方案在一些狀況會退化成異步模式，甚至在很是極端狀況下仍然會形成數據不一致的狀況，可是出現的機率很是小。若是你的系統要保證100%的數據強一致，能夠選擇使用「類Paxos算法」實現的強一致MySQL方案，如MySQL 5.7前段時間剛剛GA的MySQL Group Replication。可是運維成本和精力都會相應的增長，根據實際狀況選型便可。

同時Leaf服務分IDC部署，內部的服務化框架是「MTthrift RPC」。服務調用的時候，根據負載均衡算法會優先調用同機房的Leaf服務。在該IDC內Leaf服務不可用的時候纔會選擇其餘機房的Leaf服務。同時服務治理平臺OCTO還提供了針對服務的過載保護、一鍵截流、動態流量分配等對服務的保護措施。

Leaf-snowflake方案

Leaf-segment方案能夠生成趨勢遞增的ID，同時ID號是可計算的，不適用於訂單ID生成場景，好比競對在兩天中午12點分別下單，經過訂單id號相減就能大體計算出公司一天的訂單量，這個是不能忍受的。面對這一問題，咱們提供了 Leaf-snowflake方案。

Leaf-snowflake方案徹底沿用snowflake方案的bit位設計，便是「1+41+10+12」的方式組裝ID號。對於workerID的分配，當服務集羣數量較小的狀況下，徹底能夠手動配置。Leaf服務規模較大，動手配置成本過高。因此使用Zookeeper持久順序節點的特性自動對snowflake節點配置wokerID。Leaf-snowflake是按照下面幾個步驟啓動的：

啓動Leaf-snowflake服務，鏈接Zookeeper，在leaf_forever父節點下檢查本身是否已經註冊過（是否有該順序子節點）。
若是有註冊過直接取回本身的workerID（zk順序節點生成的int類型ID號），啓動服務。
若是沒有註冊過，就在該父節點下面建立一個持久順序節點，建立成功後取回順序號當作本身的workerID號，啓動服務。

弱依賴ZooKeeper

除了每次會去ZK拿數據之外，也會在本機文件系統上緩存一個workerID文件。當ZooKeeper出現問題，剛好機器出現問題須要重啓時，能保證服務可以正常啓動，這樣作到了對三方組件的弱依賴，必定程度上提升了SLA。

解決時鐘問題

由於這種方案依賴時間，若是機器的時鐘發生了回撥，那麼就會有可能生成重複的ID號，須要解決時鐘回退的問題。

參見上圖整個啓動流程圖，服務啓動時首先檢查本身是否寫過ZooKeeper leaf_forever節點：

若寫過，則用自身系統時間與leaf_forever/${self}節點記錄時間作比較，若小於leaf_forever/${self}時間則認爲機器時間發生了大步長回撥，服務啓動失敗並報警。
若未寫過，證實是新服務節點，直接建立持久節點leaf_forever/${self}並寫入自身系統時間，接下來綜合對比其他Leaf節點的系統時間來判斷自身系統時間是否準確，具體作法是取leaf_temporary下的全部臨時節點(全部運行中的Leaf-snowflake節點)的服務IP：Port，而後經過RPC請求獲得全部節點的系統時間，計算sum(time)/nodeSize。
若abs( 系統時間-sum(time)/nodeSize ) < 閾值，認爲當前系統時間準確，正常啓動服務，同時寫臨時節點leaf_temporary/${self} 維持租約。
不然認爲本機系統時間發生大步長偏移，啓動失敗並報警。
每隔一段時間(3s)上報自身系統時間寫入leaf_forever/${self}。

因爲強依賴時鐘，對時間的要求比較敏感，在機器工做時NTP同步也會形成秒級別的回退，建議能夠直接關閉NTP同步。要麼在時鐘回撥的時候直接不提供服務直接返回ERROR_CODE，等時鐘追上便可。或者作一層重試，而後上報報警系統，更或者是發現有時鐘回撥以後自動摘除自己節點並報警，以下：

從上線狀況來看，在2017年閏秒出現那一次出現過部分機器回撥，因爲Leaf-snowflake的策略保證，成功避免了對業務形成的影響。

Leaf現狀

Leaf在美團點評公司內部服務包含金融、支付交易、餐飲、外賣、酒店旅遊、貓眼電影等衆多業務線。目前Leaf的性能在4C8G的機器上QPS能壓測到近5w/s，TP999 1ms，已經可以知足大部分的業務的需求。天天提供億數量級的調用量，做爲公司內部公共的基礎技術設施，必須保證高SLA和高性能的服務，咱們目前還僅僅達到了及格線，還有不少提升的空間。