基於數據庫構建分佈式的ID生成方案

時間 2019-11-07

原文原文鏈接

在分佈式系統中，生成全局惟一ID，有不少種方案，可是在這多種方案中，每種方案都有有缺點，下面咱們之針對經過經常使用數據庫來生成分佈式ID的方案，其它方法會在其它文中討論：mysql

1，RDBMS生成ID：

這裏咱們討論mysql生成ID。由於MySQL自己能夠auto_increment和auto_increment_offset來保證ID自增，很天然地，咱們會想到藉助這個特性來實現這個功能。算法

全局ID生成方案裏採用了MySQL自增加ID的機制（auto_increment + replace into + MyISAM）。一個生成64位ID方案具體實現是這樣的：
先建立單獨的數據庫(eg:ticket)，而後建立一個表：sql

CREATE TABLE Tickets64 (
id bigint(20) unsigned NOT NULL auto_increment,
stub char(1) NOT NULL default '',
PRIMARY KEY (id),
UNIQUE KEY stub (stub)
) ENGINE=MyISAM

表建立以後咱們要設置一個初始值，好比100000，執行SELECT * from Tickets64，查詢結果就是這樣的：mongodb

每當咱們的應用須要ID的時候就會作以下操做，調用以下存儲過程：數據庫

begin;
REPLACE INTO Tickets64 (stub) VALUES ('a');
SELECT LAST_INSERT_ID();
commit;

架構如圖：服務器

這樣咱們就能拿到不斷增加且不重複的ID了。網絡

這種方案的優缺點以下：架構

優勢：併發

很是簡單，利用現有數據庫系統的功能實現，成本小，有DBA專業維護。
ID號單調自增，能夠實現一些對ID有特殊要求的業務。

缺點：分佈式

強依賴DB，當DB異常時整個系統不可用，屬於致命問題。配置主從複製能夠儘量的增長可用性，可是數據一致性在特殊狀況下難以保證。主從切換時的不一致可能會致使重複發號。
ID發號性能瓶頸限制在單臺MySQL的讀寫性能。

對於MySQL性能問題，可用以下方案解決：在分佈式系統中咱們能夠多部署幾臺機器，每臺機器設置不一樣的初始值，且步長和機器數相等。好比有兩臺機器。設置步長step爲2，TicketServer1的初始值爲1（1，3，5，7，9，11...）、TicketServer2的初始值爲2（2，4，6，8，10...）。這是Flickr團隊在2010年撰文介紹的一種主鍵生成策略（Ticket Servers: Distributed Unique Primary Keys on the Cheap ）。以下所示，爲了實現上述方案分別設置兩臺機器對應的參數，TicketServer1從1開始發號，TicketServer2從2開始發號，兩臺機器每次發號以後都遞增2。

TicketServer1:
auto-increment-increment = 2
auto-increment-offset = 1

TicketServer2:
auto-increment-increment = 2
auto-increment-offset = 2

假設咱們要部署N臺機器，步長需設置爲N，每臺的初始值依次爲0,1,2...N-1那麼整個架構就變成了以下圖所示：

這種架構貌似可以知足性能的需求，但有如下幾個缺點：

系統水平擴展比較困難，好比定義好了步長和機器臺數以後，若是要添加機器該怎麼作？假設如今只有一臺機器發號是1,2,3,4,5（步長是1），這個時候須要擴容機器一臺。能夠這樣作：把第二臺機器的初始值設置得比第一臺超過不少，好比14（假設在擴容時間以內第一臺不可能發到14），同時設置步長爲2，那麼這臺機器下發的號碼都是14之後的偶數。而後摘掉第一臺，把ID值保留爲奇數，好比7，而後修改第一臺的步長爲2。讓它符合咱們定義的號段標準，對於這個例子來講就是讓第一臺之後只能產生奇數。擴容方案看起來複雜嗎？貌似還好，如今想象一下若是咱們線上有100臺機器，這個時候要擴容該怎麼作？簡直是噩夢。因此係統水平擴展方案複雜難以實現。
ID沒有了單調遞增的特性，只能趨勢遞增，這個缺點對於通常業務需求不是很重要，能夠容忍。
數據庫壓力仍是很大，每次獲取ID都得讀寫一次數據庫，只能靠堆機器來提升性能。

2，類snowflake方案

這種方案大體來講是一種以劃分命名空間（UUID也算，因爲比較常見，因此單獨分析）來生成ID的一種算法，這種方案把64-bit分別劃分紅多段，分開來標示機器、時間等，好比在snowflake中的64-bit分別表示以下圖（圖片來自網絡）所示：

41-bit的時間能夠表示（1L<<41）/(1000L*3600*24*365)=69年的時間，10-bit機器能夠分別表示1024臺機器。若是咱們對IDC劃分有需求，還能夠將10-bit分5-bit給IDC，分5-bit給工做機器。這樣就能夠表示32個IDC，每一個IDC下能夠有32臺機器，能夠根據自身需求定義。12個自增序列號能夠表示2^12個ID，理論上snowflake方案的QPS約爲409.6w/s，這種分配方式能夠保證在任何一個IDC的任何一臺機器在任意毫秒內生成的ID都是不一樣的。

這種方式的優缺點是：

優勢：