全局惟一mysql
趨勢有序git
避免ID衝突github
著名的例子就是身份證號碼,身份證號碼確實是對人惟一的,然而一我的是能夠辦理多個身份證的,例如你身份證丟了,又從新補辦了一張,號碼不變。算法
問題來了,由於系統是按照身份證號碼作惟一主鍵的。此時,若是身份證是被盜的狀況下,你是沒有辦法在系統裏面註銷的,由於新舊2個身份證的「主鍵」都是身份證號碼。sql
也就是說,舊的身份證仍然逍遙在外,徹底有效。這個時候,還好有一個身份證有效時間的東西,只有靠身份證有效期來辨識了。不過,這就是如今這麼多銀行,電信詐騙的由來,撿到一張身份證,去不少銀行,手機,酒店均可以使用!身份證缺少註銷機制!數據庫
因此,經驗告訴咱們。不要相信本身的直覺,業務上所謂的惟一每每都是不靠譜的,經不起時間的考研的。因此須要單獨設置一個和業務無關的主鍵,專業術語叫作代理主鍵(surrogate key)。安全
提升讀寫性能服務器
以mysql爲例,InnoDB引擎表是基於B+樹的索引組織表(IOT);每一個表都須要有一個彙集索引(clustered index);全部的行記錄都存儲在B+樹的葉子節點(leaf pages of the tree);基於彙集索引的增、刪、改、查的效率相對是最高的;以下圖:數據結構
若是咱們定義了主鍵(PRIMARY KEY),那麼InnoDB會選擇其做爲彙集索引;併發
若是沒有顯式定義主鍵,則InnoDB會選擇第一個不包含有NULL值的惟一索引做爲主鍵索引;
若是也沒有這樣的惟一索引,則InnoDB會選擇內置6字節長的ROWID做爲隱含的彙集索引(ROWID隨着行記錄的寫入而主鍵遞增,這個ROWID不像ORACLE的ROWID那樣可引用,是隱含的)。
綜上總結,若是InnoDB表的數據寫入順序能和B+樹索引的葉子節點順序一致的話,這時候存取效率是最高的,也就是下面這幾種狀況的存取效率最高
使用自增列(INT/BIGINT類型)作主鍵,這時候寫入順序是自增的,和B+數葉子節點分裂順序一致;
該表不指定自增列作主鍵,同時也沒有能夠被選爲主鍵的惟一索引(上面的條件),這時候InnoDB會選擇內置的ROWID做爲主鍵,寫入順序和ROWID增加順序一致;
除此之外,若是一個InnoDB表又沒有顯示主鍵,又有能夠被選擇爲主鍵的惟一索引,但該惟一索引可能不是遞增關係時(例如字符串、UUID、多字段聯合惟一索引的狀況),該表的存取效率就會比較差)
利用數據庫自增加,全局數據庫惟一。
優勢:
缺點:
利用數據庫或者程序生成,全球惟一。
優勢:
缺點:
Redis是單線程的,因此也能夠用生成全局惟一的ID。能夠用Redis的原子操做 INCR和INCRBY來實現。
可使用Redis集羣來獲取更高的吞吐量。假如一個集羣中有5臺Redis。能夠初始化每臺Redis的值分別是1,2,3,4,5,而後步長都是5。各個Redis生成的ID爲:
A:1,6,11,16,21
B:2,7,12,17,22
C:3,8,13,18,23
D:4,9,14,19,24
E:5,10,15,20,25
這個,隨便負載到哪一個機肯定好,將來很難作修改。可是3-5臺服務器基本可以知足器上,均可以得到不一樣的ID。可是步長和初始值必定須要事先須要了。使用Redis集羣也能夠方式單點故障的問題。
另外,比較適合使用Redis來生成天天從0開始的流水號。好比訂單號=日期+當日自增加號。能夠天天在Redis中生成一個Key,使用INCR進行累加。
優勢:
缺點:
twitter在把存儲系統從MySQL遷移到Cassandra的過程當中因爲Cassandra沒有順序ID生成機制,因而本身開發了一套全局惟一ID生成服務:Snowflake。
1 41位的時間序列(精確到毫秒,41位的長度可使用69年)
2 10位的機器標識(10位的長度最多支持部署1024個節點)
3 12位的計數順序號(12位的計數順序號支持每一個節點每毫秒產生4096個ID序號) 最高位是符號位,始終爲0。
優勢:
缺點:
原理:
MongoDB的ObjectId和snowflake算法相似。它設計成輕量型的,不一樣的機器都能用全局惟一的同種方法方便地生成它。MongoDB 從一開始就設計用來做爲分佈式數據庫,處理多個節點是一個核心要求。使其在分片環境中要容易生成得多。
ObjectId使用12字節的存儲空間,其生成方式以下:
|0|1|2|3|4|5|6 |7|8|9|10|11|
|時間戳 |機器ID|PID|計數器 |
前四個字節時間戳是從標準紀元開始的時間戳,單位爲秒,有以下特性:
1 時間戳與後邊5個字節一塊,保證秒級別的惟一性;
2 保證插入順序大體按時間排序;
3 隱含了文檔建立時間;
4 時間戳的實際值並不重要,不須要對服務器之間的時間進行同步(由於加上機器ID和進程ID已保證此值惟一,惟一性是ObjectId的最終訴求)。
機器ID是服務器主機標識,一般是機器主機名的散列值。
同一臺機器上能夠運行多個mongod實例,所以也須要加入進程標識符PID。
前9個字節保證了同一秒鐘不一樣機器不一樣進程產生的ObjectId的惟一性。後三個字節是一個自動增長的計數器(一個mongod進程須要一個全局的計數器),保證同一秒的ObjectId是惟一的。同一秒鐘最多容許每一個進程擁有(256^3 = 16777216)個不一樣的ObjectId。
總結一下:時間戳保證秒級惟一,機器ID保證設計時考慮分佈式,避免時鐘同步,PID保證同一臺服務器運行多個mongod實例時的惟一性,最後的計數器保證同一秒內的惟一性(選用幾個字節既要考慮存儲的經濟性,也要考慮併發性能的上限)。
"_id"既能夠在服務器端生成也能夠在客戶端生成,在客戶端生成能夠下降服務器端的壓力。
國內有不少廠家基於snowflake算法進行了國產化,例如
百度的uid-generator:
https://github.com/baidu/uid-generator
美團Leaf:
https://github.com/zhuzhong/idleaf
基本是對snowflake的進一步優化,好比解決時鐘 回撥問題!
分佈式ID知足條件: