本文提到的一些術語,好比Serializability和Linearizability,解釋看Linearizability, Serializability and Strict Serializability。git
本文中觀點大部分都是參考了CockroachDB多篇官方blog,設計文檔,代碼以及相關資料,相對來講比較瑣碎,並且有些地方沒有交代的太清楚,這裏嘗試將這些資料融合起來。相信看完這篇文章,再看官方文檔會更容易。github
介紹sql
CockroachDB是一個支持SQL,支持分佈式事務的ACID的分佈式數據,支持ANSI SQL的最高隔離級別Serializability。數據庫
在一個分佈式系統中,要支持Linearizability比較難,由於不一樣的機器之間時鐘有偏差,須要一個全局時鐘。TiDB選擇了和Percolator同樣的方案,單點timestamp oracle提供時鐘源。Google Spanner直接搞了一個基於硬件的TrueTime API提供相對來講比較精準的時鐘。CockroachDB沒有原子鐘,也沒有使用單點timestamp oracle,而是基於NTP來儘可能同步機器之間的時鐘偏移,NTP偏差能達到250ms甚至更多,而且不能嚴格保證,這致使CockroachDB要保證Linearizability一致性很難,而且性能差。最終雖然CockroachDB支持Linearizability,可是官方不推薦。默認,CockroachDB支持Serializable隔離級別,可是不保證Linearizability。網絡
Serializable併發
一個真實的數據庫系統同一時刻會有不少併發的事務在執行,如何讓這些事務以爲只有本身運行在數據庫中不受其餘事務的任何干擾是一個隔離級別的問題。Serializable就是不受任何干擾,弱一點的隔離級別有Repeatable Read, Read Committed, Read Uncommitted,Snapshot Isolation這些隔離級別多多少少會以爲受到了其餘事務的干擾,如Repeatable Read有幻讀問題,Snapshot Isolation有write skew問題,具體不贅述。能夠參考a-critique-of-ansi-sql-isolation-levelsoracle
要實現一個支持Serializable隔離級別的數據庫挺難的,不少數據庫都不支持Serializable隔離級別,緣由有幾個,我以爲最重要的緣由是性能不行。Oracle 11g默認隔離級別RC,最高隔離級別Snapshot Isolation,業界一些知名數據庫對隔離級別的支持看When is "ACID" ACID? Rarely. 然而CockroachDB爲了實現Serializable,花了大量的功夫。less
一個事務一般包含多個讀寫操做,操做不一樣的行/列。數據庫系統會對系統中的事務進行調度,事務會交叉執行,而不是一個接着一個。dom
一共三個事務,上圖是數據庫系統對這三個事務的一種調度。那麼這個調度是否是Serializable的?這個有理論支持: serializability graph。這個理論引入了三種衝突,三種衝突都是對於不一樣的事務操做同一個數據而言:異步
對於任何一個事務調度結果,若是兩個事務存在某種衝突,就在事務之間連上有向邊(後面的事務指向前面的事務)。下圖是上面事務調度的serializability graph。
已經證實若是一個事務調度的serializability graph中不存在環,那麼這個事務調度就是Serializable的。那麼CockroachDB是怎麼作的?
CockroachDB事務處理系統
CockroachDB的事務是Lock-Free的,不須要加任何讀寫鎖,天然就須要維護數據的多個版本,版本經過timestamp來標識。
ACID中的A和I密切相關,都是經過併發控制協議保證的,下面先說明A是如何保證的,而後說明在併發的狀況下,I是如何保證的。併發控制協議保證了A和I。
一個分佈式事務可能會對多個節點上的數據進行讀寫,如何保證原子性? 你們都知道分佈式事務都是2PC,第一階段作Prepare,把須要的讀的數據讀進來(怎麼保證讀到最新的數據,後面會說,這裏先假設能讀到),計算,最後把計算後的數據寫入各個節點,可是不對外生效,即系統中其餘事務暫且讀不到這個數據。這種已經寫入各個節點,可是沒有生效的數據CockroachDB把它叫作write intent,這種write intent和實際的數據存儲在一塊兒,只是外部讀不到而已。
那麼這個事務的狀態存在哪?事實上,在一個事務開始的時候,會往底層存儲系統中寫入一條記錄,這個記錄叫作Transaction Record,record會記錄事務ID,事務狀態,Pending(正在運行)仍是Committed,仍是Aborted,而write intent裏存在key指向這個Transaction Record。提交事務,只須要把Transaction Record中的事務狀態改爲Committed便可,回滾事務改爲Aborted便可。一旦事務狀態修改爲功,就能夠返回給客戶端,遺留的write intent會異步處理:commit時,將write intent的值覆蓋原始值,刪掉write intent,rollback時直接刪掉write intent便可。
隨後客戶端過來讀的時候,若是碰到了write intent(以前說了,write intent是異步刪除),就會沿着write intent找到Transaction Record,看看事務的狀態,若是狀態是committed,返回write intent中的值,若是Abort就會返回原始的值。若是是Pending,說明這個事務還在正常跑,遇到了寫寫衝突,如何解決寫寫衝突? 這個牽扯到隔離級別和併發控制協議,看下面。
以前提到,數據是多版本的,版本經過timestamp來標識。timestamp是讀寫事務/寫事務在事務開始的時候從本機拿到的wall time(其實是HLC,一種基於物理時鐘的能夠捕獲因果關係的邏輯時鐘),這個timestamp只是這個事務最後commit的候選timestamp而已,不必定是最終的commit的timestamp(根本緣由是機器之間存在時鐘offset,後面會講到),這裏先假定,拿到了一個最終的timestamp。timestamp越大,說明版本越新。這個事務的全部寫入的數據都會打上這個timestamp做爲版本標識。在這樣一個系統中,serializability graph大概是下面的樣子:
上面這個圖是無環的。下面這個圖是有環的:
回到Serializability,爲了實現Serializability,須要保證事務的調度是無環的。CockroachDB經過在timestamp的反方向避免以前提到的三種衝突,從而在圖中就不會有和timestamp走向一致的邊,進而保證無環。最後,CockroachDB的serializability graph長以下樣子:
CockroachDB保證以下約束:
也就是說,只要保證一個事務只與timestamp更小的事務衝突,就能保證無環。
殘酷的是,僅僅保證無環能實現Serializability,同時還須要保持數據庫的一致性,即ACID中的C。考慮以下場景:
T1,T2兩個事務,timestamp(T1) < timestamp(T2),T1更新A,尚未提交,T2讀A。這是一個WR衝突,可是因爲這個衝突是回頭邊,因此是容許的。爲了維護上面提到的RW約束,T2必須讀T1的更新(W的timestamp必須比R大,然而T1比T2小)。然而,T2讀T1對A的更新有什麼問題?
CockroachDB使用一種比較苛刻的調度來處理這種場景:全部的操做只能在已經committed的數據上進行!下面講講CockroachDB的這種苛刻的調度是如何保證的,這裏就須要用到前面原子性的知識。
從上一節以及原子性章節能夠得知,一個事務碰到了一個write intent,那麼說明有可能寫write intent的事務尚未結束(由於write intent是異步清除的),這就說明有可能碰到了uncommitted的數據。這時,當前事務會去檢查write intent所在的事務的狀態,若是已經提交了,將write intent覆蓋舊值而後清除write intent便可。若是已經回滾了,那麼直接清除write intent就行。若是是Pending,正在運行呢?這個時候,就要看事務的優先級了,優先級低的事務須要abort,事務開始時賦予的優先級是random的。CockroachDB會保證被abort的事務在restart以後優先級會提升。
到這裏,CockroachDB如何提供Serializability隔離級別就講完了,注意,這裏的前提是每一個事務都被賦予了一個合適的timestamp,什麼叫作合適的 timestamp? 一個分佈式讀/讀寫事務須要能讀到最新的已經committed的數據。
CockroachDB使用NTP進行時鐘同步,NTP基本能保證機器之間的時鐘offset小於250ms,可是這也不絕對,這受到網絡延時,系統load等因素的影響。從前面能夠看出,CockroachDB的Serializability依賴於集羣內機器之間的時鐘clock在一個範圍ε內。這個範圍能夠配置,默認250ms。任何一個時刻,在一臺機器上拿到wall time爲t,那麼集羣中可能存在的最大wall time是t+ε。
一個事務T開始時,先拿一個本地Wall time(其實是HLC),記做t,根據NTP定義,集羣內機器此刻最大的Wall time爲t+ε,若是事務執行過程當中讀到的數據對象處於[t,t+ε]之間,咱們是不知道這個值究竟是在T開始以後才commit的,仍是T開始以前就commit的。因此T須要restart,從新設置t爲碰到的這個timestamp。
總結
整體來看,CockroachDB的併發控制協議是一個Lock-Free的,不加鎖的,樂觀的協議。對於數據競爭比較強的應用不太適合,須要頻繁的restart事務。而且,NTP這個東西不能老是保證機器之間時鐘偏差在一個範圍內,一旦超過這個範圍,就會違反Serializability。
參考文獻
Serializable, Lockless, Distributed: Isolation in CockroachDB
How CockroachDB Does Distributed, Atomic Transactions
Logical Physical Clocks and Consistent Snapshots in Globally Distributed Databases