每一個時代,都不會虧待會學習的人。算法
你們好,我是 yes。數據庫
今天我想和你們一塊兒盤一盤分佈式事務,會介紹常見的分佈式事務實現方案和其優缺點以及適用的場景,並會帶出它們的一些變體實現。markdown
還會捎帶一下分佈式數據庫對 2PC 的改進模型,看看分佈式數據庫是如何作的。網絡
而後再分析一波分佈式事務框架 Seata 的具體實現,看看分佈式事務到底是如何落地的,畢竟協議要落地纔是有用的。架構
首先咱們來提一下事務和分佈式事務是什麼。框架
事務的 ACID 想必你們都熟知,這實際上是嚴格意義上的定義,指的是事務的實現必須具有原子性、一致性、隔離性和持久性。運維
不過嚴格意義上的事務很難達到,像咱們熟知的數據庫就有各類隔離級別,隔離級別越高性能越低,因此每每咱們都會從中找到屬於本身的平衡,不會遵循嚴格意義上的事務。異步
而且在咱們平日的談論中,所謂的事務每每簡單的指代一系列的操做所有執行成功,或者所有失敗,不會出現一些成功一些失敗的情形。分佈式
清晰了平日咱們對事務的定義以後,再來看看什麼是分佈式事務。微服務
因爲互聯網的快速發展,以往的單體架構頂不住這麼多的需求,這麼複雜的業務,這麼大的流量。
單體架構的優點在於前期快速搭建、快速上線,而且方法和模塊之間都是內部調用,沒有網絡的開銷更加的高效。
從某方面來講部署也方便,畢竟就一個包,扔上去。
不過隨着企業的發展,業務的複雜度愈來愈高,內部耦合極其嚴重,致使牽一髮而動全身,開發不易,測試不易。
而且沒法根據熱點服務進行動態的伸縮,好比商品服務訪問量特別大,若是是單體架構的話咱們只能把整個應用複製多份集羣部署,浪費資源。
所以拆分勢在必行,微服務架構就這麼來了。
拆分以後服務之間的邊界就清晰了,每一個服務都能獨立地運行,獨立地部署,因此能以服務級別彈性伸縮了。
服務之間的本地調用變成了遠程調用,鏈路更長了,一次調用的耗時更長了,可是整體的吞吐量更大了。
不過拆分以後還會引入其餘複雜度,好比服務鏈路的監控、總體的監控、容錯措施、彈性伸縮等等運維監控的問題,還有像分佈式事務、分佈式鎖跟業務息息相關的問題等。
每每解決了一個痛點又會引入別的痛點,因此架構的演進都是權衡的結果,就看大家的系統更能忍受哪一種痛點了。
而今天咱們談及的就是分佈式事務這個痛點。
分佈式事務是由多個本地事務組成的,分佈式事務跨越了多設備,之間又經歷的複雜的網絡,可想而知想要實現嚴格的事務道路阻且長。
單機版事務都不會嚴格遵照事務的嚴格實現,更別說分佈式事務了,因此在現實狀況下咱們只能實現殘缺版的事務。
在明確了事務和分佈式事務以後,咱們就先來看看常見的分佈式事務方案:2PC、3PC、TCC、本地消息、事務消息。
2PC,Two-phase commit protocol,即兩階段提交協議。 它引入了一個事務協調者角色,來管理各個參與者(就是各數據庫資源)。
總體分爲兩個階段,分別是準備階段和提交/回滾階段。
咱們先來看看第一個階段,即準備階段。
由事務協調者給每一個參與者發送準備命令,每一個參與者收到命令以後會執行相關事務操做,你能夠認爲除了事務的提交啥都作了。
而後每一個參與者會返回響應告知協調者本身是否準備成功。
協調者收到每一個參與者的響應以後就進入第二階段,根據收集的響應,若是有一個參與者響應準備失敗那麼就向全部參與者發送回滾命令,反之發送提交命令。
這個協議其實很符合正常的思惟,就像咱們大學上課點名的時候,其實老師就是協調者的角色,咱們都是參與者。
老師一個一個的點名,咱們一個一個的喊到,最後老師收到全部同窗的到以後就開始了今天的講課。
而和點名有所不一樣的是,老師發現某幾個學生不在仍是能繼續上課,而咱們的事務可不容許這樣。
事務協調者在第一階段未收到個別參與者的響應,則等待必定時間就會認爲事務失敗,會發送回滾命令,因此在 2PC 中事務協調者有超時機制。
咱們再來分析一下 2PC 的優缺點。
2PC 的優勢是能利用數據庫自身的功能進行本地事務的提交和回滾,也就是說提交和回滾實際操做不須要咱們實現,不侵入業務邏輯由數據庫完成,在以後講解 TCC 以後相信你們對這點會有所體會。
2PC 主要有三大缺點:同步阻塞、單點故障和數據不一致問題。
能夠看到在第一階段執行了準備命令後,咱們每一個本地資源都處於鎖定狀態,由於除了事務的提交以外啥都作了。
因此這時候若是本地的其餘請求要訪問同一個資源,好比要修改商品表 id 等於 100 的那條數據,那麼此時是被阻塞住的,必須等待前面事務的完結,收到提交/回滾命令執行完釋放資源後,這個請求才能得以繼續。
因此假設這個分佈式事務涉及到不少參與者,而後有些參與者處理又特別複雜,特別慢,那麼那些處理快的節點也得等着,因此說效率有點低。
能夠看到這個單點就是協調者,若是協調者掛了整個事務就執行不下去了。
若是協調者在發送準備命令前掛了還行,畢竟每一個資源都還未執行命令,那麼資源是沒被鎖定的。
可怕的是在發送完準備命令以後掛了,這時候每一個本地資源都執行完處於鎖定狀態了,都杵着了,這就很僵硬了,若是是某個熱點資源都阻塞了,這估計就要GG了。
由於協調者和參與者之間的交流是通過網絡的,而網絡有時候就會抽風的或者發生局部網絡異常。
那麼就有可能致使某些參與者沒法收到協調者的請求,而某些收到了。好比是提交請求,而後那些收到命令的參與者就提交事務了,此時就產生了數據不一致的問題。
至此咱們來先小結一些 2PC ,它是一個同步阻塞的強一致性兩階段提交協議,分別是準備階段和提交/回滾階段。
2PC 的優點在於對業務沒有侵入,能夠利用數據庫自身機制來進行事務的提交和回滾。
它的缺點:是一個同步阻塞協議,會致使高延遲和性能的降低,而且存在協調者單點故障問題,極端狀況下會有數據不一致的問題。
固然這只是協議,具體的落地仍是能夠變通了,好比協調者單點問題,我就搞個主歷來實現協調者,對吧。
可能有些人對分佈式數據庫不熟悉,沒有關係,咱們主要學的是思想,看看人家的思路。
我簡單的講下 Percolator 模型,它是基於分佈式存儲系統 BigTable 創建的模型,BigTable 是啥也不清楚的同窗沒有關係影響不大。
仍是拿轉帳的例子來講,我如今有 200 塊錢,你如今有 100 塊錢,爲了突出重點我也不按正常的結構來畫這個表。
而後我要轉 100 塊給你。
此時事務管理器發起了準備請求,而後我帳上的錢就少了,你帳上的錢就多了,並且事務管理器還記錄下此次操做的日誌。
此時的數據仍是私有版本,別的事務是讀不到的,簡單的理解 Lock 上有值就仍是私有的。
能夠看到個人記錄 Lock 標記的是 PK,你的記錄標記的是指向個人記錄指針,這個 PK 是隨機選擇的。
而後事務管理器會向被選擇做爲 PK 的那條記錄發起提交指令。
此時就會把個人記錄的鎖給抹去了,這等於個人記錄再也不是私有版本了,別的事務就都能訪問了。
那你的記錄上還有鎖啊?不用更新嗎?
嘿嘿不須要及時更新,由於訪問你的這條記錄的時候會去根據指針找個人那個記錄,發現記錄已經提交了因此你的記錄就能夠被訪問了。
有人說這效率不就差了,每次都要去找一次,別急。
後臺會有個線程來掃描,而後更新把鎖記錄給去了。
這不就穩了嘛。
首先 Percolator 在提交階段不須要和全部的參與者交互,主須要和一個參與者打交道,因此這個提交是原子的!解決了數據不一致問題。
而後事務管理器會記錄操做日誌,這樣當事務管理器掛了以後選舉的新事務管理器就能夠經過日誌來得知當前的狀況從而繼續工做,解決了單點故障問題。
而且 Percolator 還會有後臺線程,會掃描事務情況,在事務管理器宕機以後會回滾各個參與者上的事務。
能夠看到相對於 2PC 仍是作了不少改進的,也是巧妙的。
其實分佈式數據庫還有別的事務模型,不過我也不太熟悉,就很少嗶嗶了,有興趣的同窗能夠自行了解。
仍是挺能拓寬思想的。
讓咱們再回來 2PC,既然說到 2PC 了那麼也簡單的提一下 XA 規範,XA 規範是基於兩階段提交的,它實現了兩階段提交協議。
在說 XA 規範以前又得先提一下 DTP 模型,即 Distributed Transaction Processing,這模型規範了分佈式事務的模型設計。
而 XA 規範又約束了 DTP 模型中的事務管理器(TM) 和資源管理器(RM)之間的交互,簡單的說就是大家兩之間要按照必定的格式規範來交流!
咱們先來看下 XA 約束下的 DTP 模型。
簡單的說就是 AP 經過 TM 來定義事務操做,TM 和 RM 之間會經過 XA 規範進行通訊,執行兩階段提交,而 AP 的資源是從 RM 拿的。
從模型上看有三個角色,而實際實現能夠由一個角色實現兩個功能,好比 AP 來實現 TM 的功能,TM 不必抽出來單獨部署。
知曉了 DTP 以後,咱們就來看看 XA 在 MySQL 中是如何操做的,不過只有 InnoDB 支持。
簡單的說就是要先定義一個全局惟一的 XID,而後告知每一個事務分支要進行的操做。
能夠看到圖中執行了兩個操做,分別是更名字和插入日誌,等於先註冊下要作的事情,經過 XA START XID 和 XA END XID 來包裹要執行的 SQL。
而後須要發送準備命令,來執行第一階段,也就是除了事務的提交啥都幹了的階段。
而後根據準備的狀況來選擇執行提交事務命令仍是回滾事務命令。
基本上就是這麼個流程,不過 MySQL XA 的性能不高這點是須要注意的。
能夠看到雖然說 2PC 有缺點,可是仍是有基於 2PC 的落地實現的,而 3PC 的引出是爲了解決 2PC 的一些缺點,可是它總體下來開銷更大,也解決不了網絡分區的問題,我也沒有找到 3PC 的落地實現。
不過我仍是稍微提一下,知曉一下就行,純理論。
3PC 的引入是爲了解決 2PC 同步阻塞和減小數據不一致的狀況。
3PC 也就是多了一個階段,一個詢問的階段,分別是準備、預提交和提交這三個階段。
準備階段單純就是協調者去訪問參與者,相似於你還好嗎?能接請求不。
預提交其實就是 2PC 的準備階段,除了事務的提交啥都幹了。
提交階段和 2PC 的提交一致。
3PC 多了一個階段其實就是在執行事務以前來確認參與者是否正常,防止個別參與者不正常的狀況下,其餘參與者都執行了事務,鎖定資源。
出發點是好的,可是絕大部分狀況下確定是正常的,因此每次都多了一個交互階段就很不划算。
而後 3PC 在參與者處也引入了超時機制,這樣在協調者掛了的狀況下,若是已經到了提交階段了,參與者等半天沒收到協調者的狀況的話就會自動提交事務。
不過萬一協調者發的是回滾命令呢?你看這就出錯了,數據不一致了。
還有維基百科上說 2PC 參與者準備階段以後,若是協調者掛了,參與者是沒法得知總體的狀況的,由於大局是協調者掌控的,因此參與者相互之間的情況它們不清楚。
而 3PC 通過了第一階段的確認,即便協調者掛了參與者也知道本身所處預提交階段是由於已經獲得準備階段全部參與者的承認了。
簡單的說就像加了個圍欄,使得各參與者的狀態得以統一。
從上面已經知曉了 2PC 是一個強一致性的同步阻塞協議,性能已是比較差的了。
而 3PC 的出發點是爲了解決 2PC 的缺點,可是多了一個階段就多了一次通信的開銷,並且是絕大部分狀況下無用的通信。
雖然說引入參與者超時來解決協調者掛了的阻塞問題,可是數據仍是會不一致。
能夠看到 3PC 的引入並沒什麼實際突破,並且性能更差了,因此實際只有 2PC 的落地實現。
再提一下,2PC 仍是 3PC 都是協議,能夠認爲是一種指導思想,和真正的落地仍是有差異的。
不知道你們注意到沒,無論是 2PC 仍是 3PC 都是依賴於數據庫的事務提交和回滾。
而有時候一些業務它不只僅涉及到數據庫,多是發送一條短信,也多是上傳一張圖片。
因此說事務的提交和回滾就得提高到業務層面而不是數據庫層面了,而 TCC 就是一種業務層面或者是應用層的兩階段提交。
TCC 分爲指代 Try、Confirm、Cancel ,也就是業務層面須要寫對應的三個方法,主要用於跨數據庫、跨服務的業務操做的數據一致性問題。
TCC 分爲兩個階段,第一階段是資源檢查預留階段即 Try,第二階段是提交或回滾,若是是提交的話就是執行真正的業務操做,若是是回滾則是執行預留資源的取消,恢復初始狀態。
好比有一個扣款服務,我須要寫 Try 方法,用來凍結釦款資金,還須要一個 Confirm 方法來執行真正的扣款,最後還須要提供 Cancel 來進行凍結操做的回滾,對應的一個事務的全部服務都須要提供這三個方法。
能夠看到原本就一個方法,如今須要膨脹成三個方法,因此說 TCC 對業務有很大的侵入,像若是沒有凍結的那個字段,還須要改表結構。
咱們來看下流程。
雖然說對業務有侵入,可是 TCC 沒有資源的阻塞,每個方法都是直接提交事務的,若是出錯是經過業務層面的 Cancel 來進行補償,因此也稱補償性事務方法。
這裏有人說那要是全部人 Try 都成功了,都執行 Comfirm 了,可是個別 Confirm 失敗了怎麼辦?
這時候只能是不停地重試調失敗了的 Confirm 直到成功爲止,若是真的不行只能記錄下來,到時候人工介入了。
這幾個點很關鍵,在實現的時候必定得注意了。
冪等問題,由於網絡調用沒法保證請求必定能到達,因此都會有重調機制,所以對於 Try、Confirm、Cancel 三個方法都須要冪等實現,避免重複執行產生錯誤。
空回滾問題,指的是 Try 方法因爲網絡問題沒收到超時了,此時事務管理器就會發出 Cancel 命令,那麼須要支持 Cancel 在未執行 Try 的狀況下能正常的 Cancel。
懸掛問題,這個問題也是指 Try 方法因爲網絡阻塞超時觸發了事務管理器發出了 Cancel 命令,可是執行了 Cancel 命令以後 Try 請求到了,你說氣不氣。
這都 Cancel 了你來個 Try,對於事務管理器來講這時候事務已是結束了的,這凍結操做就被「懸掛」了,因此空回滾以後還得記錄一下,防止 Try 的再調用。
上面咱們說的是通用型的 TCC,它須要改造之前的實現,可是有一種狀況是沒法改造的,就是你調用的是別的公司的接口。
好比坐飛機須要換乘,換乘的又是不一樣的航空公司,好比從 A 飛到 B,再從 B 飛到 C,只有 A - B 和 B - C 都買到票了纔有意義。
這時候的選擇就沒得 Try 了,直接調用航空公司的買票操做,當兩個航空公司都買成功了那就直接成功了,若是某個公司買失敗了,那就須要調用取消訂票接口。
也就是在第一階段直接就執行完整個業務操做了,因此要重點關注回滾操做,若是回滾失敗得有提醒,要人工介入等。
這其實就是 TCC 的思想。
這 TCC 還能異步?其實也是一種折中,好比某些服務很難改造,而且它又不會影響主業務決策,也就是它不那麼重要,不須要及時的執行。
這時候能夠引入可靠消息服務,經過消息服務來替代個別服務來進行 Try、Confirm、Cancel 。
Try 的時候只是寫入消息,消息還不能被消費,Confirm 就是真正發消息的操做,Cancel 就是取消消息的發送。
這可靠消息服務其實就相似於等下要提到的事務消息,這個方案等於糅合了事務消息和 TCC。
能夠看到 TCC 是經過業務代碼來實現事務的提交和回滾,對業務的侵入較大,它是業務層面的兩階段提交,。
它的性能比 2PC 要高,由於不會有資源的阻塞,而且適用範圍也大於 2PC,在實現上要注意上面提到的幾個注意點。
它是業界比較經常使用的分佈式事務實現方式,並且從變體也能夠得知,仍是得看業務變通的,不是說你要用 TCC 必定就得死板的讓全部的服務都改形成那三個方法。
本地消息就是利用了本地事務,會在數據庫中存放一直本地事務消息表,在進行本地事務操做中加入了本地消息的插入,即將業務的執行和將消息放入消息表中的操做放在同一個事務中提交
這樣本地事務執行成功的話,消息確定也插入成功,而後再調用其餘服務,若是調用成功就修改這條本地消息的狀態。
若是失敗也沒關係,會有一個後臺線程掃描,發現這些狀態的消息,會一直調用相應的服務,通常會設置重試的次數,若是一直不行則特殊記錄,待人工介入處理。
能夠看到仍是很簡單的,也是一種最大努力通知思想。
這個其實我寫過一篇文章,專門講事務消息,從源碼層面剖析了 RocketMQ 、Kafka 的事務消息實現,以及二者之間的區別。
在這裏我再也不詳細闡述,由於以前的文章寫的很詳細了,大概四五千字吧。我就附上連接了:事務消息
首先什麼是 Seata ,摘抄官網的一段話。
Seata 是一款開源的分佈式事務解決方案,致力於提供高性能和簡單易用的分佈式事務服務。Seata 將爲用戶提供了 AT、TCC、SAGA 和 XA 事務模式,爲用戶打造一站式的分佈式解決方案。
能夠看到提供了不少模式,咱們先來看看 AT 模式。
AT 模式就是兩階段提交,前面咱們提到了兩階段提交有同步阻塞的問題,效率過低了,那 Seata 是怎麼解決的呢?
AT 的一階段直接就把事務提交了,直接釋放了本地鎖,這麼草率直接提交的嘛?固然不是,這裏和本地消息表有點相似,就是利用本地事務,執行真正的事務操做中還會插入回滾日誌,而後在一個事務中提交。
這回滾日誌怎麼來的?
經過框架代理 JDBC 的一些類,在執行 SQL 的時候解析 SQL 獲得執行前的數據鏡像,而後執行 SQL ,再獲得執行後的數據鏡像,而後把這些數據組裝成回滾日誌。
再伴隨的這個本地事務的提交把回滾日誌也插入到數據庫的 UNDO_LOG 表中(因此數據庫須要有一張UNDO_LOG 表)。
這波操做下來在一階段就能夠沒有後顧之憂的提交事務了。
而後一階段若是成功,那麼二階段能夠異步的刪除那些回滾日誌,若是一階段失敗那麼能夠經過回滾日誌來反向補償恢復。
這時候有細心的同窗想到了,萬一中間有人改了這條數據怎麼辦?你這鏡像就不對了啊?
因此說還有個全局鎖的概念,在事務提交前須要拿到全局鎖(能夠理解爲對這條數據的鎖),而後才能順利提交本地事務。
若是一直拿不到那就須要回滾本地事務了。
官網的示例很好,我就不本身編了,如下部份內容摘抄自 Seata 官網的示例:
此時有兩個事務,分別是 tx一、和 tx2,分別對 a 表的 m 字段進行更新操做,m 的初始值 1000。
tx1 先開始,開啓本地事務,拿到本地鎖,更新操做 m = 1000 - 100 = 900。本地事務提交前,先拿到該記錄的 全局鎖 ,本地提交釋放本地鎖。
tx2 後開始,開啓本地事務,拿到本地鎖,更新操做 m = 900 - 100 = 800。本地事務提交前,嘗試拿該記錄的 全局鎖 ,tx1 全局提交前,該記錄的全局鎖被 tx1 持有,tx2 須要重試等待全局鎖 。
能夠看到 tx2 的修改被阻塞了,以後重試拿到全局鎖以後就能提交而後釋放本地鎖。
若是 tx1 的二階段全局回滾,則 tx1 須要從新獲取該數據的本地鎖,進行反向補償的更新操做,實現分支的回滾。
此時,若是 tx2 仍在等待該數據的全局鎖,同時持有本地鎖,則 tx1 的分支回滾會失敗。分支的回滾會一直重試,直到 tx2 的全局鎖等鎖超時,放棄全局鎖並回滾本地事務釋放本地鎖,tx1 的分支回滾最終成功。
由於整個過程全局鎖在 tx1 結束前一直是被 tx1 持有的,因此不會發生髒寫的問題。
而後 AT 模式默認全局是讀未提交的隔離級別,若是應用在特定場景下,必須要求全局的讀已提交 ,能夠經過 SELECT FOR UPDATE 語句的代理。
固然前提是你本地事務隔離級別是讀已提交及以上。
能夠看到經過代理來無侵入的獲得數據的先後鏡像,組裝成回滾日誌伴隨本地事務一塊兒提交,解決了兩階段的同步阻塞問題。
而且利用全局鎖來實現寫隔離。
爲了整體性能的考慮,默認是讀未提交隔離級別,只代理了 SELECT FOR UPDATE 來進行讀已提交的隔離。
這其實就是兩階段提交的變體實現。
沒什麼花頭,就是我們上面分析的須要搞三個方法, 而後把自定義的分支事務歸入到全局事務的管理中
我貼一張官網的圖應該挺清晰了。
這個 Saga 是 Seata 提供的長事務解決方案,適用於業務流程多且長的狀況下,這種狀況若是要實現通常的 TCC 啥的可能得嵌套多個事務了。
而且有些系統沒法提供 TCC 這三種接口,好比老項目或者別人公司的,因此就搞了個 Saga 模式,這個 Saga 是在 1987 年 Hector & Kenneth 發表的論⽂中提出的。
那 Saga 如何作呢?來看下這個圖。
假設有 N 個操做,直接從 T1 開始就是直接執行提交事務,而後再執行 T2,能夠看到就是無鎖的直接提交,到 T3 發現執行失敗了,而後就進入 Compenstaing 階段,開始一個一個倒回補償了。
思想就是一開始蒙着頭幹,別慫,出了問題我們再一個一個改回去唄。
能夠看到這種狀況是不保證事務的隔離性的,而且 Saga 也有 TCC 的同樣的注意點,須要空補償,防懸掛和冪等。
並且極端狀況下會由於數據被改變了致使沒法回滾的狀況。好比第一步給我打了 2 萬塊錢,我給取出來花了,這時候你回滾,我帳上餘額已經 0 了,你說怎麼辦嘛?難道給我還搞負的不成?
這種狀況只能在業務流程上入手,我寫代碼其實一直是這樣寫的,就拿買皮膚的場景來講,我都是先扣錢再給皮膚。
假設先給皮膚扣錢失敗了不就白給了嘛?這錢你來補啊?你以爲用戶會來反饋說皮膚給了錢沒扣嘛?
可能有小機靈鬼說我到時候把皮膚給改回去,嘿嘿這種事情確實發生過,嘖嘖,被罵的真慘。
因此正確的流程應該是先扣錢再給皮膚,錢到本身袋裏先,皮膚沒給成功用戶天然而然會找過來,這時候再給他唄,雖然說可能你寫出了個 BUG ,可是還好不是個白給的 BUG。
因此說這點在編碼的時候仍是得注意下的。
能夠看到分佈式事務仍是會有各類問題,通常分佈式事務的實現仍是隻能達到最終一致性。
極端狀況下仍是得人工介入,因此作好日誌記錄很關鍵。
還有編碼的業務流程,要往利於公司的方向寫,就例如先拿到用戶的錢,再給用戶東西這個方向,切記。
在上分佈式事務以前想一想,有沒有必要,能不能改造一下避免分佈式事務?
再極端一點,你的業務有沒有必要上事務?
最後我的能力有限,若有紕漏請趕忙聯繫鞭撻我,若是以爲文章不錯還望點個在看支持一下喲。
分佈式協議與算法實戰,韓健
分佈式數據庫30講,王磊
seata.io
我是 yes,從一點點到億點點,咱們下篇見。