從分佈式一致性談到CAP理論、BASE理論

時間 2019-11-19

原文原文鏈接

分佈式事物html

隨着分佈式計算的發展，事物在分佈式計算領域也獲得了普遍的應用。在單機數據庫中，咱們很容易可以實現一套知足ACID特性的事物處理系統，但在分佈式數據庫中，數據分散在各臺不一樣的機器上，如何對這些數據進行分佈式的事物處理具備很是大的挑戰。數據庫

分佈式事物是指事物的參與者、支持事物的服務器、資源服務器以及事物管理器分別位於分佈式系統的不一樣節點上，一般一個分佈式事物中會涉及對多個數據源或業務系統的操做。服務器

能夠設想一個最典型的分佈式事物場景：一個跨銀行的轉帳操做涉及調用兩個異地的銀行服務，其中一個是本地銀行提供的取款服務，另外一個則是目標銀行提供的存款服務，這兩個服務自己是無狀態而且相互獨立的，共同構成了一個完整的分佈式事物。若是從本地銀行取款成功，可是由於某種緣由存款服務失敗了，那麼就必須回滾到取款以前的狀態，不然用戶可能會發現本身的錢不知去向了。網絡

從這個例子能夠看到，一個分佈式事務能夠看作是多個分佈式的操做序列組成的，例如上面例子的取款服務和存款服務，一般能夠把這一系列分佈式的操做序列稱爲子事物。所以，分佈式事務也能夠被定義爲一種嵌套型的事物，同時也就具備了 ACID事物特性。但因爲在分佈式事務中，各個子事物的執行是分佈式的，所以要實現一種可以保證ACID特性的分佈式事物處理系統就顯得格外複雜。架構

CAP理論併發

一個經典的分佈式系統理論。CAP理論告訴咱們：一個分佈式系統不可能同時知足一致性（C：Consistency）、可用性（A：Availability）和分區容錯性（P：Partition tolerance）這三個基本需求，最多隻能同時知足其中兩項。分佈式

一、一致性高併發

在分佈式環境下，一致性是指數據在多個副本之間可否保持一致的特性。在一致性的需求下，當一個系統在數據一致的狀態下執行更新操做後，應該保證系統的數據仍然處於一直的狀態。網站

對於一個將數據副本分佈在不一樣分佈式節點上的系統來講，若是對第一個節點的數據進行了更新操做而且更新成功後，卻沒有使得第二個節點上的數據獲得相應的更新，因而在對第二個節點的數據進行讀取操做時，獲取的依然是老數據（或稱爲髒數據），這就是典型的分佈式數據不一致的狀況。在分佈式系統中，若是可以作到針對一個數據項的更新操做執行成功後，全部的用戶均可以讀取到其最新的值，那麼這樣的系統就被認爲具備強一致性搜索引擎

二、可用性

可用性是指系統提供的服務必須一直處於可用的狀態，對於用戶的每個操做請求老是可以在有限的時間內返回結果。這裏的重點是"有限時間內"和"返回結果"。

"有限時間內"是指，對於用戶的一個操做請求，系統必須可以在指定的時間內返回對應的處理結果，若是超過了這個時間範圍，那麼系統就被認爲是不可用的。另外，"有限的時間內"是指系統設計之初就設計好的運行指標，一般不一樣系統之間有很大的不一樣，不管如何，對於用戶請求，系統必須存在一個合理的響應時間，不然用戶便會對系統感到失望。

"返回結果"是可用性的另外一個很是重要的指標，它要求系統在完成對用戶請求的處理後，返回一個正常的響應結果。正常的響應結果一般可以明確地反映出隊請求的處理結果，即成功或失敗，而不是一個讓用戶感到困惑的返回結果。

三、分區容錯性

分區容錯性約束了一個分佈式系統具備以下特性：分佈式系統在遇到任何網絡分區故障的時候，仍然須要可以保證對外提供知足一致性和可用性的服務，除非是整個網絡環境都發生了故障。

網絡分區是指在分佈式系統中，不一樣的節點分佈在不一樣的子網絡（機房或異地網絡）中，因爲一些特殊的緣由致使這些子網絡出現網絡不連通的情況，但各個子網絡的內部網絡是正常的，從而致使整個系統的網絡環境被切分紅了若干個孤立的區域。須要注意的是，組成一個分佈式系統的每一個節點的加入與退出均可以看做是一個特殊的網絡分區。

既然一個分佈式系統沒法同時知足一致性、可用性、分區容錯性三個特色，因此咱們就須要拋棄同樣：

用一張表格說明一下：

選擇	說明
CA	放棄分區容錯性，增強一致性和可用性，其實就是傳統的單機數據庫的選擇
AP	放棄一致性（這裏說的一致性是強一致性），追求分區容錯性和可用性，這是不少分佈式系統設計時的選擇，例如不少NoSQL系統就是如此
CP	放棄可用性，追求一致性和分區容錯性，基本不會選擇，網絡問題會直接讓整個系統不可用

須要明確的一點是，對於一個分佈式系統而言，分區容錯性是一個最基本的要求。由於既然是一個分佈式系統，那麼分佈式系統中的組件必然須要被部署到不一樣的節點，不然也就無所謂分佈式系統了，所以必然出現子網絡。而對於分佈式系統而言，網絡問題又是一個一定會出現的異常狀況，所以分區容錯性也就成爲了一個分佈式系統必然須要面對和解決的問題。所以系統架構師每每須要把精力花在如何根據業務特色在C（一致性）和A（可用性）之間尋求平衡。

BASE理論

BASE是Basically Available（基本可用）、Soft state（軟狀態）和Eventually consistent（最終一致性）三個短語的縮寫。BASE理論是對CAP中一致性和可用性權衡的結果，其來源於對大規模互聯網系統分佈式實踐的總結，是基於CAP定理逐步演化而來的。BASE理論的核心思想是：即便沒法作到強一致性，但每一個應用均可以根據自身業務特色，採用適當的方式來使系統達到最終一致性。接下來看一下BASE中的三要素：

一、基本可用

基本可用是指分佈式系統在出現不可預知故障的時候，容許損失部分可用性----注意，這毫不等價於系統不可用。好比：

（1）響應時間上的損失。正常狀況下，一個在線搜索引擎須要在0.5秒以內返回給用戶相應的查詢結果，但因爲出現故障，查詢結果的響應時間增長了1~2秒

（2）系統功能上的損失：正常狀況下，在一個電子商務網站上進行購物的時候，消費者幾乎可以順利完成每一筆訂單，可是在一些節日大促購物高峯的時候，因爲消費者的購物行爲激增，爲了保護購物系統的穩定性，部分消費者可能會被引導到一個降級頁面

二、軟狀態

軟狀態指容許系統中的數據存在中間狀態，並認爲該中間狀態的存在不會影響系統的總體可用性，即容許系統在不一樣節點的數據副本之間進行數據同步的過程存在延時

三、最終一致性

最終一致性強調的是全部的數據副本，在通過一段時間的同步以後，最終都可以達到一個一致的狀態。所以，最終一致性的本質是須要系統保證最終數據可以達到一致，而不須要實時保證系統數據的強一致性。

總的來講，BASE理論面向的是大型高可用可擴展的分佈式系統，和傳統的事物ACID特性是相反的，它徹底不一樣於ACID的強一致性模型，而是經過犧牲強一致性來得到可用性，並容許數據在一段時間內是不一致的，但最終達到一致狀態。但同時，在實際的分佈式場景中，不一樣業務單元和組件對數據一致性的要求是不一樣的，所以在具體的分佈式系統架構設計過程當中，ACID特性和BASE理論每每又會結合在一塊兒。

基於消息中間件的分佈式事務

一、A系統向消息中間件發送一條預備消息
二、消息中間件保存預備消息並返回成功
三、A執行本地事務
四、A發送提交消息給消息中間件

經過以上4步完成了一個消息事務。對於以上的4個步驟，每一個步驟均可能產生錯誤，下面一一分析：

步驟一出錯，則整個事務失敗，不會執行A的本地操做
步驟二出錯，則整個事務失敗，不會執行A的本地操做
步驟三出錯，這時候須要回滾預備消息，怎麼回滾？答案是A系統實現一個消息中間件的回調接口，消息中間件會去不斷執行回調接口，檢查A事務執行是否執行成功，若是失敗則回滾預備消息
步驟四出錯，這時候A的本地事務是成功的，那麼消息中間件要回滾A嗎？答案是不須要，其實經過回調接口，消息中間件可以檢查到A執行成功了，這時候其實不須要A發提交消息了，消息中間件能夠本身對消息進行提交，從而完成整個消息事務

基於消息中間件的兩階段提交每每用在高併發場景下，將一個分佈式事務拆成一個消息事務（A系統的本地操做+發消息）+B系統的本地操做，其中B系統的操做由消息驅動，只要消息事務成功，那麼A操做必定成功，消息也必定發出來了，這時候B會收到消息去執行本地操做，若是本地操做失敗，消息會重投，直到B操做成功，這樣就變相地實現了A與B的分佈式事務。

參考：http://www.javashuo.com/article/p-aoyhfmhn-dh.html

　　　 http://www.javashuo.com/article/p-oiyjlbbi-ds.html