強一致性:這種一致性級別是最符合用戶直覺的,它要求系統寫入什麼,讀出來的也會是什麼,用戶體驗好,但實現起來每每對系統的性能影響大react
弱一致性:這種一致性級別約束了系統在寫入成功後,不承諾當即能夠讀到寫入的值,也不久承諾多久以後數據可以達到一致,但會盡量地保證到某個時間級別(好比秒級別)後,數據可以達到一致狀態算法
最終一致性:最終一致性是弱一致性的一個特例,系統會保證在必定時間內,可以達到一個數據一致的狀態。這裏之因此將最終一致性單獨提出來,是由於它是弱一致性中很是推崇的一種一致性模型,也是業界在大型分佈式系統的數據一致性上比較推崇的模型數據庫
最終一致性在弱一致性的基礎上加上了時間規定,也就是說在某個時間點之後會實現數據的最終一致性。網絡
根據CAP理論,一個系統只能知足其中兩個。而分佈式爲了高可用,和分區容災(高可擴),捨棄了一致性。數據結構
分佈式系統中:併發
一致性:主要是指數據在多個副本之間可否保持一致的特性。在一致性的需求下,當一個系統在數據一致的狀態下執行更新操做後,應該保證系統的數據仍然處於一直的狀態。分佈式
可用性:指系統提供的服務必須一直處於可用的狀態,對於用戶的每個操做請求老是可以在有限的時間內返回結果。這裏的重點是"有限時間內"和"返回結果"。性能
分區容錯性:分佈式系統在遇到任何網絡分區故障的時候,仍然須要可以保證對外提供知足一致性和可用性的服務,除非是整個網絡環境都發生了故障。動畫
BASE是Basically Available(基本可用)、Soft state(軟狀態)和Eventually consistent(最終一致性)三個短語的縮寫。日誌
BASE理論是對CAP中一致性和可用性權衡的結果,其來源於對大規模互聯網系統分佈式實踐的總結, 是基於CAP定理逐步演化而來的。BASE理論的核心思想是:即便沒法作到強一致性,但每一個應用均可以根據自身業務特色,採用適當的方式來使系統達到最終一致性。
BASE中的三要素:
基本可用:指分佈式系統在出現不可預知故障的時候,容許損失部分可用性。系統此時仍然可用,只是服務可能被延遲。
軟狀態:指容許系統中的數據存在中間狀態,並認爲該中間狀態的存在不會影響系統的總體可用性,即容許系統在不一樣節點的數據副本之間進行數據同步的過程存在延時
最終一致性:強調的是全部的數據副本,在通過一段時間的同步以後,最終都可以達到一個一致的狀態。所以,最終一致性的本質是須要系統保證最終數據可以達到一致,而不須要實時保證系統數據的強一致性。
BASE理論面向的是大型高可用可擴展的分佈式系統,和傳統的事物ACID特性是相反的
流程是這樣的:
每臺主機都是提議者也是接受者,(不然若是全部的主機都要修改,那麼將會沒有接受者)
預提案階段:
批准階段:
當一個提案者收到了一半以上的批准之後,造成一個多數派,向外廣播表示某個值已經被肯定。
情形:
批准階段,若是沒有接收到足夠支持,那麼退出本輪。不在參與。批准階段,在提交正式提案的時候,若是已經有接受者接受了別的值,那麼提交者中斷本次提案,同時向已經批准了本身的提案的接受者,表示個人提案已經終止了,請放棄批准。而後從新生成一個提案ID從新選舉。
Multi Paxos先運行一次完整的paxos算法選舉出leader,惟一的leader,在leader有效期內全部的議案都只能由leader發起。
Multi-Paxos協議並不假設全局必須只能有惟一的leader來生成日誌,它容許有多個「自認爲是leader的server」來併發生成日誌,這樣的場景即退化爲Basic-Paxos。經過lease機制,保持這個leader的身份,使得其餘proposer再也不發起提案,這樣就進入了一個leader任期。在leader任期中,因爲沒有了併發衝突,這個leader在對後續的日誌進行投票時,沒必要每次都向多數派詢問logID,也沒必要執行prepare階段,直接執行accept階段便可。
fast paxos 則直接假設本身就是一個leader,他的提案id=0,若是批准的大於一半以上,則向外廣播肯定了某個值,若是小於一半以上,表示發生衝突,回退到base paxos
全部主機存在三種狀態,leader,follow,和candidate.
follow 徹底被動的接受leader的消息,當超時一段時間沒接受到消息就認爲leader沒了,那麼本身會成爲candidate,準備本身競選leader
剛開機是全部的主機都是leader,隨着時間推移,沒有接到leader的消息,部分主機開始退化爲leader,而後向其餘的全部節點開始拉票,當超過一半的節點贊成之後,那麼稱爲leader。贊成的節點稱爲該節點的follow。進行心跳檢測。
當須要同步日誌的時候,leader向全部的follow廣播,當收到一半以上的節點確認該條日誌的時候,leader在發送一條commit消息,表示該條日誌複製成功。
當網絡故障,分割了主機的時候,仍然須要一半以上的主機確認才能寫入日誌。
能夠設置不一樣節點的超時時間不一樣,能夠避免同一時間多個節點同時競爭leader。可是並不能徹底的避免,所以每臺機器,在收到不超過通常贊成之後,會延時一段時間進行選舉,這個延時時間各個機器再次不一樣。
分佈式事務是指會涉及到操做多個數據庫的事務。其實就是將對同一庫事務的概念擴大到了對多個庫的事務。目的是爲了保證分佈式系統中的數據一致性。分佈式事務處理的關鍵是必須有一種方法能夠知道事務在任何地方所作的全部動做,提交或回滾事務的決定必須產生統一的結果(所有提交或所有回滾).
因爲存在事務機制,能夠保證每一個獨立節點上的數據操做能夠知足ACID。可是,相互獨立的節點之間沒法準確的知道其餘節點中的事務執行狀況.
讓分佈式部署的多臺機器中的數據保持一致性,那麼就要保證在全部節點的數據寫操做,要不所有都執行,要麼所有的都不執行。可是,一臺機器在執行本地事務的時候沒法知道其餘機器中的本地事務的執行結果。因此他也就不知道本次事務到底應該commit仍是 roolback。因此,常規的解決辦法就是引入一個「協調者」的組件來統一調度全部分佈式節點的執行。
XA規範
X/Open DTP 模型( 1994 )包括:應用程序( AP )、事務管理器( TM )、資源管理器( RM )、通訊資源管理器( CRM )四部分.。
通常,常見的事務管理器( TM )是交易中間件,常見的資源管理器( RM )是數據庫,常見的通訊資源管理器( CRM )是消息中間件。
一般把一個數據庫內部的事務處理,如對多個表的操做,做爲本地事務看待。數據庫的事務處理對象是本地事務,而分佈式事務處理的對象是全局事務。 所謂全局事務,是指分佈式事務處理環境中,多個數據庫可能須要共同完成一個工做,這個工做便是一個全局事務
例如,一個事務中可能更新幾個不一樣的數據庫。對數據庫的操做發生在系統的各處但必須所有被提交或回滾。此時一個數據庫對本身內部所作操做的提交不只依賴自己操做是否成功,還要依賴與全局事務相關的其它數據庫的操做是否成功,若是任一數據庫的任一操做失敗,則參與此事務的全部數據庫所作的全部操做都必須回滾。 通常狀況下,某一數據庫沒法知道其它數據庫在作什麼,所以,在一個 DTP 環境中,交易中間件是必需的,由它通知和協調相關數據庫的提交或回滾。而一個數據庫只將其本身所作的操做(可恢復)影射到全局事務中。
二階提交協議和三階提交協議就是根據這一思想衍生出來的。能夠說二階段提交其實就是實現XA分佈式事務的關鍵(確切地說:兩階段提交主要保證了分佈式事務的原子性:即全部結點要麼全作要麼全不作)。
兩個階段是指:第一階段:準備階段(投票階段)和第二階段:提交階段(執行階段)
準備階段
事務協調者(事務管理器)給每一個參與者(資源管理器)發送Prepare消息,每一個參與者要麼直接返回失敗(如權限驗證失敗),要麼在本地執行事務,寫本地的redo和undo日誌,但不提交。
提交階段
若是協調者收到了參與者的失敗消息或者超時,直接給每一個參與者發送回滾(Rollback)消息;不然,發送提交(Commit)消息;參與者根據協調者的指令執行提交或者回滾操做,釋放全部事務處理過程當中使用的鎖資源。當協調者節點從全部參與者節點得到的相應消息都爲」贊成」時:
當收到參與節點的終止消息的時候,步驟與上面的相似。
二階段提交的問題
三階段提交有兩個改動點:
CanCommit階段
3PC的CanCommit階段其實和2PC的準備階段很像。協調者向參與者發送commit請求,參與者若是能夠提交就返回Yes響應,不然返回No響應。
PreCommit階段
協調者根據參與者的反應狀況來決定是否能夠記性事務的PreCommit操做。根據響應狀況,有如下兩種可能。
假如協調者從全部的參與者得到的反饋都是Yes響應,那麼就會執行事務的預執行。
假若有任何一個參與者向協調者發送了No響應,或者等待超時以後,協調者都沒有接到參與者的響應,那麼就執行事務的中斷。
doCommit階段
該階段進行真正的事務提交,也能夠分爲如下兩種狀況。
執行提交:
中斷事務 協調者沒有接收到參與者發送的ACK響應(多是接受者發送的不是ACK響應,也可能響應超時),那麼就會執行中斷事務。
在doCommit階段,若是參與者沒法及時接收到來自協調者的doCommit或者rebort請求時,會在等待超時以後,會繼續進行事務的提交。(其實這個應該是基於機率來決定的,當進入第三階段時,說明參與者在第二階段已經收到了PreCommit請求,那麼協調者產生PreCommit請求的前提條件是他在第二階段開始以前,收到全部參與者的CanCommit響應都是Yes。(一旦參與者收到了PreCommit,意味他知道你們其實都贊成修改了)因此,一句話歸納就是,當進入第三階段時,因爲網絡超時等緣由,雖然參與者沒有收到commit或者abort響應,可是他有理由相信:成功提交的概率很大。 )
也就是說即便第三階段超時,可是因爲第二階段的存在,所以有理由認爲,各個參與者是能夠提交成功的。
相對於2PC,3PC主要解決的單點故障問題,並減小阻塞,由於一旦參與者沒法及時收到來自協調者的信息以後,他會默認執行commit。而不會一直持有事務資源並處於阻塞狀態。可是這種機制也會致使數據一致性問題,由於,因爲網絡緣由,協調者發送的abort響應沒有及時被參與者接收到,那麼參與者在等待超時以後執行了commit操做。這樣就和其餘接到abort命令並執行回滾的參與者之間存在數據不一致的狀況。不管是二階段提交仍是三階段提交都沒法完全解決分佈式的一致性問題。世上只有一種一致性算法,那就是Paxos,全部其餘一致性算法都是Paxos算法的不完整版。