關於Redis RedLock算法的爭論

時間 2020-07-19

原文原文鏈接

內容簡介：Martin上來就問，咱們要鎖來幹啥呢？2個緣由：對於第1種緣由，咱們對鎖是有必定寬容度的，就算髮生了兩個節點同時工做，對系統的影響也僅僅是多付出了一些計算的成本，沒什麼額外的影響。這個時候使用對於第2種緣由，對正確性嚴格要求的場景（好比訂單，或者消費），就算使用了 RedLock 算法仍然html

Martin上來就問，咱們要鎖來幹啥呢？2個緣由：redis

提高效率，用鎖來保證一個任務沒有必要被執行兩次。好比（很昂貴的計算）
保證正確，使用鎖來保證任務按照正常的步驟執行，防止兩個節點同時操做一份數據，形成文件衝突，數據丟失。

對於第1種緣由，咱們對鎖是有必定寬容度的，就算髮生了兩個節點同時工做，對系統的影響也僅僅是多付出了一些計算的成本，沒什麼額外的影響。這個時候使用 單點的 Redis 就能很好的解決問題，沒有必要使用RedLock，維護那麼多的 Redis 實例，提高系統的維護成本。算法

對於第2種緣由，對正確性嚴格要求的場景（好比訂單，或者消費），就算使用了 RedLock 算法仍然 不能保證鎖的正確性 。編程

咱們分析一下 RedLock 的有啥缺陷吧：安全

做者 Martin 給出這張圖，首先咱們上一講說過，RedLock中，爲了防止死鎖，鎖是具備過時時間的。這個過時時間被 Martin 抓住了小辮子。服務器

若是 Client 1 在持有鎖的時候，發生了一次很長時間的 FGC 超過了鎖的過時時間。鎖就被釋放了。
這個時候 Client 2 又得到了一把鎖，提交數據。
這個時候 Client 1 從 FGC 中甦醒過來了，又一次提交數據。

這還了得，數據就發生了錯誤。RedLock 只是保證了鎖的高可用性，並無保證鎖的正確性。網絡

這個時候也許你會說，若是 Client 1 在提交任務以前去查詢一下鎖的持有者是不本身就能解決這個問題？架構

答案是否認的，FGC 會發生在任什麼時候候，若是 FGC 發生在查詢以後，同樣會有如上討論的問題。運維

那換一個沒有 GC 的編程語言？異步

答案仍是否認的， FGC 只是形成系統停頓的緣由之一，IO或者網絡的堵塞或波動均可能形成系統停頓。

Martin給出了一個解決的方案：

爲鎖增長一個 token-fencing。

獲取鎖的時候，還須要獲取一個遞增的token，在上圖中 Client 1 還得到了一個 token=33的 fencing。
發生了上文的 FGC 問題後，Client 獲取了 token=34 的鎖。
在提交數據的時候，須要判斷token的大小，若是token 小於上一次提交的 token 數據就會被拒絕。

咱們其實能夠理解這個 token-fencing 就是一個樂觀鎖，或者一個 CAS。

Martin 還指出了，RedLock 是一個 嚴重依賴系統時鐘 的分佈式系統。

仍是這個過時時間的小辮子。若是某個 Redis Master的系統時間發生了錯誤，形成了它持有的鎖提早過時被釋放。

Client 1 從 A、B、D、E五個節點中，獲取了 A、B、C三個節點獲取到鎖，咱們認爲他持有了鎖
這個時候，因爲 B 的系統時間比別的系統走得快，B就會先於其餘兩個節點優先釋放鎖。
Clinet 2 能夠從 B、D、E三個節點獲取到鎖。在整個分佈式系統就形成兩個 Client 同時持有鎖了。

這個時候 Martin 又提出了一個至關重要的關於分佈式系統的設計要點：

好的分佈式系統應當是異步的，且不能時間做爲安全保障的。由於在分佈式系統中有會程序暫停，網絡延遲，系統時間錯誤，這些因數都不能影響分佈式系統的安全性，只能影響系統的活性（liveness property）。換句話說，就是在極端狀況下，分佈式系統頂多在有限的時間內不能給出結果，可是不能給出錯誤的結果。

因此總結一下 Martin 對 RedLock 的批評：