本文首發騰雲閣 騰訊雲分佈式高可靠消息隊列CMQ架構算法
在分佈式大行其道的今天,咱們在系統內部、平臺之間普遍運用消息中間件進行數據交換及解耦。CMQ是騰訊雲內部自研基於的高可靠、強一致、可擴展分佈式消息隊列,在騰訊內部包括微信手機QQ業務紅包、騰訊話費充值、廣告訂單等都有普遍使用。目前已上線騰訊雲對外開放,本文對騰訊雲CMQ 核心技術原理進行分享介紹。後端
CMQ消息隊列主要適用於金融、交易、訂單等對可靠性、可用性有較高要求的業務場景。微信
以騰訊充值系統爲例,該充值系統經過CMQ 對交易模塊、發貨部分、結算系統進行異步解耦、削峯填谷,一方面大大下降了模塊間耦合度,另外一方面減輕了大量突發請求對後端系統的衝擊。在月初充值該系統一天通過CMQ轉發的消息超過十億條,每秒峯值超過10w,最高時有數億條消息經過CMQ的堆積能力緩衝了對後端消費模塊的壓力。網絡
架構如圖1:架構
圖1-某充值系統結構併發
圖中騰訊雲消息隊列CMQ總體結構如圖2所示,本文重點介紹後端broker set實現原理。一般狀況下一個set由3個節點組成,經過多副本保證消息的可靠性、多節點提升系統可用性。固然,能夠根據業務的實際需求經過增長set內節點個數來進一步提升可靠性和可用性, 異步
圖2-CMQ總體架構圖分佈式
CMQ set 模塊內部結構如圖3所示。高併發
圖3-brokerset 內部結構圖post
下面分別中數據高可靠、強一致,系統可用性,可擴展、消息全路徑追蹤方面分別介紹。 在可靠性保證方面主要包括如下三方面:生產可靠、存儲(堆積)可靠、消費可靠:
如圖3所示,客戶端生產的消息在set 中超過半數的broker 刷盤成功後會返回確認消息告知生產消息成功。若是在必定時間以內客戶端沒有收到確認信息須要重試來確保消息發送成功。
可靠生產帶來的一個問題就是消息的重複,在網絡異常等狀況下極可能CMQ broker已經存儲消息成功只是確認包在網絡上丟失了,這樣客戶端重試生產後,在broker上存在兩條重複的消息。考慮到消息去重開銷較大,目前消息的冪等性須要業務邏輯來保證。
CMQ SET中一個節點爲leader 其餘節點爲follower,leader 負責全部消息的生產消費。當生產消息到達leader 節點後,經過raft 一致性模塊將請求順序寫raft log 並同步刷盤,同時將構造好的raft log 按順序經過網絡發送到其餘follower節點,follower節點同步刷盤並返回成功。當leader 收到過半數的節點同步成功信息後將此條請求提交到mq 處理狀態機,由mq 狀態機將請求應用到相應queue。大體邏輯圖4所示。
圖4-數據存儲原理示意圖
因而可知,對於返回客戶端成功的消息至少是分別在兩個節點磁盤上存儲成功的,這就將磁盤故障引發的數據丟失大大下降。另外數據在磁盤上存儲時會將檢驗結果一同記下來,消費者在消費數據以前CMQ broker 會進行比較,確保消息是完整有效的。
消費者拉取消息時會指定當前消息的隱藏時間,在隱藏時間內消費者比較顯式的對消息進行確認刪除,若是超過隱藏時間沒有主動刪除,此條消息將從新對外可見,能夠繼續消費。
顯式確認刪除消息是爲了防止消息在投遞、處理過程當中異常而致使的消息丟失。
對於消息的確認信息 CMQ broker的處理邏輯和生產消息過程相似,也是一個寫入的過程,不一樣的是此時寫入的數據的內容是msgid 和消息狀態。
假如一個set中有3個節點(A, B, C),A爲leader,B C 是follower。如上圖所示,對於返回客戶端成功的請求數據在CMQ 中至少在兩個節點上存在,假設爲A B,此時若是leader A故障,B C 兩個follower 會自動選舉出一個新leader,CMQ 使用的raft 算法能夠保證這個leader 必定是擁有最全量log 信息中的一個,在此一定是B。此時B繼續對外服務,B 和A 擁有相同的已經返回確認給用戶的全量數據視圖,數據是強一致的。
對於A 和 B C 所在的網絡發生分區的狀況(如圖5),因爲leader A得不到set 中過半節點的回覆因此不能處理請求,B C在選舉超時後會選舉出一個新的leader ,CMQ的接入層會自動進行切換。Raft 算法保證新leader 一樣具備完成的數據視圖。
如上文所述,master 負責全部消息的生產消費,當master 故障時SET中其餘follower節點會自動選舉出一個新leader,客戶端請求會自動重定向到leader節點,RTO和配置的選舉超時時間有關,目前是在5s左右。大體過程如上圖6所示。
CMQ單個set 在CAP理論中優先保證了CP,當SET中過半數節點都正常工做時,才能進行消息的生產消費。對於SET多個節點同時故障的不可用狀況,CMQ強大的監控調度能力可以快速對queue進行調度遷移恢復服務,將不可用時間降到最低。
上文中SET的概念對用戶來講是透明無感知的,CMQ controller server 根據set的負載狀況實時對queue進行調度搬遷。若是某個queue的請求量超過當前set的服務閾值,controller server 能夠將queue 路由分佈到多個set 上來提升併發量,對於須要海量堆積的服務來講能夠經過路由調度來提高堆積上限,理論上能夠達到無限堆積。
目前CMQ只能保證特定狀況下消息的嚴格有序,例如須要保證單個生產進程、單個消費進程,或者queue的消費窗口設定爲1等條件。
CMQ系統中,一條消息的完整路徑包含生產者、broker、消費者三個角色,每一個角色處理消息的過程當中都會在trace 路徑中增長相關的信息,將這些信息匯聚便可獲取任意一條消息的狀態和當前通過的完整路徑,從而爲生產環境中的問題排查提供強有力的數據支持。大大下降了業務定位問題的難度。
CMQ是基於raft 算法來保證數據高可靠、強一致的分佈式消息隊列,主要服務於訂單、交易類業務場景。消息的冪等性需業務側來保證,在特定狀況下能夠保證消息嚴格有序。
對於更側重高性能、高吞吐量業務需求,騰訊雲由另一個消息引擎來提供服務,在協議上同時兼容kafka,很好的知足了大數據場景,具體原理請留意後續文章介紹。
隨時隨地閱讀雲計算技術乾貨
微博 @騰訊雲
知乎 騰訊雲技術社區
掃碼關注微信公衆號