淘寶內部的交易系統使用了淘寶自主研發的Notify消息中間件,使用Mysql做爲消息存儲媒介,可徹底水平擴容,爲了進一步下降成本,咱們認爲存儲部分能夠進一步優化,2011年初,Linkin開源了Kafka這個優秀的消息中間件,淘寶中間件團隊在對Kafka作過充分Review以後,Kafka無限消息堆積,高效的持久化速度吸引了咱們,可是同時發現這個消息系統主要定位於日誌傳輸,對於使用在淘寶交易、訂單、充值等場景下還有諸多特性不知足,爲此咱們從新用Java語言編寫了RocketMQ,定位於非日誌的可靠消息傳輸(日誌場景也OK),目前RocketMQ在阿里集團被普遍應用在訂單,交易,充值,流計算,消息推送,日誌流式處理,binglog分發等場景。git
爲了方便你們選型,整理一份RocketMQ與Kafka的對比文檔,文中若有錯誤之處,歡迎來函指正。vintage.wang@gmail.comgithub
總結:RocketMQ的同步刷盤在單機可靠性上比Kafka更高,不會由於操做系統Crash,致使數據丟失。 同時同步Replication也比Kafka異步Replication更可靠,數據徹底無單點。另外Kafka的Replication以topic爲單位,支持主機宕機,備機自動切換,可是這裏有個問題,因爲是異步Replication,那麼切換後會有數據丟失,同時Leader若是重啓後,會與已經存在的Leader產生數據衝突。開源版本的RocketMQ不支持Master宕機,Slave自動切換爲Master,阿里雲版本的RocketMQ支持自動切換特性。sql
總結:Kafka的TPS跑到單機百萬,主要是因爲Producer端將多個小消息合併,批量發向Broker。apache
RocketMQ爲何沒有這麼作?緩存
隊列多有什麼好處?服務器
總結:例如充值類應用,當前時刻調用運營商網關,充值失敗,多是對方壓力過多,稍後在調用就會成功,如支付寶到銀行扣款也是相似需求。多線程
這裏的重試須要可靠的重試,即失敗重試的消息不由於Consumer宕機致使丟失。運維
Mysql Binlog分發須要嚴格的消息順序異步
總結:消息查詢對於定位消息丟失問題很是有幫助,例如某個訂單處理失敗,是消息沒收到仍是收處處理出錯了。分佈式
總結:典型業務場景如consumer作訂單分析,可是因爲程序邏輯或者依賴的系統發生故障等緣由,致使今天消費的消息所有無效,須要從新從昨天零點開始消費,那麼以時間爲起點的消息重放功能對於業務很是有幫助。
Kafka的消費並行度依賴Topic配置的分區數,如分區數爲10,那麼最多10臺機器來並行消費(每臺機器只能開啓一個線程),或者一臺機器消費(10個線程並行消費)。即消費並行度和分區數一致。
RocketMQ消費並行度分兩種狀況
理論上Kafka要比RocketMQ的堆積能力更強,不過RocketMQ單機也能夠支持億級的消息堆積能力,咱們認爲這個堆積能力已經徹底能夠知足業務需求。