轉自ios
http://cmsblogs.com/?p=3846git
在IM這種講究高併發、高消息吞吐的互聯網場景下,MQ消息中間件是個很重要的基礎設施,它在IM系統的服務端架構中擔當消息中轉、消息削峯、消息交換異步化等角色。程序員
固然,MQ消息中間件的做用遠不止於此,它的價值不只僅存在於技術上,更重要的是改變了以往同步處理消息的思路(好比進行IM消息歷史存儲時,傳統的信息系統做法多是收到一條消息就立刻同步存入數據庫,這種做法在小併發量的狀況下能夠很好的工做,但互聯網大併發環境下就是災難)。數據庫
MQ消息中間件能夠理解爲一個水池,水池的這頭是消息生產者,水池的那頭是消息消費者,生產者和消息者無需直接對接,這將帶來不少好處:業務解耦、架構分佈式化等,生產者和消費者互相徹底透明。編程
但市面上的MQ消息中間件產品不少,做爲IM系統中必不可少的一環,咱們該如何選型?緩存
消息隊列中間件(簡稱消息中間件)是指利用高效可靠的消息傳遞機制進行與平臺無關的數據交流,並基於數據通訊來進行分佈式系統的集成。安全
經過提供消息傳遞和消息排隊模型,它能夠在分佈式環境下提供應用解耦、彈性伸縮、冗餘存儲、流量削峯、異步通訊、數據同步等等功能,其做爲分佈式系統架構中的一個重要組件,有着舉足輕重的地位。性能優化
目前開源的消息中間件可謂是琳琅滿目,能讓你們耳熟能詳的就有不少,好比ActiveMQ、RabbitMQ、Kafka、RocketMQ、ZeroMQ等,無論選擇其中的哪一款,都會有用的不趁手的地方,畢竟不是爲你量身定製的。服務器
可能有些大廠在長期的使用過程當中積累了必定的經驗,加上其消息隊列的使用場景也相對穩定固化,或者目前市面上的消息中間件沒法知足自身需求,同時它也具有足夠的精力和人力而選擇自研來爲本身量身打造一款消息中間件。網絡
可是絕大多數公司仍是不會選擇重複造輪子,那麼選擇一款合適本身的消息中間件顯得尤其重要。就算是前者,那麼在自研出穩定且可靠的相關產品以前也會經歷這樣一個選型過程。
在總體架構中引入消息中間件,勢必要考慮不少因素,好比成本及收益問題,怎麼樣才能達到最優的性價比?
雖然消息中間件種類繁多,可是各自都有各自的側重點,選擇合適本身、揚長避短無疑是最好的方式。若是你對此感到無所適從,本文或許能夠參考一二。
ActiveMQ
Apache出品的、採用Java語言編寫的徹底基於JMS1.1規範的面向消息的中間件,爲應用程序提供高效的、可擴展的、穩定的和安全的企業級消息通訊。
不過因爲歷史緣由包袱過重,目前市場份額沒有後面三種消息中間件多,其最新架構被命名爲Apollo,號稱下一代ActiveMQ,有興趣的同窗可自行了解。
RabbitMQ
採用Erlang語言實現的AMQP協議的消息中間件,最初起源於金融系統,用於在分佈式系統中存儲轉發消息。RabbitMQ發展到今天,被愈來愈多的人承認,這和它在可靠性、可用性、擴展性、功能豐富等方面的卓越表現是分不開的。
Kafka
起初是由LinkedIn公司採用Scala語言開發的一個分佈式、多分區、多副本且基於ZooKeeper協調的分佈式消息系統,現已捐獻給Apache基金會。
它是一種高吞吐量的分佈式發佈訂閱消息系統,以可水平擴展和高吞吐率而被普遍使用。目前愈來愈多的開源分佈式處理系統如Cloudera、Apache Storm、Spark、Flink等都支持與Kafka集成。
RocketMQ
是阿里開源的消息中間件,目前已經捐獻給Apache基金會,它是由Java語言開發的,具有高吞吐量、高可用性、適合大規模分佈式系統應用等特色,經歷過雙11的洗禮,實力不容小覷。
ZeroMQ
號稱史上最快的消息隊列,基於C語言開發。ZeroMQ是一個消息處理隊列庫,可在多線程、多內核和主機之間彈性伸縮,雖然大多數時候咱們習慣將其納入消息隊列家族之中,可是其和前面的幾款有着本質的區別,ZeroMQ自己就不是一個消息隊列服務器,更像是一組底層網絡通信庫,對原有的Socket API上加上一層封裝而已。
目前市面上的消息中間件還有不少,好比騰訊系的PhxQueue、CMQ、CKafka,又好比基於Go語言的NSQ,有時人們也把相似Redis的產品也看作消息中間件的一種。
固然,它們都很優秀,可是本文篇幅限制沒法窮其全部,下面會針對性地挑選RabbitMQ和Kafka兩款典型的消息中間件來作分析,力求站在一個公平公正的立場來闡述消息中間件選型中的各個要點。
衡量一款消息中間件是否符合需求,須要從多個維度進行考察。
首要的就是功能維度,這個直接決定了你可否最大程度上地實現開箱即用,進而縮短項目週期、下降成本等。
若是一款消息中間件的功能達不到想要的功能,那麼就須要進行二次開發,這樣會增長項目的技術難度、複雜度以及增大項目週期等。
一、功能維度
功能維度又能夠劃分個多個子維度,大體能夠分爲如下這些。
優先級隊列:
優先級隊列不一樣於先進先出隊列,優先級高的消息具有優先被消費的特權,這樣能夠爲下游提供不一樣消息級別的保證。
不過這個優先級也是須要有一個前提的:若是消費者的消費速度大於生產者的速度,而且消息中間件服務器(通常簡單的稱之爲Broker)中沒有消息堆積,那麼對於發送的消息設置優先級也就沒有什麼實質性的意義了,由於生產者剛發送完一條消息就被消費者消費了,那麼就至關於Broker中至多隻有一條消息,對於單條消息來講優先級是沒有什麼意義的。
延遲隊列:
當你在網上購物的時候是否會遇到這樣的提示:「三十分鐘以內未付款,訂單自動取消」,這個是延遲隊列的一種典型應用場景。
延遲隊列存儲的是對應的延遲消息,所謂「延遲消息」是指當消息被髮送之後,並不想讓消費者馬上拿到消息,而是等待特定時間後,消費者才能拿到這個消息進行消費。
延遲隊列通常分爲兩種:基於消息的延遲和基於隊列的延遲。
死信隊列:
因爲某些緣由消息沒法被正確投遞,爲了確保消息不會被無端丟棄,通常將其置於一個特殊角色的隊列,這個隊列稱爲死信隊列。
與此對應的還有一個「回退隊列」的概念,試想若是消費者在消費時發生了異常,那麼就不會對這一次消費進行確認(Ack), 進而發生回滾消息的操做以後消息始終會放在隊列的頂部,而後不斷被處理和回滾,致使隊列陷入死循環。
爲了解決這個問題,能夠爲每一個隊列設置一個回退隊列,它和死信隊列都是爲異常的處理提供的一種機制保障。實際狀況下,回退隊列的角色能夠由死信隊列和重試隊列來扮演。
重試隊列:
其實能夠當作是一種回退隊列,具體指消費端消費消息失敗時,爲防止消息無端丟失而從新將消息回滾到Broker中。
與回退隊列不一樣的是重試隊列通常分紅多個重試等級,每一個重試等級通常也會設置從新投遞延時,重試次數越多投遞延時就越大。
舉個例子:消息第一次消費失敗入重試隊列Q1,Q1的從新投遞延遲爲5s,在5s事後從新投遞該消息;若是消息再次消費失敗則入重試隊列Q2,Q2的從新投遞延遲爲10s,在10s事後再次投遞該消息。以此類推,重試越屢次從新投遞的時間就越久,爲此須要設置一個上限,超過投遞次數就入死信隊列。
重試隊列與延遲隊列有相同的地方,都是須要設置延遲級別,它們彼此的區別是:延遲隊列動做由內部觸發,重試隊列動做由外部消費端觸發;延遲隊列做用一次,而重試隊列的做用範圍會向後傳遞。
消費模式:
消費模式分爲推(push)模式和拉(pull)模式:
廣播消費:
消息通常有兩種傳遞模式——點對點(P2P,Point-to-Point)模式和發佈/訂閱(Pub/Sub)模式:
RabbitMQ是一種典型的點對點模式,而Kafka是一種典型的發佈訂閱模式。可是RabbitMQ中能夠經過設置交換器類型來實現發佈訂閱模式而達到廣播消費的效果,Kafka中也能以點對點的形式消費,你徹底能夠把其消費組(Consumer Group)的概念當作是隊列的概念。不過對比來講,Kafka中由於有了消息回溯功能的存在,對於廣播消費的力度支持比RabbitMQ的要強。
消息回溯:
通常消息在消費完成以後就被處理了,以後不再能消費到該條消息。消息回溯正好相反,是指消息在消費完成以後,還能消費到以前被消費掉的消息。
對於消息而言,常常面臨的問題是「消息丟失」,至因而真正因爲消息中間件的缺陷丟失仍是因爲使用方的誤用而丟失,通常很難追查。若是消息中間件自己具有消息回溯功能的話,能夠經過回溯消費復現「丟失的」消息進而查出問題的源頭所在。
消息回溯的做用遠不止與此,好比還有索引恢復、本地緩存重建,有些業務補償方案也能夠採用回溯的方式來實現。
消息堆積+持久化:
流量削峯是消息中間件的一個很是重要的功能,而這個功能其實得益於其消息堆積能力。從某種意義上來說,若是一個消息中間件不具有消息堆積的能力,那麼就不能把它看作是一個合格的消息中間件。
消息堆積份內存式堆積和磁盤式堆積:
通常來講,磁盤的容量會比內存的容量要大得多,對於磁盤式的堆積其堆積能力就是整個磁盤的大小。從另一個角度講,消息堆積也爲消息中間件提供了冗餘存儲的功能。援引《紐約時報》的案例,其直接將Kafka用做存儲系統。
消息追蹤:
對於分佈式架構系統中的鏈路追蹤(Trace),你們必定不陌生。對於消息中間件,消息的鏈路追蹤(如下簡稱消息追蹤)一樣重要,最通俗來理解,就是要知道消息從哪來,存在哪裏以及發往哪裏去。基於此功能,咱們能夠對發送或者消費完的消息進行鏈路追蹤服務,進而能夠進行問題的快速定位與排查。
消息過濾:
消息過濾是指按照既定的過濾規則爲下游用戶提供指定類別的消息。
就以Kafka而言,徹底能夠將不一樣類別的消息發送至不一樣的Topic中,由此能夠實現某種意義的消息過濾,或者Kafka還能夠根據分區對同一個Topic中的消息進行分類。
不過,更加嚴格意義上的消息過濾,應該是對既定的消息採起必定的方式按照必定的過濾規則進行過濾。
一樣以Kafka爲例,能夠經過客戶端提供的Consumer Interceptor接口或者Kafka Stream的Filter功能進行消息過濾。
多租戶:
也能夠稱爲多重租賃技術,是一種軟件架構技術,主要用來實現多用戶的環境下公用相同的系統或程序組件,而且仍能夠確保各用戶間數據的隔離性。
RabbitMQ就可以支持多租戶技術,每個租戶表示爲一個VHost,其本質上是一個獨立的小型RabbitMQ服務器,又有本身獨立的隊列、交換器及綁定關係等,而且它擁有本身獨立的權限。
VHost就像是物理機中的虛擬機同樣,它們在各個實例間提供邏輯上的分離,爲不一樣程序安全保密地容許數據,它既能將同一個RabbitMQ中的衆多客戶區分開,又能夠避免隊列和交換器等命名衝突。
多協議支持:
消息是信息的載體,爲了讓生產者和消費者都能理解所承載的信息(生產者須要知道如何構造消息,消費者須要知道如何解析消息),它們就須要按照一種統一的格式描述消息,這種統一的格式稱之爲消息協議。
有效的消息必定具備某種格式,而沒有格式的消息是沒有意義的。
通常消息層面的協議有AMQP、MQTT、STOMP、XMPP等(消息領域中的JMS更多的是一個規範而不是一個協議),支持的協議越多其應用範圍就會越廣,通用性越強,好比RabbitMQ可以支持MQTT協議就讓其在物聯網應用中得到一席之地。還有的消息中間件是基於其自己的私有協議運轉的,典型的如Kafka。
跨語言支持:
對不少公司而言,其技術棧體系中會有多種編程語言,如C/C++、JAVA、Go、PHP等,消息中間件自己具有應用解耦的特性,若是可以進一步的支持多客戶端語言,那麼就能夠將此特性的效能擴大。跨語言的支持力度也能夠從側面反映出一個消息中間件的流行程度。
流量控制:
針對的是發送方和接收方速度不匹配的問題,提供一種速度匹配服務抑制發送速率使接收方應用程序的讀取速率與之相適應。一般的流控方法有Stop-and-Wait、滑動窗口以及令牌桶等。
消息順序性:
顧名思義,是指保證消息有序。這個功能有個很常見的應用場景就是CDC(Change Data Chapture),以MySQL爲例,若是其傳輸的Binlog的順序出錯,好比本來是先對一條數據加 1,而後再乘以2,發送錯序以後就變成了先乘以2後加1,形成數據不一致。
安全機制:
在Kafka0.9版本以後就開始增長了身份認證和權限控制兩種安全機制:
對於RabbitMQ而言,其一樣提供身份認證(TLS/SSL、SASL)和權限控制(讀寫操做)的安全機制。
消息冪等性:
確保消息在生產者和消費者之間進行傳輸,通常有三種傳輸保障(Delivery Guarantee):
對於大多數消息中間件而言,通常只提供At most once和At least once兩種傳輸保障,對於第三種通常很難作到,由此消息冪等性也很難保證。
Kafka自0.11版本開始引入了冪等性和事務,Kafka的冪等性是指單個生產者對於單分區單會話的冪等,而事務能夠保證原子性地寫入到多個分區,即寫入到多個分區的消息要麼所有成功,要麼所有回滾,這兩個功能加起來可讓Kafka具有EOS(Exactly Once Semantic)的能力。
不過若是要考慮全局的冪等,還須要與從上下游方面綜合考慮,即關聯業務層面,冪等處理自己也是業務層面所須要考慮的重要議題。
如下游消費者層面爲例,有可能消費者消費完一條消息以後沒有來得及確認消息就發生異常,等到恢復以後又得從新消費原來消費過的那條消息,那麼這種類型的消息冪等是沒法有消息中間件層面來保證的。若是要保證全局的冪等,須要引入更多的外部資源來保證,好比以訂單號做爲惟一性標識,而且在下游設置一個去重表。
事務性消息:
事務自己是一個並不陌生的詞彙,事務是由事務開始(Begin Transaction)和事務結束(End Transaction)之間執行的全體操做組成。
支持事務的消息中間件並不在少數,Kafka和RabbitMQ都支持,不過此二者的事務是指生產者發生消息的事務,要麼發送成功,要麼發送失敗。消息中間件能夠做爲用來實現分佈式事務的一種手段,但其自己並不提供全局分佈式事務的功能。
下表是對Kafka與RabbitMQ功能的總結性對比及補充說明:
二、性能
功能維度是消息中間件選型中的一個重要的參考維度,但這並非惟一的維度,有時候性能比功能還要重要,何況性能和功能不少時候是相悖的,魚和熊掌不可兼得。
Kafka在開啓冪等、事務功能的時候會使其性能下降;RabbitMQ在開啓rabbitmq_tracing插件的時候也會極大影響其性能。
性能指什麼?
消息中間件的性能通常是指其吞吐量。雖然從功能維度上來講,RabbitMQ的優點要大於Kafka,可是Kafka的吞吐量要比RabbitMQ高出1至2個數量級,通常RabbitMQ的單機QPS在萬級別以內,而Kafka的單機QPS能夠維持在十萬級別,甚至能夠達到百萬級。
拓:消息中間件的吞吐量始終會受到硬件層面的限制。就以網卡帶寬爲例,若是單機單網卡的帶寬爲1Gbps,若是要達到百萬級的吞吐,那麼消息體大小不得超過(1Gb/8)/100W,即約等於134B,換句話說若是消息體大小超過134B,那麼就不可能達到百萬級別的吞吐。這種計算方式一樣能夠適用於內存和磁盤。
性能的指標是什麼?
時延做爲性能維度的一個重要指標,卻每每在消息中間件領域所被忽視,由於通常使用消息中間件的場景對時效性的要求並非很高,若是要求時效性徹底能夠採用RPC的方式實現。
消息中間件具有消息堆積的能力,消息堆積越大也就意味着端到端的時延也就越長,與此同時延時隊列也是某些消息中間件的一大特點。
那麼爲何還要關注消息中間件的時延問題呢?
消息中間件可以解耦系統,對於一個時延較低的消息中間件而言,它可讓上游生產者發送消息以後能夠迅速的返回,也可讓消費者更加快速的獲取到消息,在沒有堆積的狀況下,可讓總體上下游的應用之間的級聯動做更加高效,雖然不建議在時效性很高的場景下使用消息中間件,可是若是所使用的消息中間件的時延方面比較優秀,那麼對於總體系統的性能將會是一個不小的提高。
三、可靠性+可用性
消息丟失是使用消息中間件時所不得不面對的一個同點,其背後消息可靠性也是衡量消息中間件好壞的一個關鍵因素。尤爲是在金融支付領域,消息可靠性尤其重要。
然而說到可靠性必然要說到可用性,注意這二者之間的區別:
從狹義的角度來講,分佈式系統架構是一致性協議理論的應用實現,對於消息可靠性和可用性而言也能夠追溯到消息中間件背後的一致性協議:
多副本能夠保證在Master節點宕機異常以後能夠提高Slave做爲新的Master而繼續提供服務來保障可用性。
Kafka設計之初是爲日誌處理而生,給人們留下了數據可靠性要求不高的不良印象,可是隨着版本的升級優化,其可靠性獲得極大的加強,詳細能夠參考KIP101。
就目前而言,在金融支付領域使用RabbitMQ居多,而在日誌處理、大數據等方面Kafka使用居多,隨着RabbitMQ性能的不斷提高和Kafka可靠性的進一步加強,相信彼此都能在之前不擅長的領域分得一杯羹。
同步刷盤是加強一個組件可靠性的有效方式,消息中間件也不例外,Kafka和RabbitMQ均可以支持同步刷盤,可是筆者對同步刷盤有必定的疑問:絕大多數情景下,一個組件的可靠性不該該由同步刷盤這種極其損耗性能的操做來保障,而是採用多副本的機制來保證。
這裏還要說起的一個方面是擴展能力,這裏我狹隘地將此概括到可用性這一維度,消息中間件的擴展能力可以加強其用可用能力及範圍,好比前面提到的RabbitMQ支持多種消息協議,這個就是基於其插件化的擴展實現。
還有從集羣部署上來說,歸功於Kafka的水平擴展能力,其基本上能夠達到線性容量提高的水平,在LinkedIn實踐介紹中就說起了有部署超過千臺設備的Kafka集羣。
四、運維管理
在消息中間件的使用過程當中不免會出現各式各樣的異常狀況,有客戶端的,也有服務端的,那麼怎樣及時有效的進行監測及修復?業務線流量有峯值又低谷,尤爲是電商領域,那麼怎樣前進行有效的容量評估,尤爲是大促期間?腳踢電源、網線被挖等事件層出不窮,如何有效的作好異地多活?
這些都離不開消息中間件的衍生產品——運維管理。
運維管理也能夠進行進一步的細分,好比申請、審覈、監控、告警、管理、容災、部署等。
申請、審覈 很好理解,在源頭對資源進行管控,既能夠進行有效校訂應用方的使用規範,配合監控也能夠作好流量統計與流量評估工做。通常申請、審覈與公司內部系統交融性較大,不適合使用開源類的產品。
監控、告警 也比較好理解,對消息中間件的使用進行全方位的監控,既能夠爲系統提供基準數據,也能夠在檢測到異常的狀況配合告警,以便運維、開發人員的迅速介入。除了通常的監控項(好比硬件、GC等)以外,消息中間件還須要關注端到端時延、消息審計、消息堆積等方面:
無論是擴容、降級、版本升級、集羣節點部署、仍是故障處理都離不開管理工具的應用,一個配套完備的管理工具集能夠在遇到變動時作到事半功倍。
故障可大可小,通常是一些應用異常,也能夠是機器掉電、網絡異常、磁盤損壞等單機故障,這些故障單機房內的多副本足以應付。
若是是機房故障就要涉及異地容災了,關鍵點在於如何有效的進行數據複製,Kafka能夠參考MirrorMarker、uReplicator等產品,而RabbitMQ能夠參考Federation和Shovel。
五、社區力度及生態發展
對於目前流行的編程語言而言,如Java、Python,若是你在使用過程當中遇到了一些異常,基本上能夠經過搜索引擎的幫助來獲得解決,由於一個產品用的人越多,踩過的坑也就越多,對應的解決方案也就越多。
消息中間件也一樣適用,若是你選擇了一種「生僻」的消息中間件,可能在某些方面運用的駕輕就熟,可是版本更新緩慢、遇到棘手問題也難以獲得社區的支持而越陷越深;相反若是你選擇了一種「流行」的消息中間件,其更新力度大,不只能夠迅速的彌補以前的不足,並且也能順應技術的快速發展來變動一些新的功能,這樣可讓你以「站在巨人的肩膀上」。
在運維管理維度咱們說起了Kafka和RabbitMQ都有一系列開源的監控管理產品,這些正是得益於其社區及生態的迅猛發展。
選型誤區
在進行消息中間件選型以前能夠先問本身一個問題:是否真的須要一個消息中間件?
在搞清楚這個問題以後,還能夠繼續問本身一個問題:是否須要本身維護一套消息中間件?不少初創型公司爲了節省成本會選擇直接購買消息中間件有關的雲服務,本身只須要關注收發消息便可,其他的均可之外包出去。
不少人面對消息中間件有一種自研的衝動,你徹底能夠對Java中的ArrayBlockingQueue作一個簡單的封裝,你也能夠基於文件、數據庫、Redis等底層存儲封裝而造成一個消息中間件。
消息中間件作爲一個基礎組件並無想象中的那麼簡單,其背後還須要配套的管理運維整個生態的產品集。自研還有會交接問題,若是文檔不齊全、運做不規範將會帶給新人噩夢般的體驗。
是否真的有自研的必要?
若是不是KPI的壓迫能夠先考慮下面這兩個問題:
不少人在作消息中間件選型時會參考網絡上的不少對比類的文章,可是其專業性、嚴謹性、以及其政治立場問題都有待考證,須要帶着懷疑的態度去審視這些文章。好比有些文章會在沒有任何限定條件及場景的狀況下直接定義某款消息中間件最好;還有些文章沒有指明消息中間件版本及測試環境就來作功能和性能對比分析,諸如此類的文章均可以唾棄之。
消息中間件猶如小馬過河,選擇合適的才最重要。這須要貼合自身的業務需求,技術服務於業務,大致上能夠根據上一節所說起的功能、性能等6個維度來一一進行篩選。更深層次的抉擇在於你可否掌握其魂。
筆者鄙見:RabbitMQ在於Routing,而Kafka在於Streaming,瞭解其根本對於本身可以對症下藥選擇到合適的消息中間件尤其重要。
消息中間件選型切忌一味的追求性能或者功能,性能能夠優化,功能能夠二次開發。若是要在功能和性能方面作一個抉擇的話,那麼首選性能,由於整體上來講性能優化的空間沒有功能擴展的空間大。然而看長期發展,生態又比性能以及功能都要重要。
可靠性誤區
不少時候,可靠性方面也容易存在一個誤區:想要找到一個產品來保證消息的絕對可靠,很不幸的是這世界上沒有絕對的東西,只能說盡可能趨於完美。想要儘量的保障消息的可靠性也並不是單單隻靠消息中間件自己,還要依賴於上下游,須要從生產端、服務端和消費端這3個維度去努力保證。
消息中間件選型還有一個考量標準就是儘可能貼合團隊自身的技術棧體系,雖說沒有蹩腳的消息中間件,只有蹩腳的程序員,可是讓一個C棧的團隊去深挖PhxQueue總比去深挖Scala編寫的Kafka要容易的多。
消息中間件大道至簡:一發一存一消費,沒有最好的消息中間件,只有最合適的消息中間件。
在IM這種講究高併發、高消息吞吐的互聯網場景下,MQ消息中間件是個很重要的基礎設施,它在IM系統的服務端架構中擔當消息中轉、消息削峯、消息交換異步化等角色。
固然,MQ消息中間件的做用遠不止於此,它的價值不只僅存在於技術上,更重要的是改變了以往同步處理消息的思路(好比進行IM消息歷史存儲時,傳統的信息系統做法多是收到一條消息就立刻同步存入數據庫,這種做法在小併發量的狀況下能夠很好的工做,但互聯網大併發環境下就是災難)。
MQ消息中間件能夠理解爲一個水池,水池的這頭是消息生產者,水池的那頭是消息消費者,生產者和消息者無需直接對接,這將帶來不少好處:業務解耦、架構分佈式化等,生產者和消費者互相徹底透明。
但市面上的MQ消息中間件產品不少,做爲IM系統中必不可少的一環,咱們該如何選型?
消息隊列中間件(簡稱消息中間件)是指利用高效可靠的消息傳遞機制進行與平臺無關的數據交流,並基於數據通訊來進行分佈式系統的集成。
經過提供消息傳遞和消息排隊模型,它能夠在分佈式環境下提供應用解耦、彈性伸縮、冗餘存儲、流量削峯、異步通訊、數據同步等等功能,其做爲分佈式系統架構中的一個重要組件,有着舉足輕重的地位。
目前開源的消息中間件可謂是琳琅滿目,能讓你們耳熟能詳的就有不少,好比ActiveMQ、RabbitMQ、Kafka、RocketMQ、ZeroMQ等,無論選擇其中的哪一款,都會有用的不趁手的地方,畢竟不是爲你量身定製的。
可能有些大廠在長期的使用過程當中積累了必定的經驗,加上其消息隊列的使用場景也相對穩定固化,或者目前市面上的消息中間件沒法知足自身需求,同時它也具有足夠的精力和人力而選擇自研來爲本身量身打造一款消息中間件。
可是絕大多數公司仍是不會選擇重複造輪子,那麼選擇一款合適本身的消息中間件顯得尤其重要。就算是前者,那麼在自研出穩定且可靠的相關產品以前也會經歷這樣一個選型過程。
在總體架構中引入消息中間件,勢必要考慮不少因素,好比成本及收益問題,怎麼樣才能達到最優的性價比?
雖然消息中間件種類繁多,可是各自都有各自的側重點,選擇合適本身、揚長避短無疑是最好的方式。若是你對此感到無所適從,本文或許能夠參考一二。
ActiveMQ
Apache出品的、採用Java語言編寫的徹底基於JMS1.1規範的面向消息的中間件,爲應用程序提供高效的、可擴展的、穩定的和安全的企業級消息通訊。
不過因爲歷史緣由包袱過重,目前市場份額沒有後面三種消息中間件多,其最新架構被命名爲Apollo,號稱下一代ActiveMQ,有興趣的同窗可自行了解。
RabbitMQ
採用Erlang語言實現的AMQP協議的消息中間件,最初起源於金融系統,用於在分佈式系統中存儲轉發消息。RabbitMQ發展到今天,被愈來愈多的人承認,這和它在可靠性、可用性、擴展性、功能豐富等方面的卓越表現是分不開的。
Kafka
起初是由LinkedIn公司採用Scala語言開發的一個分佈式、多分區、多副本且基於ZooKeeper協調的分佈式消息系統,現已捐獻給Apache基金會。
它是一種高吞吐量的分佈式發佈訂閱消息系統,以可水平擴展和高吞吐率而被普遍使用。目前愈來愈多的開源分佈式處理系統如Cloudera、Apache Storm、Spark、Flink等都支持與Kafka集成。
RocketMQ
是阿里開源的消息中間件,目前已經捐獻給Apache基金會,它是由Java語言開發的,具有高吞吐量、高可用性、適合大規模分佈式系統應用等特色,經歷過雙11的洗禮,實力不容小覷。
ZeroMQ
號稱史上最快的消息隊列,基於C語言開發。ZeroMQ是一個消息處理隊列庫,可在多線程、多內核和主機之間彈性伸縮,雖然大多數時候咱們習慣將其納入消息隊列家族之中,可是其和前面的幾款有着本質的區別,ZeroMQ自己就不是一個消息隊列服務器,更像是一組底層網絡通信庫,對原有的Socket API上加上一層封裝而已。
目前市面上的消息中間件還有不少,好比騰訊系的PhxQueue、CMQ、CKafka,又好比基於Go語言的NSQ,有時人們也把相似Redis的產品也看作消息中間件的一種。
固然,它們都很優秀,可是本文篇幅限制沒法窮其全部,下面會針對性地挑選RabbitMQ和Kafka兩款典型的消息中間件來作分析,力求站在一個公平公正的立場來闡述消息中間件選型中的各個要點。
衡量一款消息中間件是否符合需求,須要從多個維度進行考察。
首要的就是功能維度,這個直接決定了你可否最大程度上地實現開箱即用,進而縮短項目週期、下降成本等。
若是一款消息中間件的功能達不到想要的功能,那麼就須要進行二次開發,這樣會增長項目的技術難度、複雜度以及增大項目週期等。
一、功能維度
功能維度又能夠劃分個多個子維度,大體能夠分爲如下這些。
優先級隊列:
優先級隊列不一樣於先進先出隊列,優先級高的消息具有優先被消費的特權,這樣能夠爲下游提供不一樣消息級別的保證。
不過這個優先級也是須要有一個前提的:若是消費者的消費速度大於生產者的速度,而且消息中間件服務器(通常簡單的稱之爲Broker)中沒有消息堆積,那麼對於發送的消息設置優先級也就沒有什麼實質性的意義了,由於生產者剛發送完一條消息就被消費者消費了,那麼就至關於Broker中至多隻有一條消息,對於單條消息來講優先級是沒有什麼意義的。
延遲隊列:
當你在網上購物的時候是否會遇到這樣的提示:「三十分鐘以內未付款,訂單自動取消」,這個是延遲隊列的一種典型應用場景。
延遲隊列存儲的是對應的延遲消息,所謂「延遲消息」是指當消息被髮送之後,並不想讓消費者馬上拿到消息,而是等待特定時間後,消費者才能拿到這個消息進行消費。
延遲隊列通常分爲兩種:基於消息的延遲和基於隊列的延遲。
死信隊列:
因爲某些緣由消息沒法被正確投遞,爲了確保消息不會被無端丟棄,通常將其置於一個特殊角色的隊列,這個隊列稱爲死信隊列。
與此對應的還有一個「回退隊列」的概念,試想若是消費者在消費時發生了異常,那麼就不會對這一次消費進行確認(Ack), 進而發生回滾消息的操做以後消息始終會放在隊列的頂部,而後不斷被處理和回滾,致使隊列陷入死循環。
爲了解決這個問題,能夠爲每一個隊列設置一個回退隊列,它和死信隊列都是爲異常的處理提供的一種機制保障。實際狀況下,回退隊列的角色能夠由死信隊列和重試隊列來扮演。
重試隊列:
其實能夠當作是一種回退隊列,具體指消費端消費消息失敗時,爲防止消息無端丟失而從新將消息回滾到Broker中。
與回退隊列不一樣的是重試隊列通常分紅多個重試等級,每一個重試等級通常也會設置從新投遞延時,重試次數越多投遞延時就越大。
舉個例子:消息第一次消費失敗入重試隊列Q1,Q1的從新投遞延遲爲5s,在5s事後從新投遞該消息;若是消息再次消費失敗則入重試隊列Q2,Q2的從新投遞延遲爲10s,在10s事後再次投遞該消息。以此類推,重試越屢次從新投遞的時間就越久,爲此須要設置一個上限,超過投遞次數就入死信隊列。
重試隊列與延遲隊列有相同的地方,都是須要設置延遲級別,它們彼此的區別是:延遲隊列動做由內部觸發,重試隊列動做由外部消費端觸發;延遲隊列做用一次,而重試隊列的做用範圍會向後傳遞。
消費模式:
消費模式分爲推(push)模式和拉(pull)模式:
廣播消費:
消息通常有兩種傳遞模式——點對點(P2P,Point-to-Point)模式和發佈/訂閱(Pub/Sub)模式:
RabbitMQ是一種典型的點對點模式,而Kafka是一種典型的發佈訂閱模式。可是RabbitMQ中能夠經過設置交換器類型來實現發佈訂閱模式而達到廣播消費的效果,Kafka中也能以點對點的形式消費,你徹底能夠把其消費組(Consumer Group)的概念當作是隊列的概念。不過對比來講,Kafka中由於有了消息回溯功能的存在,對於廣播消費的力度支持比RabbitMQ的要強。
消息回溯:
通常消息在消費完成以後就被處理了,以後不再能消費到該條消息。消息回溯正好相反,是指消息在消費完成以後,還能消費到以前被消費掉的消息。
對於消息而言,常常面臨的問題是「消息丟失」,至因而真正因爲消息中間件的缺陷丟失仍是因爲使用方的誤用而丟失,通常很難追查。若是消息中間件自己具有消息回溯功能的話,能夠經過回溯消費復現「丟失的」消息進而查出問題的源頭所在。
消息回溯的做用遠不止與此,好比還有索引恢復、本地緩存重建,有些業務補償方案也能夠採用回溯的方式來實現。
消息堆積+持久化:
流量削峯是消息中間件的一個很是重要的功能,而這個功能其實得益於其消息堆積能力。從某種意義上來說,若是一個消息中間件不具有消息堆積的能力,那麼就不能把它看作是一個合格的消息中間件。
消息堆積份內存式堆積和磁盤式堆積:
通常來講,磁盤的容量會比內存的容量要大得多,對於磁盤式的堆積其堆積能力就是整個磁盤的大小。從另一個角度講,消息堆積也爲消息中間件提供了冗餘存儲的功能。援引《紐約時報》的案例,其直接將Kafka用做存儲系統。
消息追蹤:
對於分佈式架構系統中的鏈路追蹤(Trace),你們必定不陌生。對於消息中間件,消息的鏈路追蹤(如下簡稱消息追蹤)一樣重要,最通俗來理解,就是要知道消息從哪來,存在哪裏以及發往哪裏去。基於此功能,咱們能夠對發送或者消費完的消息進行鏈路追蹤服務,進而能夠進行問題的快速定位與排查。
消息過濾:
消息過濾是指按照既定的過濾規則爲下游用戶提供指定類別的消息。
就以Kafka而言,徹底能夠將不一樣類別的消息發送至不一樣的Topic中,由此能夠實現某種意義的消息過濾,或者Kafka還能夠根據分區對同一個Topic中的消息進行分類。
不過,更加嚴格意義上的消息過濾,應該是對既定的消息採起必定的方式按照必定的過濾規則進行過濾。
一樣以Kafka爲例,能夠經過客戶端提供的Consumer Interceptor接口或者Kafka Stream的Filter功能進行消息過濾。
多租戶:
也能夠稱爲多重租賃技術,是一種軟件架構技術,主要用來實現多用戶的環境下公用相同的系統或程序組件,而且仍能夠確保各用戶間數據的隔離性。
RabbitMQ就可以支持多租戶技術,每個租戶表示爲一個VHost,其本質上是一個獨立的小型RabbitMQ服務器,又有本身獨立的隊列、交換器及綁定關係等,而且它擁有本身獨立的權限。
VHost就像是物理機中的虛擬機同樣,它們在各個實例間提供邏輯上的分離,爲不一樣程序安全保密地容許數據,它既能將同一個RabbitMQ中的衆多客戶區分開,又能夠避免隊列和交換器等命名衝突。
多協議支持:
消息是信息的載體,爲了讓生產者和消費者都能理解所承載的信息(生產者須要知道如何構造消息,消費者須要知道如何解析消息),它們就須要按照一種統一的格式描述消息,這種統一的格式稱之爲消息協議。
有效的消息必定具備某種格式,而沒有格式的消息是沒有意義的。
通常消息層面的協議有AMQP、MQTT、STOMP、XMPP等(消息領域中的JMS更多的是一個規範而不是一個協議),支持的協議越多其應用範圍就會越廣,通用性越強,好比RabbitMQ可以支持MQTT協議就讓其在物聯網應用中得到一席之地。還有的消息中間件是基於其自己的私有協議運轉的,典型的如Kafka。
跨語言支持:
對不少公司而言,其技術棧體系中會有多種編程語言,如C/C++、JAVA、Go、PHP等,消息中間件自己具有應用解耦的特性,若是可以進一步的支持多客戶端語言,那麼就能夠將此特性的效能擴大。跨語言的支持力度也能夠從側面反映出一個消息中間件的流行程度。
流量控制:
針對的是發送方和接收方速度不匹配的問題,提供一種速度匹配服務抑制發送速率使接收方應用程序的讀取速率與之相適應。一般的流控方法有Stop-and-Wait、滑動窗口以及令牌桶等。
消息順序性:
顧名思義,是指保證消息有序。這個功能有個很常見的應用場景就是CDC(Change Data Chapture),以MySQL爲例,若是其傳輸的Binlog的順序出錯,好比本來是先對一條數據加 1,而後再乘以2,發送錯序以後就變成了先乘以2後加1,形成數據不一致。
安全機制:
在Kafka0.9版本以後就開始增長了身份認證和權限控制兩種安全機制:
對於RabbitMQ而言,其一樣提供身份認證(TLS/SSL、SASL)和權限控制(讀寫操做)的安全機制。
消息冪等性:
確保消息在生產者和消費者之間進行傳輸,通常有三種傳輸保障(Delivery Guarantee):
對於大多數消息中間件而言,通常只提供At most once和At least once兩種傳輸保障,對於第三種通常很難作到,由此消息冪等性也很難保證。
Kafka自0.11版本開始引入了冪等性和事務,Kafka的冪等性是指單個生產者對於單分區單會話的冪等,而事務能夠保證原子性地寫入到多個分區,即寫入到多個分區的消息要麼所有成功,要麼所有回滾,這兩個功能加起來可讓Kafka具有EOS(Exactly Once Semantic)的能力。
不過若是要考慮全局的冪等,還須要與從上下游方面綜合考慮,即關聯業務層面,冪等處理自己也是業務層面所須要考慮的重要議題。
如下游消費者層面爲例,有可能消費者消費完一條消息以後沒有來得及確認消息就發生異常,等到恢復以後又得從新消費原來消費過的那條消息,那麼這種類型的消息冪等是沒法有消息中間件層面來保證的。若是要保證全局的冪等,須要引入更多的外部資源來保證,好比以訂單號做爲惟一性標識,而且在下游設置一個去重表。
事務性消息:
事務自己是一個並不陌生的詞彙,事務是由事務開始(Begin Transaction)和事務結束(End Transaction)之間執行的全體操做組成。
支持事務的消息中間件並不在少數,Kafka和RabbitMQ都支持,不過此二者的事務是指生產者發生消息的事務,要麼發送成功,要麼發送失敗。消息中間件能夠做爲用來實現分佈式事務的一種手段,但其自己並不提供全局分佈式事務的功能。
下表是對Kafka與RabbitMQ功能的總結性對比及補充說明:
二、性能
功能維度是消息中間件選型中的一個重要的參考維度,但這並非惟一的維度,有時候性能比功能還要重要,何況性能和功能不少時候是相悖的,魚和熊掌不可兼得。
Kafka在開啓冪等、事務功能的時候會使其性能下降;RabbitMQ在開啓rabbitmq_tracing插件的時候也會極大影響其性能。
性能指什麼?
消息中間件的性能通常是指其吞吐量。雖然從功能維度上來講,RabbitMQ的優點要大於Kafka,可是Kafka的吞吐量要比RabbitMQ高出1至2個數量級,通常RabbitMQ的單機QPS在萬級別以內,而Kafka的單機QPS能夠維持在十萬級別,甚至能夠達到百萬級。
拓:消息中間件的吞吐量始終會受到硬件層面的限制。就以網卡帶寬爲例,若是單機單網卡的帶寬爲1Gbps,若是要達到百萬級的吞吐,那麼消息體大小不得超過(1Gb/8)/100W,即約等於134B,換句話說若是消息體大小超過134B,那麼就不可能達到百萬級別的吞吐。這種計算方式一樣能夠適用於內存和磁盤。
性能的指標是什麼?
時延做爲性能維度的一個重要指標,卻每每在消息中間件領域所被忽視,由於通常使用消息中間件的場景對時效性的要求並非很高,若是要求時效性徹底能夠採用RPC的方式實現。
消息中間件具有消息堆積的能力,消息堆積越大也就意味着端到端的時延也就越長,與此同時延時隊列也是某些消息中間件的一大特點。
那麼爲何還要關注消息中間件的時延問題呢?
消息中間件可以解耦系統,對於一個時延較低的消息中間件而言,它可讓上游生產者發送消息以後能夠迅速的返回,也可讓消費者更加快速的獲取到消息,在沒有堆積的狀況下,可讓總體上下游的應用之間的級聯動做更加高效,雖然不建議在時效性很高的場景下使用消息中間件,可是若是所使用的消息中間件的時延方面比較優秀,那麼對於總體系統的性能將會是一個不小的提高。
三、可靠性+可用性
消息丟失是使用消息中間件時所不得不面對的一個同點,其背後消息可靠性也是衡量消息中間件好壞的一個關鍵因素。尤爲是在金融支付領域,消息可靠性尤其重要。
然而說到可靠性必然要說到可用性,注意這二者之間的區別:
從狹義的角度來講,分佈式系統架構是一致性協議理論的應用實現,對於消息可靠性和可用性而言也能夠追溯到消息中間件背後的一致性協議:
多副本能夠保證在Master節點宕機異常以後能夠提高Slave做爲新的Master而繼續提供服務來保障可用性。
Kafka設計之初是爲日誌處理而生,給人們留下了數據可靠性要求不高的不良印象,可是隨着版本的升級優化,其可靠性獲得極大的加強,詳細能夠參考KIP101。
就目前而言,在金融支付領域使用RabbitMQ居多,而在日誌處理、大數據等方面Kafka使用居多,隨着RabbitMQ性能的不斷提高和Kafka可靠性的進一步加強,相信彼此都能在之前不擅長的領域分得一杯羹。
同步刷盤是加強一個組件可靠性的有效方式,消息中間件也不例外,Kafka和RabbitMQ均可以支持同步刷盤,可是筆者對同步刷盤有必定的疑問:絕大多數情景下,一個組件的可靠性不該該由同步刷盤這種極其損耗性能的操做來保障,而是採用多副本的機制來保證。
這裏還要說起的一個方面是擴展能力,這裏我狹隘地將此概括到可用性這一維度,消息中間件的擴展能力可以加強其用可用能力及範圍,好比前面提到的RabbitMQ支持多種消息協議,這個就是基於其插件化的擴展實現。
還有從集羣部署上來說,歸功於Kafka的水平擴展能力,其基本上能夠達到線性容量提高的水平,在LinkedIn實踐介紹中就說起了有部署超過千臺設備的Kafka集羣。
四、運維管理
在消息中間件的使用過程當中不免會出現各式各樣的異常狀況,有客戶端的,也有服務端的,那麼怎樣及時有效的進行監測及修復?業務線流量有峯值又低谷,尤爲是電商領域,那麼怎樣前進行有效的容量評估,尤爲是大促期間?腳踢電源、網線被挖等事件層出不窮,如何有效的作好異地多活?
這些都離不開消息中間件的衍生產品——運維管理。
運維管理也能夠進行進一步的細分,好比申請、審覈、監控、告警、管理、容災、部署等。
申請、審覈 很好理解,在源頭對資源進行管控,既能夠進行有效校訂應用方的使用規範,配合監控也能夠作好流量統計與流量評估工做。通常申請、審覈與公司內部系統交融性較大,不適合使用開源類的產品。
監控、告警 也比較好理解,對消息中間件的使用進行全方位的監控,既能夠爲系統提供基準數據,也能夠在檢測到異常的狀況配合告警,以便運維、開發人員的迅速介入。除了通常的監控項(好比硬件、GC等)以外,消息中間件還須要關注端到端時延、消息審計、消息堆積等方面:
無論是擴容、降級、版本升級、集羣節點部署、仍是故障處理都離不開管理工具的應用,一個配套完備的管理工具集能夠在遇到變動時作到事半功倍。
故障可大可小,通常是一些應用異常,也能夠是機器掉電、網絡異常、磁盤損壞等單機故障,這些故障單機房內的多副本足以應付。
若是是機房故障就要涉及異地容災了,關鍵點在於如何有效的進行數據複製,Kafka能夠參考MirrorMarker、uReplicator等產品,而RabbitMQ能夠參考Federation和Shovel。
五、社區力度及生態發展
對於目前流行的編程語言而言,如Java、Python,若是你在使用過程當中遇到了一些異常,基本上能夠經過搜索引擎的幫助來獲得解決,由於一個產品用的人越多,踩過的坑也就越多,對應的解決方案也就越多。
消息中間件也一樣適用,若是你選擇了一種「生僻」的消息中間件,可能在某些方面運用的駕輕就熟,可是版本更新緩慢、遇到棘手問題也難以獲得社區的支持而越陷越深;相反若是你選擇了一種「流行」的消息中間件,其更新力度大,不只能夠迅速的彌補以前的不足,並且也能順應技術的快速發展來變動一些新的功能,這樣可讓你以「站在巨人的肩膀上」。
在運維管理維度咱們說起了Kafka和RabbitMQ都有一系列開源的監控管理產品,這些正是得益於其社區及生態的迅猛發展。
選型誤區
在進行消息中間件選型以前能夠先問本身一個問題:是否真的須要一個消息中間件?
在搞清楚這個問題以後,還能夠繼續問本身一個問題:是否須要本身維護一套消息中間件?不少初創型公司爲了節省成本會選擇直接購買消息中間件有關的雲服務,本身只須要關注收發消息便可,其他的均可之外包出去。
不少人面對消息中間件有一種自研的衝動,你徹底能夠對Java中的ArrayBlockingQueue作一個簡單的封裝,你也能夠基於文件、數據庫、Redis等底層存儲封裝而造成一個消息中間件。
消息中間件作爲一個基礎組件並無想象中的那麼簡單,其背後還須要配套的管理運維整個生態的產品集。自研還有會交接問題,若是文檔不齊全、運做不規範將會帶給新人噩夢般的體驗。
是否真的有自研的必要?
若是不是KPI的壓迫能夠先考慮下面這兩個問題:
不少人在作消息中間件選型時會參考網絡上的不少對比類的文章,可是其專業性、嚴謹性、以及其政治立場問題都有待考證,須要帶着懷疑的態度去審視這些文章。好比有些文章會在沒有任何限定條件及場景的狀況下直接定義某款消息中間件最好;還有些文章沒有指明消息中間件版本及測試環境就來作功能和性能對比分析,諸如此類的文章均可以唾棄之。
消息中間件猶如小馬過河,選擇合適的才最重要。這須要貼合自身的業務需求,技術服務於業務,大致上能夠根據上一節所說起的功能、性能等6個維度來一一進行篩選。更深層次的抉擇在於你可否掌握其魂。
筆者鄙見:RabbitMQ在於Routing,而Kafka在於Streaming,瞭解其根本對於本身可以對症下藥選擇到合適的消息中間件尤其重要。
消息中間件選型切忌一味的追求性能或者功能,性能能夠優化,功能能夠二次開發。若是要在功能和性能方面作一個抉擇的話,那麼首選性能,由於整體上來講性能優化的空間沒有功能擴展的空間大。然而看長期發展,生態又比性能以及功能都要重要。
可靠性誤區
不少時候,可靠性方面也容易存在一個誤區:想要找到一個產品來保證消息的絕對可靠,很不幸的是這世界上沒有絕對的東西,只能說盡可能趨於完美。想要儘量的保障消息的可靠性也並不是單單隻靠消息中間件自己,還要依賴於上下游,須要從生產端、服務端和消費端這3個維度去努力保證。
消息中間件選型還有一個考量標準就是儘可能貼合團隊自身的技術棧體系,雖說沒有蹩腳的消息中間件,只有蹩腳的程序員,可是讓一個C棧的團隊去深挖PhxQueue總比去深挖Scala編寫的Kafka要容易的多。
消息中間件大道至簡:一發一存一消費,沒有最好的消息中間件,只有最合適的消息中間件。