大可能是由於 Consumer 出問題了,沒有及時發現,或者故障恢復須要較長的時間,致使大量消息積壓在 MQ 中。架構
例如 RabbitMQ 有一個消息過時時間 TTL,過時的消息會被扔掉,這樣消息就完全沒有了。spa
若是堆積量太大,可能致使磁盤空間不足,那麼新消息就進不來了。3d
若是消息沒過時,而且磁盤空間也夠用,那麼就是產生海量消息等待被消費,Consumer 的噩夢。token
首先,要實現防止消息過時問題,不該該設置過時時間。隊列
若是就是設置了過時時間,致使了消息丟失,怎麼補救呢?開發
那就只能在夜深人靜,趁着訪問量最低的時候,寫一個臨時程序來補消息了。rem
例若有訂單消息丟了,那就須要找出哪些訂單消息丟了,而後從新發到隊列。get
系統一般都是有監控的,達到空間閾值時就會發警報,這時就要立刻處理了。消息隊列
例如,在其餘機器上建立臨時的消息隊列,再寫一個臨時的 Consumer,做爲消息的中轉,把消息積壓隊列中的消息取出來,放到臨時隊列裏面去。it
快速疏散積壓的消息,讓磁盤空間恢復正常水平。
Consumer 恢復正常以後,面對堆積如山的消息,怎麼處理呢?
如何按照以前正常狀況處理的話,猴年馬月才能消費完,此過程當中還有新消息在不斷進來。
例如,積壓了 100 萬條,有 3 個 Consumer,每個每秒能處理 200 條,3 個 Consumer 每秒一共能處理 600 條。
大概須要一個多小時才能處理完。
這一個多小時又會積壓多少新的消息呢?
因此正常處理確定不行,須要提速。
例如 Kafka,這個消息積壓的 Topic 有 3 個 Partition,那最多就能用 3 個 Consumer,因此增長 Consumer 沒有用。
仍是可使用臨時隊列的方式。
新建一個 Topic,設置爲 20 個 Partition
Consumer 再也不處理業務邏輯了,只負責搬運,把消息放到臨時 Topic 中
這 20 個 Partition 能夠有 20個 Consumer 了,它們來處理原來的業務邏輯。
這 20 個 Consumer 每秒一共能處理 4000 條了,這樣幾分鐘就能夠處理完積壓的 100 萬條。
這幾分鐘新來的消息也不會太多,因此很快就能夠恢復正常水平,以後,再把總體結構恢復爲原來的形式。
小結一下,消息積壓仍是比較麻煩的,最好是提早防範,作好硬件和消息系統的健康監控。若是出現消息丟失,就要人工查找丟失的消息,而後補上。在消費不過來的時候,能夠考慮使用臨時隊列做爲中轉,提高處理能力。
推薦閱讀