Kafka實戰：如何把Kafka消息時延秒降10倍

時間 2019-11-10

標籤 kafka 實戰如何消息欄目 Kafka 简体版

原文原文鏈接

背景服務器

國內某大型稅務系統，業務應用分佈式上雲改造。網絡

業務難題
架構

如上圖所示是模擬客戶的業務網頁構建的一個併發訪問模型。用戶在頁面點擊從而產生一個HTTP請求，這個請求發送到業務生產進程，就會啓動一個投遞線程（Deliver Thread）調用Kafka的SDK接口，併發送3條消息到DMS（分佈式消息服務），每條消息大小3k，須要等待3條消息都被處理完成後纔會返回請求響應⑧。當消息達到DMS後，業務消費進程調用Kafka的消費接口把消息取出來，而後將每條消息放到一個響應線程(Response Thread)中進行處理，響應線程處理完後，經過HTTP請求通知投遞線程，投遞線程收到響應後返回回覆響應。併發

100併發訪問時延500ms，未達成用戶業務要求異步

客戶提出了明確的要求：每1個兩核的ECS要可以支撐併發訪問量100，每條消息端到端的時延範圍是幾十毫秒，即從生產者發送開始到接收到消費者響應的時間。客戶實測在使用了DMS的Kafka 隊列後，併發訪問量爲100時時延高達到500ms左右，甚至出現達到秒級的時延，遠未達到客戶提出的業務訴求。相比較而言，客戶在Pod區使用的是本身搭建的原生Kafka，在併發訪問量爲100時測試到的時延大約只有10~20ms左右。那麼問題來了，在併發訪問量相同的條件下，DMS的Kafka隊列與Pod區自建的原生Kafka相比爲何時延會有這麼大的差別呢？咱們DMS的架構師 Mr. Peng對這個時延難題進行了一系列分析後完美解決了這個客戶難題，下面就讓咱們來看看他的心路歷程。分佈式

難題剖析性能

根據模擬的客戶業務模型，Mr. Peng在華爲雲類生產環境上也構造了一個測試程序，一樣模擬構造了100的併發訪問量，經過測試發現，類生產環境上壓測獲得的時延平均時間在60ms左右。類生產上的時延數值跟客戶在真實生產環境上測到的時延差距這麼大，這是怎麼回事呢？問題變得撲朔迷離起來。測試

Mr. Peng當機立斷，決定就在華爲雲現網上運行構造的測試程序，來看看究竟是什麼緣由。同時，在客戶的ECS服務器上，也部署了相同的測試程序，模擬構建了100的併發量，獲得以下的時延結果對比表：
優化