面試官：消息中間件如何實現每秒幾十萬的高併發寫入？【石杉的架構筆記】

時間 2019-11-06

標籤面試消息中間件如何實現每秒十萬併發寫入石杉的架構筆記欄目快樂工作简体版

原文原文鏈接

歡迎關注我的公衆號：石杉的架構筆記（ID:shishan100）程序員

週一至週五早8點半！精品技術文章準時送上！面試

精品學習資料獲取通道，參見文末
算法

一、頁緩存技術 + 磁盤順序寫

首先Kafka每次接收到數據都會往磁盤上去寫，以下圖所示。分佈式

那麼在這裏咱們不由有一個疑問了，若是把數據基於磁盤來存儲，頻繁的往磁盤文件裏寫數據，這個性能會不會不好？你們確定都以爲磁盤寫性能是極差的。

沒錯，要是真的跟上面那個圖那麼簡單的話，那確實這個性能是比較差的。

可是實際上Kafka在這裏有極爲優秀和出色的設計，就是爲了保證數據寫入性能，首先Kafka是基於操做系統的頁緩存來實現文件寫入的。

操做系統自己有一層緩存，叫作page cache，是在內存裏的緩存，咱們也能夠稱之爲os cache，意思就是操做系統本身管理的緩存。

你在寫入磁盤文件的時候，能夠直接寫入這個os cache裏，也就是僅僅寫入內存中，接下來由操做系統本身決定何時把os cache裏的數據真的刷入磁盤文件中。

僅僅這一個步驟，就能夠將磁盤文件寫性能提高不少了，由於其實這裏至關因而在寫內存，不是在寫磁盤，你們看下圖。

接着另一個就是kafka寫數據的時候，很是關鍵的一點，他是以磁盤順序寫的方式來寫的。也就是說，僅僅將數據追加到文件的末尾，不是在文件的隨機位置來修改數據。

普通的機械磁盤若是你要是隨機寫的話，確實性能極差，也就是隨便找到文件的某個位置來寫數據。

可是若是你是追加文件末尾按照順序的方式來寫數據的話，那麼這種磁盤順序寫的性能基本上能夠跟寫內存的性能自己也是差很少的。

因此你們就知道了，上面那個圖裏，Kafka在寫數據的時候，一方面基於了os層面的page cache來寫數據，因此性能很高，本質就是在寫內存罷了。

另一個，他是採用磁盤順序寫的方式，因此即便數據刷入磁盤的時候，性能也是極高的，也跟寫內存是差很少的。

基於上面兩點，kafka就實現了寫入數據的超高性能。

那麼你們想一想，假如說kafka寫入一條數據要耗費1毫秒的時間，那麼是否是每秒就是能夠寫入1000條數據？

可是假如kafka的性能極高，寫入一條數據僅僅耗費0.01毫秒呢？那麼每秒是否是就能夠寫入10萬條數？

因此要保證每秒寫入幾萬甚至幾十萬條數據的核心點，就是盡最大可能提高每條數據寫入的性能，這樣就能夠在單位時間內寫入更多的數據量，提高吞吐量。

二、零拷貝技術

說完了寫入這塊，再來談談消費這塊。

你們應該都知道，從Kafka裏咱們常常要消費數據，那麼消費的時候實際上就是要從kafka的磁盤文件裏讀取某條數據而後發送給下游的消費者，以下圖所示。

那麼這裏若是頻繁的從磁盤讀數據而後發給消費者，性能瓶頸在哪裏呢？

假設要是kafka什麼優化都不作，就是很簡單的從磁盤讀數據發送給下游的消費者，那麼大概過程以下所示：

先看看要讀的數據在不在os cache裏，若是不在的話就從磁盤文件裏讀取數據後放入os cache。

接着從操做系統的os cache裏拷貝數據到應用程序進程的緩存裏，再從應用程序進程的緩存裏拷貝數據到操做系統層面的Socket緩存裏，最後從Socket緩存裏提取數據後發送到網卡，最後發送出去給下游消費。

整個過程，以下圖所示：

你們看上圖，很明顯能夠看到有兩次不必的拷貝吧！

一次是從操做系統的cache裏拷貝到應用進程的緩存裏，接着又從應用程序緩存裏拷貝回操做系統的Socket緩存裏。

並且爲了進行這兩次拷貝，中間還發生了好幾回上下文切換，一下子是應用程序在執行，一下子上下文切換到操做系統來執行。

因此這種方式來讀取數據是比較消耗性能的。

Kafka爲了解決這個問題，在讀數據的時候是引入零拷貝技術。

也就是說，直接讓操做系統的cache中的數據發送到網卡後傳輸給下游的消費者，中間跳過了兩次拷貝數據的步驟，Socket緩存中僅僅會拷貝一個描述符過去，不會拷貝數據到Socket緩存。

你們看下圖，體會一下這個精妙的過程：

經過零拷貝技術，就不須要把os cache裏的數據拷貝到應用緩存，再從應用緩存拷貝到Socket緩存了，兩次拷貝都省略了，因此叫作零拷貝。

對Socket緩存僅僅就是拷貝數據的描述符過去，而後數據就直接從os cache中發送到網卡上去了，這個過程大大的提高了數據消費時讀取文件數據的性能。

並且你們會注意到，在從磁盤讀數據的時候，會先看看os cache內存中是否有，若是有的話，其實讀數據都是直接讀內存的。

若是kafka集羣通過良好的調優，你們會發現大量的數據都是直接寫入os cache中，而後讀數據的時候也是從os cache中讀。

至關因而Kafka徹底基於內存提供數據的寫和讀了，因此這個總體性能會極其的高。

說個題外話

，下回有機會給你們說一下Elasticsearch的架構原理，其實ES底層也是大量基於os cache實現了海量數據的高性能檢索的，跟Kafka原理相似。

三、最後的總結

經過這篇文章對kafka底層的頁緩存技術的使用，磁盤順序寫的思路，以及零拷貝技術的運用，你們應該就明白Kafka每臺機器在底層對數據進行寫和讀的時候採起的是什麼樣的思路，爲何他的性能能夠那麼高，作到每秒幾十萬的吞吐量。

這種設計思想對咱們平時本身設計中間件的架構，或者是出去面試的時候，都有很大的幫助。

End

（封面圖源網絡，侵權刪除）

掃描下方二維碼，備註：「資料」，獲取更多「祕製」精品學習資料

一大波微服務、分佈式、高併發、高可用的原創系列文章正在路上

歡迎掃描下方二維碼，持續關注：

石杉的架構筆記（id:shishan100）

十餘年BAT架構經驗傾囊相授

面試官：消息中間件如何實現每秒幾十萬的高併發寫入？【石杉的架構筆記】

目錄

一、頁緩存技術 + 磁盤順序寫

二、零拷貝技術

三、最後的總結