Apache Kafka在大型應用中的20項最佳實踐

一位軟件工程師將經過本文向您呈現Apache Kafka在大型應用中的20項最佳實踐。Apache Kafka是一款流行的分佈式數據流平臺，它已經普遍地被諸如New Relic（數據智能平臺）、Uber、Square（移動支付公司）等大型公司用來構建可擴展的、高吞吐量的、且高可靠的實時數據流系統。

Apache Kafka是一款流行的分佈式數據流平臺，它已經普遍地被諸如New Relic（數據智能平臺）、Uber、Square（移動支付公司）等大型公司用來構建可擴展的、高吞吐量的、且高可靠的實時數據流系統。例如，在New Relic的生產環境中，Kafka羣集每秒可以處理超過1500萬條消息，並且其數據聚合率接近1 Tbps。git

可見，Kafka大幅簡化了對於數據流的處理，所以它也得到了衆多應用開發人員和數據管理專家的青睞。然而，在大型系統中Kafka的應用會比較複雜。若是您的consumers沒法跟上數據流的話，各類消息每每在未被查看以前就已經消失掉了。同時，它在自動化數據保留方面的限制，高流量的發佈+訂閱（publish-subscribe，pub/sub）模式等，可能都會影響到您系統的性能。能夠絕不誇張地說，若是那些存放着數據流的系統沒法按需擴容、或穩定性不可靠的話，估計您常常會寢食難安了。github

爲了減小上述複雜性，我在此分享New Relic公司爲Kafka集羣在應對高吞吐量方面的20項最佳實踐。我將從以下四個方面進行展開：算法

Partitions（分區）
Consumers（消費者）
Producers（生產者）
Brokers（代理）

快速瞭解Kafka的概念與架構

Kafka是一種高效的分佈式消息系統。在性能上，它具備內置的數據冗餘度與彈性，也具備高吞吐能力和可擴展性。在功能是，它支持自動化的數據保存限制，可以以「流」的方式爲應用提供數據轉換，以及按照「鍵-值（key-value）」的建模關係「壓縮」數據流。apache

要了解各類最佳實踐，您須要首先熟悉以下關鍵術語：緩存

Message（消息）：Kafka中的一條記錄或數據單位。每條消息都有一個鍵和對應的一個值，有時還會有可選的消息頭。
Producer（生產者）：producer將消息發佈到Kafka的topics上。producer決定向topic分區的發佈方式，如：輪詢的隨機方法、或基於消息鍵（key）的分區算法。
Broker（代理）：Kafka以分佈式系統或集羣的方式運行。那麼羣集中的每一個節點稱爲一個broker。
Topic（主題）：topic是那些被髮布的數據記錄或消息的一種類別。消費者經過訂閱topic，來讀取寫給它們的數據。
Topic partition（主題分區）：不一樣的topic被分爲不一樣的分區，而每一條消息都會被分配一個offset，一般每一個分區都會被複制至少一到兩次。每一個分區都有一個leader和存放在各個follower上的一到多個副本（即：數據的副本），此法可防止某個broker的失效。羣集中的全部broker均可以做爲leader和follower，可是一個broker最多隻能有一個topic partition的副本。Leader可被用來進行全部的讀寫操做。
Offset（偏移量）：單個分區中的每一條消息都被分配一個offset，它是一個單調遞增的整型數，可用來做爲分區中消息的惟一標識符。
Consumer（消費者）：consumer經過訂閱topic partition，來讀取Kafka的各類topic消息。而後，消費類應用處理會收到消息，以完成指定的工做。
Consumer group（消費組）：consumer能夠按照consumer group進行邏輯劃分。topic partition被均衡地分配給組中的全部consumers。所以，在同一個consumer group中，全部的consumer都以負載均衡的方式運做。換言之，同一組中的每個consumer都能看到每一條消息。若是某個consumer處於「離線」狀態的話，那麼該分區將會被分配給同組中的另外一個consumer。這就是所謂的「再均衡（rebalance）」。固然，若是組中的consumer多於分區數，則某些consumer將會處於閒置的狀態。相反，若是組中的consumer少於分區數，則某些consumer會得到來自一個以上分區的消息。
Lag（延遲）：當consumer的速度跟不上消息的產生速度時，consumer就會由於沒法從分區中讀取消息，而產生延遲。延遲表示爲分區頭後面的offset數量。從延遲狀態（到「追遇上來」）恢復正常所須要的時間，取決於consumer每秒可以應對的消息速度。其公式以下：

time = messages / (consume rate per second - produce rate per second)markdown

針對Partitions的最佳實踐

瞭解分區的數據速率，以確保提供合適的數據保存空間。此處所謂「分區的數據速率」是指數據的生成速率。換言之，它是由「平均消息大小」乘以「每秒消息數」得出的。數據速率決定了在給定時間內，所能保證的數據保存空間的大小（以字節爲單位）。若是您不知道數據速率的話，則沒法正確地計算出知足基於給定時間跨度的數據，所須要保存的空間大小。同時，數據速率也可以標識出單個consumer在不產生延時的狀況下，所須要支持的最低性能值。
除非您有其餘架構上的須要，不然在寫topic時請使用隨機分區。在您進行大型操做時，各個分區在數據速率上的良莠不齊是很是難以管理的。其緣由來自於以下三個方面：
- 首先，「熱」（有較高吞吐量）分區上的consumer勢必會比同組中的其餘consumer處理更多的消息，所以極可能會致使出如今處理上和網絡上的瓶頸。
- 其次，那些爲具備最高數據速率的分區，所配置的最大保留空間，會致使topic中其餘分區的磁盤使用量也作相應地增加。
- 第三，根據分區的leader關係所實施的最佳均衡方案，比簡單地將leader關係分散到全部broker上，要更爲複雜。在同一topic中，「熱」分區會「承載」10倍於其餘分區的權重。

有關topic partition的使用，您能夠參閱《Kafka Topic Partition的各類有效策略》（https://blog.newrelic.com/engineering/effective-strategies-kafka-topic-partitioning/），以瞭解更多。網絡

針對Consumers的最佳實踐

若是consumers運行的是比Kafka 0.10還要舊的版本，那麼請立刻升級。在0.8.x 版中，consumer使用Apache ZooKeeper來協調consumer group，而許多已知的bug會致使其長期處於再均衡狀態，或是直接致使再均衡算法的失敗（咱們稱之爲「再均衡風暴」）。所以在再均衡期間，一個或多個分區會被分配給同一組中的每一個consumer。而在再均衡風暴中，分區的全部權會持續在各個consumers之間流轉，這反而阻礙了任何一個consumer去真正獲取分區的全部權。
調優consumer的套接字緩衝區（socket buffers），以應對數據的高速流入。在Kafka的0.10.x版本中，參數receive.buffer.bytes的默認值爲64 kB。而在Kafka的0.8.x版本中，參數socket.receive.buffer.bytes的默認值爲100 kB。這兩個默認值對於高吞吐量的環境而言都過小了，特別是若是broker和consumer之間的網絡帶寬延遲積（bandwidth-delay product）大於局域網（local area network，LAN）時。對於延遲爲1毫秒或更多的高帶寬的網絡（如10 Gbps或更高），請考慮將套接字緩衝區設置爲8或16 MB。若是您的內存不足，也至少考慮設置爲1 MB。固然，您也能夠設置爲-1，它會讓底層操做系統根據網絡的實際狀況，去調整緩衝區的大小。可是，對於須要啓動「熱」分區的consumers來講，自動調整可能不會那麼快。
設計具備高吞吐量的consumers，以便按需實施背壓（back-pressure）。一般，咱們應該保證系統只去處理其能力範圍內的數據，而不要超負荷「消費」，進而致使進程中斷「掛起」，或出現consume group的溢出。若是是在Java虛擬機（JVM）中運行，consumers應當使用固定大小的緩衝區（請參見Disruptor模式：http://lmax-exchange.github.io/disruptor/files/Disruptor-1.0.pdf），並且最好是使用堆外內存（off-heap）。固定大小的緩衝區可以阻止consumer將過多的數據拉到堆棧上，以致於JVM花費掉其全部的時間去執行垃圾回收，進而沒法履行其處理消息的本質工做。
在JVM上運行各類consumers時，請警戒垃圾回收對它們可能產生的影響。例如，長時間垃圾回收的停滯，可能致使ZooKeeper的會話被丟棄、或consumer group處於再均衡狀態。對於broker來講也如此，若是垃圾回收停滯的時間太長，則會產生集羣掉線的風險。

針對Producers的最佳實踐

配置producer，以等待各類確認。籍此producer可以獲知消息是否真正被髮送到了broker的分區上。在Kafka的0.10.x版本上，其設置是acks；而在0.8.x版本上，則爲request.required.acks。Kafka經過複製，來提供容錯功能，所以單個節點的故障、或分區leader關係的更改不會影響到系統的可用性。若是您沒有用acks來配置producer（或稱「fire and forget」）的話，則消息可能會悄然丟失。
爲各個producer配置retries。其默認值爲3，固然是很是低的。不過，正確的設定值取決於您的應用程序，即：就那些對於數據丟失零容忍的應用而言，請考慮設置爲Integer.MAX_VALUE（有效且最大）。這樣將可以應對broker的leader分區出現沒法馬上響應produce請求的狀況。
爲高吞吐量的producer，調優緩衝區的大小，特別是buffer.memory和batch.size（以字節爲單位）。因爲batch.size是按照分區設定的，而producer的性能和內存的使用量，均可以與topic中的分區數量相關聯。所以，此處的設定值將取決於以下幾個因素：producer數據速率（消息的大小和數量）、要生成的分區數、以及可用的內存量。請記住，將緩衝區調大並不老是好事，若是producer因爲某種緣由而失效了（例如，某個leader的響應速度比確認還要慢），那麼在堆內內存（on-heap）中的緩衝的數據量越多，其須要回收的垃圾也就越多。
檢測應用程序，以跟蹤諸如生成的消息數、平均消息大小、以及已使用的消息數等指標。

針對Brokers的最佳實踐

在各個brokers上，請壓縮topics所需的內存和CPU資源。日誌壓縮（請參見https://kafka.apache.org/documentation/#compaction）須要各個broker上的堆棧（內存）和CPU週期都能成功地配合實現。而若是讓那些失敗的日誌壓縮數據持續增加的話，則會給brokers分區帶來風險。您能夠在broker上調整log.cleaner.dedupe.buffer.size和log.cleaner.threads這兩個參數，可是請記住，這兩個值都會影響到各個brokers上的堆棧使用。若是某個broker拋出OutOfMemoryError異常，那麼它將會被關閉、並可能形成數據的丟失。而緩衝區的大小和線程的計數，則取決於須要被清除的topic partition數量、以及這些分區中消息的數據速率與密鑰的大小。對於Kafka的0.10.2.1版本而言，經過ERROR條目來監控日誌清理程序的日誌文件，是檢測其線程可能出現問題的最可靠方法。
經過網絡吞吐量來監控brokers。請監控發向（transmit，TX）和收向（receive，RX）的流量，以及磁盤的I/O、磁盤的空間、以及CPU的使用率，並且容量規劃是維護羣集總體性能的關鍵步驟。
在羣集的各個brokers之間分配分區的leader關係。Leader一般會須要大量的網絡I/O資源。例如，當咱們將複製因子（replication factor）配置爲三、並運行起來時，leader必須首先獲取分區的數據，而後將兩套副本發送給另兩個followers，進而再傳輸到多個須要該數據的consumers上。所以在該例子中，單個leader所使用的網絡I/O，至少是follower的四倍。並且，leader還可能須要對磁盤進行讀操做，而follower只需進行寫操做。
不要忽略監控brokers的in-sync replica（ISR）shrinks、under-replicated partitions和unpreferred leaders。這些都是集羣中潛在問題的跡象。例如，單個分區頻繁出現ISR收縮，則暗示着該分區的數據速率超過了leader的能力，已沒法爲consumer和其餘副本線程提供服務了。
按需修改Apache Log4j（https://github.com/apache/kafka/blob/trunk/config/log4j.properties）的各類屬性。Kafka的broker日誌記錄會耗費大量的磁盤空間，可是咱們卻不能徹底關閉它。由於有時在發生事故以後，須要重建事件序列，那麼broker日誌就會是咱們最好的、甚至是惟一的方法。
禁用topic的自動建立，或針對那些未被使用的topics創建清除策略。例如，在設定的x天內，若是未出現新的消息，您應該考慮該topic是否已經失效，並將其從羣集中予以刪除。此舉可避免您花時間去管理羣集中被額外建立的元數據。
對於那些具備持續高吞吐量的brokers，請提供足夠的內存，以免它們從磁盤子系統中進行讀操做。咱們應儘量地直接從操做系統的緩存中直接獲取分區的數據。然而，這就意味着您必須確保本身的consumers可以跟得上「節奏」，而對於那些延遲的consumer就只能強制broker從磁盤中讀取了。
對於具備高吞吐量服務級別目標（service level objectives，SLOs）的大型羣集，請考慮爲brokers的子集隔離出不一樣的topic。至於如何肯定須要隔離的topics，則徹底取決於您本身的業務須要。例如，您有一些使用相同羣集的聯機事務處理（multiple online transaction processing，OLTP）系統，那麼將每一個系統的topics隔離到不一樣brokers子集中，則可以有助於限制潛在事件的影響半徑。
在舊的客戶端上使用新的topic消息格式。應當代替客戶端，在各個brokers上加載額外的格式轉換服務。固然，最好仍是要儘可能避免這種狀況的發生。
不要錯誤地認爲在本地主機上測試好broker，就能表明生產環境中的真實性能了。要知道，若是使用複製因子爲1，並在環回接口上對分區所作的測試，是與大多數生產環境大相徑庭的。在環回接口上網絡延遲幾乎能夠被忽略的，而在不涉及到複製的狀況下，接收leader確認所需的時間則一樣會出現巨大的差別。

其餘資源

但願上述各項建議可以有助於您更有效地去使用Kafka。若是您想提升本身在Kafka方面的專業知識，請進一步查閱Kafka配套文檔中的「操做」部分，其中包含了有關操做羣集等實用信息。此外，Confluent（https://www.confluent.io/）也會按期舉行併發布各類在線討論，以幫助您更好地瞭解Kafka。架構

原文標題：20 Best Practices for Working With Apache Kafka at Scale，做者： Tony Mancill併發

原文：http://os.51cto.com/art/201808/582379.htm負載均衡