我太難了--kafka

時間 2020-01-01

標籤太難 kafka 欄目 Kafka 简体版

原文原文鏈接

背景

項目裏使用了kafka和spark做消息的流式處理，可是我對kafka一竅不通。每次測試找我kafka都是傻坐着，主管讓我花時間學習kafka。java

在大數據時代，分析，處理和挖掘海量數據成爲了目前技術領域的熱點和難點。kafka是一款開源，輕量，分佈式，可分區，可備份的消息系統。kafka可以很好地處理活躍的流數據，使得數據在各個子系統中高性能、低延時地不停流轉。node

kafka存儲數據使用的是文件系統。只要文件系統足夠大，數據就能夠一直追加。kafka也提供了數據最大保存時間，用戶能夠設置。由於是寫到硬盤上，因此節點故障，重啓後數據可恢復python

kafka使用文件系統存儲數據，按理說性能不會過高。但kafka採用順序寫，順序寫比文件的隨機寫快6000倍；
在寫入時採用零拷貝技術(在兩個文件描述符（打開或新建文件會返回文件描述符，讀寫文件都須要這個東西）之間進行操做，徹底內核操做)，避免了文件從用戶態轉變爲內核態的數據拷貝；
kafka支持數據壓縮和批量發送；
kafka每一個主題有多個分區；