1.大致的一個流程:前端
前端日誌數據 --> Nginx -->Logstash 生產者--> kafka -->Hdfs多線程
其中Logstash 生成者消息不少 按照topic區分 每個產品6個topic 每一個topic三個分區 ,kafka consumer有消費不過來的問題。測試
由於 多線程寫入HDFS 會有租約的問題 (這個目前沒有解決)spa
後續跟蹤記錄線程
Kafka Consumer 項目 配置一次拉取多條記錄 以及手工提交offset等日誌
明天 測試新的 寫入HDFS的方案。kafka