Spark+Hbase 億級流量分析實戰（小巧高性能的ETL）

時間 2021-01-18

原文原文鏈接

在上一篇文章大豬已經介紹了日誌存儲設計方案，我們數據已經落地到數據中心上了，那接下來如何ETL呢？畢竟可是生產環境級別的，可不能亂來。其實只要解決幾個問題即可，不必要引入很大級別的組件來做，當然了各有各的千秋，本文主要從易懂、小巧、簡潔、高性能這三個方面去設計出發點，順便還實現了一個精巧的 Filebeat。設計 loghub功能要實現的功能就是掃描每天的增量日誌並寫入Hbase