sparkstreaming 實時讀取kafka寫入hive優化（高流量）

時間 2020-06-11

標籤 sparkstreaming 實時讀取 kafka 寫入 hive 優化流量欄目 Kafka 简体版

原文原文鏈接

背景：node kafka流量在800M/s,前任留下的程序大量數據丟失，且邏輯生成複雜，查詢hive直接奔潰，優化從兩方面，程序優化及小文件合併（生成結果產生大量小文件）sql 程序直接上代碼，啥也不說了apache 程序json def main(args: Array[String]): Unit = { val sdf = new SimpleDateFormat("yyyy

>>阅读原文<<