sparkstreaming 實時讀取kafka寫入hive優化(高流量)

背景:node kafka流量在800M/s,前任留下的程序大量數據丟失,且邏輯生成複雜,查詢hive直接奔潰,優化從兩方面,程序優化及小文件合併(生成結果產生大量小文件)sql 程序直接上代碼,啥也不說了apache 程序json   def main(args: Array[String]): Unit = {     val  sdf = new SimpleDateFormat("yyyy
相關文章
相關標籤/搜索