kafka-spark-hive

一、場景介紹:數據發往kafka(500億條天天),用spark讀取kafka的數據,寫入到hive表裏面(ORC壓縮算法,一個分區字段)算法 二、hive的介紹:hive表是分區表分區的字段是一個,想要使用動態分區,hive的壓縮算法是ORC FILEspa              使用spark的組件spark streaming 能夠流式的讀取kafka的數據,而且直接寫入到HDFS上。首
相關文章
相關標籤/搜索
本站公眾號
   歡迎關注本站公眾號,獲取更多信息