Spark 知識點

Spark小文件處理 1.通過Spark中的repartition()方法進行從分區。 2.降低spark的並行度,減少文件數量。 3. 新增一個並行化任務,以 group by 文件的形式合併小文件 spark接收kafka的兩種方式區別 Receive的方式(通過zk連接kafka隊列獲取數據) 保證數據高可用的情況下,要開啓預寫日誌,才能保證數據0丟失。 Direct的方式(直接到kafka
相關文章
相關標籤/搜索