sparkstreaming實時寫入hive後合併小文件問題

今天主要來講一下sparksql寫入hive後小文件太多,影響查詢性能的問題.在另一篇博客裏面也稍微提到了一下,但仍是感受要單獨說一下,首先咱們要知道hive裏面文件的數量=executor-cores*num-executors*job數,因此若是咱們batchDuration的設置的比較小的話,天天在一個分區裏面就會生成不少的小文件,咱們在hive裏面查詢的時候就會很是的影響性能,下面介紹兩種
相關文章
相關標籤/搜索