sparkstreaming實時寫入hive後合併小文件問題

時間 2019-12-15

標籤 sparkstreaming 實時寫入 hive 合併文件問題欄目 Hadoop 简体版

原文原文鏈接

今天主要來講一下sparksql寫入hive後小文件太多,影響查詢性能的問題.在另一篇博客裏面也稍微提到了一下,但仍是感受要單獨說一下,首先咱們要知道hive裏面文件的數量=executor-cores*num-executors*job數,因此若是咱們batchDuration的設置的比較小的話,天天在一個分區裏面就會生成不少的小文件,咱們在hive裏面查詢的時候就會很是的影響性能,下面介紹兩種

>>阅读原文<<