Hive優化系列之Map與Reduce數量選擇

注意,如下操做都是針對非分桶表node map數量算法 算法 MapTask的個數=輸入文件總大小/分片尺寸,我的理解就是輸出的文件數量 緣由:系統對輸入的源文件依照Block的尺寸分片,並在執行Job時安排一個Map Task處理一個Block的 或者由mapred.map.task數量決定,可是若是這個參數不合理的話,會失效 小文件不分片 壓縮文件沒法被切分 優化建議 優化緣由 map數量過少
相關文章
相關標籤/搜索