hive優化及數據傾斜總結

時間 2019-12-04

標籤 hive 優化數據傾斜總結欄目 Hadoop 简体版

原文原文鏈接

在對hive進行優化以前應理解mapreduce的原理 map taskhtml 程序會根據InputFormat將輸入文件分割成splits，每一個split會做爲一個map task的輸入，每一個map task會有一個內存緩衝區，輸入數據通過map階段處理後的中間結果以及Partition結果都序列化成字節數組寫入到緩衝區，而整個內存緩衝區就是一個字節數組。緩衝區的做用：批量收集map結果，

>>阅读原文<<