hive優化及數據傾斜總結

在對hive進行優化以前應理解mapreduce的原理 map taskhtml 程序會根據InputFormat將輸入文件分割成splits,每一個split會做爲一個map task的輸入,每一個map task會有一個內存緩衝區,輸入數據通過map階段處理後的中間結果以及Partition結果都序列化成字節數組寫入到緩衝區,而整個內存緩衝區就是一個字節數組。緩衝區的做用:批量收集map結果,
相關文章
相關標籤/搜索