Hive 數據傾斜解決方案(調優)

在作Shuffle階段的優化過程當中,遇到了數據傾斜的問題,形成了對一些狀況下優化效果不明顯。主要是由於在Job完成後的所獲得的Counters是整個Job的總和,優化是基於這些Counters得出的平均值,而因爲數據傾斜的緣由形成map處理數據量的差別過大,使得這些平均值能表明的價值下降。Hive的執行是分階段的,map處理數據量的差別取決於上一個stage的reduce輸出,因此如何將數據均勻
相關文章
相關標籤/搜索