Hive數據傾斜解決辦法總結

時間 2019-11-06

原文原文鏈接

數據傾斜是進行大數據計算時最常常遇到的問題之一。當咱們在執行HiveQL或者運行MapReduce做業時候，若是遇到一直卡在map100%,reduce99%通常就是遇到了數據傾斜的問題。數據傾斜實際上是進行分佈式計算的時候，某些節點的計算能力比較強或者須要計算的數據比較少，早早執行完了，某些節點計算的能力較差或者因爲此節點須要計算的數據比較多，致使出現其餘節點的reduce階段任務執行完成，可是這種節點的數據處理任務尚未執行完成。html

　　在hive中產生數據傾斜的緣由和解決方法：負載均衡

　　1）group by,我使用Hive對數據作一些類型統計的時候遇到過某種類型的數據量特別多，而其餘類型數據的數據量特別少。當按照類型進行group by的時候，會將相同的group by字段的reduce任務須要的數據拉取到同一個節點進行聚合，而當其中每一組的數據量過大時，會出現其餘組的計算已經完成而這裏還沒計算完成，其餘節點的一直等待這個節點的任務執行完成，因此會看到一直map 100% reduce 99%的狀況。分佈式

　　解決方法：set hive.map.aggr=true大數據

　　　　　　　set hive.groupby.skewindata=true優化

　　原理：hive.map.aggr=true 這個配置項表明是否在map端進行聚合，至關於combinerhtm

　　　　　hive.groupby.skwindata=true 當選項設定爲 true，生成的查詢計劃會有兩個 MR Job。第一個 MR Job 中，Map 的輸出結果集合會隨機分佈到 Reduce 中，每一個 Reduce 作部分聚合操做，並輸出結果，這樣處理的結果是相同的 Group By Key 有可能被分發到不一樣的 Reduce 中，從而達到負載均衡的目的；第二個 MR Job 再根據預處理的數據結果按照 Group By Key 分佈到 Reduce 中（這個過程能夠保證相同的 Group By Key 被分佈到同一個 Reduce 中），最後完成最終的聚合操做。blog

　　2）map和reduce優化。內存

　　　　1.當出現小文件過多，須要合併小文件。能夠經過set hive.merge.mapfiles=true來解決。文檔

　　　 2.單個文件大小稍稍大於配置的block塊的大寫，此時須要適當增長map的個數。解決方法：set mapred.map.tasks個數get

　　　 3.文件大小適中，但map端計算量很是大，如select id,count(*),sum(case when...),sum(case when...)...須要增長map個數。解決方法：set mapred.map.tasks個數，set mapred.reduce.tasks個數

　　3）當HiveQL中包含count（distinct）時

若是數據量很是大，執行如select a,count(distinct b) from t group by a;類型的SQL時，會出現數據傾斜的問題。

解決方法：使用sum...group by代替。如select a,sum(1) from (select a, b from t group by a,b) group by a;

　　4）當遇到一個大表和一個小表進行join操做時。

　　解決方法：使用mapjoin 將小表加載到內存中。

　　如：select /*+ MAPJOIN(a) */

　　　　　　a.c1, b.c1 ,b.c2

　　　　　from a join b