Hive數據傾斜

時間 2019-12-11

標籤 hive 數據傾斜欄目 Hadoop 简体版

原文原文鏈接

哪些操做須要注意數據傾斜？

產生數據傾斜的緣由有哪些？

1)key分佈不均勻
2)業務數據自己的特性
3)建表時考慮不周
4)某些SQL語句自己就有數據傾斜算法

發生數據傾斜的表現？

任務進度長時間維持在99%（或100%），查看任務監控頁面，發現只有少許（1個或幾個）reduce子任務未完成。由於其處理的數據量和其餘reduce差別過大。單一reduce的記錄數與平均記錄數差別過大，一般可能達到3倍甚至更多。最長時長遠大於平均時長。sql

數據傾斜的解決方案有哪些？

一、參數調節 hive.map.aggr=true
Map 端部分聚合，至關於Combiner
hive.groupby.skewindata=true
有數據傾斜的時候進行負載均衡，當選項設定爲 true，生成的查詢計劃會有兩個 MR Job。第一個 MR Job 中，Map 的輸出結果集合會隨機分佈到 Reduce 中，每一個 Reduce 作部分聚合操做，並輸出結果，這樣處理的結果是相同的 Group By Key 有可能被分發到不一樣的 Reduce 中，從而達到負載均衡的目的；第二個 MR Job 再根據預處理的數據結果按照 Group By Key 分佈到 Reduce 中（這個過程能夠保證相同的 Group By Key 被分佈到同一個 Reduce 中），最後完成最終的聚合操做。負載均衡

2 SQL語句調節如何Join：框架

關於驅動表的選取，選用join key分佈最均勻的表做爲驅動表
作好列裁剪和filter操做，以達到兩表作join的時候，數據量相對變小的效果。
複製代碼

大小表Join：優化

使用map join讓小的維度表（1000條如下的記錄條數） 先進內存。在map端完成reduce.
複製代碼

大表Join大表：spa

把空值的key變成一個字符串加上隨機數，把傾斜的數據分到不一樣的reduce上，因爲null值關聯不上，處理後並不影響最終結果。
複製代碼

count distinct大量相同特殊值日誌

count distinct時，將值爲空的狀況單獨處理，若是是計算count distinct，能夠不用處理，直接過濾，在最後結果中加1。若是還有其餘計算，須要進行group by，能夠先將值爲空的記錄單獨處理，再和其餘計算結果進行union。
複製代碼

group by維度太小：code

採用sum() group by的方式來替換count(distinct)完成計算。
複製代碼

特殊狀況特殊處理：cdn

在業務邏輯優化效果的不大狀況下，有些時候是能夠將傾斜的數據單獨拿出來處理。最後union回去。
複製代碼

典型的發生數據傾斜的場景有哪些？

一、空值產生的數據傾斜場景：如日誌中，常會有信息丟失的問題，好比日誌中的 user_id，若是取其中的 user_id 和用戶表中的user_id 關聯，會碰到數據傾斜的問題。
解決方法1： user_id爲空的不參與關聯blog

select * from log a
  join users b
  on a.user_id is not null
  and a.user_id = b.user_id
union all
select * from log a
  where a.user_id is null;
複製代碼

解決方法2 ：賦與空值分新的key值

select *
  from log a
  left outer join users b
  on case when a.user_id is null then concat(‘hive’,rand() ) else a.user_id end = b.user_id;
複製代碼

結論：方法2比方法1效率更好，不但io少了，並且做業數也少了。解決方法1中 log讀取兩次，jobs是2。解決方法2 job數是1 。這個優化適合無效 id (好比 -99 , ’’, null 等) 產生的傾斜問題。把空值的 key 變成一個字符串加上隨機數，就能把傾斜的數據分到不一樣的reduce上 ,解決數據傾斜問題。

二、不一樣數據類型關聯產生數據傾斜
場景：用戶表中user_id字段爲int，log表中user_id字段既有string類型也有int類型。當按照user_id進行兩個表的Join操做時，默認的Hash操做會按int型的id來進行分配，這樣會致使全部string類型id的記錄都分配到一個Reducer中。

解決方法：把數字類型轉換成字符串類型

select * from users a
  left outer join logs b
  on a.usr_id = cast(b.user_id as string)
複製代碼

三、小表不小不大，怎麼用 map join 解決傾斜問題
使用 map join 解決小表(記錄數少)關聯大表的數據傾斜問題，這個方法使用的頻率很是高，但若是小表很大，大到map join會出現bug或異常，這時就須要特別的處理。如下例子:

select * from log a
  left outer join users b
  on a.user_id = b.user_id;
複製代碼

users 表有 600w+ 的記錄，把 users 分發到全部的 map 上也是個不小的開銷，並且 map join 不支持這麼大的小表。若是用普通的 join，又會碰到數據傾斜的問題。

解決方法：

select /*+mapjoin(x)*/* from log a
  left outer join (
    select  /*+mapjoin(c)*/d.*
      from ( select distinct user_id from log ) c
      join users d
      on c.user_id = d.user_id
    ) x
  on a.user_id = b.user_id;
複製代碼