hive數據傾斜優化策略

Hive數據傾斜 Group By 中的計算均衡優化     1.Map端部分聚合       先看看下面這條SQL,由於用戶的性別只有男和女兩個值 (未知)。如果沒有map端的部分聚合優化,map直接把groupby_key 當作reduce_key發送給reduce做聚合,就會導致計算不均衡的現象。雖然map有100萬個,但是reduce只有兩個在做聚合,每個reduce處理100億條記錄。 
相關文章
相關標籤/搜索