hive.map.aggr、hive.groupby.skewindata執行過程

如果設置hive.map.aggr爲true,hive.groupby.skewindata爲true,執行流程如下: 會生成兩個job來執行group by,第一個job中,各個map是平均讀取分片的,在map階段對這個分片中的數據根據group by 的key進行局部聚合操作,這裏就相當於Combiner操作。 在第一次的job中,map輸出的結果隨機分區,這樣就可以平均分到reduce中 在
相關文章
相關標籤/搜索