hive.map.aggr、hive.groupby.skewindata執行過程

若是設置hive.map.aggr爲true,hive.groupby.skewindata爲true,執行流程以下:web 會生成兩個job來執行group by,第一個job中,各個map是平均讀取分片的,在map階段對這個分片中的數據根據group by 的key進行局部聚合操做,這裏就至關於Combiner操做。 在第一次的job中,map輸出的結果隨機分區,這樣就能夠平均分到reduce
相關文章
相關標籤/搜索