Hive 分桶介紹(大數據學習19)

時間 2021-01-12

原文原文鏈接

1、order by 會對輸入做全局排序，因此只有一個reducer，會導致當輸入規模較大時，需要較長的計算時間。 2、sort by不是全局排序，其在數據進入reducer前完成排序。因此，如果用sort by進行排序，並且設置mapred.reduce.tasks>1，則sort by只保證每個reducer的輸出有序，不保證全局有序。 3、distribute by(字段)根據指定的字段將數

>>阅读原文<<