hive中order by 、sort by、distribute by、cluster by區別

1.Order By:全局排序,只有一個Reducer,所以當數據量很大的時候用order by會比較慢。 2.sort by:區內排序,每個Reducer內部進行排序,對全局結果集來說不是排序。 (使用sort by的話前提要設置一下reduce個數,set mapreduce.job.reduces=n,n爲reduce的個數,n>1) 例如按照部門編號從高到低進行排序,這裏我的reduce設
相關文章
相關標籤/搜索