hive order、sort、distribute、cluster by區別與聯繫

1、order by hive中的order by 會對查詢結果集執行一個全局排序,這也就是說所有的數據都通過一個reduce進行處理的過程,對於大數據集,這個過程將消耗很大的時間來執行。 2、sort by hive的sort by 也就是執行一個局部排序過程。這可以保證每個reduce的輸出數據都是有序的(但並非全局有效)。這樣就可以提高後面進行的全局排序的效率了。對於這兩種情況,語法區別僅僅
相關文章
相關標籤/搜索