hive四種排序區別及使用(order by、sort by、distribute by 、cluster by)

order by 全局性排序,不管設置多少reduce task,只會啓動1個reduce task進行排序,因此當輸入規模較大時,需要較長的計算時間 當設置set mapred.reduce.tasks=2時,執行order by 排序語句,只顯示一個reduce sort by 根據reduce task數量,對每個reducer中的數據進行排序,只能保證局部有序。對全局結果集來說不是排序。
相關文章
相關標籤/搜索