Hive面試題:cluster by,order by,sort by distribute by的使用場景

order by:會對輸入作全局排序,所以只有一個Reducer(多個Reducer沒法保證全局有序),然而只有一個Reducer,會致使當輸入規模較大時,消耗較長的計算時間。算法 sort by:不是全局排序,其在數據進入reducer前完成排序,所以,若是用sort by進行排序,而且設置mapred.reduce.tasks>1,則sort by只會保證每一個reducer的輸出有序,並不保
相關文章
相關標籤/搜索