[Hive]Hive排序優化

一、從order by 到 sort by order by:全局排序,大數據集會消耗太過漫長的時間 sort by:只會在每一個reducer 中對數據進行排序,也就是執行局部排序過程,只能保證每一個reducer的輸出數據都是有序的(但並不是全局有序) 二、sort by+distribute by distribute by控制map的輸出在reducer中是如何劃分的。假設咱們但願具備相同
相關文章
相關標籤/搜索