Hive中Order by和Sort by的區別是什麼?

Hive基於HADOOP來執行分佈式程序的,和普通單機程序不同的一個特點就是最終的數據會產生多個子文件,每個reducer節點都會處理partition給自己的那份數據產生結果文件,這導致了在HADOOP環境下很難對數據進行全局排序,如果在HADOOP上進行order by全排序,會導致所有的數據集中在一臺reducer節點上,然後進行排序,這樣很可能會超過單個節點的磁盤和內存存儲能力導致任務失敗
相關文章
相關標籤/搜索