Hive中Order by和Sort by的區別是什麼?

時間 2021-01-17

原文原文鏈接

Hive基於HADOOP來執行分佈式程序的，和普通單機程序不同的一個特點就是最終的數據會產生多個子文件，每個reducer節點都會處理partition給自己的那份數據產生結果文件，這導致了在HADOOP環境下很難對數據進行全局排序，如果在HADOOP上進行order by全排序，會導致所有的數據集中在一臺reducer節點上，然後進行排序，這樣很可能會超過單個節點的磁盤和內存存儲能力導致任務失敗