Spark 數據全局排序實現以及RangePartitioner的使用示例

使用Java 隨機數類隨機生成0到Integer.MAX_VALUE之間的10GB文件,而後使用Spark計算框架進行全局排序。html 實現思路:能夠局部排序(局部數據是全局數據的某一個範圍)最後合併到全同一個文件,保證全局有序,這樣能夠設置一個reduce任務實現,可是對於更大量的數據容易出現OOM。若是不合併到同一個文件的話,能夠將每個分區有序的數據輸出到磁盤。最後借鑑Kafka的數據管理方
相關文章
相關標籤/搜索