Spark 數據全局排序實現以及RangePartitioner的使用示例

時間 2019-12-05

標籤 spark 數據全局排序實現以及 rangepartitioner 使用示例欄目 Spark 简体版

原文原文鏈接

使用Java 隨機數類隨機生成0到Integer.MAX_VALUE之間的10GB文件，而後使用Spark計算框架進行全局排序。html 實現思路：能夠局部排序(局部數據是全局數據的某一個範圍)最後合併到全同一個文件，保證全局有序，這樣能夠設置一個reduce任務實現，可是對於更大量的數據容易出現OOM。若是不合併到同一個文件的話，能夠將每個分區有序的數據輸出到磁盤。最後借鑑Kafka的數據管理方

>>阅读原文<<