Spark TeraSort 實現與調優

TeraSort簡介 TeraSort是爲Hadoop參加Sort Benchmark而開發的程序包。其中包含3個程序:html TeraGen:用來生成測試數據; TeraSort:用來對生成的測試數據進行排序; TeraValidate:用來校驗排序結果的正確性; Spark的TeraSort實現 參考ehiggs/spark-terasort以及RDD#sortBy的代碼,我本身實現了一個S
相關文章
相關標籤/搜索