spark 大型項目實戰(四十一):算子調優之使用repartition解決Spark SQL低並行度的性能問題

時間 2019-12-04

標籤 spark 大型項目實戰四十一算子使用 repartition 解決 sql 並行性能問題欄目 Spark 简体版

原文原文鏈接

並行度：以前說過，並行度是本身能夠調節，或者說是設置的。web 一、spark.default.parallelism 二、textFile()，傳入第二個參數，指定partition數量（比較少用）算法我們的項目代碼中，沒有設置並行度，實際上，在生產環境中，是最好本身設置一下的。官網有推薦的設置方式，你的spark-submit腳本中，會指定你的application總共要啓動多少個execu

>>阅读原文<<