Spark性能優化:提高並行度、使用reduceByKey

一、提高並行度 實際上Spark集羣的資源並不一定會被充分利用到,所以要儘量設置合理的並行度,來充分地利用集羣的資源。才能充分提高Spark應用程序的性能。 Spark會自動設置以文件作爲輸入源的RDD的並行度,依據其大小,比如HDFS,就會給每一個block創建一個partition,也依據這個設置並行度。對於reduceByKey等會發生shuffle的操作,就使用並行度最大的父RDD的並行度
相關文章
相關標籤/搜索