spark調優的一些點

時間 2021-01-02

原文原文鏈接

1.RDD操作的優化不要創建數據相同的RDD兩次（多次）通常創建一個RDD（讀取HDFS或者Hive中的文件），然後對這個RDD做一些算子操作，得到下一個RDD，如果同一個RDD創建了兩遍（數據相同），就會從磁盤中讀取兩次，會浪費大量的時間和性能。 RDD要儘可能的複用如果需要RDD中的部分值，不需要創建一個新的RDD，這樣會多使用一次spark算子。比如需要tuple中的第二個值，可以用

>>阅读原文<<