spark調優的一些點

1.RDD操作的優化 不要創建數據相同的RDD兩次(多次) 通常創建一個RDD(讀取HDFS或者Hive中的文件),然後對這個RDD做一些算子操作,得到下一個RDD,如果同一個RDD創建了兩遍(數據相同),就會從磁盤中讀取兩次,會浪費大量的時間和性能。 RDD要儘可能的複用 如果需要RDD中的部分值,不需要創建一個新的RDD,這樣會多使用一次spark算子。 比如需要tuple中的第二個值,可以用
相關文章
相關標籤/搜索