Spark性能調優----代碼方面的優化

  Spark性能調優之代碼方面的優化 1.避免創建重複的RDD     對性能沒有問題,但會造成代碼混亂   2.儘可能複用同一個RDD,減少產生RDD的個數   3.對多次使用的RDD進行持久化(cache,persist,checkpoint) 如何選擇一種最合適的持久化策略?      默認MEMORY_ONLY, 性能很高, 而且不需要複製一份數據的副本,遠程傳送到其他節點上(Block
相關文章
相關標籤/搜索