Spark性能優化

1、程序編寫準則 準則一:從同一個數據源儘量只創建一個RDD,後續不同的業務邏輯可以複用該RDD,而不是基於該數據源重新創建一個新的RDD,這樣Spark僅僅需要從HDFS上加載一次文件的內容就可以了。 準則二:如果需要對某個RDD進行多次不同的Transformation和Action操作,可以考慮對該RDD進行持久化操作,以避免Action操作觸發作業時多次重複計算該RDD。 因爲Spark程
相關文章
相關標籤/搜索