Spark性能調優

開發調優 最基本的Spark性能優化,就是要優化你的代碼。Spark中rdd內部的轉換關係是一個DAG(有向無環圖),只有出發了action 算子纔開始計算。開始可以畫出計算pipeline,寫得多了腦子自然會形成計算的pipeline,在開發過程中,時時刻刻都要注意一些性能優化的基本原則。 原則一:避免創建重複的RDD,儘可能複用同一個RDD 對於同一份數據不要創建多個RDD,對不同的數據執行算
相關文章
相關標籤/搜索