Spark優化(三):對多次使用的RDD進行持久化

對多次使用的RDD進行持久化 當你在Spark代碼中多次對一個RDD做了算子操作後,恭喜,你已經實現Spark作業第一步的優化了,也就是儘可能複用RDD。此時就該在這個基礎之上,進行第二步優化了,也就是要保證對一個RDD執行多次算子操作時,這個RDD本身僅僅被計算一次。 Spark中對於一個RDD執行多次算子的默認原理是這樣的:每次你對一個RDD執行一個算子操作時,都會重新從源頭處計算一遍,計算出
相關文章
相關標籤/搜索