Spark——控制算子

概念: 控制算子有三種,cache,persist,checkpoint,以上算子均可以將RDD持久化,持久化的單位是partition。cache和persist都是懶執行的。必須有一個action類算子觸發執行。checkpoint算子不只能將RDD持久化到磁盤,還能切斷RDD之間的依賴關係。java cache 默認將RDD的數據持久化到內存中。cache是懶執行。 注意:cache ()
相關文章
相關標籤/搜索