Spark獨到見解--3控制算子

  概念: 控制算子有三種,cache,persist,checkpoint,以上算子都可以將RDD持久化,持久化的單位是partition。 cache和persist都是懶執行的。必須有一個action類算子觸發執行。checkpoint算子不僅能將RDD持久化到磁盤,還能切斷RDD之間的依賴關係。 1、cache 默認將RDD的數據持久化到內存中。cache是懶執行。 注意:chche()
相關文章
相關標籤/搜索