Spark持久化以及checkpoint剖析

在Spark 的持久化使用中,咱們會將一些常常使用到的數據進行持久化,好比使用cache()或者persist()方法進行持久化操做,可是當某個節點或者executor掛掉以後,持久化的數據會丟失,由於咱們的數據是保存在內存當中的,這時就會從新計算RDD,若是某個以前的RDD須要大量的計算時間,這時將會浪費不少時間,所以,咱們有時候須要使用checkpoint操做來將一些數據持久化可容錯文件系統中
相關文章
相關標籤/搜索