Spark持久化以及checkpoint剖析

時間 2019-12-05

原文原文鏈接

在Spark 的持久化使用中，咱們會將一些常常使用到的數據進行持久化，好比使用cache()或者persist()方法進行持久化操做，可是當某個節點或者executor掛掉以後，持久化的數據會丟失，由於咱們的數據是保存在內存當中的，這時就會從新計算RDD，若是某個以前的RDD須要大量的計算時間，這時將會浪費不少時間，所以，咱們有時候須要使用checkpoint操做來將一些數據持久化可容錯文件系統中

>>阅读原文<<