Spark性能優化四之rdd持久化及checkpoint

如果程序中,對某一個RDD,基於它進行了多次transformation或者action操作。那麼就非常有必要對其進行持久化操作(cache()或persist()),以避免對一個RDD反覆進行計算。 除了對多次使用的RDD進行持久化操作之外,還可以進一步優化其性能。因爲很有可能,RDD的數據是持久化到內存,或者磁盤中的。那麼,此時,如果內存大小不是特別充足,完全可以使用序列化的持久化級別,比如M
相關文章
相關標籤/搜索