一塊兒學spark（12）-- 關於RDD和DataFrame 的緩存

時間 2019-12-06

標籤一塊兒 spark 關於 rdd dataframe 緩存欄目 Spark 简体版

原文原文鏈接

（1）Rdd持久化python 當調用RDD的persist()或者cache()方法時，這個RDD的分區會被存儲到緩存區中，Spark會根據spark.storage.memoryFraction 限制用來緩存的內存佔整個JVM堆空間的比例大小，若是超出限制，舊的分區數據會被移出內存。緩存 Spark默認的 cache() 操做會以MEMORY_ONLY 的存儲等級持久化數據，意味着

>>阅读原文<<