「戲」說Spark-Spark核心-RDD 持久化機制詳解

時間 2020-12-26

原文原文鏈接

「戲」說Spark-Spark核心-RDD 持久化機制詳解簡介我們知道RDD之間的血統關係可以使得RDD擁有很好的容錯，RDD還有一個叫持久化的機制，就是在不同操作間，持久化（或緩存）一個數據集在內存中。當你持久化一個RDD，每一個結點都將把它的計算分塊結果保存在內存中，並在對此數據集（或者衍生出的數據集）進行的其它動作中重用。這將使得後續的動作（action）變得更加迅速（通常快10倍）。緩

>>阅读原文<<