RDD的持久化

Spark最重要的一個功能,就是在不同操作間,持久化(或緩存)一個數據集在內存中。當你持久化一個RDD,每一個結點都將把它的計算分塊結果保存在內存中,並在對此數據集(或者衍生出的數據集)進行的其它動作中重用。這將使得後續的動作(Actions)變得更加迅速(通常快10倍)。緩存是用Spark構建迭代算法的關鍵。 你可以用persist()或cache()方法來標記一個要被持久化的RDD,然後一旦首
相關文章
相關標籤/搜索