RDD持久化(緩存)

時間 2021-07-14

標籤 RDD持久化 checkpoint詳解 checkpoint cache persist 欄目 Spark 简体版

原文原文鏈接

Spark RDD 是惰性求值的，而有時我們希望能多次使用同一個 RDD。如果簡單地對 RDD 調用行動操作，Spark 每次都會重算 RDD 以及它的所有依賴。這在迭代算法中消耗格外大，因爲迭代算法常常會多次使用同一組數據。比如下面就是先對 RDD 作一次計數、再把該 RDD 輸出的一個小例子。 val result = input.map(x => x*x) println(result.c

>>阅读原文<<