RDD持久化(緩存)

Spark RDD 是惰性求值的,而有時我們希望能多次使用同一個 RDD。如果簡單地對 RDD 調用行動操作,Spark 每次都會重算 RDD 以及它的所有依賴。這在迭代算法中消耗格外大,因爲迭代算法常常會多次使用同一組數據。 比如下面就是先對 RDD 作一次計數、再把該 RDD 輸出的一個小例子。 val result = input.map(x => x*x) println(result.c
相關文章
相關標籤/搜索