【SPARK】- RDD持久化

因爲RDD的惰性求值機制,每次遇到行動操作,都會觸發一次從頭開始的計算。這對於迭代計算而言,代價是很大的,迭代計算經常需要多次重複使用同一組數據。 因此,可以通過持久化(緩存)機制避免這種重複計算的開銷 可以使用persist()方法對一個RDD標記爲持久化(標記持久化:出現persist()語句的地方,並不會馬上計算生成RDD並把它持久化,而是要等到遇到第一個行動操作觸發真正計算以後,纔會把計算
相關文章
相關標籤/搜索