Spark一些基礎原理——Cache

lv0 cache是Spark程序設計中比較重要的一環,是對RDD的中間結算結果進行持久化,截斷RDD的血統,這種持久化通常是多副本形式存在的。在Task發生調用RDD的compute計算時,其經過iterator進行計算,它會識別是否有緩存數據能夠調用,若是沒有則經過RDD繼續計算;若是有則BlockManager從Local或者Remote獲取數據,沒獲取到再檢查checkpoint中的數據,
相關文章
相關標籤/搜索