[spark 面試] cache/persist/checkpoint

          1. cache與persist cache 能夠讓重複數據在同一個 application 中的 jobs 間共享。RDD的cache()方法其實調用的就是persist方法,緩存策略均爲MEMORY_ONLY。 下面簡單引入一下cache的機制: 哪些 RDD 需要 cache? 會被重複使用的(但不能太大)。 用戶怎麼設定哪些 RDD 要 cache? 因爲用戶只與 dr
相關文章
相關標籤/搜索