spark 大型項目實戰(五十一):troubleshooting之錯誤的持久化方式以及checkpoint的使用

錯誤的持久化使用方式: usersRDD,想要對這個RDD做一個cache,希望能夠在後面多次使用這個RDD的時候,不用反覆重新計算RDD;可以直接使用通過各個節點上的executor的BlockManager管理的內存 / 磁盤上的數據,避免重新反覆計算RDD。 usersRDD.cache() usersRDD.count() usersRDD.take() 上面這種方式,不要說會不會生效了,
相關文章
相關標籤/搜索