圖解spark RDD緩存管理cacheManager和磁盤管理DiskStore/DiskBlockManager

RDD緩存管理cacheManager 當需要計算RDD時,需要避免重複計算的RDD。 什麼時候RDD可能會被重複計算?一般是寬依賴RDD, 即RDD的下游可能有多個, 但是另一個下游的拉去可能較慢, 那麼此時需要做緩存。 cacheManager只是對RDD的管理, 真正的緩存以及獲取是通過blockManager,然後根據內存情況選擇存內存還是存磁盤。 RDD不是一定會做緩存,這取決於存儲級別
相關文章
相關標籤/搜索