Spark的cache與checkpoint優化

1.SPARK中一些通用的或者重要的RDD最好是作一個cache緩存,緩存到內存或者硬盤中,這樣下次用到這個RDD數據的時候就不用從頭開始計算了,直接從緩存讀取便可!緩存 2因爲某種緣由也可能咱們用cache或者Persist緩存的RDD數據,也可能會出現緩存這些數據的一部分機子忽然掛掉等,若是此時還想更保險的保存該RDD的結果,最好就checkpoint一下,將checkpointDir設置爲H
相關文章
相關標籤/搜索