Spark性能優化研究--cache的用法

Spark性能優化研究–cache的用法 背景 最近在用spark訓練模型,數據量達到了50億量級,遇到了不少性能問題,特此進行了試驗總結。咱們使用cache或者persist內存持久化的目的,是爲了在之後的數據計算中減小數據讀取的時間,當要處理的數據量過大時,好比50億級,經常會遇到內存不夠,或者cache所需時間過長的問題。cache會破壞spark在作DAG優化執行計劃的時候的數據本地性(D
相關文章
相關標籤/搜索