Spark性能優化研究--cache的用法

時間 2019-12-06

標籤 spark 性能優化研究 cache 用法欄目 Spark 简体版

原文原文鏈接

Spark性能優化研究–cache的用法背景最近在用spark訓練模型，數據量達到了50億量級，遇到了不少性能問題，特此進行了試驗總結。咱們使用cache或者persist內存持久化的目的，是爲了在之後的數據計算中減小數據讀取的時間，當要處理的數據量過大時，好比50億級，經常會遇到內存不夠，或者cache所需時間過長的問題。cache會破壞spark在作DAG優化執行計劃的時候的數據本地性(D

>>阅读原文<<