Spark數據本地性

時間 2019-12-14

標籤 spark 數據本地欄目 Spark 简体版

原文原文鏈接

分佈式計算系統的精粹在於移動計算而非移動數據，可是在實際的計算過程當中，總存在着移動數據的狀況，除非是在集羣的全部節點上都保存數據的副本。移動數據，將數據從一個節點移動到另外一個節點進行計算，不但消耗了網絡IO，也消耗了磁盤IO，下降了整個計算的效率。爲了提升數據的本地性，除了優化算法（也就是修改spark內存，難度有點高），就是合理設置數據的副本。設置數據的副本，這須要經過配置參數並長期觀察運行

>>阅读原文<<