Spark數據本地性

時間 2021-01-04

原文原文鏈接

Spark中的數據本地性分佈式計算系統的精粹在於移動計算而非移動數據，但是在實際的計算過程中，總存在着移動數據的情況，除非是在集羣的所有節點上都保存數據的副本。移動數據，將數據從一個節點移動到另一個節點進行計算，不但消耗了網絡IO，也消耗了磁盤IO，降低了整個計算的效率。爲了提高數據的本地性，除了優化算法（也就是修改spark內存，難度有點高），就是合理設置數據的副本。設置數據的副本，這需要通過

>>阅读原文<<