Spark數據本地性

Spark中的數據本地性 分佈式計算系統的精粹在於移動計算而非移動數據,但是在實際的計算過程中,總存在着移動數據的情況,除非是在集羣的所有節點上都保存數據的副本。移動數據,將數據從一個節點移動到另一個節點進行計算,不但消耗了網絡IO,也消耗了磁盤IO,降低了整個計算的效率。爲了提高數據的本地性,除了優化算法(也就是修改spark內存,難度有點高),就是合理設置數據的副本。設置數據的副本,這需要通過
相關文章
相關標籤/搜索