Spark數據本地性

分佈式計算系統的精粹在於移動計算而非移動數據,可是在實際的計算過程當中,總存在着移動數據的狀況,除非是在集羣的全部節點上都保存數據的副本。移動數據,將數據從一個節點移動到另外一個節點進行計算,不但消耗了網絡IO,也消耗了磁盤IO,下降了整個計算的效率。爲了提升數據的本地性,除了優化算法(也就是修改spark內存,難度有點高),就是合理設置數據的副本。設置數據的副本,這須要經過配置參數並長期觀察運行
相關文章
相關標籤/搜索