Spark Locality Level

時間 2021-01-18

原文原文鏈接

分佈式計算系統的精粹在於移動計算而非移動數據，但是在實際的計算過程中，總存在着移動數據的情況。移動數據，將數據從一個節點移動到另一個節點進行計算，不但消耗了網絡IO，也消耗了磁盤IO，降低了整個計算的效率。Spark UI可以查看取數據情況下面是Spark webUI監控Stage的一個圖： PROCESS_LOCAL是指讀取緩存在本地節點的數據 NODE_LOCAL是指讀取本地節點硬盤

>>阅读原文<<