Spark Locality Level

分佈式計算系統的精粹在於移動計算而非移動數據,但是在實際的計算過程中,總存在着移動數據的情況。移動數據,將數據從一個節點移動到另一個節點進行計算,不但消耗了網絡IO,也消耗了磁盤IO,降低了整個計算的效率。Spark UI可以查看取數據情況   下面是Spark webUI監控Stage的一個圖:   PROCESS_LOCAL是指讀取緩存在本地節點的數據 NODE_LOCAL是指讀取本地節點硬盤
相關文章
相關標籤/搜索