Spark的數據本地化

時間 2020-12-20

原文原文鏈接

數據本地化對於Spark Job性能有着巨大影響。如果數據以及要計算它的代碼是在一起的，那麼性能必然會很高，若不在一起，則其中之一必須移動到另外一方機器上，通常移動代碼的速度會快得多。Spark基於這個數據本地化的原則來構建task調度算法的。數據本地化：數據離計算它的代碼有多近。基於數據距離代碼的距離，有幾種數據本地化級別： 1. PROCESS_LOCAL :數據和計算它的代碼在同一個JVM

>>阅读原文<<