Spark的數據本地化

數據本地化對於Spark Job性能有着巨大影響。如果數據以及要計算它的代碼是在一起的,那麼性能必然會很高,若不在一起,則其中之一必須移動到另外一方機器上,通常移動代碼的速度會快得多。Spark基於這個數據本地化的原則來構建task調度算法的。 數據本地化:數據離計算它的代碼有多近。基於數據距離代碼的距離,有幾種數據本地化級別: 1. PROCESS_LOCAL :數據和計算它的代碼在同一個JVM
相關文章
相關標籤/搜索