Spark性能優化---數據本地化

時間 2020-12-21

原文原文鏈接

什麼是數據本地化如果數據以及要計算它的代碼是在一起的，那麼性能當然會非常高。但是，如果數據和計算它的代碼是分開的，那麼其中之一必須到另外一方的機器上。通常來說，移動代碼到其他節點，會比移動數據到代碼所在的節點上去，速度要快得多，因爲代碼比較小。Spark也正是基於這個數據本地化的原則來構建task調度算法的。數據本地化對於Spark Job性能有着巨大的影響。數據本地化，指的是，數據離計算它的

>>阅读原文<<