57、Spark性能優化之數據本地化

數據本地化背景 數據本地化對於Spark Job性能有着巨大的影響。如果數據以及要計算它的代碼是在一起的,那麼性能當然會非常高。但是,如果數據和計算它的代碼是分開的,那麼其中之一必須到另外一方的機器上。通常來說,移動代碼到其他節點,會比移動數據到代碼所在的節點上去,速度要快得多,因爲代碼比較小。Spark也正是基於這個數據本地化的原則來構建task調度算法的。 數據本地化,指的是,數據離計算它的代
相關文章
相關標籤/搜索