Spark性能優化---數據本地化

什麼是數據本地化 如果數據以及要計算它的代碼是在一起的,那麼性能當然會非常高。但是,如果數據和計算它的代碼是分開的,那麼其中之一必須到另外一方的機器上。通常來說,移動代碼到其他節點,會比移動數據到代碼所在的節點上去,速度要快得多,因爲代碼比較小。Spark也正是基於這個數據本地化的原則來構建task調度算法的。數據本地化對於Spark Job性能有着巨大的影響。 數據本地化,指的是,數據離計算它的
相關文章
相關標籤/搜索