Spark 中 Partition,Task,core,Executor的個數決定因素和關係

分區(Partition)數 我們都知道一個 RDD 中有多個 Partition,Partition 是 Spark RDD 計算的最小單元,決定了計算的併發度。 分區數如果遠小於集羣可用的 CPU 數,不利於發揮 Spark 的性能,還容易導致數據傾斜等問題。 分區數如果遠大於集羣可用的 CPU 數,會導致資源分配的時間過長,從而影響性能。 那麼,Partition 的數量是由什麼決定的呢?
相關文章
相關標籤/搜索