Spark RDD之Partition

概要 Spark RDD主要由Dependency、Partition、Partitioner組成,Partition是其中之一。一份待處理的原始數據會被按照相應的邏輯(例如jdbc和hdfs的split邏輯)切分紅n份,每份數據對應到RDD中的一個Partition,Partition的數量決定了task的數量,影響着程序的並行度,因此理解Partition是瞭解spark背後運行原理的第一步。
相關文章
相關標籤/搜索