Spark算子調優

1.mapPartitions 普通的map算子對RDD中的每一個元素進行操作,而mapPartitions算子對RDD中每一個分區進行操作。如果是普通的map算子,假設一個partition有1萬條數據,那麼map算子中的function要執行1萬次,也就是對每個元素進行操作。 如果是mapPartition算子,由於一個task處理一個RDD的partition,那麼一個task只會執行一次f
相關文章
相關標籤/搜索