Spark項目實戰-實際項目中常見的優化點-算子調優之MapPartitions

首先咱們應該知道在Spark中,最基本的原則就是每一個task處理一個RDD的partition。在mapToPair算子裏,partition中的數據以此傳遞到算子裏進行處理。假設一個partition裏有100條數據,那麼就須要處理100次。可是mapPartitionsToPair算子是將partitions中全部的數據一次性處理,這就大大提高了新能。性能 1、MapPartitions操做
相關文章
相關標籤/搜索