7.spark mapPartition方法與map方法的區別

rdd的mapPartitions是map的一個變種,它們均可進行分區的並行處理。     二者的主要區別是調用的粒度不同:map的輸入變換函數是應用於RDD中每一個元素,而mapPartitions的輸入函數是應用於每一個分區。shell     假設一個rdd有10個元素,分紅3個分區。若是使用map方法,map中的輸入函數會被調用10次;而使用mapPartitions方法的話,其輸入函數會
相關文章
相關標籤/搜索