spark小技巧-mapPartitions

與map方法相似,map是對rdd中的每個元素進行操做,而mapPartitions(foreachPartition)則是對rdd中的每一個分區的迭代器進行操做。若是在map過程當中須要頻繁建立額外的對象(例如將rdd中的數據經過jdbc寫入數據庫,map須要爲每一個元素建立一個連接而mapPartition爲每一個partition建立一個連接),則mapPartitions效率比map高的多
相關文章
相關標籤/搜索