spark 基於分區操做 mapPartitions

基於分區對數據進行操做可讓咱們避免爲每一個數據元素進行重複的配置工做。諸如打開數據庫鏈接或者建立隨機生成數等操做,都是咱們應當避免的爲每一個元素都配置一遍的工做。Spark提供基於分區的map和foreach,讓你的部分代碼只對RDD的每一個分區運行一次,這樣能夠幫助下降這些操做的代價。java 當基於分區操做RDD時,Spark會爲函數提供該分區中的元素的迭代器。返回值方面,也返回一個迭代器。m
相關文章
相關標籤/搜索