Spark學習之編程進階總結(二)

5、基於分區進行操做   基於分區對數據進行操做可讓咱們避免爲每一個數據元素進行重複的配置工做。諸如打開數據庫鏈接或建立隨機數生成器等操做,都是咱們應當儘可能避免爲每一個元素都配置一次的工做。Spark 提供基於分區的 map 和 foreach ,讓你的部分代碼只對 RDD 的每一個分區運行一次,這樣能夠幫助下降這些操做的代價。html   當基於分區操做 RDD 時,Spark 會爲函數提供該
相關文章
相關標籤/搜索