spark中mapPartitions雙重循環或兩次遍歷(duplicate)

在spark當中一般須要對mapPartitions內部進行計算,這樣能夠在不進行網絡傳輸的狀況下,對數據進行局部計算網絡 而mapPartitions中的迭代器爲Iteratorcurl scala中的Iterator只能進行一次迭代,使用事後就消失了,因此在mapPartitions中既不能兩次遍歷url 如:一次mapPartitions求最大最小值spa val it = Iterator
相關文章
相關標籤/搜索