RDD源碼分析--Iterator

RDD,Resilient Distributed Datasets,彈性分佈式數據集。 在Spark中,通俗地可以認爲是一個數據集合,只不過這個數據集合分佈在不同的機器上,對外表現爲一個整體。 一般來講,對RDD進行操作比如map操作時分爲兩步,第一步爲局部操作,即是對每臺機器上的RDD的部分數據都進行map並行操作,第二步爲彙總操作,將每臺機器的執行結果進行彙總。 其中有一個問題是,RDD中的
相關文章
相關標籤/搜索