RDD運行原理------學習筆記

RDD實現管道化,避免中間數據存儲; RDD:是一個分佈式對象集合,本質上是一個只讀的分區記錄集合,每個RDD可分成多個分區,每個分區就是一個數據集片段,並且一個RDD的不同分區可以被保存到集羣中不同的節點上,從而可以在集羣中的不同節點上進行並行計算; 轉換(Transformation):map、join、groupby、filter等;粗粒度修改;不適合網頁爬蟲;實際上RDD已經被實踐證明可以
相關文章
相關標籤/搜索