RDD運行原理------學習筆記

RDD實現管道化,避免中間數據存儲;編程 RDD:是一個分佈式對象集合,本質上是一個只讀的分區記錄集合,每一個RDD可分紅多個分區,每一個分區就是一個數據集片斷,而且一個RDD的不一樣分區能夠被保存到集羣中不一樣的節點上,從而能夠在集羣中的不一樣節點上進行並行計算;網頁爬蟲 轉換(Transformation):map、join、groupby、filter等;粗粒度修改;不適合網頁爬蟲;實際上R
相關文章
相關標籤/搜索