Spark快速大數據分析之RDD基礎

RDD基礎 Spark 中的RDD 就是一個不可變的分佈式對象集合。每一個RDD 都被分爲多個分區,這些分區運行在集羣中的不一樣節點上。RDD 能夠包含Python、Java、Scala中任意類型的對象,甚至能夠包含用戶自定義的對象。 python 用戶可使用兩種方法建立RDD:讀取一個外部數據集,或在驅動器程序裏分發驅動器程序中的對象集合(好比list 和set)。web RDD支持兩種類型的操
相關文章
相關標籤/搜索