Spark RDD 讀書筆記

RDD 簡介 Spark 中的RDD 就是一個不可變的分佈式對象集合。每個RDD 都被分爲多個分區,這些分區運行在集羣中的不同節點上。RDD 可以包含Python、Java、Scala 中任意類型的對象,甚至可以包含用戶自定義的對象。 用戶可以使用兩種方法創建RDD:讀取一個外部數據集,或在驅動器程序裏分發驅動器程序中的對象集合(比如list 和set)。 創建出來後,RDD 支持兩種類型的操作:
相關文章
相關標籤/搜索