Spark學習—RDD編程

RDD:彈性分佈式數據集(ResilientDistributed Dataset),是Spark對數據的核心抽象。RDD實際上是分佈式的元素集合。當Spark對數據操做和轉換時,會自動將RDD中的數據分發到集羣,並將操做並行化執行。java Spark中的RDD是一個不可變的分佈式對象集合。每一個RDD都倍分爲多個分區,這些分區運行在集羣中的不一樣節點。RDD能夠包含Python、Java、Sc
相關文章
相關標籤/搜索