spark快速大數據分析筆記-2

Spark快速大數據分析第三章-筆記 本章介紹Spark對數據的核心抽象--彈性分佈式數據集RDD,其實就是分佈式的元素集合。在Spark中,對數據的所有操作不外呼創建RDD,轉化已有RDD以及調用RDD操作進行求值。Spark會自動將RDD中的數據分發到集羣上,並將操作並行化執行。 RDD基礎 Spark中的RDD就是一個不可變的分佈式對象集合。每個RDD都被分爲多個分區,這些分區運行在集羣中的
相關文章
相關標籤/搜索