【Spark】彈性分佈式數據集RDD概述

彈性分佈數據集RDD RDD(Resilient Distributed Dataset)是Spark的最基本抽象,是對分佈式內存的抽象使用,實現了以操做本地集合的方式來操做分佈式數據集的抽象實現。RDD是Spark最核心的東西,它表示已被分區,不可變的並可以被並行操做的數據集合,不一樣的數據集格式對應不一樣的RDD實現。RDD必須是可序列化的。RDD能夠cache到內存中,每次對RDD數據集的操
相關文章
相關標籤/搜索