Spark RDD使用詳解1--RDD原理

RDD簡介       在集羣背後,有一個很是重要的分佈式數據架構,即彈性分佈式數據集(Resilient Distributed Dataset,RDD)。RDD是Spark的最基本抽象,是對分佈式內存的抽象使用,實現了以操做本地集合的方式來操做分佈式數據集的抽象實現。RDD是Spark最核心的東西,它表示已被分區,不可變的並可以被並行操做的數據集合,不一樣的數據集格式對應不一樣的RDD實現。R
相關文章
相關標籤/搜索