【Spark】Spark二:Spark RDD初步

什麼是RDD Spark是圍繞着RDD(Resilient Distributed Dataset,彈性分佈式數據集)建立起來的,也就是說,RDD是Spark框架的核心基石。RDD是一個可容錯的數據集,這個數據集合中的數據是可以並行處理的。   RDD的特點: A list of partitions 一系列的分片,比如說64M一片;類似於Hadoop中的split; A function for
相關文章
相關標籤/搜索