2.spark的RDD特性(Resillient Distributed Dataset)

1、RDD是Spark提供的核心抽象,全稱爲Resillient DistributedDataset,即彈性分佈式數據集。 2、RDD在抽象上來說是一種元素集合,包含了數據。它是被分區的,分爲多個分區,每個分區分佈在集羣中的不同節點上,從而讓RDD中的數據可以被並行操作。(分佈式數據集) 3、RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來進行創建;有時也可以通過應用程序中的
相關文章
相關標籤/搜索