Spark-RDD編程之RDD特性

Apache將RDD定義爲彈性分佈式數據集,它是Spark應用程序中數據的基本組織形式。彈性意味着RDD能夠自動地進行內存和磁盤數據存儲的切換,並且具有非常高的容錯性;分佈式說明RDD是一個存儲在多個節點上的海量數據集合。RDD是一種高度受限的共享內存模型,即RDD是隻讀的記錄分區的集合。RDD具有自動容錯、位置感知調度和可伸縮性等數據流模型的特點。 一:分區 RDD中的數據可能是TB、PB級別的
相關文章
相關標籤/搜索