【Spark】--Spark中RDD的理解

1.什麼是RDD? RDD:RDD是Spark的計算模型 RDD(Resilient Distributed Dataset)叫做彈性的分佈式數據集合,是Spark中最基本的數據抽象,它代表一個不可變、只讀的,被分區的數據集。 操作RDD就像操作本地集合一樣,數據會被分散到多臺機器中(以分區爲單位)。     RDD是Spark中的一個基本抽象(可以理解爲代理) 有了RDD,就可以像操作本地的集合
相關文章
相關標籤/搜索