Spark 基礎 —— RDD(建立 RDD)的兩種方式

彈性分佈式數據集(Resilient Distributed Dataset),簡稱 RDD,RDD 是 Spark 所提供的最基本的數據抽象,表明分佈在集羣中多臺機器上的對象集合。Spark 有兩種方法能夠建立 RDD:web 用 SparkContext 基於外部數據源建立 RDD,外部數據源包括 HDFS 上的文件 經過 JDBC 訪問的數據庫表 Spark shell 建立的本地對象集合
相關文章
相關標籤/搜索