RDD----Spark編程讀書筆記

Spark 核心的概念是 Resilient Distributed Dataset (RDD):一個可並行操做的有容錯機制的數據集合。有 2 種方式建立 RDDs:第一種是在你的驅動程序中並行化一個已經存在的集合;另一種是引用一個外部存儲系統的數據集,例如共享的文件系統,HDFS,HBase或其餘Hadoop 數據格式的數據源。python 1. 並行集合 並行集合 (Parallelized
相關文章
相關標籤/搜索