Spark學習筆記(二)-彈性分佈式數據集RDDs

Spark-彈性分佈式數據集RDDs     在閱讀不少的Spark簡介中,都及多的提到RDDs這個名詞。官方文檔指出:Spark 核心的概念是 Resilient Distributed Dataset (RDD):一個可並行操做的有容錯機制的數據集合。這句話說明RDD的本質是集合,這個集合帶有並行操做和容錯機制。     官方文檔指出有兩種方式建立RDD,一種是在你的驅動程序中並行化一個已經存
相關文章
相關標籤/搜索