Spark學習-RDD編程基礎

1. RDD基礎概念 Spark上開發的應用程序都是由一個driver programe構成,這個所謂的驅動程序在Spark集羣經過跑main函數來執行各類並行操做。集羣上的全部節點進行並行計算須要共同訪問一個分區元素的集合,這就是RDD(RDD resilient distributed dataset)彈性分佈式數據集。RDD能夠存儲在內存或磁盤中,具備必定的容錯性,能夠在節點宕機重啓後恢復。
相關文章
相關標籤/搜索