Spark RDD及編程接口

1.介紹 對於一個Spark程序而言,一般情況下RDD操作之間的關係圖如下所示,經過輸入(創建)操作,轉換操作,輸出操作(action操作)來完成一個作業。 2.Spark RDD RDD是彈性分佈式數據集,即一個RDD代表了一個被分區的只讀數據集,RDD可以通過兩種方式生成,一種是來自內部或者外部的存儲系統,另一種是通過轉換操作(transform)來自其他的RDD,比如Map、filter、j
相關文章
相關標籤/搜索