Spark RDD中兩種算子之一:常見Transformation算子小結

RDD:彈性分佈式數據集,是一種特殊集合,支持多來源,有容錯機制,可以被緩存,支持並行操作,一個RDD代表多個分區裏的數據集。 RDD有兩種算子: 1.Transformation(轉換):屬於延遲Lazy計算,當一個RDD轉換成另一個RDD時並沒有立即進行轉換,僅僅是記住數據集的邏輯操作; 2.Action(執行):觸發Spark作業運行,真正觸發轉換算子的計算; RDD中算子的運行過程: 輸入
相關文章
相關標籤/搜索