RDD算子介紹

一、RDD算子簡介 spark在運行過程中通過算子對RDD進行計算,算子是RDD中定義的函數,可以對RDD中數據進行轉換和操作,如下圖 輸入:spark程序中數據從外部數據空間輸入到spark中的數據塊,通過BlockManager進行管理 運行:在spark數據形成RDD後,可以通過變換算子,如filter等對數據進行操作,並將RDD轉換爲新的RDD,通過Action算子,觸發Spark提交作業
相關文章
相關標籤/搜索