10.2 spark算子介紹

算子: 轉換算子:RDD進行內部轉化,不消耗資源 行動算子:執行job,消耗資源,要看到執行結果必須要行動算子 控制算子   轉換算子 map 遍歷的單位是每一條記錄 , 返回值是一條記錄 flatMap 遍歷的單位也是每一條記錄,但是返回值可以是多條 filter 過濾算子 true爲保留 false 過濾掉 mapPartitions 遍歷的單位是每一個分區,每一個分區的數據會一次性加載一個集
相關文章
相關標籤/搜索