Spark從入門到精通六------RDD的算子

RDD編程API RDD算子 算子是RDD中定義的方法,分爲轉換(transformantion)和動作(action)。Tranformation算子並不會觸發Spark提交作業,直至Action算子才提交任務執行,這是一個延遲計算的設計技巧,可以避免內存過快被中間計算佔滿,從而提高內存的利用率。 RDD擁有的操作比MR豐富的多,不僅僅包括Map、Reduce操作,還包括filter、sort、
相關文章
相關標籤/搜索