reduceByKey、groupByKey以及combineByKey的區別

概述:這三種算子在spark中用的比較多。 reduceByKey: 是對key的value進行merge操作,在一個(K,V)的RDD上調用,返回一個(K,V)的RDD,使用指定的reduce函數,將相同key的值聚合到一起,與groupByKey類似,reduce任務的個數可以通過第二個可選的參數來設置,最重要的是它能夠在本地先進行merge操作,並且merge操作可以通過函數自定義; gro
相關文章
相關標籤/搜索