reduceByKey、groupByKey以及combineByKey的區別

時間 2021-01-21

原文原文鏈接

概述：這三種算子在spark中用的比較多。 reduceByKey：是對key的value進行merge操作，在一個(K,V)的RDD上調用，返回一個(K,V)的RDD，使用指定的reduce函數，將相同key的值聚合到一起，與groupByKey類似，reduce任務的個數可以通過第二個可選的參數來設置，最重要的是它能夠在本地先進行merge操作，並且merge操作可以通過函數自定義； gro

>>阅读原文<<