RDD經常使用算子的一些注意要點。

產生shuffle的算子,分區操做:repartition,coalesce。‘ByKey’操做(除了counting)如:groupByKey和reduceByKey。join操做:cogroup和join repartition源碼:web /** * Return a new RDD that has exactly numPartitions partitions. *
相關文章
相關標籤/搜索