【Spark系列2】reduceByKey和groupByKey區別與用法

在spark中,咱們知道一切的操做都是基於RDD的。在使用中,RDD有一種很是特殊也是很是實用的format——pair RDD,即RDD的每一行是(key, value)的格式。這種格式很像Python的字典類型,便於針對key進行一些處理。html 針對pair RDD這樣的特殊形式,spark中定義了許多方便的操做,今天主要介紹一下reduceByKey和groupByKey,由於在接下來說
相關文章
相關標籤/搜索