Spark core算子aggregateByKey實例

groupbykey、reducebykey以及aggregateByKey groupbykey是全局聚合算子,將全部map task中的數據都拉取到shuffle中將key相同的數據進行聚合,它存在不少弊端,例如:將大量的數據進行網絡傳輸,浪費大量的資源,最重要的是若是數據量太大還會出現GC和OutOfMemoryError的錯誤,若是數據某個key的數據量遠大於其餘key的數據,在進行全局聚
相關文章
相關標籤/搜索