Spark core算子aggregateByKey實例

時間 2019-12-05

標籤 spark core 算子 aggregatebykey 實例欄目 Spark 简体版

原文原文鏈接

groupbykey、reducebykey以及aggregateByKey groupbykey是全局聚合算子，將全部map task中的數據都拉取到shuffle中將key相同的數據進行聚合，它存在不少弊端，例如：將大量的數據進行網絡傳輸，浪費大量的資源，最重要的是若是數據量太大還會出現GC和OutOfMemoryError的錯誤，若是數據某個key的數據量遠大於其餘key的數據，在進行全局聚

>>阅读原文<<