spark結合hive數據傾斜的幾種解決方案

時間 2019-12-07

標籤 spark 結合 hive 數據傾斜幾種解決方案欄目 Spark 简体版

原文原文鏈接

數據傾斜表現：性能有的task執行很快，有的很慢或者內存溢出blog 定位數據傾斜的位置：內存用client模式提交，觀察log資源解決方案it 一、在hive etl時進行數據聚合，把key相同的數據聚合成一條數據，這樣就可能不用shuffle了，從而解決數據傾斜。io 當沒辦法對key進行聚合時也能夠選擇其它粒度聚合，好比數據中包含了幾個城市，幾個職業，能夠選擇合適的粒度聚合。a

>>阅读原文<<