spark結合hive數據傾斜的幾種解決方案

數據傾斜表現:性能 有的task執行很快,有的很慢或者內存溢出blog   定位數據傾斜的位置:內存 用client模式提交,觀察log資源   解決方案it 一、在hive etl時進行數據聚合,把key相同的數據聚合成一條數據,這樣就可能不用shuffle了,從而解決數據傾斜。io 當沒辦法對key進行聚合時也能夠選擇其它粒度聚合,好比數據中包含了幾個城市,幾個職業,能夠選擇合適的粒度聚合。a
相關文章
相關標籤/搜索