第二篇一次查詢

時間 2021-01-17

原文原文鏈接

問題：sparksql用GROUPPING SETS同時做不同維度組合的聚合，原先剛剛好危險的在一個小時內跑完，又新加了兩個維度，維度組合翻倍（大致30個組合），結果要聚合的數據量也翻倍了。。。每次數據量大於2T，導致傾斜嚴重，運行慢的問題。(注，圖的筆記利用了兩個很相同的查詢，只是爲了說明一下情況) 嘗試改進1：用mr跑會不會更快？沒有，mr跑了2小時，spark跑了1個半小時（參數相同，只是把

>>阅读原文<<