第二篇一次查詢

問題:sparksql用GROUPPING SETS同時做不同維度組合的聚合,原先剛剛好危險的在一個小時內跑完,又新加了兩個維度,維度組合翻倍(大致30個組合),結果要聚合的數據量也翻倍了。。。每次數據量大於2T,導致傾斜嚴重,運行慢的問題。(注,圖的筆記利用了兩個很相同的查詢,只是爲了說明一下情況) 嘗試改進1:用mr跑會不會更快?沒有,mr跑了2小時,spark跑了1個半小時(參數相同,只是把
相關文章
相關標籤/搜索