sparksql優化之路

時間 2019-12-05

標籤 sparksql 優化之路简体版

原文原文鏈接

最近一直因爲公司一個重要的做業，從Tez切換到sparksql，須要對sparksql進行優化。這個表都是left join，慢就慢在join階段算法 Tez以前根據優化參數，執行時間在7分鐘到12分鐘之間浮動，sparksql進行一些參數優化，一直在17到24分鐘浮動，效率過低。最後查看sparksql的執行時的shuffle階段發現，每一個表參與的shuffle數據量相差很大，最大的612GB

>>阅读原文<<