sparksql優化之路

最近一直因爲公司一個重要的做業,從Tez切換到sparksql,須要對sparksql進行優化。這個表都是left join,慢就慢在join階段算法 Tez以前根據優化參數,執行時間在7分鐘到12分鐘之間浮動,sparksql進行一些參數優化,一直在17到24分鐘浮動,效率過低。最後查看sparksql的執行時的shuffle階段發現,每一個表參與的shuffle數據量相差很大,最大的612GB
相關文章
相關標籤/搜索