一個spark優化案例

一個實際的案例,sql處理邏輯很複雜,跑不動,只摘取關鍵邏輯的代碼進行分析。 優化前 sql精簡後關鍵部分 關鍵邏輯:從三個表取數據,然後分別inner join 數據特徵:臨時表1有16億+,臨時表2有4億+,臨時表3只有200+。 yarn資源管理頁面分析 只有一個job,1000多個task,一直非常慢,跑到最後兩個task卡住了 。 進入job看看 從截圖分析步驟 stage0: 生成4億
相關文章
相關標籤/搜索