一個spark優化案例

時間 2021-01-15

標籤 spark 欄目 Spark 简体版

原文原文鏈接

一個實際的案例，sql處理邏輯很複雜，跑不動，只摘取關鍵邏輯的代碼進行分析。優化前 sql精簡後關鍵部分關鍵邏輯：從三個表取數據，然後分別inner join 數據特徵：臨時表1有16億+，臨時表2有4億+，臨時表3只有200+。 yarn資源管理頁面分析只有一個job，1000多個task，一直非常慢，跑到最後兩個task卡住了。進入job看看從截圖分析步驟 stage0：生成4億

>>阅读原文<<