手把手教你 Spark 性能調優

0、背景 上週四接到反饋,集羣部分 spark 任務執行很慢,且經常出錯,參數改來改去怎麼都無法優化其性能和解決頻繁隨機報錯的問題。 看了下任務的歷史運行情況,平均時間 3h 左右,而且極其不穩定,偶爾還會報錯: 1、優化思路 任務的運行時間跟什麼有關? (1)數據源大小差異 在有限的計算下,job的運行時長和數據量大小正相關,在本例中,數據量大小基本穩定,可以排除是日誌量級波動導致的問題: (2
相關文章
相關標籤/搜索