Spark結合源碼解決數據傾斜造成Too Large Frame

新公司遇到的第一個spark的坑,尋找原因的過程其實還挺有意思,最終在源碼和spark ui上的統計數據的幫助下找到根源,具體如下。 先說下問題 由於嚴重的數據傾斜,大量數據集中在單個task中,導致shuffle過程中發生異常 完整的exeception是這樣的 但奇怪的是,經過嘗試減小executor數量後任務反而成功,增大反而失敗,經過多次測試,問題穩定復現。 成功的executor數量是7
相關文章
相關標籤/搜索