Spark數據傾斜之發現篇

用spark做大數據處理,不怕數據大,就怕發生數據傾斜,一發生數據傾斜,輕則spark job要跑很久才能結束,重則OOM,把一個executor的存儲空間撐爆,導致程序終止。 一個spark job 是由多個stage組成的 ,stage之間具有先後關係,所以是串行執行的 ,一個stage是由多個task 組成的,每個task之間可以並行運行,一個stage的運行時間由耗時最長的那個task來決
相關文章
相關標籤/搜索