Spark數據傾斜之發現篇

時間 2021-01-09

標籤 spark 欄目 Spark 简体版

原文原文鏈接

用spark做大數據處理，不怕數據大，就怕發生數據傾斜，一發生數據傾斜，輕則spark job要跑很久才能結束，重則OOM，把一個executor的存儲空間撐爆，導致程序終止。一個spark job 是由多個stage組成的，stage之間具有先後關係，所以是串行執行的，一個stage是由多個task 組成的，每個task之間可以並行運行，一個stage的運行時間由耗時最長的那個task來決

>>阅读原文<<