Spark數據傾斜---數據傾斜之解決方案

2.1 解決方案一:聚合原數據 1.避免shuffle過程· 絕大多數情況下,Spark作業的數據來源都是Hive表,這些Hive表基本都是經過ETL之後的昨天的數據。 爲了避免數據傾斜,我們可以考慮避免shuffle過程,如果避免了shuffle過程,那麼從根本上就消除了發生數據傾斜問題的可能。 如果Spark作業的數據來源於Hive表,那麼可以先在Hive表中對數據進行聚合,例如按照key進行
相關文章
相關標籤/搜索