Spark數據傾斜---數據傾斜之解決方案

時間 2021-01-04

原文原文鏈接

2.1 解決方案一：聚合原數據 1.避免shuffle過程· 絕大多數情況下，Spark作業的數據來源都是Hive表，這些Hive表基本都是經過ETL之後的昨天的數據。爲了避免數據傾斜，我們可以考慮避免shuffle過程，如果避免了shuffle過程，那麼從根本上就消除了發生數據傾斜問題的可能。如果Spark作業的數據來源於Hive表，那麼可以先在Hive表中對數據進行聚合，例如按照key進行

>>阅读原文<<