Spark調優：數據傾斜

時間 2020-12-25

原文原文鏈接

解決數據傾斜 1.使用Hive ETL預處理數據方案適用場景：如果導致數據傾斜的是Hive表。如果該Hive表中的數據本身很不均勻（比如某個key對應了100萬數據，其他key纔對應了10條數據），而且業務場景需要頻繁使用Spark對Hive表執行某個分析操作，那麼比較適合使用這種技術方案。方案實現思路：此時可以評估一下，是否可以通過Hive來進行數據預處理（即通過Hive ETL預先對數

>>阅读原文<<