百億級數據處理優化

時間 2020-06-06

原文原文鏈接

最近在作大數據處理時，遇到兩個大表 join 致使數據處理太慢（甚至算不出來）的問題。咱們的數倉基於阿里的 ODPS，它與 Hive 相似，因此這篇文章也適用於使用 Hive 優化。處理優化問題，通常是先指定一些經常使用的優化參數，可是當設置參數仍然不奏效的時候，咱們就要結合具體的業務，在 SQL 上作優化了。爲了避免增長你們的閱讀負擔，我會簡化這篇文章的業務描述。sql 問題這是一個離線數據處

>>阅读原文<<