百億級數據處理優化

最近在作大數據處理時,遇到兩個大表 join 致使數據處理太慢(甚至算不出來)的問題。咱們的數倉基於阿里的 ODPS,它與 Hive 相似,因此這篇文章也適用於使用 Hive 優化。處理優化問題,通常是先指定一些經常使用的優化參數,可是當設置參數仍然不奏效的時候,咱們就要結合具體的業務,在 SQL 上作優化了。爲了避免增長你們的閱讀負擔,我會簡化這篇文章的業務描述。sql 問題 這是一個離線數據處
相關文章
相關標籤/搜索