Hive數據翻倍總結

問題:spa 1.數據源數據重複。。很難發現。。依賴關係。。統計 2. 原本8千萬的數據和8千萬的數據一下left outer join後,變成了30億。。按道理仍是8kw。總結 3. 8千萬大表和幾十行的小表join,數據嚴重傾斜,到99.99%就是reduce不完。。最終OOM了。數據 總結以下:join 1. 數據源問題:  統計前,首先檢查各個數據源表,看是否有重複記錄,多是數據源的問題。
相關文章
相關標籤/搜索