hive 中的map join 操作

時間 2020-12-27

原文原文鏈接

今天遇到一個Hive的問題，如下hive sql： select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 該語句中B表有30億行記錄，A表只有100行記錄，而且B表中數據傾斜特別嚴重，有一個key上有15億行記錄，在運行過程中特別的慢，而且在reduece的過程中遇有內存不夠而報錯。爲了解決用戶的這個問題，考慮

>>阅读原文<<