hadoop內的各類join

今天決定把以前準備放到單臺服務器上作的一個算法拿到hadoop裏面完成。可是這個算法有兩個重點:屢次表關聯和屢次排序。以前用hadoop基本就是清洗數據,hive基本上也是sum和排序問題。因爲業務上每一個表都比較均勻,因此,一直都是join就ok。 可是最近這個項目,須要從外部導入兩個數據量很小的文件,有數據傾斜,因而開始考慮效率問題了。 看了不少別人的博客後,作以下理解:web reduce
相關文章
相關標籤/搜索