hadoop內的各類join

時間 2019-12-05

標籤 hadoop 各類 join 欄目 Hadoop 简体版

原文原文鏈接

今天決定把以前準備放到單臺服務器上作的一個算法拿到hadoop裏面完成。可是這個算法有兩個重點：屢次表關聯和屢次排序。以前用hadoop基本就是清洗數據，hive基本上也是sum和排序問題。因爲業務上每一個表都比較均勻，因此，一直都是join就ok。可是最近這個項目，須要從外部導入兩個數據量很小的文件，有數據傾斜，因而開始考慮效率問題了。看了不少別人的博客後，作以下理解：web reduce

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。