hadoop join之map side join

時間 2019-12-06

標籤 hadoop join map 欄目 Hadoop 简体版

原文原文鏈接

在本例中，咱們仍然採用上一例中的數據文件。之因此存在reduce side join，是由於在map階段不能獲取全部須要的join字段，即：同一個key對應的字段可能位於不一樣map中。Reduce side join是很是低效的，由於shuffle階段要進行大量的數據傳輸。Map side join是針對如下場景進行的優化：兩個待鏈接表中，有一個表很是大，而另外一個表很是小，以致於小表能夠直接存

>>阅读原文<<