大表join小表,獨鍾愛mapjoin

在Hive調優裏面,經常會問到一個很小的表和一個大表進行join,如何優化。   ​          Shuffle 階段代價非常昂貴,因爲它需要排序和合並。減少 Shuffle 和 Reduce 階段的代價可以提高任務性能。          MapJoin通常用於一個很小的表和一個大表進行join的場景,具體小表有多小,由參數hive.mapjoin.smalltable.filesize來
相關文章
相關標籤/搜索