hive mapjoin 原理

1、什麼是MapJoin? MapJoin顧名思義,就是在Map階段進行表之間的連接。而不需要進入到Reduce階段才進行連接。這樣就節省了在Shuffle階段時要進行的大量數據傳輸。從而起到了優化作業的作用。 2、MapJoin的原理: 即在map 端進行join,其原理是broadcast join,即把小表作爲一個完整的驅動表來進行join操作。通常情況下,要連接的各個表裏面的數據會分佈在不
相關文章
相關標籤/搜索