SparkSQL中的三種Join及其實現（broadcast join、shuffle hash join和sort merge join）

時間 2021-07-11

原文原文鏈接

1.小表對大表（broadcast join）將小表的數據分發到每個節點上，供大表使用。executor存儲小表的全部數據，一定程度上犧牲了空間，換取shuffle操作大量的耗時，這在SparkSQL中稱作Broadcast Join Broadcast Join的條件有以下幾個： *被廣播的表需要小於 spark.sql.autoBroadcastJoinThreshold 所配置的值，默認是

>>阅读原文<<