SparkSQL中的三種Join及其實現(broadcast join、shuffle hash join和sort merge join)

1.小表對大表(broadcast join) 將小表的數據分發到每個節點上,供大表使用。executor存儲小表的全部數據,一定程度上犧牲了空間,換取shuffle操作大量的耗時,這在SparkSQL中稱作Broadcast Join Broadcast Join的條件有以下幾個: *被廣播的表需要小於 spark.sql.autoBroadcastJoinThreshold 所配置的值,默認是
相關文章
相關標籤/搜索