SparkSQL中的三種Join及其具體實現(broadcast join、shuffle hash join和sort merge join)

1.小表對大表(broadcast join) 將小表的數據分發到每一個節點上,供大表使用。executor存儲小表的所有數據,必定程度上犧牲了空間,換取shuffle操做大量的耗時,這在SparkSQL中稱做Broadcast Joinweb Broadcast Join的條件有如下幾個:sql *被廣播的表須要小於 spark.sql.autoBroadcastJoinThreshold 所配
相關文章
相關標籤/搜索