SparkSQL中的三種Join及其具體實現（broadcast join、shuffle hash join和sort merge join）

時間 2019-12-06

標籤 sparksql 三種 join 及其具體實現 broadcast shuffle hash sort merge 欄目 SQL 简体版

原文原文鏈接

1.小表對大表（broadcast join）將小表的數據分發到每一個節點上，供大表使用。executor存儲小表的所有數據，必定程度上犧牲了空間，換取shuffle操做大量的耗時，這在SparkSQL中稱做Broadcast Joinweb Broadcast Join的條件有如下幾個：sql *被廣播的表須要小於 spark.sql.autoBroadcastJoinThreshold 所配

>>阅读原文<<