Spark難點 | Join的實現原理

Join背景 當前SparkSQL支持三種join算法:Shuffle Hash Join、Broadcast Hash Join以及Sort Merge Join。其中前兩者歸根到底都屬於Hash Join,只不過載Hash Join之前需要先Shuffle還是先Broadcast。其實,Hash Join算法來自於傳統數據庫,而Shuffle和Broadcast是大數據在分佈式情況下的概念,兩
相關文章
相關標籤/搜索