spark中join不產生shuffle的操做方式

時間 2019-12-06

原文原文鏈接

（注：來源，spark大數據商業實戰三部曲）算法在大數據處理場景中，多表join是常見的一類運算。爲了便於求解，一般會將多表Join問題轉爲多個兩錶鏈接的問題。兩表Join的實現算法很是多，通常咱們會根據兩表的數據特色選取不一樣的Join算法，其中，最經常使用的兩個算法是map-side join和reduce-side join。map-side join也就是join不產生shuffle。a

>>阅读原文<<