spark中join不產生shuffle的操做方式

(注:來源,spark大數據商業實戰三部曲)算法 在大數據處理場景中,多表join是常見的一類運算。爲了便於求解,一般會將多表Join問題轉爲多個兩錶鏈接的問題。兩表Join的實現算法很是多,通常咱們會根據兩表的數據特色選取不一樣的Join算法,其中,最經常使用的兩個算法是map-side join和reduce-side join。map-side join也就是join不產生shuffle。a
相關文章
相關標籤/搜索