SparkSQL_JOIN 傾斜優化_1.cashtable 2.broadcast 3.數據膨脹詳解

時間 2020-06-07

標籤 sparksql join 傾斜優化 1.cashtable cashtable 2.broadcast broadcast 數據膨脹詳解欄目 SQL 简体版

原文原文鏈接

這是一個面試會遇到的問題，網上處理方法一大堆，可是講清楚實現的並很少，也沒什麼例子。這裏對這個問題就具體的實現作個展現。面試首先，主流的作法有如下幾種table 1.cashtable （更相似於 Hive 中 Map JOIN）ast 2.broadcast 後，join 至關於本身實現 broadcast join方法 3.數據膨脹，去前綴（操做複雜，不推薦）不知道爲那麼那麼多人推

>>阅读原文<<