spark 大型項目實戰(五十八):數據傾斜解決方案之sample採樣傾斜key進行兩次join

時間 2021-01-04

原文原文鏈接

當採用隨機數和擴容表進行join解決數據傾斜的時候，就代表着，你的之前的數據傾斜的解決方案，都沒法使用。這個方案是沒辦法徹底解決數據傾斜的，更多的，是一種對數據傾斜的緩解。原理，其實在上一講，已經帶出來了。步驟： 1、選擇一個RDD，要用flatMap，進行擴容，將每條數據，映射爲多條數據，每個映射出來的數據，都帶了一個n以內的隨機數，通常來說，會選擇10。 2、將另外一個RDD，做普通的m

>>阅读原文<<