spark 大型項目實戰(五十八):數據傾斜解決方案之sample採樣傾斜key進行兩次join

當採用隨機數和擴容表進行join解決數據傾斜的時候,就代表着,你的之前的數據傾斜的解決方案,都沒法使用。 這個方案是沒辦法徹底解決數據傾斜的,更多的,是一種對數據傾斜的緩解。 原理,其實在上一講,已經帶出來了。 步驟: 1、選擇一個RDD,要用flatMap,進行擴容,將每條數據,映射爲多條數據,每個映射出來的數據,都帶了一個n以內的隨機數,通常來說,會選擇10。 2、將另外一個RDD,做普通的m
相關文章
相關標籤/搜索