數據傾斜解決方案之sample採樣傾斜key進行兩次join

這個方案的實現思路,跟大家解析一下:其實關鍵之處在於,將發生數據傾斜的key,單獨拉出來,放到一個RDD中去;就用這個原本會傾斜的key RDD跟其他RDD,單獨去join一下,這個時候,key對應的數據,可能就會分散到多個task中去進行join操作。 就不至於說是,這個key跟之前其他的key混合在一個RDD中時,肯定是會導致一個key對應的所有數據,都到一個task中去,就會導致數據傾斜。
相關文章
相關標籤/搜索