sparksql-cache小表實現mapjoin優化性能

  對於複雜sql且關聯表較多的情況,數據傾斜是很常見的問題,幾乎可以說不傾斜纔是少見情況,而在不能改變原始數據(不能採用多階段分段聚合),不能改變spark源碼的情況下,除了調整各種參數,可操作的空間並不多。 對於表之間的join操作,一般來說我們都知道有map join和reduce join兩種情況。因爲reduce端會按map輸出的key的分佈處理相應的數據,在數據傾斜的情況下就會造成單個
相關文章
相關標籤/搜索