sparksql-cache小表實現mapjoin優化性能

時間 2021-01-12

原文原文鏈接

對於複雜sql且關聯表較多的情況，數據傾斜是很常見的問題，幾乎可以說不傾斜纔是少見情況，而在不能改變原始數據（不能採用多階段分段聚合），不能改變spark源碼的情況下，除了調整各種參數，可操作的空間並不多。對於表之間的join操作，一般來說我們都知道有map join和reduce join兩種情況。因爲reduce端會按map輸出的key的分佈處理相應的數據，在數據傾斜的情況下就會造成單個