SparkSQL自定義Hint優化器解決熱點數據致使JOIN數據傾斜問題

場景 有時咱們經過sparkSQL來分析數據,當使用Join操做時,最讓人頭疼的莫過於數據傾斜了,若是你是大表關聯小表的狀況,那狀況還不是很糟糕,能夠使用MAPJOIN來破解一下,spark使用spark.sql.autoBroadcastJoinThreshold參數來自動開啓MAPJOIN; BUT,若是兩張表數據量都很大的話,MAPJOIN就無能爲力了。git 使用自定義hint 處理Joi
相關文章
相關標籤/搜索