sparkSQL數據傾斜

場景一:java 大表join小表: 把小表broadcast,和cache 到內存,而且大表加了distribute by rand()sql 而後在spark-submit中加一個conf:spark.sql.autoBroadcastJoinThreshold=200000000。此配置限定小表大小,單位爲字節,只要表大小小於此取值(此處約爲200m),且被執行過cache table的小表
相關文章
相關標籤/搜索