sparkSQL數據傾斜

時間 2019-12-04

標籤 sparksql 數據傾斜简体版

原文原文鏈接

場景一：java 大表join小表：把小表broadcast，和cache 到內存，而且大表加了distribute by rand()sql 而後在spark-submit中加一個conf：spark.sql.autoBroadcastJoinThreshold=200000000。此配置限定小表大小，單位爲字節，只要表大小小於此取值（此處約爲200m），且被執行過cache table的小表

>>阅读原文<<