Spark-sql Join優化=>(cache+BroadCast)

Spark-sql Join優化 背景   spark-sql或者hive-sql 不少業務場景都會有表關聯的的操做,在hive中有map side join優化,對應的在spark-sql中也有map side join。spark中若是在參與join的表中存在小表,能夠採用cache broadcast的方式進行優化,避免數據的shuffle,從而必定程度上能夠避免數據傾斜,增長spark做業
相關文章
相關標籤/搜索