spark3.0新特性

時間 2021-08-15

標籤 Spark 欄目 Spark 简体版

原文原文鏈接

1，動態分區裁剪老版本：比如上面的 SQL 查詢，假設 t2 表 t2.id < 2 過濾出來的數據比較少，但是由於之前版本的 Spark 無法進行動態計算代價，所以可能會導致 t1 表掃描出大量無效的數據。有了動態分區裁減，可以在運行的時候過濾掉 t1 表無用的數據優化後：比如下面的查詢，基於代價的模型優化不可能準確的評估而有了 AQE 之後，Spark 就可以動態統計相關信息，並動

>>阅读原文<<