Apache Spark 2.2中基於成本的優化器(CBO)(轉載)

Apache Spark 2.2最近引入了高級的基於成本的優化器框架用於收集並均衡不同的列數據的統計工作 (例如., 基(cardinality)、唯一值的數量、空值、最大最小值、平均/最大長度,等等)來改進查詢類作業的執行計劃。均衡這些作業幫助Spark在選取最優查詢計劃時做出更好決定。這些優化的例子包括在做hash-join時選擇正確的一方建hash,選擇正確的join類型(廣播hash jo
相關文章
相關標籤/搜索