EMR Spark Runtime Filter性能優化

時間 2019-12-08

標籤 emr spark runtime filter 性能優化欄目 Spark 简体版

原文原文鏈接

背景 Join是一個很是耗費資源耗費時間的操做，特別是數據量很大的狀況下。通常流程上會涉及底層表的掃描/shuffle/Join等過程, 若是咱們可以儘量的在靠近源頭上減小參與計算的數據，一方面能夠提升查詢性能，另外一方面也能夠減小資源的消耗(網絡/IO/CPU等)，在一樣的資源的狀況下能夠支撐更多的查詢。網絡目前在SparkSQL中有Filter下推優化，包括兩個維度:性能生成Filter

>>阅读原文<<