EMR Spark Runtime Filter性能優化

背景 Join是一個很是耗費資源耗費時間的操做,特別是數據量很大的狀況下。通常流程上會涉及底層表的掃描/shuffle/Join等過程, 若是咱們可以儘量的在靠近源頭上減小參與計算的數據,一方面能夠提升查詢性能,另外一方面也能夠減小資源的消耗(網絡/IO/CPU等),在一樣的資源的狀況下能夠支撐更多的查詢。網絡 目前在SparkSQL中有Filter下推優化,包括兩個維度:性能 生成Filter
相關文章
相關標籤/搜索