Spark SQL性能優化

一.在內存中緩存數據 Spark SQL可以通過調用spark.catalog.cacheTable(「tableName」)或使用dataFrame.cache()內存列式格式緩存表。然後,Spark SQL將僅掃描所需的列,並將自動調整壓縮以最大程度地減少內存使用和GC壓力。可以調用spark.catalog.uncacheTable(「tableName」)從內存中刪除表或dataFrame
相關文章
相關標籤/搜索