Spark SQL性能優化

時間 2020-02-07

標籤 spark sql 性能優化欄目 Spark 简体版

原文原文鏈接

==> 在內存中緩存數據
sql

---> 性能調優主要是將數據放入內存中操做
數據庫

---> 使用例子：緩存

// 從 Oracle 數據庫中讀取數據，生成 DataFrame
val oracleDF = spark.read.format("jdbc")
        .option("url", "jdbc:oracle:thin:@192.168.10.100:1521/orcl.example.com")
        .option("dbtable", "scott.emp")
        .option("user", "scott")
        .option("password", "tiger").load
        
// 將 DataFrame 註冊成表
oracleDF.registerTempTable("emp")

// 執行查詢，並經過 Web Console 監控執行的時間
spark.sql("select * from emp").show

// 將表進行緩存，並查詢兩次，經過 Web Console 監控執行的時間
spark.sqlContext.cacheTable("emp")

// 清空緩存
spark.sqlContext.cacheTable("emp")
spark.sqlContext.clearCache

==> 優化相關參數
oracle

---> spark.sql.inMemoryColumnarStorage.compressedide

---- 默認值： true
性能

---- Spark SQL 將會基於統計信息自動地爲每一列選擇一種壓縮編碼方式優化

---> spark.sql.inMemoryColumnarStorage.batchSize編碼

---- 默認值： 10000
url

---- 緩存批處理大小，較大的批處理能夠提升內存利用率和壓縮率，但同時也會帶來 OOM(Out Of Memory)的風險
spa

---> spark.sql.files.maxPartitionBytes

---- 默認值： 128M

---- 讀取文件時單個分區可容納的最大字節數

---> spark.sql.files.openCostinBytes

---- 默認值： 4M