Spark程序優化

時間 2019-12-08

標籤 spark 程序優化欄目 Spark 简体版

原文原文鏈接

1.gc時間過長

在spark ui上的現象是時間過長且gc的時間比較長，現象截圖以下：緩存

原理分析數據結構

平常使用中，咱們經過spark.executor.memory來控制一個executor最多能夠使用的內存大小，其實是經過設置Executor的JVM的Heap大小實現的。ui

Executor的內存界限分明，分別由3部分組成：execution,storage和system。spa

execution
execution空間經過設置spark.shuffle.memoryFraction參數來控制大小，默認爲0.2。爲了不shuffle，join，排序和聚合這些操做直接將數據寫入磁盤，所設置的buffer大小，減小了磁盤讀寫的次數。3d
storage
storage空間經過設置spark.storage.memoryFraction參數來控制大小，默認爲0.6。用於存儲用戶顯示調用的persist,cache,broadcast等命令存儲的數據空間。code
system
程序運行須要的空間，存儲一些spark內部的元數據信息，用戶的數據結構，避免一些不尋常的大記錄帶來的OOM。orm