spark性能調優之核心參數調優-->spark大數據商業實戰三部曲讀書筆記

num-executors 該參數必定被設置, 爲當前Application生產指定個數的Executors 實際生產環境分配80個左右的Executors
executor-memory 與JVM OOM緊密相關,不少時候甚至決定了spark運行的性能 實際生產環境下建議8GB左右 若運行在yarn上,內存佔用量不超過yarn的內存資源的50%
excutor-cores 決定了在Executor中可以並行執行的Task的個數 實際生產環境建議4個左右 不超過yarn隊列中Cores總數的50%
driver-memory 做爲驅動,默認是1GB 生產環境通常設置4GB
spark.default.parallelism 建議至少設置100個,最好是700個左右
spark.storage.memoryFraction 默認佔用60%,若是計算比較依賴於歷史數據,則能夠適當調高該參數,若是計算嚴重依賴於shuffle,則須要下降該比例
spark.shuffle.memoryFraction 默認佔用20% 若是計算嚴重依賴於shuffle,則須要提升該比例
supervise 配置這個參數,當Driver運行在Cluster集羣,若是出問題了,可自動從新啓動性能

附上spa

原博客地址.net

相關文章
相關標籤/搜索