spark記錄(12)SparkCore的調優之資源調優JVM的GC垃圾收集器

摘自:https://www.cnblogs.com/qingyunzong/p/8973857.htmlhtml

1、概述

垃圾收集 Garbage Collection 一般被稱爲「GC」,它誕生於1960年 MIT 的 Lisp 語言,通過半個多世紀,目前已經十分紅熟了。java

jvm 中,程序計數器、虛擬機棧、本地方法棧都是隨線程而生隨線程而滅,棧幀隨着方法的進入和退出作入棧和出棧操做,實現了自動的內存清理,所以,咱們的內存垃圾回收主要集中於 java 堆和方法區中,在程序運行期間,這部份內存的分配和使用都是動態的。算法

2、垃圾收集器(garbage collector (GC)) 是什麼?

GC實際上是一種自動的內存管理工具,其行爲主要包括2步多線程

  • 在Java堆中,爲新建立的對象分配空間
  • 在Java堆中,回收沒用的對象佔用的空間

3、爲何須要GC?

釋放開發人員的生產力併發

4、爲何須要多種GC?

首先,Java平臺被部署在各類各樣的硬件資源上,其次,在Java平臺上部署和運行着各類各樣的應用,而且用戶對不一樣的應用的 性能指標 (吞吐率和延遲) 預期也不一樣,爲了知足不一樣應用的對內存管理的不一樣需求,JVM提供了多種GC以供選擇jvm

性能指標
最大停頓時長:垃圾回收致使的應用停頓時間的最大值
吞吐率:垃圾回收停頓時長和應用運行總時長的比例工具

不一樣的GC能知足不一樣應用不一樣的性能需求,現有的GC包括:佈局

  • 序列化GC(serial garbage collector):適合佔用內存少的應用
  • 並行GC 或 吞吐率GC(parallel or throughput garbage collector):適合佔用內存較多,多CPU,追求高吞吐率的應用
  • 併發GC:適合佔用內存較多,多CPU的應用,對延遲有要求的應用

5、對象存活的判斷

判斷對象是否存活通常有兩種方式:post

引用計數:每一個對象有一個引用計數屬性,新增一個引用時計數加1,引用釋放時計數減1,計數爲0時能夠回收。此方法簡單,缺點是沒法解決對象相互循環引用的問題。性能

可達性分析(Reachability Analysis):從GC Roots開始向下搜索,搜索所走過的路徑稱爲引用鏈。當一個對象到GC Roots沒有任何引用鏈相連時,則證實此對象是不可用的。不可達對象。

在Java語言中,GC Roots包括:

  虛擬機棧中引用的對象。

  方法區中類靜態屬性實體引用的對象。

  方法區中常量引用的對象。

  本地方法棧中JNI引用的對象。

因爲循環引用的問題,通常採用跟蹤(可達性分析)方法

6、垃圾回收算法

6.1 標記 -清除算法

「標記-清除」(Mark-Sweep)算法,如它的名字同樣,算法分爲「標記」和「清除」兩個階段:首先標記出全部須要回收的對象,在標記完成後統一回收掉全部被標記的對象。之因此說它是最基礎的收集算法,是由於後續的收集算法都是基於這種思路並對其缺點進行改進而獲得的。

它的主要缺點有兩個:一個是效率問題,標記和清除過程的效率都不高;另一個是空間問題,標記清除以後會產生大量不連續的內存碎片,空間碎片太多可能會致使,當程序在之後的運行過程當中須要分配較大對象時沒法找到足夠的連續內存而不得不提早觸發另外一次垃圾收集動做。

6.2 複製算法

「複製」(Copying)的收集算法,它將可用內存按容量劃分爲大小相等的兩塊,每次只使用其中的一塊。當這一塊的內存用完了,就將還存活着的對象複製到另一塊上面,而後再把已使用過的內存空間一次清理掉。

這樣使得每次都是對其中的一塊進行內存回收,內存分配時也就不用考慮內存碎片等複雜狀況,只要移動堆頂指針,按順序分配內存便可,實現簡單,運行高效。只是這種算法的代價是將內存縮小爲原來的一半,持續複製長生存期的對象則致使效率下降。

6.3 標記-整理算法

複製收集算法在對象存活率較高時就要執行較多的複製操做,效率將會變低。更關鍵的是,若是不想浪費50%的空間,就須要有額外的空間進行分配擔保,以應對被使用的內存中全部對象都100%存活的極端狀況,因此在老年代通常不能直接選用這種算法。

根據老年代的特色,有人提出了另一種「標記-整理」(Mark-Compact)算法,標記過程仍然與「標記-清除」算法同樣,但後續步驟不是直接對可回收對象進行清理,而是讓全部存活的對象都向一端移動,而後直接清理掉端邊界之外的內存

6.4 分代收集算法

GC分代的基本假設:絕大部分對象的生命週期都很是短暫,存活時間短。

「分代收集」(Generational Collection)算法,把Java堆分爲新生代和老年代,這樣就能夠根據各個年代的特色採用最適當的收集算法。在新生代中,每次垃圾收集時都發現有大批對象死去,只有少許存活,那就選用複製算法,只須要付出少許存活對象的複製成本就能夠完成收集。而老年代中由於對象存活率高、沒有額外空間對它進行分配擔保,就必須使用「標記-清理」或「標記-整理」算法來進行回收。

7、垃圾收集器

若是說收集算法是內存回收的方法論,垃圾收集器就是內存回收的具體實現,不一樣廠商、不一樣版本的虛擬機實現差異很大,HotSpot中包含的收集器以下:

7.1 Serial收集器

串行收集器是最古老,最穩定以及效率高的收集器,可能會產生較長的停頓,只使用一個線程去回收。新生代、老年代使用串行回收;新生代複製算法、老年代標記-壓縮;垃圾收集的過程當中會Stop The World(服務暫停)

參數控制:-XX:+UseSerialGC  串行收集器

7.2 ParNew收集器

ParNew收集器其實就是Serial收集器的多線程版本。新生代並行,老年代串行;新生代複製算法、老年代標記-壓縮

參數控制:-XX:+UseParNewGC  ParNew收集器

-XX:ParallelGCThreads 限制線程數量

7.3 Parallel收集器

Parallel Scavenge收集器相似ParNew收集器,Parallel收集器更關注系統的吞吐量。能夠經過參數來打開自適應調節策略,虛擬機會根據當前系統的運行狀況收集性能監控信息,動態調整這些參數以提供最合適的停頓時間或最大的吞吐量;也能夠經過參數控制GC的時間不大於多少毫秒或者比例;新生代複製算法、老年代標記-壓縮

參數控制:-XX:+UseParallelGC  使用Parallel收集器+ 老年代串行

7.4 CMS收集器

CMS(Concurrent Mark Sweep)收集器是一種以獲取最短回收停頓時間爲目標的收集器。目前很大一部分的Java應用都集中在互聯網站或B/S系統的服務端上,這類應用尤爲重視服務的響應速度,但願系統停頓時間最短,以給用戶帶來較好的體驗。

從名字(包含「Mark Sweep」)上就能夠看出CMS收集器是基於「標記-清除」算法實現的,它的運做過程相對於前面幾種收集器來講要更復雜一些,整個過程分爲4個步驟,包括: 

初始標記(CMS initial mark)

併發標記(CMS concurrent mark)

從新標記(CMS remark)

併發清除(CMS concurrent sweep)

 其中初始標記、從新標記這兩個步驟仍然須要「Stop The World」。初始標記僅僅只是標記一下GC Roots能直接關聯到的對象,速度很快,併發標記階段就是進行GC Roots Tracing的過程,而從新標記階段則是爲了修正併發標記期間,因用戶程序繼續運做而致使標記產生變更的那一部分對象的標記記錄,這個階段的停頓時間通常會比初始標記階段稍長一些,但遠比並發標記的時間短。 
      因爲整個過程當中耗時最長的併發標記和併發清除過程當中,收集器線程均可以與用戶線程一塊兒工做,因此整體上來講,CMS收集器的內存回收過程是與用戶線程一塊兒併發地執行。老年代收集器(新生代使用ParNew)

  優勢:併發收集、低停頓 

   缺點:產生大量空間碎片、併發階段會下降吞吐量

   參數控制:-XX:+UseConcMarkSweepGC  使用CMS收集器

             -XX:+ UseCMSCompactAtFullCollection Full GC後,進行一次碎片整理;整理過程是獨佔的,會引發停頓時間變長

            -XX:+CMSFullGCsBeforeCompaction  設置進行幾回Full GC後,進行一次碎片整理

            -XX:ParallelCMSThreads  設定CMS的線程數量(通常狀況約等於可用CPU數量)

7.5 G1收集器

G1是目前技術發展的最前沿成果之一,HotSpot開發團隊賦予它的使命是將來能夠替換掉JDK1.5中發佈的CMS收集器。與CMS收集器相比G1收集器有如下特色:

1. 空間整合,G1收集器採用標記整理算法,不會產生內存空間碎片。分配大對象時不會由於沒法找到連續空間而提早觸發下一次GC。

2. 可預測停頓,這是G1的另外一大優點,下降停頓時間是G1和CMS的共同關注點,但G1除了追求低停頓外,還能創建可預測的停頓時間模型,能讓使用者明確指定在一個長度爲N毫秒的時間片斷內,消耗在垃圾收集上的時間不得超過N毫秒,這幾乎已是實時Java(RTSJ)的垃圾收集器的特徵了。

上面提到的垃圾收集器,收集的範圍都是整個新生代或者老年代,而G1再也不是這樣。使用G1收集器時,Java堆的內存佈局與其餘收集器有很大差異,它將整個Java堆劃分爲多個大小相等的獨立區域(Region),雖然還保留有新生代和老年代的概念,但新生代和老年代再也不是物理隔閡了,它們都是一部分(能夠不連續)Region的集合。

G1對Heap的劃分

 

G1的新生代收集跟ParNew相似,當新生代佔用達到必定比例的時候,開始出發收集。和CMS相似,G1收集器收集老年代對象會有短暫停頓。

收集步驟

一、標記階段,首先初始標記(Initial-Mark),這個階段是停頓的(Stop the World Event),而且會觸發一次普通Mintor GC。對應GC log:GC pause (young) (inital-mark)

二、Root Region Scanning,程序運行過程當中會回收survivor區(存活到老年代),這一過程必須在young GC以前完成。

三、Concurrent Marking,在整個堆中進行併發標記(和應用程序併發執行),此過程可能被young GC中斷。在併發標記階段,若發現區域對象中的全部對象都是垃圾,那個這個區域會被當即回收(圖中打X)。同時,併發標記過程當中,會計算每一個區域的對象活性(區域中存活對象的比例)。

 

 

四、Remark, 再標記,會有短暫停頓(STW)。再標記階段是用來收集 併發標記階段 產生新的垃圾(併發階段和應用程序一同運行);G1中採用了比CMS更快的初始快照算法:snapshot-at-the-beginning (SATB)。

五、Copy/Clean up,多線程清除失活對象,會有STW。G1將回收區域的存活對象拷貝到新區域,清除Remember Sets,併發清空回收區域並把它返回到空閒區域鏈表中。

 

六、複製/清除過程後。回收區域的活性對象已經被集中回收到深藍色和深綠色區域。

 

8、經常使用的收集器組合 

  新生代GC策略 年老代GC策略
說明
組合1 Serial Serial Old
Serial和Serial Old都是單線程進行GC,特色就是GC時暫停全部應用線程。
組合2 Serial CMS+Serial Old CMS(Concurrent Mark Sweep)是併發GC,實現GC線程和應用線程併發工做,不須要暫停全部應用線程。另外,當CMS進行GC失敗時,會自動使用Serial Old策略進行GC。
組合3
ParNew
CMS
使用-XX:+UseParNewGC選項來開啓。ParNew是Serial的並行版本,能夠指定GC線程數,默認GC線程數爲CPU的數量。可使用-XX:ParallelGCThreads選項指定GC的線程數。
若是指定了選項-XX:+UseConcMarkSweepGC選項,則新生代默認使用ParNew GC策略。
組合4
ParNew
Serial Old 使用-XX:+UseParNewGC選項來開啓。新生代使用ParNew GC策略,年老代默認使用Serial Old GC策略。
組合5
Parallel Scavenge
Serial Old
Parallel Scavenge策略主要是關注一個可控的吞吐量:應用程序運行時間 / (應用程序運行時間 + GC時間),可見這會使得CPU的利用率儘量的高,適用於後臺持久運行的應用程序,而不適用於交互較多的應用程序。
組合6
Parallel Scavenge
Parallel Old
Parallel Old是Serial Old的並行版本

 

組合7
G1GC
G1GC
-XX:+UnlockExperimentalVMOptions -XX:+UseG1GC        #開啓 -XX:MaxGCPauseMillis =50                  #暫停時間目標 -XX:GCPauseIntervalMillis =200          #暫停間隔目標 -XX:+G1YoungGenSize=512m            #年輕代大小 -XX:SurvivorRatio=6                            #倖存區比例
相關文章
相關標籤/搜索