垃圾收集器之：G1收集器

時間 2019-11-18

標籤垃圾收集 g1 简体版

原文原文鏈接

G1垃圾收集器是一種工做在堆內不一樣分區上的併發收集器。分區既能夠歸屬於老年代，也能夠歸屬新生代，同一個代的分區不須要保持連續。爲老年代設計分區的初衷是咱們發現併發後臺線程在回收老年代中沒有引用的對象時，有的分區垃圾對象的數量不少，另外一些分區垃圾對象相對較少。html

雖然分區的垃圾收集工做實際仍是要暫停應用線程，不過因爲G1收集器專一於垃圾最多的分區，最終的效果是花費較少的時間就能回收這些分區的垃圾。這種只專一於垃圾最多的分區的方式就是G1垃圾收集器的名稱由來，即首先收集垃圾最多的分區。java

這一算法並不適用新生代的分區，新生代進行垃圾回收時，整個新生代空間要麼被回收，要麼被晉升。那麼新生代也採用分區的緣由是由於：採用預約義的分區可以便於代的大小調整。算法

G1收集器的收集活動包括4種操做：數組

新生代垃圾收集；
後臺收集，併發週期；
混合式垃圾收集；
以及必要時的Full GC。

一、新生代垃圾收集

先看G1對新生代收集的先後對比，圖中的每一個小方塊都表明一個G1的分區。分區中的黑色的區域表明數據，每一個分區中的子母表明該區域屬於哪一個代（E表明Eden，O表明老年代，S表明Survivor）。空的分區不屬於任何一個代；須要的時候G1收集器會強制指定這些空間的分區用於任何須要的代。併發

在G1中，還有一種特殊的區域，叫Humongous區域。若是一個對象佔用的空間超過了分區容量50%以上，G1收集器就認爲這是一個巨型對象。這些巨型對象，默認直接會被分配在年老代，可是若是它是一個短時間存在的巨型對象，就會對垃圾收集器形成負面影響。爲了解決這個問題，G1劃分了一個Humongous區，它用來專門存放巨型對象。若是一個H區裝不下一個巨型對象，那麼G1會尋找連續的H分區來存儲。爲了能找到連續的H區，有時候不得不啓動Full GC。oracle

PS：在java 8中，持久代也移動到了普通的堆內存空間中，改成元空間。性能

2、對象分配策略

提及大對象的分配，咱們不得不談談對象的分配策略。它分爲3個階段：ui

TLAB(Thread Local Allocation Buffer)線程本地分配緩衝區
Eden區中分配
Humongous區分配

TLAB爲線程本地分配緩衝區，它的目的爲了使對象儘量快的分配出來。若是對象在一個共享的空間中分配，咱們須要採用一些同步機制來管理這些空間內的空閒空間指針。在Eden空間中，每個線程都有一個固定的分區用於分配對象，即一個TLAB。分配對象時，線程之間再也不須要進行任何的同步。spa

對TLAB空間中沒法分配的對象，JVM會嘗試在Eden空間中進行分配。若是Eden空間沒法容納該對象，就只能在老年代中進行分配空間。線程

最後，G1提供了兩種GC模式，Young GC和Mixed GC，兩種都是Stop The World(STW)的。下面咱們將分別介紹一下這2種模式。

3、G1提供了兩種GC模式

3.一、G1 Young GC

Young GC主要是對Eden區進行GC，它在Eden空間耗盡時會被觸發。在這種狀況下，Eden空間的數據移動到Survivor空間中，若是Survivor空間不夠，Eden空間的部分數據會直接晉升到年老代空間。Survivor區的數據移動到新的Survivor區中，也有部分數據晉升到老年代空間中。最終Eden空間的數據爲空，GC中止工做，應用線程繼續執行。

這時，咱們須要考慮一個問題，若是僅僅GC 新生代對象，咱們如何找到全部的根對象呢？老年代的全部對象都是根麼？那這樣掃描下來會耗費大量的時間。因而，G1引進了RSet的概念。它的全稱是Remembered Set，做用是跟蹤指向某個heap區內的對象引用。

在CMS中，也有RSet的概念，在老年代中有一塊區域用來記錄指向新生代的引用。這是一種point-out，在進行Young GC時，掃描根時，僅僅須要掃描這一塊區域，而不須要掃描整個老年代。

但在G1中，並無使用point-out，這是因爲一個分區過小，分區數量太多，若是是用point-out的話，會形成大量的掃描浪費，有些根本不須要GC的分區引用也掃描了。因而G1中使用point-in來解決。point-in的意思是哪些分區引用了當前分區中的對象。這樣，僅僅將這些對象當作根來掃描就避免了無效的掃描。因爲新生代有多個，那麼咱們須要在新生代之間記錄引用嗎？這是沒必要要的，緣由在於每次GC時，全部新生代都會被掃描，因此只須要記錄老年代到新生代之間的引用便可。

須要注意的是，若是引用的對象不少，賦值器須要對每一個引用作處理，賦值器開銷會很大，爲了解決賦值器開銷這個問題，在G1 中又引入了另一個概念，卡表（Card Table）。一個Card Table將一個分區在邏輯上劃分爲固定大小的連續區域，每一個區域稱之爲卡。卡一般較小，介於128到512字節之間。Card Table一般爲字節數組，由Card的索引（即數組下標）來標識每一個分區的空間地址。默認狀況下，每一個卡都未被引用。當一個地址空間被引用時，這個地址空間對應的數組索引的值被標記爲」0″，即標記爲髒被引用，此外RSet也將這個數組下標記錄下來。通常狀況下，這個RSet實際上是一個Hash Table，Key是別的Region的起始地址，Value是一個集合，裏面的元素是Card Table的Index。

Young GC 階段：

階段1：根掃描
靜態和本地對象被掃描
階段2：更新RS
處理dirty card隊列更新RS
階段3：處理RS
檢測從年輕代指向年老代的對象
階段4：對象拷貝
拷貝存活的對象到survivor/old區域
階段5：處理引用隊列
軟引用，弱引用，虛引用處理

3.二、G1 Mix GC

Mix GC不只進行正常的新生代垃圾收集，同時也回收部分後臺掃描線程標記的老年代分區。

它的GC步驟分2步：

全局併發標記（global concurrent marking）
拷貝存活對象（evacuation）

在進行Mix GC以前，會先進行global concurrent marking（全局併發標記）。 global concurrent marking的執行過程是怎樣的呢？

在G1 GC中，它主要是爲Mixed GC提供標記服務的，並非一次GC過程的一個必須環節。global concurrent marking的執行過程分爲五個步驟：

初始標記（initial mark，STW）（第一次暫停因此應用線程）
在此階段，G1 GC 對根進行標記。該階段與常規的 (STW) 年輕代垃圾回收密切相關。
根區域掃描（root region scan）
G1 GC 在初始標記的存活區掃描對老年代的引用，並標記被引用的對象。該階段與應用程序（非 STW）同時運行，而且只有完成該階段後，才能開始下一次 STW 年輕代垃圾回收。
併發標記（Concurrent Marking）
G1 GC 在整個堆中查找可訪問的（存活的）對象。該階段與應用程序同時運行，能夠被 STW 年輕代垃圾回收中斷
最終標記（Remark，STW）（第二次暫停因此應用線程）
該階段是 STW 回收，幫助完成標記週期。G1 GC 清空 SATB 緩衝區，跟蹤未被訪問的存活對象，並執行引用處理。
清除垃圾（Cleanup，STW）（第三次暫停因此應用線程）
在這個最後階段，G1 GC 執行統計和 RSet 淨化的 STW 操做。在統計期間，G1 GC 會識別徹底空閒的區域和可供進行混合垃圾回收的區域。清理階段在將空白區域重置並返回到空閒列表時爲部分併發。

4、三色標記算法

提到併發標記，咱們不得不瞭解併發標記的三色標記算法。它是描述追蹤式回收器的一種有用的方法，利用它能夠推演回收器的正確性。首先，咱們將對象分紅三種類型的。

黑色:根對象，或者該對象與它的子對象都被掃描
灰色:對象自己被掃描,但還沒掃描完該對象中的子對象
白色:未被掃描對象，掃描完成全部對象以後，最終爲白色的爲不可達對象，即垃圾對象

當GC開始掃描對象時，按照以下圖步驟進行對象的掃描：

根對象被置爲黑色，子對象被置爲灰色。

繼續由灰色遍歷,將已掃描了子對象的對象置爲黑色。

遍歷了全部可達的對象後，全部可達的對象都變成了黑色。不可達的對象即爲白色，須要被清理。

這看起來很美好，可是若是在標記過程當中，應用程序也在運行，那麼對象的指針就有可能改變。這樣的話，咱們就會遇到一個問題：對象丟失問題

咱們看下面一種狀況，當垃圾收集器掃描到下面狀況時：

這時候應用程序執行了如下操做：

A.c=C
B.c=null

這樣，對象的狀態圖變成以下情形：

這時候垃圾收集器再標記掃描的時候就會下圖成這樣：

很顯然，此時C是白色，被認爲是垃圾須要清理掉，顯然這是不合理的。那麼咱們如何保證應用程序在運行的時候，GC標記的對象不丟失呢？有以下2中可行的方式：

在插入的時候記錄對象
在刪除的時候記錄對象

恰好這對應CMS和G1的2種不一樣實現方式：

在CMS採用的是增量更新（Incremental update），只要在寫屏障（write barrier）裏發現要有一個白對象的引用被賦值到一個黑對象的字段裏，那就把這個白對象變成灰色的。即插入的時候記錄下來。

在G1中，使用的是STAB（snapshot-at-the-beginning）的方式，刪除的時候記錄全部的對象，它有3個步驟：

1，在開始標記的時候生成一個快照圖標記存活對象

2，在併發標記的時候全部被改變的對象入隊（在write barrier裏把全部舊的引用所指向的對象都變成非白的）

3，可能存在遊離的垃圾，將在下次被收集

這樣，G1到如今能夠知道哪些老的分區可回收垃圾最多。當全局併發標記完成後，在某個時刻，就開始了Mix GC。這些垃圾回收被稱做「混合式」是由於他們不只僅進行正常的新生代垃圾收集，同時也回收部分後臺掃描線程標記的分區。混合式垃圾收集以下圖：

混合式GC也是採用的複製的清理策略，當GC完成後，會從新釋放空間。

至此，混合式GC告一段落了。下一小節咱們講進入調優實踐。

5、調優實踐

5.一、4種狀況會觸發這類的Full GC

G1收集器同CMS收集器同樣，在某些狀況下，G1觸發了Full GC，這時G1會退化使用Serial收集器來完成垃圾的清理工做，它僅僅使用單線程來完成GC工做，GC暫停時間將達到秒級別的。整個應用處於假死狀態，不能處理任何請求，咱們的程序固然不但願看到這些。有的時候你會在垃圾回收日誌中觀察到Full GC，這些日誌是一個信號，代表咱們須要進一步調優（方式不少，甚至極可能要分配更多的堆空間）才能提高應用程序的性能。主要有4種狀況會觸發這類的Full GC，以下：

一、併發模式失效

G1啓動標記週期，但在Mix GC以前，老年代就被填滿，這時候G1會放棄標記週期。這種情形下，須要增長堆大小，或者調整週期（例如增長線程數-XX:ConcGCThreads等）。

GC日誌以下的示例：

解決辦法：發生這種失敗意味着堆的大小應該增長了，或者G1收集器的後臺處理應該更早開始，或者須要調整週期，讓它運行得更快（如，增長後臺處理的線程數）。

二、晉升失敗

（to-space exhausted或者to-space overflow）

G1收集器完成了標記階段，開始啓動混合式垃圾回收，清理老年代的分區，不過，老年代空間在垃圾回收釋放出足夠內存以前就會被耗盡。（G1在進行GC的時候沒有足夠的內存供存活對象或晉升對象使用），由此觸發了Full GC。

下面日誌中（能夠在日誌中看到(to-space exhausted)或者（to-space overflow）），反應的現象是混合式GC以後緊接着一次Full GC。

這種失敗一般意味着混合式收集須要更迅速的完成垃圾收集：每次新生代垃圾收集須要處理更多老年代的分區。

解決這種問題的方式是：

增長 -XX:G1ReservePercent 選項的值（並相應增長總的堆大小），爲「目標空間」增長預留內存量。
經過減小 -XX:InitiatingHeapOccupancyPercent 提早啓動標記週期。
也能夠經過增長 -XX:ConcGCThreads 選項的值來增長並行標記線程的數目。

三、疏散失敗

（to-space exhausted或者to-space overflow）

進行新生代垃圾收集是，Survivor空間和老年代中沒有足夠的空間容納全部的倖存對象。這種情形在GC日誌中一般是：

這條日誌代表堆已經幾乎徹底用盡或者碎片化了。G1收集器會嘗試修復這一失敗，但能夠預期，結果會更加惡化：G1收集器會轉而使用Full GC。

解決這種問題的方式是：

增長 -XX:G1ReservePercent 選項的值（並相應增長總的堆大小），爲「目標空間」增長預留內存量。
經過減小 -XX:InitiatingHeapOccupancyPercent 提早啓動標記週期。
也能夠經過增長 -XX:ConcGCThreads 選項的值來增長並行標記線程的數目。

四、巨型對象分配失敗

當巨型對象找不到合適的空間進行分配時，就會啓動Full GC，來釋放空間。這種狀況下，應該避免分配大量的巨型對象，增長內存或者增大-XX:G1HeapRegionSize，使巨型對象再也不是巨型對象。

5.二、G1垃圾收集器調優

一、G1垃圾收集器調優的主要目標是避免發生併發模式失敗或者疏散失敗，一旦發生這些失敗就會致使Full GC。避免Full GC的技巧也適用於頻繁發生的新生代垃圾收集，這些垃圾收集須要等待掃描根分區完成才能進行。

二、其次，調優能夠是過程當中的停頓時間最小化。

下面列出可以避免發生Full GC的方法：

經過增長總的堆空間大小夥子調整老年代、新生代之間的比例來增長老年代空間的大小。
增長後臺線程的數碼（假設咱們有足夠的CPU資源運行這些線程）。
以更高的頻率進行G1的後臺垃圾收集活動。
在混合式垃圾收集週期中完成更多的垃圾收集工做。

使用G1垃圾收集器時，XX:MaxGCPauseMillis標誌有一個默認值：200毫秒（和throughput收集器有所不一樣）。若是G1收集器發生時空停頓（stop-the-world）的時長超過該值，G1收集器就會嘗試各類方式進行彌補--如調整新生代與老年代的比率，調整堆大小，更早地啓動後臺處理，改變晉升閾值，或者是在混合式垃圾收集週期中處理更多或者更少的老年代分區。

一般的取捨就是發生在這裏：若是減小參數值，爲了達到停頓時間的目標，新生代的大小會相應減小，不過新生代垃圾收集的頻率會更加頻繁。除此以外，爲了達到停頓時間的目標，混合式GC收集老年代分區數也會減小，而這會增大併發模式失敗發生的機會。

一、調整G1垃圾收集的後臺線程數

爲了讓G1贏得這場垃圾收集的比賽，能夠嘗試增長後臺標記線程數碼（假若有足夠多的空閒CPU）。

調整方法：（與CMS相似），對於應用線程暫停運行的週期，可使用ParallelGCThreads標誌設置運行的線程數；對於併發階段可使用ConcGCThreads標誌設置運行線程數（注意此處的ConcGCThreads默認值不一樣CMS）。

二、調整G1垃圾收集器的運行頻率

若是G1更早的啓動垃圾收集，也能贏得比賽。G1週期一般在堆的佔用達到某個比率（經過參數：XX:InitiatingHeapOccupancyPercent=45設定），跟CMS不太同樣，這個參數值依據的是整個堆的使用狀況而不是老年代的。

三、調整G1收集器的混合式垃圾收集週期

併發週期以後，老年代的標記分區回收完成以前，G1收集器沒法啓動新的併發週期。所以，讓G1更早啓動標記週期的另外一個方法是在混合式垃圾回收週期中儘可能處理更多分區（如此一來最終的混合式GC週期就變少了）。

混合式垃圾收集處理工做量取決3個因素：

A、有多少分區被發現大部分是垃圾對象。若是分區的垃圾佔用達到35%，這個分區就被標記爲能夠進行垃圾回收；（-XX:G1MixedGCLiveThresholdPercent=65）

B、G1回收分區時最大混合式GC週期數，能夠經過參數-XX:G1MixedGCCountTarget=8

5.三、常見調優參數

-XX:MaxGCPauseMillis=N,（默認200毫秒，與throughput收集器有所不一樣）

前面介紹過使用GC的最基本的參數：

-XX:+UseG1GC -Xmx32g -XX:MaxGCPauseMillis=200

前面2個參數都好理解，後面這個MaxGCPauseMillis參數該怎麼配置呢？這個參數從字面的意思上看，就是容許的GC最大的暫停時間。G1儘可能確保每次GC暫停的時間都在設置的MaxGCPauseMillis範圍內。那G1是如何作到最大暫停時間的呢？這涉及到另外一個概念，CSet(collection set)。它的意思是在一次垃圾收集器中被收集的區域集合。

Young GC：選定全部新生代裏的region。經過控制新生代的region個數來控制young GC的開銷。
Mixed GC：選定全部新生代裏的region，外加根據global concurrent marking統計得出收集收益高的若干老年代region。在用戶指定的開銷目標範圍內儘量選擇收益高的老年代region。

在理解了這些後，咱們再設置最大暫停時間就好辦了。首先，咱們能容忍的最大暫停時間是有一個限度的，咱們須要在這個限度範圍內設置。可是應該設置的值是多少呢？咱們須要在吞吐量跟MaxGCPauseMillis之間作一個平衡。若是MaxGCPauseMillis設置的太小，那麼GC就會頻繁，吞吐量就會降低。若是MaxGCPauseMillis設置的過大，應用程序暫停時間就會變長。G1的默認暫停時間是200毫秒，咱們能夠從這裏入手，調整合適的時間。

5.四、其餘調優參數

-XX:G1HeapRegionSize=n

設置的 G1 區域的大小。值是 2 的冪，範圍是 1 MB 到 32 MB 之間。目標是根據最小的 Java 堆大小劃分出約 2048 個區域。

-XX:ParallelGCThreads=n（調整G1垃圾收集的後臺線程數）

設置 STW 工做線程數的值。將 n 的值設置爲邏輯處理器的數量。n 的值與邏輯處理器的數量相同，最多爲 8。

若是邏輯處理器不止八個，則將 n 的值設置爲邏輯處理器數的 5/8 左右。這適用於大多數狀況，除非是較大的 SPARC 系統，其中 n 的值能夠是邏輯處理器數的 5/16 左右。

-XX:ConcGCThreads=n（調整G1垃圾收集的後臺線程數）

設置並行標記的線程數。將 n 設置爲並行垃圾回收線程數 (ParallelGCThreads) 的 1/4 左右。

-XX:InitiatingHeapOccupancyPercent=45（調整G1垃圾收集運行頻率）

設置觸發標記週期的 Java 堆佔用率閾值。默認佔用率是整個 Java 堆的 45%。

該值設置過高：會陷入Full GC泥潭之中，由於併發階段沒有足夠的時間在剩下的堆空間被填滿以前完成垃圾收集。

若是該值設置過小：應用程序又會以超過實際須要的節奏進行大量的後臺處理。

避免使用如下參數：

避免使用 -Xmn 選項或 -XX:NewRatio 等其餘相關選項顯式設置年輕代大小。固定年輕代的大小會覆蓋暫停時間目標。

-XX:G1MixedGCLiveThresholdPercent=65

爲混合垃圾回收週期中要包括的舊區域設置佔用率閾值。默認佔用率爲 65%。這是一個實驗性的標誌。有關示例，請參見「如何解鎖實驗性虛擬機標誌」。此設置取代了 -XX:G1OldCSetRegionLiveThresholdPercent 設置。Java HotSpot VM build 23 中沒有此設置。

-XX:G1MixedGCCountTarget=8

設置標記週期完成後，對存活數據上限爲 G1MixedGCLIveThresholdPercent 的舊區域執行混合垃圾回收的目標次數。默認值是 8 次混合垃圾回收。混合回收的目標是要控制在此目標次數之內。Java HotSpot VM build 23 中沒有此設置。

-XX:G1OldCSetRegionThresholdPercent=10

設置混合垃圾回收期間要回收的最大舊區域數。默認值是 Java 堆的 10%。Java HotSpot VM build 23 中沒有此設置。

-XX:G1ReservePercent=10

設置做爲空閒空間的預留內存百分比，以下降目標空間溢出的風險。默認值是 10%。增長或減小百分比時，請確保對總的 Java 堆調整相同的量。Java HotSpot VM build 23 中沒有此設置。

-XX:G1HeapWastePercent=10

設置您願意浪費的堆百分比。若是可回收百分比小於堆廢物百分比，Java HotSpot VM 不會啓動混合垃圾回收週期。默認值是 10%。Java HotSpot VM build 23 中沒有此設置。