Java垃圾回收（GC）機制詳解

時間 2019-12-11

標籤 java 垃圾回收機制詳解欄目 Java 简体版

原文原文鏈接

1、爲何須要垃圾回收java

　　若是不進行垃圾回收，內存早晚都會被消耗空，由於咱們在不斷的分配內存空間而不進行回收。除非內存無限大，咱們能夠任性的分配而不回收，可是事實並不是如此。因此，垃圾回收是必須的。算法

2、哪些內存須要回收？緩存

哪些內存須要回收是垃圾回收機制第一個要考慮的問題，所謂「要回收的垃圾」無非就是那些不可能再被任何途徑使用的對象。那麼如何找到這些對象？多線程

一、引用計數法併發

這個算法的實現是，給對象中添加一個引用計數器，每當一個地方引用這個對象時，計數器值+1；當引用失效時，計數器值-1。任什麼時候刻計數值爲0的對象就是不可能再被使用的。這種算法使用場景不少，可是，Java中卻沒有使用這種算法，由於這種算法很難解決對象之間相互引用的狀況。看一段代碼：ide

/**
 * 虛擬機參數：-verbose:gc
 */
public class ReferenceCountingGC
{
    private Object instance = null;
    private static final int _1MB = 1024 * 1024;
    
    /** 這個成員屬性惟一的做用就是佔用一點內存 */
    private byte[] bigSize = new byte[2 * _1MB];
    
    public static void main(String[] args)
    {
        ReferenceCountingGC objectA = new ReferenceCountingGC();
        ReferenceCountingGC objectB = new ReferenceCountingGC();
        objectA.instance = objectB;
        objectB.instance = objectA;
        objectA = null;
        objectB = null;
        
        System.gc();
    }
}

看下運行結果：佈局

[GC 4417K->288K(61440K), 0.0013498 secs]
[Full GC 288K->194K(61440K), 0.0094790 secs]

看到，兩個對象相互引用着，可是虛擬機仍是把這兩個對象回收掉了，這也說明虛擬機並非經過引用計數法來斷定對象是否存活的。post

二、可達性分析法性能

這個算法的基本思想是經過一系列稱爲「GC Roots」的對象做爲起始點，從這些節點向下搜索，搜索所走過的路徑稱爲引用鏈，當一個對象到GC Roots沒有任何引用鏈（即GC Roots到對象不可達）時，則證實此對象是不可用的。優化

那麼問題又來了，如何選取GCRoots對象呢？在Java語言中，能夠做爲GCRoots的對象包括下面幾種：

(1). 虛擬機棧（棧幀中的局部變量區，也叫作局部變量表）中引用的對象。

(2). 方法區中的類靜態屬性引用的對象。

(3). 方法區中常量引用的對象。

(4). 本地方法棧中JNI(Native方法)引用的對象。

下面給出一個GCRoots的例子，以下圖，爲GCRoots的引用鏈。

由圖可知，obj八、obj九、obj10都沒有到GCRoots對象的引用鏈，即使obj9和obj10之間有引用鏈，他們仍是會被當成垃圾處理，能夠進行回收。

3、四種引用狀態

在JDK1.2以前，Java中引用的定義很傳統：若是引用類型的數據中存儲的數值表明的是另外一塊內存的起始地址，就稱這塊內存表明着一個引用。這種定義很純粹，可是太過於狹隘，一個對象只有被引用或者沒被引用兩種狀態。咱們但願描述這樣一類對象：當內存空間還足夠時，則能保留在內存中；若是內存空間在進行垃圾收集後仍是很是緊張，則能夠拋棄這些對象。不少系統的緩存功能都符合這樣的應用場景。在JDK1.2以後，Java對引用的概念進行了擴充，將引用分爲強引用、軟引用、弱引用、虛引用4種，這4種引用強度依次減弱。

一、強引用

代碼中廣泛存在的相似"Object obj = new Object()"這類的引用，只要強引用還存在，垃圾收集器永遠不會回收掉被引用的對象。

二、軟引用

描述有些還有用但並不是必需的對象。在系統將要發生內存溢出異常以前，將會把這些對象列進回收範圍進行二次回收。若是此次回收尚未足夠的內存，纔會拋出內存溢出異常。Java中的類SoftReference表示軟引用。

三、弱引用

描述非必需對象。被弱引用關聯的對象只能生存到下一次垃圾回收以前，垃圾收集器工做以後，不管當前內存是否足夠，都會回收掉只被弱引用關聯的對象。Java中的類WeakReference表示弱引用。

四、虛引用

這個引用存在的惟一目的就是在這個對象被收集器回收時收到一個系統通知，被虛引用關聯的對象，和其生存時間徹底不要緊。Java中的類PhantomReference表示虛引用。

對於可達性分析算法而言，未到達的對象並不是是「非死不可」的，若要宣判一個對象死亡，至少須要經歷兩次標記階段。

1. 若是對象在進行可達性分析後發現沒有與GCRoots相連的引用鏈，則該對象被第一次標記並進行一次篩選，篩選條件爲是否有必要執行該對象的finalize方法，若對象沒有覆蓋finalize方法或者該finalize方法是否已經被虛擬機執行過了，則均視做沒必要要執行該對象的finalize方法，即該對象將會被回收。反之，若對象覆蓋了finalize方法而且該finalize方法並無被執行過，那麼，這個對象會被放置在一個叫F-Queue的隊列中，以後會由虛擬機自動創建的、優先級低的Finalizer線程去執行，而虛擬機沒必要要等待該線程執行結束，即虛擬機只負責創建線程，其餘的事情交給此線程去處理。

2.對F-Queue中對象進行第二次標記，若是對象在finalize方法中拯救了本身，即關聯上了GCRoots引用鏈，如把this關鍵字賦值給其餘變量，那麼在第二次標記的時候該對象將從「即將回收」的集合中移除，若是對象仍是沒有拯救本身，那就會被回收。以下代碼演示了一個對象如何在finalize方法中拯救了本身，然而，它只能拯救本身一次，第二次就被回收了。具體代碼以下：

package com.demo;

/*
 * 此代碼演示了兩點：
 * 1.對象能夠再被GC時自我拯救
 * 2.這種自救的機會只有一次，由於一個對象的finalize()方法最多隻會被系統自動調用一次
 * */
public class FinalizeEscapeGC {
    
    public String name;
    public static FinalizeEscapeGC SAVE_HOOK = null;

    public FinalizeEscapeGC(String name) {
        this.name = name;
    }

    public void isAlive() {
        System.out.println("yes, i am still alive :)");
    }
    
    @Override
    protected void finalize() throws Throwable {
        super.finalize();
        System.out.println("finalize method executed!");
        System.out.println(this);
        FinalizeEscapeGC.SAVE_HOOK = this;
    }

    @Override
    public String toString() {
        return name;
    }

    public static void main(String[] args) throws InterruptedException {
        SAVE_HOOK = new FinalizeEscapeGC("leesf");
        System.out.println(SAVE_HOOK);
        // 對象第一次拯救本身
        SAVE_HOOK = null;
        System.out.println(SAVE_HOOK);
        System.gc();
        // 由於finalize方法優先級很低，因此暫停0.5秒以等待它
        Thread.sleep(500);
        if (SAVE_HOOK != null) {
            SAVE_HOOK.isAlive();
        } else {
            System.out.println("no, i am dead : (");
        }

        // 下面這段代碼與上面的徹底相同,可是這一次自救卻失敗了
        // 一個對象的finalize方法只會被調用一次
        SAVE_HOOK = null;
        System.gc();
        // 由於finalize方法優先級很低，因此暫停0.5秒以等待它
        Thread.sleep(500);
        if (SAVE_HOOK != null) {
            SAVE_HOOK.isAlive();
        } else {
            System.out.println("no, i am dead : (");
        }
    }
}

運行結果以下：

leesf
null
finalize method executed!
leesf
yes, i am still alive :)
no, i am dead : (

　由結果可知，該對象拯救了本身一次，第二次沒有拯救成功，由於對象的finalize方法最多被虛擬機調用一次。此外，從結果咱們能夠得知，一個堆對象的this（放在局部變量表中的第一項）引用會永遠存在，在方法體內能夠將this引用賦值給其餘變量，這樣堆中對象就能夠被其餘變量所引用，即不會被回收。

4、方法區的垃圾回收

方法區的垃圾回收主要回收兩部份內容：1. 廢棄常量。2. 無用的類。既然進行垃圾回收，就須要判斷哪些是廢棄常量，哪些是無用的類。

如何判斷廢棄常量呢？以字面量回收爲例，若是一個字符串「abc」已經進入常量池，可是當前系統沒有任何一個String對象引用了叫作「abc」的字面量，那麼，若是發生垃圾回收而且有必要時，「abc」就會被系統移出常量池。常量池中的其餘類（接口）、方法、字段的符號引用也與此相似。

如何判斷無用的類呢？須要知足如下三個條件

1. 該類的全部實例都已經被回收，即Java堆中不存在該類的任何實例。

2. 加載該類的ClassLoader已經被回收。

3. 該類對應的java.lang.Class對象沒有在任何地方被引用，沒法在任何地方經過反射訪問該類的方法。

知足以上三個條件的類能夠進行垃圾回收，可是並非無用就被回收，虛擬機提供了一些參數供咱們配置。

5、垃圾收集算法

一、標記-清除（Mark-Sweep）算法

這是最基礎的算法，標記-清除算法就如同它的名字樣，分爲「標記」和「清除」兩個階段：首先標記出全部須要回收的對象，標記完成後統一回收全部被標記的對象。這種算法的不足主要體如今效率和空間，從效率的角度講，標記和清除兩個過程的效率都不高；從空間的角度講，標記清除後會產生大量不連續的內存碎片，內存碎片太多可能會致使之後程序運行過程當中在須要分配較大對象時，沒法找到足夠的連續內存而不得不提早觸發一次垃圾收集動做。標記-清除算法執行過程如圖：

二、複製（Copying）算法

複製算法是爲了解決效率問題而出現的，它將可用的內存分爲兩塊，每次只用其中一塊，當這一塊內存用完了，就將還存活着的對象複製到另一塊上面，而後再把已經使用過的內存空間一次性清理掉。這樣每次只須要對整個半區進行內存回收，內存分配時也不須要考慮內存碎片等複雜狀況，只須要移動指針，按照順序分配便可。複製算法的執行過程如圖：

不過這種算法有個缺點，內存縮小爲了原來的一半，這樣代價過高了。如今的商用虛擬機都採用這種算法來回收新生代，不過研究代表1:1的比例很是不科學，所以新生代的內存被劃分爲一塊較大的Eden空間和兩塊較小的Survivor空間，每次使用Eden和其中一塊Survivor。每次回收時，將Eden和Survivor中還存活着的對象一次性複製到另一塊Survivor空間上，最後清理掉Eden和剛纔用過的Survivor空間。HotSpot虛擬機默認Eden區和Survivor區的比例爲8:1，意思是每次新生代中可用內存空間爲整個新生代容量的90%。固然，咱們沒有辦法保證每次回收都只有很少於10%的對象存活，當Survivor空間不夠用時，須要依賴老年代進行分配擔保（Handle Promotion）。

三、標記-整理（Mark-Compact）算法

複製算法在對象存活率較高的場景下要進行大量的複製操做，效率很低。萬一對象100%存活，那麼須要有額外的空間進行分配擔保。老年代都是不易被回收的對象，對象存活率高，所以通常不能直接選用複製算法。根據老年代的特色，有人提出了另一種標記-整理算法，過程與標記-清除算法同樣，不過不是直接對可回收對象進行清理，而是讓全部存活對象都向一端移動，而後直接清理掉邊界之外的內存。標記-整理算法的工做過程如圖：

四、分代收集算法

根據上面的內容，用一張圖歸納一下堆內存的佈局

現代商用虛擬機基本都採用分代收集算法來進行垃圾回收。這種算法沒什麼特別的，無非是上面內容的結合罷了，根據對象的生命週期的不一樣將內存劃分爲幾塊，而後根據各塊的特色採用最適當的收集算法。大批對象死去、少許對象存活的（新生代），使用複製算法，複製成本低；對象存活率高、沒有額外空間進行分配擔保的（老年代），採用標記-清理算法或者標記-整理算法。

6、垃圾收集器

垃圾收集器就是上面講的理論知識的具體實現了。不一樣虛擬機所提供的垃圾收集器可能會有很大差異，咱們使用的是HotSpot，HotSpot這個虛擬機所包含的全部收集器如圖：

上圖展現了7種做用於不一樣分代的收集器，若是兩個收集器之間存在連線，那說明它們能夠搭配使用。虛擬機所處的區域說明它是屬於新生代收集器仍是老年代收集器。多說一句，咱們必須明確一個觀點：沒有最好的垃圾收集器，更加沒有萬能的收集器，只能選擇對具體應用最合適的收集器。這也是HotSpot爲何要實現這麼多收集器的緣由。OK，下面一個一個看一下收集器。

一、Serial收集器

最基本、發展歷史最久的收集器，這個收集器是一個採用複製算法的單線程的收集器，單線程一方面意味着它只會使用一個CPU或一條線程去完成垃圾收集工做，另外一方面也意味着它進行垃圾收集時必須暫停其餘線程的全部工做，直到它收集結束爲止。後者意味着，在用戶不可見的狀況下要把用戶正常工做的線程所有停掉，這對不少應用是難以接受的。不過實際上到目前爲止，Serial收集器依然是虛擬機運行在Client模式下的默認新生代收集器，由於它簡單而高效。用戶桌面應用場景中，分配給虛擬機管理的內存通常來講不會很大，收集幾十兆甚至一兩百兆的新生代停頓時間在幾十毫秒最多一百毫秒，只要不是頻繁發生，這點停頓是徹底能夠接受的。Serial收集器運行過程以下圖所示：

說明：1. 須要STW（Stop The World），停頓時間長。2. 簡單高效，對於單個CPU環境而言，Serial收集器因爲沒有線程交互開銷，能夠獲取最高的單線程收集效率。

二、ParNew收集器

ParNew收集器其實就是Serial收集器的多線程版本，除了使用多條線程進行垃圾收集外，其他行爲和Serial收集器徹底同樣，包括使用的也是複製算法。ParNew收集器除了多線程之外和Serial收集器並無太多創新的地方，可是它倒是Server模式下的虛擬機首選的新生代收集器，其中有一個很重要的和性能無關的緣由是，除了Serial收集器外，目前只有它能與CMS收集器配合工做（看圖）。CMS收集器是一款幾乎能夠認爲有劃時代意義的垃圾收集器，由於它第一次實現了讓垃圾收集線程與用戶線程基本上同時工做。ParNew收集器在單CPU的環境中絕對不會有比Serial收集器更好的效果，甚至因爲線程交互的開銷，該收集器在兩個CPU的環境中都不能百分之百保證能夠超越Serial收集器。固然，隨着可用CPU數量的增長，它對於GC時系統資源的有效利用仍是頗有好處的。它默認開啓的收集線程數與CPU數量相同，在CPU數量很是多的狀況下，可使用-XX:ParallelGCThreads參數來限制垃圾收集的線程數。ParNew收集器運行過程以下圖所示：

三、Parallel Scavenge收集器

Parallel Scavenge收集器也是一個新生代收集器，也是用複製算法的收集器，也是並行的多線程收集器，可是它的特色是它的關注點和其餘收集器不一樣。介紹這個收集器主要仍是介紹吞吐量的概念。CMS等收集器的關注點是儘量縮短垃圾收集時用戶線程的停頓時間，而Parallel Scavenge收集器的目標則是打到一個可控制的吞吐量。所謂吞吐量的意思就是CPU用於運行用戶代碼時間與CPU總消耗時間的比值，即吞吐量=運行用戶代碼時間/（運行用戶代碼時間+垃圾收集時間），虛擬機總運行100分鐘，垃圾收集1分鐘，那吞吐量就是99%。另外，Parallel Scavenge收集器是虛擬機運行在Server模式下的默認垃圾收集器。

停頓時間短適合須要與用戶交互的程序，良好的響應速度能提高用戶體驗；高吞吐量則能夠高效率利用CPU時間，儘快完成運算任務，主要適合在後臺運算而不須要太多交互的任務。

虛擬機提供了-XX:MaxGCPauseMillis和-XX:GCTimeRatio兩個參數來精確控制最大垃圾收集停頓時間和吞吐量大小。不過不要覺得前者越小越好，GC停頓時間的縮短是以犧牲吞吐量和新生代空間換取的。因爲與吞吐量關係密切，Parallel Scavenge收集器也被稱爲「吞吐量優先收集器」。Parallel Scavenge收集器有一個-XX:+UseAdaptiveSizePolicy參數，這是一個開關參數，這個參數打開以後，就不須要手動指定新生代大小、Eden區和Survivor參數等細節參數了，虛擬機會根據當前系統的運行狀況手機性能監控信息，動態調整這些參數以提供最合適的停頓時間或者最大的吞吐量。若是對於垃圾收集器運做原理不太瞭解，以致於在優化比較困難的時候，使用Parallel Scavenge收集器配合自適應調節策略，把內存管理的調優任務交給虛擬機去完成將是一個不錯的選擇。

四、Serial Old收集器

Serial收集器的老年代版本，一樣是一個單線程收集器，使用「標記-整理算法」，這個收集器的主要意義也是在於給Client模式下的虛擬機使用。

五、Parallel Old收集器

Parallel Scavenge收集器的老年代版本，使用多線程和「標記-整理」算法。這個收集器在JDK 1.6以後的出現，「吞吐量優先收集器」終於有了比較名副其實的應用組合，在注重吞吐量以及CPU資源敏感的場合，均可以優先考慮Parallel Scavenge收集器+Parallel Old收集器的組合。運行過程以下圖所示：

六、CMS收集器

CMS（Conrrurent Mark Sweep）收集器是以獲取最短回收停頓時間爲目標的收集器。使用標記 - 清除算法，收集過程分爲以下四步：

(1). 初始標記，標記GCRoots能直接關聯到的對象，時間很短。

(2). 併發標記，進行GCRoots Tracing（可達性分析）過程，時間很長。

(3). 從新標記，修正併發標記期間因用戶程序繼續運做而致使標記產生變更的那一部分對象的標記記錄，時間較長。

(4). 併發清除，回收內存空間，時間很長。

其中，併發標記與併發清除兩個階段耗時最長，可是能夠與用戶線程併發執行。運行過程以下圖所示:

說明：1. 對CPU資源很是敏感，可能會致使應用程序變慢，吞吐率降低。2. 沒法處理浮動垃圾，由於在併發清理階段用戶線程還在運行，天然就會產生新的垃圾，而在這次收集中沒法收集他們，只能留到下次收集，這部分垃圾爲浮動垃圾，同時，因爲用戶線程併發執行，因此須要預留一部分老年代空間提供併發收集時程序運行使用。3. 因爲採用的標記 - 清除算法，會產生大量的內存碎片，不利於大對象的分配，可能會提早觸發一次Full GC。虛擬機提供了-XX:+UseCMSCompactAtFullCollection參數來進行碎片的合併整理過程，這樣會使得停頓時間變長，虛擬機還提供了一個參數配置，-XX:+CMSFullGCsBeforeCompaction，用於設置執行多少次不壓縮的Full GC後，接着來一次帶壓縮的GC。

七、G1收集器

G1是目前技術發展的最前沿成果之一，HotSpot開發團隊賦予它的使命是將來能夠替換掉JDK1.5中發佈的CMS收集器。與其餘GC收集器相比，G1收集器有如下特色：

(1). 並行和併發。使用多個CPU來縮短Stop The World停頓時間，與用戶線程併發執行。

(2). 分代收集。獨立管理整個堆，可是可以採用不一樣的方式去處理新建立對象和已經存活了一段時間、熬過屢次GC的舊對象，以獲取更好的收集效果。

(3). 空間整合。基於標記 - 整理算法，無內存碎片產生。

(4). 可預測的停頓。能簡歷可預測的停頓時間模型，能讓使用者明確指定在一個長度爲M毫秒的時間片斷內，消耗在垃圾收集上的時間不得超過N毫秒。

在G1以前的垃圾收集器，收集的範圍都是整個新生代或者老年代，而G1再也不是這樣。使用G1收集器時，Java堆的內存佈局與其餘收集器有很大差異，它將整個Java堆劃分爲多個大小相等的獨立區域（Region），雖然還保留有新生代和老年代的概念，但新生代和老年代再也不是物理隔離的了，它們都是一部分（能夠不連續）Region的集合。

八、經常使用的收集器組合

7、理解GC日誌

每種收集器的日誌形式都是由它們自身的實現所決定的，換言之，每種收集器的日誌格式均可以不同。不過虛擬機爲了方便用戶閱讀，將各個收集器的日誌都維持了必定的共性，來看下面的一段GC日誌：

[GC [DefNew: 310K->194K(2368K), 0.0269163 secs] 310K->194K(7680K), 0.0269513 secs] [Times: user=0.00 sys=0.00, real=0.03 secs] 
[GC [DefNew: 2242K->0K(2368K), 0.0018814 secs] 2242K->2241K(7680K), 0.0019172 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 
[Full GC (System) [Tenured: 2241K->193K(5312K), 0.0056517 secs] 4289K->193K(7680K), [Perm : 2950K->2950K(21248K)], 0.0057094 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 
Heap
 def new generation   total 2432K, used 43K [0x00000000052a0000, 0x0000000005540000, 0x0000000006ea0000)
  eden space 2176K,   2% used [0x00000000052a0000, 0x00000000052aaeb8, 0x00000000054c0000)
  from space 256K,   0% used [0x00000000054c0000, 0x00000000054c0000, 0x0000000005500000)
  to   space 256K,   0% used [0x0000000005500000, 0x0000000005500000, 0x0000000005540000)
 tenured generation   total 5312K, used 193K [0x0000000006ea0000, 0x00000000073d0000, 0x000000000a6a0000)
   the space 5312K,   3% used [0x0000000006ea0000, 0x0000000006ed0730, 0x0000000006ed0800, 0x00000000073d0000)
 compacting perm gen  total 21248K, used 2982K [0x000000000a6a0000, 0x000000000bb60000, 0x000000000faa0000)
   the space 21248K,  14% used [0x000000000a6a0000, 0x000000000a989980, 0x000000000a989a00, 0x000000000bb60000)
No shared spaces configured.

一、日誌的開頭「GC」、「Full GC」表示此次垃圾收集的停頓類型，而不是用來區分新生代GC仍是老年代GC的。若是有Full，則說明本次GC中止了其餘全部工做線程(Stop-The-World)。看到Full GC的寫法是「Full GC(System)」，這說明是調用System.gc()方法所觸發的GC。

二、「GC」中接下來的「[DefNew」表示GC發生的區域，這裏顯示的區域名稱與使用的GC收集器是密切相關的，例如上面樣例所使用的Serial收集器中的新生代名爲「Default New Generation」，因此顯示的是「[DefNew」。若是是ParNew收集器，新生代名稱就會變爲「[ParNew」，意爲「Parallel New Generation」。若是採用Parallel Scavenge收集器，那它配套的新生代稱爲「PSYoungGen」，老年代和永久代同理，名稱也是由收集器決定的。

三、後面方括號內部的「310K->194K(2368K)」、「2242K->0K(2368K)」，指的是該區域已使用的容量->GC後該內存區域已使用的容量(該內存區總容量)。方括號外面的「310K->194K(7680K)」、「2242K->2241K(7680K)」則指的是GC前Java堆已使用的容量->GC後Java堆已使用的容量(Java堆總容量)。

四、再日後「0.0269163 secs」表示該內存區域GC所佔用的時間，單位是秒。最後的「[Times: user=0.00 sys=0.00 real=0.03 secs]」則更具體了，user表示用戶態消耗的CPU時間、內核態消耗的CPU時間、操做從開始到結束通過的牆鍾時間。後面兩個的區別是，牆鍾時間包括各類非運算的等待消耗，好比等待磁盤I/O、等待線程阻塞，而CPU時間不包括這些耗時，但當系統有多CPU或者多核的話，多線程操做會疊加這些CPU時間，因此若是看到user或sys時間超過real時間是徹底正常的。

五、「Heap」後面就列舉出堆內存目前各個年代的區域的內存狀況。