06-垃圾回收理論

時間 2019-12-07

標籤垃圾回收理論简体版

原文原文鏈接

本節爲JVM垃圾收集的基礎理論，一個GC過程在邏輯上須要通過兩個步驟，即先判斷哪些對象是存活的、哪些對象是死亡的，而後對死亡的對象進行回收。

1、關於回收目標

在前面咱們已經瞭解到，JVM的內存模型劃分爲多個區域，因爲不一樣區域的實現機制以及功能不一樣，那麼各自的回收目標也不一樣。通常來講，內存回收主要涉及如下三個區域：

虛擬機棧/本地方法棧：顧名思義，該部份內存以棧的形式做爲實現，那麼在進棧、出棧的時候內存會自動釋放，相似於C的「自動變量區域內存」；
堆：內存回收主要目標，能夠認爲相似於C中的「動態內存分配區域」，只不過C經過malloc與free函數手動進行管理，而java經過GC進行自動管理；
方法區：該區域回收效果很弱，虛擬機規範強制要求在這裏進行回收。回收目標是常量池的回收和對類型的卸載；

2、方法區回收

方法區的回收目標是回收常量池中的廢棄常量與類卸載。

2.1.常量回收

若常量池中的某常量沒有任何地方引用或者使用，包括該常量不以字面量的形式被使用或引用，則能夠被回收。

2.2.類卸載

知足如下條件的類能夠被卸載：

該類全部實例已被回收；
該類的ClassLoader已被回收；
該類的類型信息，即java.lang.Class沒有任何地方引用（通常爲反射使用）；

能夠看出，對於類的卸載，要求很苛刻。所以在大量使用反射、動態代理、CGLib等字節碼框架、動態生成jsp以及OSGI這類頻繁自定義ClassLoader功能的場景中，都要求JVM具有類卸載功能，以保證永久帶不溢出。

3、堆回收

3.1.對象存活斷定

關於堆中的對象存活斷定，以標記爲基礎，並配合其餘步驟完成。

3.1.1.標記算法

（1）引用計數法

即給對象添加一個引用計數器，每有一個地方進行引用，則計數器加1。當計數器爲0的時候，表示該對象可回收。

引用計數法未被JVM採用，緣由是其沒法解決對象間循環引用的問題，以下圖所示，當堆內的兩個對象循環引用，就算他們已經沒用了，也沒法進行回收：

（2）可達性分析算法

該算法的思想是將一系列被稱爲「GC ROOTS」的對象做爲起點（或稱根節點），向下搜索，所走過的路徑稱爲「引用鏈（reference chain）」。若一個對象沒有能夠到達GC ROOTS的路徑，則稱「該對象不可達」。對於不可達對象，會被標記爲回收狀態。

上圖中，順着GC ROOTS，Obj一、Obj二、Obj3和Obj4都是能夠到達的，所以他們爲存活對象；而Obj5不可到達，Obj六、Obj7即便存在指向它們的引用，但因沒法到達GC ROOTS，所以爲須要回收的對象。

在可達性分析算法中，最重要的就是GC ROOTS。其本質是對象，但並不是全部對象都有資格做爲GC ROOTS，只有如下位置的才能夠：

棧上引用：虛擬機棧的棧幀中本地變量表內引用的對象；
棧上引用：本地方法棧中JNI引用的對象；
方法區：類靜態屬性引用的對象；
方法區：類常量引用的對象；

3.1.2.死亡斷定

對象在通過標記以後，並不會立刻被回收，還要通過如下一系列階段才最終肯定須要被回收：

一次標記：即經過標記算法將對象標記爲待回收狀態，並進入一個待回收對象集合；
篩選：對一次標記以後的待回收對象進行過濾，若是該對象覆蓋了finalize方法，而且該方法未執行過，則將該對象放入F-QUEUE；反之，對象沒有覆蓋finalize方法或者finalize方法已經被執行過了，該對象不會進行任何處理；
F-QUEUE：一個隊列，JVM會經過一個Finalizer線程去執行這個隊列中對象的finalize方法，而且只保證該方法的執行，不保證該方法成功執行完成。由於若finalize方法有死循環，會形成FQUEUE後續未被執行對象的持續等待，致使整個內存回收系統崩潰。根據這個特色，對象能夠在執行finalize方法時進行「自救」，所謂的自救，就是將對象從新與GC ROOTS相關聯；
二次標記：GC會對FQUEUE中的對象進行額外的一次標記，若對象「自救」成功，則會從待回收對象集合中移除；若對象「自救」失敗，它仍然會處於待回收對象集合中，等待真正被回收；
回收：對象經過垃圾收集進行回收，釋放內存空間；

3.2.垃圾收集算法

在上一小節咱們講了對象標記相關的算法，本小節來了解一下垃圾收集算法。

3.2.1.標記-清除算法

標記-清除（mark-sweep）算法，是最基礎的垃圾收集算法，它的思想比較簡單，就是在「對象存活斷定」標記出須要回收的對象後，統一回收（清除）這些對象的內存。

該算法簡單有效，可是存在兩個不足：首先是效率問題，標記和清除兩個階段的效率都不高，所謂效率不高，並不是指的是自身的執行效率，而是指回收結果與耗時的效益比不高；其次是空間問題，標記-清除算法並未整理內存，會產生大量不連續的內存碎片，要分配較大對象時，可能沒法找到足夠的連續內存而不得不又觸發一次GC。

3.2.2.複製算法

複製算法（copying）是對標記-清除算法的改進，其主要思想是將內存劃分爲不一樣的區域，包括「內存使用區」和「結果緩衝區」。每次只使用一部份內存，在該部份內存滿了以後，將仍然存活的對象複製到另一塊區域上面，而後將以前使用過的內存區域所有清理掉， 現代商業虛擬機都採用其回收新生代。

該算法大大提升了回收效率，也能夠避免內存碎片。然而帶來了新的問題：因爲須要開闢一塊內存空間做爲每次回收結果的緩衝，所以可用內存沒法達到100%，「結果緩衝區」的大小決定了內存有效的比率。

如何設置結果緩衝區的內存大小（比例）？將其設置爲50%最能確保每次回收都有足夠大小的緩衝區域存放回收結果，畢竟最差的狀況就是全部對象都存活，然而內存浪費也過高了。根據IBM的研究，通常狀況下，新生代中的對象98%都是「朝生夕死」的，也就是說，每次存活對象的比例並不會過高，咱們只須要設置一小塊內存做爲「回收結果緩衝」便可，他們提出的解決模型以下，將內存劃分爲eden與2塊suvivor：

eden：主存儲區，新對象的建立都在這塊區域；
survivor：分爲兩塊，一塊做爲上次回收結果的「緩存」，一塊做爲下一次回收的「緩存」區域；

基於這種模型，每次回收時，將eden和上次回收結果的survivor中存活的對象複製進空閒的survivor，而後清理掉被回收的區域便可，簡單的示意流程圖見下：

值得注意的是，對於eden-survivor模型，98%的對象可回收只是理想理論，在某些場景下，回收時存活對象的大小有可能大於空閒survivor。對於這種survivor空間大小不夠用的狀況，須要經過「分配擔保」機制來保證對象能正確留存。所謂的分配擔保，就是不夠空間survivor存放的對象進入老年代。

3.2.3.標記-整理算法

在上一小節咱們知道複製算法主要適合於新生代的回收，對於老年代這種對象存活率高的區域，由於每次都會複製大量對象，成本收益比較低，使用複製算法明顯不合適；相反，標記-清除算法更適合老年代的特徵，爲了解決標記-清除算法的內存碎片問題，在此基礎上，優化爲標記-整理算法（mark-compact）。

標記-整理算法主要思想是在標記對象後，將存活對象向內存的一端移動，而後清理掉端邊界之外的內存，所謂的整理也能夠理解爲壓縮。

3.2.4.總結

沒有哪種垃圾收集算法可以適用於全部狀況，對於不一樣的堆內存區域（新生代、老年代），須要根據實際的對象特徵，選擇合適的算法。

算法	優勢	缺點	適用區域
複製	效率較高，無內存碎片問題	1.內存利用率達不到100%；2.須要分配擔保機制確保對象存活率較高時的內存分配；	新生代（對象存活率低，複製成本低）
標記-清除	簡單有效	1.效率不高；2.有內存碎片問題；	老年代（對象存活率高，無額外空間進行分配擔保）
標記-整理	標記-清除的改良，解決了內存碎片問題	1.一樣存在效率問題；2.整理過程須要額外的時間開銷；	老年代（對象存活率高，無額外空間進行分配擔保）

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。