06-垃圾回收理論

        本節爲JVM垃圾收集的基礎理論,一個GC過程在邏輯上須要通過兩個步驟,即先判斷哪些對象是存活的、哪些對象是死亡的,而後對死亡的對象進行回收。

1、關於回收目標

        在前面咱們已經瞭解到,JVM的內存模型劃分爲多個區域,因爲不一樣區域的實現機制以及功能不一樣,那麼各自的回收目標也不一樣。通常來講,內存回收主要涉及如下三個區域:
  • 虛擬機棧/本地方法棧:顧名思義,該部份內存以棧的形式做爲實現,那麼在進棧、出棧的時候內存會自動釋放,相似於C的「自動變量區域內存」;
  • 堆:內存回收主要目標,能夠認爲相似於C中的「動態內存分配區域」,只不過C經過malloc與free函數手動進行管理,而java經過GC進行自動管理;
  • 方法區:該區域回收效果很弱,虛擬機規範強制要求在這裏進行回收。回收目標是常量池的回收和對類型的卸載;
 

2、方法區回收

        方法區的回收目標是回收常量池中的廢棄常量與類卸載。

2.1.常量回收

        若常量池中的某常量沒有任何地方引用或者使用,包括該常量不以字面量的形式被使用或引用,則能夠被回收。

2.2.類卸載

        知足如下條件的類能夠被卸載:
  • 該類全部實例已被回收;
  • 該類的ClassLoader已被回收;
  • 該類的類型信息,即java.lang.Class沒有任何地方引用(通常爲反射使用);
        能夠看出,對於類的卸載,要求很苛刻。所以在大量使用反射、動態代理、CGLib等字節碼框架、動態生成jsp以及OSGI這類頻繁自定義ClassLoader功能的場景中,都要求JVM具有類卸載功能,以保證永久帶不溢出。
 

3、堆回收

3.1.對象存活斷定

        關於堆中的對象存活斷定,以標記爲基礎,並配合其餘步驟完成。

3.1.1.標記算法

(1)引用計數法
        即給對象添加一個引用計數器,每有一個地方進行引用,則計數器加1。當計數器爲0的時候,表示該對象可回收。
        引用計數法未被JVM採用,緣由是其沒法解決對象間循環引用的問題,以下圖所示,當堆內的兩個對象循環引用,就算他們已經沒用了,也沒法進行回收:
 
(2)可達性分析算法
        該算法的思想是將一系列被稱爲「GC ROOTS」的對象做爲起點(或稱根節點),向下搜索,所走過的路徑稱爲「引用鏈(reference chain)」。若一個對象沒有能夠到達GC ROOTS的路徑,則稱「該對象不可達」。對於不可達對象,會被標記爲回收狀態。
        上圖中,順着GC ROOTS,Obj一、Obj二、Obj3和Obj4都是能夠到達的,所以他們爲存活對象;而Obj5不可到達,Obj六、Obj7即便存在指向它們的引用,但因沒法到達GC ROOTS,所以爲須要回收的對象。
   在可達性分析算法中,最重要的就是GC ROOTS。其本質是對象,但並不是全部對象都有資格做爲GC ROOTS,只有如下位置的才能夠:
  • 棧上引用:虛擬機棧的棧幀中本地變量表內引用的對象;
  • 棧上引用:本地方法棧中JNI引用的對象;
  • 方法區:類靜態屬性引用的對象;
  • 方法區:類常量引用的對象;

3.1.2.死亡斷定

        對象在通過標記以後,並不會立刻被回收,還要通過如下一系列階段才最終肯定須要被回收:
  • 一次標記:即經過標記算法將對象標記爲待回收狀態,並進入一個待回收對象集合;
  • 篩選:對一次標記以後的待回收對象進行過濾,若是該對象覆蓋了finalize方法,而且該方法未執行過,則將該對象放入F-QUEUE;反之,對象沒有覆蓋finalize方法或者finalize方法已經被執行過了,該對象不會進行任何處理;
  • F-QUEUE:一個隊列,JVM會經過一個Finalizer線程去執行這個隊列中對象的finalize方法,而且只保證該方法的執行,不保證該方法成功執行完成。由於若finalize方法有死循環,會形成FQUEUE後續未被執行對象的持續等待,致使整個內存回收系統崩潰。根據這個特色,對象能夠在執行finalize方法時進行「自救」,所謂的自救,就是將對象從新與GC ROOTS相關聯;
  • 二次標記:GC會對FQUEUE中的對象進行額外的一次標記,若對象「自救」成功,則會從待回收對象集合中移除;若對象「自救」失敗,它仍然會處於待回收對象集合中,等待真正被回收;
  • 回收:對象經過垃圾收集進行回收,釋放內存空間;

3.2.垃圾收集算法

        在上一小節咱們講了對象標記相關的算法,本小節來了解一下垃圾收集算法。

3.2.1.標記-清除算法

        標記-清除(mark-sweep)算法,是最基礎的垃圾收集算法,它的思想比較簡單,就是在「對象存活斷定」標記出須要回收的對象後,統一回收(清除)這些對象的內存。
        該算法簡單有效,可是存在兩個不足:首先是效率問題,標記和清除兩個階段的效率都不高,所謂效率不高,並不是指的是自身的執行效率,而是指回收結果與耗時的效益比不高;其次是空間問題,標記-清除算法並未整理內存,會產生大量不連續的內存碎片,要分配較大對象時,可能沒法找到足夠的連續內存而不得不又觸發一次GC。

3.2.2.複製算法

        複製算法(copying)是對標記-清除算法的改進,其主要思想是將內存劃分爲不一樣的區域,包括「內存使用區」和「結果緩衝區」。每次只使用一部份內存,在該部份內存滿了以後,將仍然存活的對象複製到另一塊區域上面,而後將以前使用過的內存區域所有清理掉, 現代商業虛擬機都採用其回收新生代
        該算法大大提升了回收效率,也能夠避免內存碎片。然而帶來了新的問題:因爲須要開闢一塊內存空間做爲每次回收結果的緩衝,所以可用內存沒法達到100%,「結果緩衝區」的大小決定了內存有效的比率。
        如何設置結果緩衝區的內存大小(比例)?將其設置爲50%最能確保每次回收都有足夠大小的緩衝區域存放回收結果,畢竟最差的狀況就是全部對象都存活,然而內存浪費也過高了。根據IBM的研究,通常狀況下,新生代中的對象98%都是「朝生夕死」的,也就是說,每次存活對象的比例並不會過高,咱們只須要設置一小塊內存做爲「回收結果緩衝」便可,他們提出的解決模型以下,將內存劃分爲eden與2塊suvivor:
  • eden:主存儲區,新對象的建立都在這塊區域;
  • survivor:分爲兩塊,一塊做爲上次回收結果的「緩存」,一塊做爲下一次回收的「緩存」區域;
        基於這種模型,每次回收時,將eden和上次回收結果的survivor中存活的對象複製進空閒的survivor,而後清理掉被回收的區域便可,簡單的示意流程圖見下:
        值得注意的是,對於eden-survivor模型,98%的對象可回收只是理想理論,在某些場景下,回收時存活對象的大小有可能大於空閒survivor。對於這種survivor空間大小不夠用的狀況,須要經過「分配擔保」機制來保證對象能正確留存。所謂的分配擔保,就是不夠空間survivor存放的對象進入老年代。

3.2.3.標記-整理算法

        在上一小節咱們知道複製算法主要適合於新生代的回收,對於老年代這種對象存活率高的區域,由於每次都會複製大量對象,成本收益比較低,使用複製算法明顯不合適;相反,標記-清除算法更適合老年代的特徵,爲了解決標記-清除算法的內存碎片問題,在此基礎上,優化爲標記-整理算法(mark-compact)。
        標記-整理算法主要思想是在標記對象後,將存活對象向內存的一端移動,而後清理掉端邊界之外的內存,所謂的整理也能夠理解爲壓縮。

3.2.4.總結

        沒有哪種垃圾收集算法可以適用於全部狀況,對於不一樣的堆內存區域(新生代、老年代),須要根據實際的對象特徵,選擇合適的算法。
算法 優勢 缺點 適用區域
複製 效率較高,無內存碎片問題 1.內存利用率達不到100%;2.須要分配擔保機制確保對象存活率較高時的內存分配; 新生代(對象存活率低,複製成本低)
標記-清除 簡單有效 1.效率不高;2.有內存碎片問題; 老年代(對象存活率高,無額外空間進行分配擔保)
標記-整理 標記-清除的改良,解決了內存碎片問題 1.一樣存在效率問題;2.整理過程須要額外的時間開銷;
相關文章
相關標籤/搜索