Java虛擬機：GC算法深度解析

時間 2019-11-11

標籤 java 虛擬機算法深度解析欄目 Java 简体版

原文原文鏈接

在前面的文章裏介紹了可達性分析算法，它爲咱們解決了斷定哪些對象能夠回收的問題，接下來就該咱們的垃圾收集算法出場了。不一樣的垃圾收集算法有各自不一樣的優缺點，在JVM實現中，每每不是採用單一的一種算法進行回收，而是採用幾種不一樣的算法組合使用，來達到最好的收集效果。接下來詳細介紹幾種垃圾收集算法的思想及發展過程。jvm

最基礎的收集算法 —— 標記/清除算法學習

之因此說標記/清除算法是幾種GC算法中最基礎的算法，是由於後續的收集算法都是基於這種思路並對其不足進行改進而獲得的。標記/清除算法的基本思想就跟它的名字同樣，分爲「標記」和「清除」兩個階段：首先標記出全部須要回收的對象，在標記完成後統一回收全部被標記的對象。優化

標記階段：標記的過程其實就是前面介紹的可達性分析算法的過程，遍歷全部的GC Roots對象，對從GC Roots對象可達的對象都打上一個標識，通常是在對象的header中，將其記錄爲可達對象；spa

清除階段：清除的過程是對堆內存進行遍歷，若是發現某個對象沒有被標記爲可達對象（經過讀取對象header信息），則將其回收。線程

上圖是標記/清除算法的示意圖，在標記階段，從對象GC Root 1能夠訪問到B對象，從B對象又能夠訪問到E對象，所以從GC Root 1到B、E都是可達的，同理，對象F、G、J、K都是可達對象；到了清除階段，全部不可達對象都會被回收。3d

在垃圾收集器進行GC時，必須中止全部Java執行線程（也稱"Stop The World"），緣由是在標記階段進行可達性分析時，不能夠出現分析過程當中對象引用關係還在不斷變化的狀況，不然的話可達性分析結果的準確性就沒法獲得保證。在等待標記清除結束後，應用線程纔會恢復運行。對象

前面剛提過，後續的收集算法是在標記/清除算法的基礎上進行改進而來的，那也就是說標記/清除算法有它的不足。其實瞭解了它的原理，其缺點也就不難看出了。blog

一、效率問題。標記和清除兩個階段的效率都不高，由於這兩個階段都須要遍歷內存中的對象，不少時候內存中的對象實例數量是很是龐大的，這無疑很耗費時間，並且GC時須要中止應用程序，這會致使很是差的用戶體驗。內存

二、空間問題。標記清除以後會產生大量不連續的內存碎片（從上圖能夠看出），內存空間碎片太多可能會致使之後在程序運行過程當中須要分配較大對象時，沒法找到足夠的連續內存而不得不提早觸發另外一次垃圾回收動做。

既然標記/清除算法有這麼多的缺點，那它還有存在的意義嗎？別急，一個算法有缺陷，人們確定會想辦法去完善它，接下來的兩個算法就是在標記/清除算法的基礎上完善而來的。

複製算法

爲了解決效率問題，複製算法出現了。複製算法的原理是：將可用內存按容量劃分爲大小相等的兩塊，每次使用其中的一塊。當這一塊的內存用完了，就將還存活的對象複製到另外一塊內存上，而後把這一塊內存全部的對象一次性清理掉。用圖說明以下：

回收前：

回收後：

複製算法每次都是對整個半區進行內存回收，這樣就減小了標記對象遍歷的時間，在清除使用區域對象時，不用進行遍歷，直接清空整個區域內存，並且在將存活對象複製到保留區域時也是按地址順序存儲的，這樣就解決了內存碎片的問題，在分配對象內存時不用考慮內存碎片等複雜問題，只須要按順序分配內存便可。

複製算法簡單高效，優化了標記/清除算法的效率低、內存碎片多的問題。可是它的缺點也很明顯：

一、將內存縮小爲原來的一半，浪費了一半的內存空間，代價過高；

二、若是對象的存活率很高，極端一點的狀況假設對象存活率爲100%，那麼咱們須要將全部存活的對象複製一遍，耗費的時間代價也是不可忽視的。

基於以上覆制算法的缺點，因爲新生代中的對象幾乎都是「朝生夕死」的（達到98%），如今的商業虛擬機都採用複製算法來回收新生代。因爲新生代的對象存活率低，因此並不須要按照1：1的比例來劃份內存空間，而是將內存分爲一塊較大的Eden空間和兩塊較小的From Survivor空間、To Survivor空間，三者的比例爲8：1：1。每次使用Eden和From Survivor區域，To Survivor做爲保留空間。GC開始時，對象只會存在於Eden區和From Survivor區，To Survivor區是空的。GC進行時，Eden區中全部存活的對象都會被複制到To Survivor區，而在From Survivor區中，仍存活的對象會根據它們的年齡值決定去向，年齡值達到年齡閥值（默認爲15，新生代中的對象每熬過一輪垃圾回收，年齡值就加1）的對象會被移到老年代中，沒有達到閥值的對象會被複制到To Survivor區。接着清空Eden區和From Survivor區，新生代中存活的對象都在To Survivor區。接着， From Survivor區和To Survivor區會交換它們的角色，也就是新的To Survivor區就是上次GC清空的From Survivor區，新的From Survivor區就是上次GC的To Survivor區，總之，無論怎樣都會保證To Survivor區在一輪GC後是空的。GC時當To Survivor區沒有足夠的空間存放上一次新生代收集下來的存活對象時，須要依賴老年代進行分配擔保，將這些對象存放在老年代中。

標記/整理算法

複製算法在對象存活率較高時要進行較多的複製操做，效率會變得很低，更關鍵的是，若是不想浪費50%的內存空間，就須要有額外的內存空間進行分配擔保，以應對內存中對象100%存活的極端狀況，所以，在老年代中因爲對象的存活率很是高，複製算法就不合適了。根據老年代的特色，高人們提出了另外一種算法：標記/整理算法。從名字上看，這種算法與標記/清除算法很像，事實上，標記/整理算法的標記過程任然與標記/清除算法同樣，但後續步驟不是直接對可回收對象進行回收，而是讓全部存活的對象都向一端移動，而後直接清理掉端邊線之外的內存。

回收前：

回收後：

能夠看到，回收後可回收對象被清理掉了，存活的對象按規則排列存放在內存中。這樣一來，當咱們給新對象分配內存時，jvm只須要持有內存的起始地址便可。標記/整理算法不只彌補了標記/清除算法存在內存碎片的問題，也消除了複製算法內存減半的高額代價，可謂一箭雙鵰。但任何算法都有缺點，就像人無完人，標記/整理算法的缺點就是效率也不高，不只要標記存活對象，還要整理全部存活對象的引用地址，在效率上不如複製算法。

弄清了以上三種算法的原理，下面咱們來從幾個方面對這幾種算法作一個簡單排行。

效率：複製算法 > 標記/整理算法 > 標記/清除算法（標記/清除算法有內存碎片問題，給大對象分配內存時可能會觸發新一輪垃圾回收）

內存整齊率：複製算法 = 標記/整理算法 > 標記/清除算法

內存利用率：標記/整理算法 = 標記/清除算法 > 複製算法

從上面簡單的評估能夠看出，標記/清除算法已經比較落後了，可是吃水不忘挖井人，它是後面幾種算法的前輩、是基礎，在某些場景下它也有用武之地。

終極算法 —— 分代收集算法

當前商業虛擬機都採用分代收集算法，說它是終極算法，是由於它結合了前幾種算法的優勢，將算法組合使用進行垃圾回收，與其說它是一種新的算法，不如說它是對前幾種算法的實際應用。分代收集算法的思想是按對象的存活週期不一樣將內存劃分爲幾塊，通常是把Java堆分爲新生代和老年代（還有一個永久代，是HotSpot特有的實現，其餘的虛擬機實現沒有這一律念，永久代的收集效果不好，通常不多對永久代進行垃圾回收），這樣就能夠根據各個年代的特色採用最合適的收集算法。

新生代：朝生夕滅，存活時間很短。

老年代：通過屢次Minor GC而存活下來，存活週期長。

在新生代中每次垃圾回收都發現有大量的對象死去，只有少許存活，所以採用複製算法回收新生代，只須要付出少許對象的複製成本就能夠完成收集；而老年代中對象的存活率高，不適合採用複製算法，並且若是老年代採用複製算法，它是沒有額外的空間進行分配擔保的，所以必須使用標記/清理算法或者標記/整理算法來進行回收。

總結一下就是，分代收集算法的原理是採用複製算法來收集新生代，採用標記/清理算法或者標記/整理算法收集老年代。

以上內容介紹了幾種收集算法的原理、優缺點以及使用場景，它們的共同點是：當GC線程啓動時（即進行垃圾收集），應用程序都要暫停（Stop The World）。理解了這些知識，爲咱們研究垃圾收集器的運行原理打下了基礎。以上是我我的學習的一點總結，歡迎交流學習。