JVM系列之垃圾回收

垃圾回收

一.    引用

    jvm垃圾回收 http://blog.csdn.net/zhyhang/article/details/17233251 java

    jvm垃圾回收簡史 http://www.ibm.com/developerworks/cn/java/j-jtp10283/ c++

    jvm垃圾收集器總結 http://my.oschina.net/shiinnny/blog/388748?fromerr=kgbOEhyF 程序員


二.    簡介

2.1 GC的介紹

GC(Garbage Collection),是JAVA/.NET中的垃圾收集器。算法

Java是由C++發展來的,它擯棄了C++中一些繁瑣容易出錯的東西,引入了計數器的概念,其中有一條就是這個GC機制(C#借鑑了JAVA)編程

編程人員容易出現問題的地方,忘記或者錯誤的內存回收會致使程序或系統的不穩定甚至崩潰,Java提供的GC功能能夠自動監測對象是否超過做用域從而達到自動回收內存的目的,Java語言沒有提供釋放已分配內存的顯示操做方法。因此,Java的內存管理實際上就是對象的管理,其中包括對象的分配和釋放。緩存

對於程序員來講,分配對象使用new關鍵字;釋放對象時,只要將對象全部引用賦值爲null,讓程序不可以再訪問到這個對象,咱們稱該對象爲"不可達的".GC將負責回收全部"不可達"對象的內存空間,大部語言的內存管理方式,都是放棄對對象地址的引用,下一次使用時直接覆蓋。服務器

對於GC來講,當程序員建立對象時,GC就開始監控這個對象的地址、大小以及使用狀況。一般,GC採用有向圖的方式記錄和管理堆(heap)中的全部對象。經過這種方式肯定哪些對象是"可達的",哪些對象是"不可達的".當GC肯定一些對象爲"不可達"時,GC就有責任回收這些內存空間。可是,爲了保證 GC可以在不一樣平臺實現的問題,Java規範對GC的不少行爲都沒有進行嚴格的規定。例如,對於採用什麼類型的回收算法、何時進行回收等重要問題都沒有明確的規定。所以,不一樣的JVM的實現者每每有不一樣的實現算法。這也給Java程序員的開發帶來行多不肯定性。本文研究了幾個與GC工做相關的問題,努力減小這種不肯定性給Java程序帶來的負面影響。多線程

2.2GC的相關名詞

最大垃圾回收暫停指定垃圾回收時的最長暫停時間(暫停時間影響到內存的從新分配時間,因此越短效率越高),經過-XX:MaxGCPauseMillis=<N>指定。<N>爲毫秒.若是指定了此值的話,堆大小和垃圾回收相關參數會進行調整以達到指定值。設定此值可能會減小應用的吞吐量。併發

吞吐量吞吐量爲垃圾回收時間與非垃圾回收時間的比值,經過-XX:GCTimeRatio=<N>來設定,公式爲1/1+N)。例如,-XX:GCTimeRatio=19時,表示5%的時間用於垃圾回收。默認狀況爲99,即1%的時間用於垃圾回收。jvm

2.3總結

     1. c/c++是手動分配/回收內存,jvm是自動管理內存的分配/回收。這也是一大坨java工程師的應用能在一塊兒相安無事的緣由之一。

     2. 在垃圾回收時,會出現整個應用停頓(由於這個時候必須中止內存的分配),從而引出吞吐量

     3. 當應用愈來愈大的時候,標記法花費的時間愈來愈長,反而影響了運行效率。這也是如今併發回收器大量運用的緣由(回收器線程和應用線程同時運行)。


三.    回收器的標準

             1.暫停時間:收集器是否中止全部工做來進行垃圾收集?要中止多長時間?暫停是否有時間限制?

2.暫停的可預測性:垃圾收集暫停是否規劃爲在用戶程序方便而不是垃圾收集器方便的時間發生?

3.CPU 佔用:總的可用 CPU 時間用在垃圾收集上的百分比是多少?

4.內存大小:許多垃圾收集算法須要將堆分割成獨立的內存空間,其中一些空間在某些時刻對用戶程序是不可訪問的。這意味着堆的實際大小可能比用戶程序的最大堆駐留空間要大幾倍。

5.虛擬內存交互:在具備有限物理內存的系統上,一個完整的垃圾收集在垃圾收集過程當中可能會錯誤地將很是駐頁面放到內存中來進行檢查。由於頁面錯誤的成本很高,因此垃圾收集器正確管理引用的區域性 (locality) 是很必要的。

6.緩存交互:即便在整個堆能夠放到主內存中的系統上 ―― 實際上幾乎全部 Java 應用程序均可以作到這一點,垃圾收集也經常會有將用戶程序使用的數據衝出緩存的效果,從而影響用戶程序的性能。

7.對程序區域性的影響:雖然一些人認爲垃圾收集器的工做只是收回不可到達的內存,可是其餘人認爲垃圾收集器還應該儘可能改進用戶程序的引用區域性。整理收集器和複製收集器在收集過程當中從新安排對象,這有可能改進區域性。

8.編譯器和運行時影響一些垃圾收集算法要求編譯器或者運行時環境的重要配合,引用計數。如當進行指針分配時更新引用計數。這增長了編譯器的工做,由於它必須生成這些簿記指令,同時增長了運行時環境的開銷,由於它必須執行這些額外的指令。這些要求對性能有什麼影響呢?它是否會干擾編譯時優化呢?


四.    回收思路

4.1. 如何解決同時存在的對象建立和對象回收問題

垃圾回收線程是回收內存的,而程序運行線程則是消耗(或分配)內存的,一個回收內存,一個分配內存,從這點看,二者是矛盾的。所以,在現有的垃圾回收方式中,要進行垃圾回收前,通常都須要暫停整個應用(即:暫停內存的分配),而後進行垃圾回收,回收完成後再繼續應用。這種實現方式是最直接,並且最有效的解決兩者矛盾的方式。

內存分配的越大,暫停的時間越長:當堆空間持續增大時,垃圾回收的時間也將會相應的持續增大,對應應用暫停的時間也會相應的增大。一些對相應時間要求很高的應用,好比最大暫停時間要求是幾百毫秒,那麼當堆空間大於幾個G時,就頗有可能超過這個限制,在這種狀況下,垃圾回收將會成爲系統運行的一個瓶頸。

解決:併發垃圾回收算法,使用這種算法,垃圾回收線程與程序運行線程同時運行。在這種方式下,解決了暫停的問題,可是由於須要在新生成對象的同時又要回收對象,算法複雜性會大大增長,系統的處理能力也會相應下降,同時,「碎片」問題將會比較難解決

 

4.2.爲何要分代

 4.2.1     介紹

分代的垃圾回收策略,是基於這樣一個事實:不一樣的對象的生命週期是不同的。所以,不一樣生命週期的對象能夠採起不一樣的收集方式,以便提升回收效率。

在Java程序運行的過程當中,會產生大量的對象,其中有些對象是與業務信息相關,好比Http請求中的Session對象、線程、Socket鏈接,這類對象跟業務直接掛鉤,所以生命週期比較長。可是還有一些對象,主要是程序運行過程當中生成的臨時變量,這些對象生命週期會比較短,好比:String對象,因爲其不變類的特性,系統會產生大量的這些對象,有些對象甚至只用一次便可回收。

試想,在不進行對象存活時間區分的狀況下,每次垃圾回收都是對整個堆空間進行回收,花費時間相對會長,同時,由於每次回收都須要遍歷全部存活對象,但實際上,對於生命週期長的對象而言,這種遍歷是沒有效果的,由於可能進行了不少次遍歷,可是他們依舊存在。所以,分代垃圾回收採用分治的思想,進行代的劃分,把不一樣生命週期的對象放在不一樣代上,不一樣代上採用最適合它的垃圾回收方式進行回收。

 4.2.2    分代方式

    

    

如上圖,虛擬機中的共劃分爲三個代:年輕代(Young Generation)、年老點(Old Generation)、持久代(Permanent Generation)

其中持久代主要存放的是Java類的類信息,與垃圾收集要收集的Java對象關係不大。年輕代和年老代的劃分是對垃圾收集影響比較大的。

(1)年輕代:

全部新生成的對象首先都是放在年輕代的。年輕代的目標就是儘量快速的收集掉那些生命週期短的對象。年輕代分三個區。一個Eden區,兩個Survivor區(通常而言)。大部分對象在Eden區中生成。當Eden區滿時,還存活的對象將被複制到Survivor區(兩個中的一個),當這個Survivor區滿時,此區的存活對象將被複制到另一個Survivor區,當這個Survivor區也滿了的時候,從第一個Survivor區複製過來的而且此時還存活的對象,將被複制「年老區(Tenured)」須要注意,Survivor的兩個區是對稱的,沒前後關係,因此同一個區中可能同時存在從Eden複製過來 對象,和從前一個Survivor複製過來的對象,而複製到年老區的只有從第一個Survivor去過來的對象。並且,Survivor區總有一個是空的。同時,根據程序須要,Survivor區是能夠配置爲多個的(多於兩個),這樣能夠增長對象在年輕代中的存在時間,減小被放到年老代的可能。

(2)年老代:

在年輕代中經歷了N次垃圾回收後仍然存活的對象,就會被放到年老代中。所以,能夠認爲年老代中存放的都是一些生命週期較長的對象。

(3)持久代:

用於存放靜態文件,現在Java類、方法等。持久代對垃圾回收沒有顯著影響,可是有些應用可能動態生成或者調用一些class,例如Hibernate等,在這種時候須要設置一個比較大的持久代空間來存放這些運行過程當中新增的類。持久代大小經過-XX:MaxPermSize=<N>進行設置。

 4.3    觸發方式

4.3.1  Scavenge GC

       通常狀況下,當新對象生成,而且在Eden申請空間失敗時(剩餘的連續的內存空間不能建立這個對象),就會觸發Scavenge GC,對Eden區域進行GC,清除非存活對象,而且把尚且存活的對象移動到Survivor區。而後整理Survivor的兩個區。這種方式的GC是對年輕代的Eden區進行,不會影響到年老代。由於大部分對象都是從Eden區開始的,同時Eden區不會分配的很大,因此Eden區的GC會頻繁進行。於是,通常在這裏須要使用速度快、效率高的算法,使Eden去能儘快空閒出來。

4.3.2 .Full GC

        對整個堆進行整理,包括Young、Tenured和Perm。Full GC由於須要對整個對進行回收,因此比Scavenge GC要慢,所以應該儘量減小Full GC的次數在對JVM調優的過程當中,很大一部分工做就是對於FullGC的調節。有以下緣由可能致使Full GC:

       · 年老代(Tenured)被寫滿《運行時的主要Full GC方式》

· 持久代(Perm)被寫滿 

· System.gc()被顯示調用 

·上一次GC以後Heap的各域分配策略動態變化   



五.    回收策略

5.1.方法一:計數法

    5.1.1.引用計數reference counting

             比較古老的回收算法。原理是此對象有一個引用,即增長一個計數,刪除一個引用則減小一個計數。垃圾回收時,引用收集計數爲0的對象。此算法最致命的是沒法處理循環引用的問題。

    缺點:若是兩個對象相會引用,則沒法達到回收效果。最典型的就是java中的觀察這模式,須要對象之間的相互引用。

          

5.2 方法二:標記法

從程序運行的根節點出發,遍歷整個對象引用,查找存活的對象

垃圾回收從哪兒開始的呢即,從哪兒開始查找哪些對象是正在被當前系統使用的。上面分析的堆和棧的區別,其中棧是真正進行程序執行地方,因此要獲取哪些對象正在被使用,則須要Java棧開始,每個線程都會在java stack 區劃分一個線程棧,而後實現第一個棧幀同時,一個棧是與一個線程對應的,所以,若是有多個線程的話,則必須對這些線程對應的全部的棧進行檢查。

同時,除了棧外,還有系統運行時的寄存器等,也是存儲程序運行數據的。這樣,以棧或寄存器中的引用爲起點,咱們能夠找到堆中的對象,又從這些對象找到對堆中其餘對象的引用,這種引用逐步擴展,最終以null引用或者基本類型結束,這樣就造成了一顆以Java棧中引用所對應的對象爲根節點的一顆對象樹,若是棧中有多個引用,則最終會造成多顆對象樹。在這些對象樹上的對象,都是當前系統運行所須要的對象,不能被垃圾回收。而其餘剩餘對象,則能夠視爲沒法被引用到的對象,能夠被當作垃圾進行回收。

        所以,垃圾回收的起點是一些根對象(java, 靜態變量, 寄存器...。而最簡單的Java棧就是Java程序執行的main函數。


5.2.1標記-清除(Mark-Sweep)

它中止全部工做,收集器從開始訪問每個活躍的節點,標記它所訪問的每個節點。走過全部引用後,收集就完成了,而後就對堆進行清除(即對堆中的每個對象進行檢查),全部沒有標記的對象都做爲垃圾回收並返回空閒列表。

        優勢:

        1.消耗低

        2.解決了,引用計數的相互引用問題

        缺點:

        1.收集暫停很長

        2.會產生內存碎片。當一個對象須要new的時候,若是在eden區沒有連續的實用的內存,就會又發生gc。這又會使整個jvm效率變得低下。

            

5.2.2 標記-複製

        堆被分紅兩個大小相等的半空間,其中一個包含活躍的數據,另外一個未使用。當活躍的空間佔滿之後,程序就會中止,活躍的對象被從活躍的空間複製到不活躍的空間中。空間的角色就會轉換,原來不活躍的空間成爲了新的活躍空間。直接把活躍的數據內存複製到未使用區,而後放棄活躍區,下次又直接覆蓋。

複製收集的優勢是隻訪問活躍的對象,這意味着不會檢查垃圾對象,也不須要將它們頁交換到內存中或者送到緩存中。複製收集器的收集週期時間是由活躍對象的數量決定的。不過,複製收集器由於要將數據從一個空間複製到另外一個空間、調整全部引用以指向新備份而增長了成本。特別是,長壽的對象在每次收集時都要來回複製。

優勢:

        1.   不會檢查垃圾對象

        2.   複製成本低

        3.   沒有內存碎片

缺點:

1.消耗內存:須要另一個內存空間,做爲不活躍區



5.2.3 標記-整理

此算法結合了「標記-清除」和「複製」兩個算法的優勢。也是分兩階段,

1.從根節點開始標記全部被引用對象,

2.遍歷整個堆,把清除未標記對象而且把存活對象「壓縮」到堆的其中一塊,按順序排放。此算法避免了「標記-清除」的碎片問題,同時也避免了「複製」算法的空間問題。


六.    垃圾回收流程圖

    6.1 初始狀態

    

    6.2  首次回收(survivor裏面沒有數據)

    6.3 常規回收(survivor有數據,而且jvm運行時,大部分都是這種回收方式)


    6.4 若是年輕代沒有內存可分配

七.    回收器分類

    7.1    按區分

(1)增量收集(Incremental Collecting)實時垃圾回收算法,即:在應用進行的同時進行垃圾回收。不知道什麼緣由JDK5.0中的收集器沒有使用這種算法的。

(2)分代收集(Generational Collecting)基於對對象生命週期分析後得出的垃圾回收算法。把對象分爲年青代、年老代、持久代,對不一樣生命週期的對象使用不一樣的算法(上述方式中的一個)進行回收。如今的垃圾回收器(從J2SE1.2開始)都是使用此算法的。

    7.2    按系統線程分

    

     7.2.1 串行收集:

        (1)串行收集使用單線程處理全部垃圾回收工做,由於無需多線程交互,實現容易,並且效率比較高。

        (2)其侷限性也比較明顯,即沒法使用多處理器的優點,因此此收集適合單處理器機器。固然,此收集器也能夠用在小數據量(100M左右)狀況下的多處理器機器上。

        (3)使用-XX:+UseSerialGC打開

        (4)場景:適用狀況:數據量比較小(100M左右);單處理器下而且對響應時間無要求的應用。缺點:只能用於小型應用


     7.2.2 並行收集

        (1)並行收集使用多線程處理垃圾回收工做,於是速度快,效率高。並且理論上CPU數目越多,越能體現出並行收集器的優點。

        (2)當回收時,全部的cpu都去處理回收線程。會形成停頓時間,用戶體驗很差。

        (3)使用-XX:+UseParallelGC.打開

        (4)使用-XX:ParallelGCThreads=<N>設置並行垃圾回收的線程數。此值能夠設置與機器處理器數量相等。

        (5)場景:適用狀況:「對吞吐量有高要求」,多CPU、對應用響應時間無要求的中、大型應用。舉例:後臺處理、科學計算。缺點:垃圾收集過程當中應用響應時間可能加長


    

     7.2.3併發收集

        (1)相對於串行收集和並行收集而言,前面兩個在進行垃圾回收工做時,須要暫停整個運行環境(有垃圾回收程序在運行)。應用線程和回收線程同時運行,停頓時間短,吞吐量高。如今的服務器基本都是用的該類

        (2)使用-XX:+UseConcMarkSweepGC 打開  

        (3設置-XX:CMSInitiatingOccupancyFraction=<N>指定還有多少剩餘堆時開始執行併發收集

        (4)場景:適用狀況:「對響應時間有高要求」,多CPU、對應用響應時間有較高要求的中、大型應用。舉例:Web服務器/應用服務器、電信交換、集成開發環境

    7.3 回收器總結


類別

serial collector

(單線程收集器)
parallel collector
並行收集器)
concurrent collector
(
併發收集器)
介紹 使用單線程去完成全部的gc工做,沒有線程間的通訊,這種方式會相對高效 使用多線程的方式,利用多CUP來提升GC的效率,主要以到達必定的吞吐量爲目標 使用多線程的方式,利用多CUP來提升GC的效率,併發完成大部分工做,使得gc pause短
適用場景 單處理器機器且沒有pause time的要求 適用於科學技術和後臺處理
有中規模/大規模數據集大小的應用且運行在多處理器上,關注吞吐量(throughput)
適合中大規模數據集的應用,應用服務器,電信領域,關注response time,而不是throughput
使用參數

Client模式下默認:可以使用

強制使用參數:-XX:+UseSerialGC 

優勢:對server應用沒什麼優勢

缺點:慢,不能充分發揮硬件資源

Server模式下默認

--YGC:SP

--FGC:Parallel MSC

 強制使用參數:

-XX:+UseParallelGC或-XX:+UseParallelOldGC

--ParallelGC表明FGC爲Parallel MSC

--ParallelOldGC表明FGC爲Parallel Compacting

可用-XX:+UseConcMarkSweepGC強制指定

優勢:
對old
進行回收時,對應用形成的暫停時間很是短,適合對latency要求比較高的應用
缺點:
1.內存碎片和浮動垃圾
2.old去的內存分配效率低
3.回收的整個耗時比較長
4.和應用爭搶CPU
內存回收觸發條件

YGC:eden空間不足

FGC:
old空間不足
perm空間不足
顯示調用System.gc(),包括RMI等的定時觸發

YGC:eden空間不足

FGC:
old空間不足
perm空間不足
顯示調用System.gc(),包括RMI等的定時觸發
CMS GC:
1.old Gen使用率大的比率,默認爲92%
2.配置了CMSClassUnloadingEnabled,且Perm Gen的使用達到必定的比率默認爲92%
3.Hotspot本身根據估計決定是否要觸法
4.在配置了ExplictGCInvokesConcurrent的狀況下顯示調用了System.gc()
內存回收觸發工做 YGC
1.清空eden+from中全部no-ref的對象佔用的內存
2.將eden+from中的全部存活的對象copy到to中
3.在這個過程當中一些對象將晉升到old中:
   --to放不下的
   --存活次數超過tenuring threshold的
   從新計算Tenuring Threshold;
   單線程作以上動做,GC全程暫停應用
FGC
1.若是配置了CollectGen0First,則先觸發YGC
2.清空heap中no ref的對象,permgen中已經被卸載的classloader中加載的class的信息
3.單線程作以上動做
4.全程暫停應用
YGC
同serial動做基本相同,不一樣點:
1.多線程處理
2.YGC的最後不只從新計算Tenuring Threshold,還會從新調整Eden和From的大小
FGC
1.如配置了ScavengeBeforeFullGC(默認),則先觸發YGC(??)
2.MSC:清空heap中的no ref對象,permgen中已經被卸載的classloader中加載的class信息,並進行壓縮
3.Compacting:清空heap中部分no ref的對象,permgen中已經被卸載的classloader中加載的class信息,並進行部分壓縮
多線程作以上動做.
YGC
同serial動做基本相同,不一樣點:
1.多線程處理
CMSGC:
1.old gen到達比率時只清除old gen中no ref的對象所佔用的空間
2.perm gen到達比率時只清除已被清除的classloader加載的class信息
FGC
同serial
細節參數

-XX:+UseSerialGC強制使用

-XX:SurvivorRatio=x,控制eden/s0/s1的大小
-XX:MaxTenuringThreshold,用於控制對象在新生代存活的最大次數

-XX:PretenureSizeThreshold=x,控制超過多大的字節的對象就在old分配.

-XX:SurvivorRatio=x,:控制eden/s0/s1的大小
-XX:MaxTenuringThreshold:用於控制對象在新生代存活的最大次數

-XX:UseAdaptiveSizePolicy :去掉YGC後動態調整eden from已經tenuringthreshold的動做

-XX:ParallelGCThreads=4:設置並行的線程數
-XX:CMSInitiatingOccupancyFraction :設置old gen使用到達多少比率時觸發 -XX:CMSInitiatingPermOccupancyFraction:設置Perm Gen使用到達多少比率時觸發 -XX:+UseCMSInitiatingOccupancyOnly:禁止hostspot自行觸發CMS GC
相關文章
相關標籤/搜索