步步爲營 C# 技術漫談 4、垃圾回收機制(GC) 上

時間 2020-09-05

標籤步步爲營 c# 技術漫談垃圾回收機制欄目 C# 简体版

原文原文鏈接

GC的前世與此生程序員

雖然本文是以.net做爲目標來說述GC，可是GC的概念並不是才誕生不久。早在1958年，由鼎鼎大名的圖林獎得主John McCarthy所實現的Lisp語言就已經提供了GC的功能，這是GC的第一次出現。Lisp的程序員認爲內存管理過重要了，因此不能由程序員本身來管理。但後來的日子裏Lisp卻沒有成氣候，採用內存手動管理的語言佔據了上風，以C爲表明。出於一樣的理由，不一樣的人卻又不一樣的見解，C程序員認爲內存管理過重要了，因此不能由系統來管理，而且譏笑Lisp程序慢如烏龜的運行速度。的確，在那個對每個Byte都要精心計算的年代GC的速度和對系統資源的大量佔用使不少人的沒法接受。然後，1984年由Dave Ungar開發的Small talk語言第一次採用了Generational garbage collection的技術（這個技術在下文中會談到），可是Small talk也沒有獲得十分普遍的應用。
直到20世紀90年代中期GC才以主角的身份登上了歷史的舞臺，這不得不歸功於Java的進步，今日的GC已非吳下阿蒙。Java採用VM（Virtual Machine）機制，由VM來管理程序的運行固然也包括對GC管理。90年代末期.net出現了，.net採用了和Java相似的方法由CLR(Common Language Runtime)來管理。這兩大陣營的出現將人們引入了以虛擬平臺爲基礎的開發時代，GC也在這個時候愈來愈獲得大衆的關注。
爲何要使用GC呢？也能夠說是爲何要使用內存自動管理？有下面的幾個緣由：
一、提升了軟件開發的抽象度；
二、程序員能夠將精力集中在實際的問題上而不用分心來管理內存的問題；
三、可使模塊的接口更加的清晰，減少模塊間的偶合；
四、大大減小了內存人爲管理不當所帶來的Bug；
五、使內存管理更加高效。
總的說來就是GC可使程序員能夠從複雜的內存問題中擺脫出來，從而提升了軟件開發的速度、質量和安全性。算法

什麼是GCspring

GC如其名，就是垃圾收集，固然這裏僅就內存而言。Garbage Collector（垃圾收集器，在不至於混淆的狀況下也成爲GC）以應用程序的root爲基礎，遍歷應用程序在Heap上動態分配的全部對象[2]，經過識別它們是否被引用來肯定哪些對象是已經死亡的哪些仍須要被使用。已經再也不被應用程序的root或者別的對象所引用的對象就是已經死亡的對象，即所謂的垃圾，須要被回收。這就是GC工做的原理。爲了實現這個原理，GC有多種算法。比較常見的算法有Reference Counting，Mark Sweep，Copy Collection等等。目前主流的虛擬系統.net CLR，Java VM和Rotor都是採用的Mark Sweep算法。安全

1、Mark-Compact 標記壓縮算法
    簡單把.NET的GC算法看做Mark-Compact算法
    階段1: Mark-Sweep 標記清除階段
    先假設heap中全部對象均可以回收，而後找出不能回收的對象，給這些對象打上標記，最後heap中沒有打標記的對象都是能夠被回收的
    階段2: Compact 壓縮階段
    對象回收以後heap內存空間變得不連續，在heap中移動這些對象，使他們從新從heap基地址開始連續排列，相似於磁盤空間的碎片整理
   Heap內存通過回收、壓縮以後，能夠繼續採用前面的heap內存分配方法，即僅用一個指針記錄heap分配的起始地址就能夠
   主要處理步驟：將線程掛起=>肯定roots=>建立reachable objectsgraph=>對象回收=>heap壓縮=>指針修復
   能夠這樣理解roots：heap中對象的引用關係錯綜複雜（交叉引用、循環引用），造成複雜的graph，roots是CLR在heap以外能夠找到的各類入口點。GC搜索roots的地方包括全局對象、靜態變量、局部對象、函數調用參數、當前CPU寄存器中的對象指針（還有finalizationqueue）等。主要能夠歸爲2種類型：已經初始化了的靜態變量、線程仍在使用的對象（stack+CPU register）
   Reachable objects：指根據對象引用關係，從roots出發能夠到達的對象。例如當前執行函數的局部變量對象A是一個rootobject，他的成員變量引用了對象B，則B是一個reachable object。從roots出發能夠建立reachable objectsgraph，剩餘對象即爲unreachable，能夠被回收

   指針修復是由於compact過程移動了heap對象，對象地址發生變化，須要修復全部引用指針，包括stack、CPUregister中的指針以及heap中其餘對象的引用指針
   Debug和release執行模式之間稍有區別，release模式下後續代碼沒有引用的對象是unreachable的，而debug模式下須要等到當前函數執行完畢，這些對象纔會成爲unreachable，目的是爲了調試時跟蹤局部對象的內容
    傳給了COM+的託管對象也會成爲root，而且具備一個引用計數器以兼容COM+的內存管理機制，引用計數器爲0時這些對象纔可能成爲被回收對象
   Pinnedobjects指分配以後不能移動位置的對象，例如傳遞給非託管代碼的對象（或者使用了fixed關鍵字），GC在指針修復時沒法修改非託管代碼中的引用指針，所以將這些對象移動將發生異常。pinnedobjects會致使heap出現碎片，但大部分狀況來講傳給非託管代碼的對象應當在GC時可以被回收掉
2、 Generational 分代算法
    程序可能使用幾百M、幾G的內存，對這樣的內存區域進行GC操做成本很高，分代算法具有必定統計學基礎，對GC的性能改善效果比較明顯
   將對象按照生命週期分紅新的、老的，根據統計分佈規律所反映的結果，能夠對新、老區域採用不一樣的回收策略和算法，增強對新區域的回收處理力度，爭取在較短期間隔、較小的內存區域內，以較低成本將執行路徑上大量新近拋棄再也不使用的局部對象及時回收掉
    分代算法的假設前提條件：
一、大量新建立的對象生命週期都比較短，而較老的對象生命週期會更長
二、對部份內存進行回收比基於所有內存的回收操做要快
三、新建立的對象之間關聯程度一般較強。heap分配的對象是連續的，關聯度較強有利於提升CPU cache的命中率
    .NET將heap分紅3個代齡區域: Gen 0、Gen 一、Gen 2
   Heap分爲3個代齡區域，相應的GC有3種方式: # Gen 0 collections, # Gen 1 collections, #Gen 2 collections。若是Gen 0 heap內存達到閥值，則觸發0代GC，0代GC後Gen 0中倖存的對象進入Gen1。若是Gen 1的內存達到閥值，則進行1代GC，1代GC將Gen 0 heap和Gen 1 heap一塊兒進行回收，倖存的對象進入Gen2。2代GC將Gen 0 heap、Gen 1 heap和Gen 2 heap一塊兒回收
   Gen 0和Gen 1比較小，這兩個代齡加起來老是保持在16M左右；Gen2的大小由應用程序肯定，可能達到幾G，所以0代和1代GC的成本很是低，2代GC稱爲fullGC，一般成本很高。粗略的計算0代和1代GC應當能在幾毫秒到幾十毫秒之間完成，Gen 2 heap比較大時fullGC可能須要花費幾秒時間。大體上來說.NET應用運行期間2代、1代和0代GC的頻率應當大體爲1:10:100。ide