這是why技術的第36篇原創文章html
上面的圖片是我上週末在家拍的。之後的文章裏面個人第一張配圖都用本身隨手拍下的照片吧。分享生活,分享技術,哈哈。java
陽臺上的花開了,成都的春天快來了,疫情也應該快要過去了吧。web
最近在看《霍亂時期的愛情》,不知道爲何和《大話西遊》聯繫了起來,因此你能夠看到玻璃上的倒影,是我在看《大話西遊》。面試
誰都曾經有過大鬧天宮的夢想,愛上層樓的憂愁,可是遲早有一天,你也會像他轉身以後同樣,走在路上,像一條狗。算法
好了,說迴文章併發
上《面試官:你說你熟悉jvm?那你講一下併發的可達性分析》這篇文章主要聊了 jvm 的可達性分析算法。oracle
藉助「三色標記」大法分析了垃圾回收線程掃描的過程當中,用戶線程同時執行修改引用關係的操做時,可能會出現的「對象消失」問題,以及其對應的兩種解決方案jvm
增量更新和原始快照。jsp
在文章中我寫道:對象關係圖的變化會致使出現兩種狀況一是「浮動垃圾」,二是「對象消失」。大機率的狀況下面試官更加關心第二種狀況,由於第二種狀況會給程序帶來異常。接下來我就作動圖分析了「對象消失」的狀況編輯器
可是我是萬萬沒想到呀,讀者更關心的是「浮動垃圾」。有的讀者就來問我,浮動垃圾是怎麼產生的,你卻是給個圖啊。
像我這樣的又暖又有料的硬核原創做者,你說你要,那我確定是要給你的。
下面就給你補上「浮動垃圾」的動圖:
當併發標記完成後,對象圖就變成了下面這個樣子:
你看出來了吧。對象7,8,4,11,10都是浮動垃圾。由於他們被標記成了黑色,因此逃過了本次垃圾回收。
什麼?你問我爲何黑色就不回收了?你個假粉絲,建議你先去讀一讀上週的文章。
有的讀者就提出了另外的頗有探討性的問題:
why哥你好,你《面試官:你說你熟悉jvm?那你講一下併發的可達性分析》這篇文章主要解決了在併發標記階段,GC線程和用戶線程併發執行時,用戶線程修改了對象引用關係,致使「對象消失」的問題。G1是採用原始快照加寫前屏障的方式解決這個問題的。
可是我還有另外的一個問題:用戶線程執行時不只修改了對象引用關係,還新分配了新對象,我以爲這個狀況是很是常見的,G1是如何找到並處理這些對象的呢?
換句話說,就是文章標題啦:G1收集器是怎麼知道這些對象是何時應該進行垃圾標記的?
這是一個好問題,一看就是用心讀了文章並帶有本身的思考。很不錯。
這位讀者的問題屬於第一個問題的連環炮,讓我忽然有了一種掉進了面試官布好的天羅地網裏面的感受。
面試官先故意漏出破綻,讓你聊「對象消失」、「三色標記」、「增量更新」。而後等你得意洋洋的時候,忽然拋出第二個問題:剛剛對象消失的問題回答的不錯,那若是併發標記的時候用戶線程分配了新對象,G1是怎麼處理的呢?
說實話,我以爲只要你簡歷上沒有寫精通jvm,面試通常問到這種程度的我以爲是真的到了探討的地步了。答的上來加分,答不上來也不扣分。
遙想2016年,我剛畢業,隻身闖北京的時候,一連面試了9家公司,沒有一家公司聊到 jvm (固然我當時面的是初級開發)。如今不同了,不知道何時 jvm 從進階面試題,變成了初級面試題。面試階段若是沒有問 jvm ,就感受不是一次完整的面試。
我以爲就這幾年面試題的變化,其實也就是反映了一個現象:想入行的人愈來愈多,致使入行的門檻愈來愈高。
不是jvm的地位變了,而是門檻愈來愈高了。
好了,瞎逼逼完了,接下來咱們聊聊G1。
我不知道你是怎麼知道G1的,可是我是從周志明大大的《深刻理解Java虛擬機(第2版)》這本書裏面第一次知道G1收集器的。
我記得當時讀到G1的時候感受這就是天書啊。
由於做者在介紹G1以前介紹了不少其餘的收集器,我先給你看一下目錄,帶你回顧回顧:
能夠看到,3.5.1節到3.5.6節介紹的收集器工做的時候, Java 堆的內存佈局是按照新生代,老年代進行總體的區域劃分的。
可是到了G1收集器, Java 堆的內存佈局就有點"妖豔賤貨"了。而後就有點愈來愈看不懂了,當時的場景就像下面這樣:
它雖然仍是保留的有新生代和老年代的概念,可是新生代和老年代以前不再是區域上的隔離了。它將整個 Java 堆劃分爲多個大小相等的獨立區域,叫作 Region 。而新生代和老年代就是由一個個 Region 動態組成的區域,它們能夠是不連續的區間。
每個 Region 均可以根據須要,扮演新生代的 Eden 空間,Survivor 空間,或者老年代空間。除此以外它還有一類特殊的區域叫作 Humongous,專門用來存儲大對象。
上面說的是啥意思呢?其實用圖片看起來就很是直觀了:
好比對於 CMS,使用的堆內存結構以下:
能夠看到上面的圖片中不管是年輕代、老年代都是邏輯上連續的空間(可是不要求物理上的連續)。
而G1的堆內存被劃分爲多個大小相等的 Region ,可是 Region 的總個數在 2048 個左右,默認是 2048 。對於一個 Region 來講,是邏輯連續的一段空間,其大小的取值範圍是 1MB 到 32MB 之間。
結構以下:
上面的E、S和沒有寫字母的藍色方塊(能夠理解爲old)沒啥說的。
可是能夠看到H是以往的垃圾收集器中沒有的概念,它表明 Humongous,這表示這些 Region 存儲的是巨型對象(humongous object,H-obj),當新建對象大小超過 Region 大小一半時,直接在新的一個或多個連續 Region 中分配,並標記爲H。
說實話上面的這概念已經「爛大街」了,任何一篇寫G1都會聊到,包括本文也是。
沒辦法啊,朋友們,這是引子,必須得先聊幾句。就像鬥地主,你第一手牌能直接出王炸嗎?不能啊,你不得先來一個對三,按部就班啊。
下面我送你一個小彩蛋吧。
注意到我上面說的幾個數據了嗎,2048個左右,1MB到32MB,這些數據是哪裏來的呢,我說你就信了嗎?
不少文章聊到G1的時候都只是說堆內存被劃分爲多個大小相等的 Region , Region 大小的取值範圍爲 1MB 到 32MB ,可是並無提到 2048 這回事,我來給你尋根問祖一下:
我找到的第一個數據來源於上面的這篇論文,即文末的資料4:
The goal is to have around 2048 regions for the total heap.
這篇論文的做者是Monica Beckwith,你能夠去搜一下,她(是的,我沒打錯,是個妹子)擔任過Oracle G1 垃圾收集器性能團隊 Leader,權威吧。
第二個數據來源固然是源碼了,更權威吧:
http://hg.openjdk.java.net/jdk/jdk/file/fa2f93f99dbc/src/hotspot/share/gc/g1/heapRegionBounds.hpp
知道這個2048重要嗎?我以爲不重要。
可是知道了就更牛逼呀!當妹子聊到2048的時候她只知道這是一個遊戲,你要告訴她這個數字也是G1的Region的默認個數。
事了拂衣去,深藏功與名。
這一部分,也是耳熟能詳的部分,可是忍一忍,立刻就要到你高呼:臥槽,牛逼的部分了。
衆所周知,通常咱們說G1的收集過程分爲下面這四個步驟(下面四個步驟的描述來自於《深刻理解Java虛擬機(第3版)》):
說實在的,下面的描述確實看的讓人很懵逼的。面試的過程當中問到這一部分的時候,我相信大多數朋友都是硬背下來的。
因此,本文的目的就是爲了讓你理解下面這幾個階段的具體過程。
這麼說吧,若是看完這篇文章你仍是沒搞懂上面這幾個階段的話,那你再讀一遍。
再讀一遍,仍是沒懂的話,那我這篇文章就算寫失敗了。
初始標記(Initial Marking):這階段僅僅只是標記GC Roots能直接關聯到的對象並修改TAMS(Next Top at Mark Start)的值,讓下一階段用戶程序併發運行時,能在正確的可用的Region中建立新對象,這階段須要停頓線程,可是耗時很短。
並且是借用進行Minor GC的時候同步完成的,因此G1收集器在這個階段實際並無額外的停頓。
併發標記(Concurrent Marking):從GC Roots開始對堆的對象進行可達性分析,遞歸掃描整個堆裏的對象圖,找出存活的對象,這階段耗時較長,可是能夠與用戶程序併發執行。
當對象圖掃描完成之後,還要從新處理SATB記錄下的在併發時有引用變更的對象。
最終標記(Final Marking):對用戶線程作另外一個短暫的暫停,用於處理併發階段結束後仍遺留下來的最後那少許的 SATB 記錄。
篩選回收(Live Data Counting and Evacuation):負責更新 Region 的統計數據,對各個 Region 的回收價值和成本進行排序,根據用戶所指望的停頓時間來制定回收計劃。
能夠自由選擇任意多個 Region 構成回收集,而後把決定回收的那一部分 Region 的存活對象複製到空的 Region 中,再清理掉整個舊 Region 的所有空間。
這裏的操做涉及存活對象的移動,是必須暫停用戶線程,由多條收集器線程並行完成的。
上面雖然有4個階段,可是從上帝視角,咱們能夠把它分爲兩大部分,或者說從整個算法的角度,咱們能夠切分爲兩大部分:
1.Global Concurrent Marking:全局併發標記。
2.Evacuation Pauses:該階段是負責把一部分Region裏的活對象拷貝到空Region裏面去,而後回收本來的Region空間。
爲何我敢這樣去劃分呢?
一部分緣由來自這篇論文中:
《Garbage-First Garbage Collection》這篇論文是 sun 實驗室在 2004 年發佈的第一篇關於 G1 的論文。夠權威吧?
該論文中,2.3小節就是介紹 Evacuation Pauses ,2.5小節就是介紹 Concurrent Marking ,下面是部份內容截圖:
另外一部分緣由是 R大 也這樣說的(見文末參考資料)。
接下來,要回答讀者提出的問題,咱們就須要瞭解全局併發標記階段。
這一節就是回答這個問題:用戶線程執行的時候不只修改了對象引用關係,還新分配了新對象,G1 是如何找到並處理這些對象的呢?
要回答這個問題,就涉及到 TAMS 了。前面我引用的書裏說:
初始標記(Initial Marking):這階段僅僅只是標記 GC Roots 能直接關聯到的對象並修改 TAMS(Next Top at Mark Start)的值,讓下一階段用戶程序併發運行時,能在正確的可用的 Region 中建立新對象。
這句話,每一個字都能看懂,連在一塊兒讀,也品出點兒味道,可是總感受似懂非懂的樣子。
什麼是 TAMS?什麼是正確可用的 Region?新對象是建立在 Region 中的哪一個位置的?
咱們先從論文入手,我撿關鍵點給你說:
1.有兩個 bitmap。
2.一個叫 previous,一個叫 next。
3.previous bitmap 是 concurrent marking 階段完成後的最後一個 bitmap。(有點繞,後面會解釋)。
4.next bitmap 是當前將要或正在進行的 concurrent marking 的結果。
5.當標記完成後,兩個 bitmap 會交換角色。
1.標記週期的第一個階段就是清理 next bitmap。
2.而後,初始標記階段 Stop The World(後面簡稱STW),目的是標記 GC Roots 能直接關聯到的對象。該階段藉助 Minor GC 完成,沒有額外的停頓。
3.每一個 Region 包含兩個 TAMS。
4.一個對應前一輪標記,一個對應下一次標記。
從論文中咱們能夠知道,G1的Concurrent Marking 用了兩個 marking bitmap。
一個 previous Bitmap 記錄的是上一輪 Concurrent Marking 後的對象標記狀態,由於上一輪已經完成,因此這個bitmap的信息能夠直接使用。
一個 next Bitmap 記錄的是當前這一輪 Concurrent Marking 的結果。這個bitmap是當前將要或正在進行的 Concurrent Marking 的結果,還沒有完成,因此還不能使用。
咱們能夠假設一次併發標記變成後的 Bitmap(previous Bitmap) 大概長這樣:
白色地址之間是能夠回收的對象,灰色地址之間是不能夠回收的對象。
除了兩個 bitmap 外,還有兩個 TAMS(top at mark start)。每一個 Region 都有兩個 TAMS,分別是 previous TAMS 和 next TAMS。
bitmap 和 TAMS 能夠用下面的圖片來表示:
首先咱們能夠看到 bottom 和 top 之間是一個 Region 已使用的部分。Top 到 end 以前是一個 Region 未使用的部分。
另外能夠看到上面我留了四個問號,接下咱們的目的就是填補這些問號。當這些問號被填上以後,全部的問題都會迎刃而解。
兩個 Bitmap 和兩個 TAMS 是怎麼工做的呢?
接下來按照:
初始標記(Initial Marking)
併發標記(Concurrent Marking)
最終標記(final marking,也叫Remark)
清理階段(Cleanup)
這四個階段做圖說明
從圖片能夠看到初始標記階段 nextBitmap 是清空狀態,沒有標記任何存活的對象。
接着咱們再次回到書中的描述裏,我給你逐字描述清楚:
初始標記(Initial Marking):這階段僅僅只是標記 GC Roots 能直接關聯到的對象並修改 TAMS(Next Top at Mark Start)的值,讓下一階段用戶程序併發運行時,能在正確的可用的 Region 中建立新對象。
GC Roots 能直接關聯到的對象:就是一個 Region 已經使用過的部分,因此在 Bottom 與 top 之間。
修改 TAMS 的值:就是讓此時的 prevTAMS 指向 Bottom ,也就是一個 Region 內存地址起始值。讓此時的 nextTAMS 指向 Top。Top 實際上就是一個 Region 未分配區域和已分配區域的分界點。
**正確的可用的 Region **:對一個 Region 來講,當上面的 nextBitmap 爲空、4個指針都準備就緒後,這個 Region 在下一階段用戶程序併發運行時,就是一個正確的 Region。
下一階段用戶程序併發運行時,在正確的可用的 Region 中建立新對象是什麼意思呢?
下一階段用戶程序併發運行時指的就是併發標記階段。
先看前面引用的書中描述:
併發標記(Concurrent Marking):從 GC Roots 開始對堆的對象進行可達性分析,遞歸掃描整個堆裏的對象圖,找出存活的對象,這階段耗時較長,可是能夠與用戶程序併發執行。當對象圖掃描完成之後,還要從新處理 SATB 記錄下的在併發時有引用變更的對象。
再看動圖:
從 GC Roots 開始對堆的對象進行可達性分析,遞歸掃描整個堆裏的對象圖,找出存活的對象:
意思就是說在併發標記階段, GC 線程工做在 prevTAMS 和 NextTAMS 之間,對堆裏的對象進行可達性分析(回想一下「三色標記」),標記完成後, NextBitmap 就有對應有值了(裏面放的是地址值),黑色對應的是存活對象,白色對應的垃圾對象。
這樣就找出存活對象了。
可是書中並無說起用戶線程分配對象的狀況。因此讀者提出的問題,在書中也找不到明確的答案。
答案就是: NextTAMS 與 Top 之間的對象,就是本次併發標記階段用戶線程新分配的對象,它們是隱式存活的。
爲何這麼說?你去品一品論文裏面我框起來的這句話。
可是面試官想要的是這一句話的答案嗎?不是的。
你聽到這個問題後,你先微微一皺眉,作出沉思狀,而後輕輕說說一句:這個問題問的很好,我先組織一下語言。(先舔他一波)
而後你按照階段把圖畫出來,指着給他講 TAMS 和 Bitmap 是怎麼工做的。
另外,關於 NextTAMS 與 Top 爲何是重疊的,也得補充說明一下:併發標記的前一個階段是初始標記。因爲初始標記是 STW 的,因此從動圖中咱們能夠看到:併發標記開始,即初始標記結束的時候, NextTAMS 與 Top 是重疊的。
隨着併發標記過程的進行, NextBitmap 被填充上了值。而 NextTAMS 與 Top 之間的區域愈來愈大,這就是用戶線程在併發標記階段分配的新對象。
同時經過下面的圖咱們能夠看到, GC 線程的工做區間和用戶線程的工做區間是有重疊的(用工做區間這個概念去理解其中的一些細節不必定正確,可是能夠這樣抽象的認爲,方便理解)。
而重疊的部分,就是可能產生「對象消失」的部分。對G1來講,就是原始快照(STAB)加寫前屏障(Pre-Wirte Barrier)工做的部分。
因此這就是書裏爲何說:當 GC 線程掃描完對象圖後,還須要從新處理 STAB 記錄下的在併發時有引用變更的對象。
書中是這樣的寫的:
最終標記(Final Marking):對用戶線程作另外一個短暫的暫停,用於處理併發階段結束後仍遺留下來的最後那少許的 SATB 記錄。
最終標記階段,因爲是 STW 的,因此該階段對應的圖是併發標記階段完成後的圖,以下:
處理併發階段結束後仍遺留下來的最後那少許的 SATB 記錄是什麼意思呢?
你想,併發標記階段, GC 線程完成對象圖的掃描以後,還會去處理 SATB 記錄下的在併發時有引用變更的對象。
在處理 SATB 記錄的數據的時候,因爲用戶線程可能仍是在繼續修改對象圖,繼續在產生 SATB 數據,因此仍是會有一小部分的 SATB 數據,因此才須要一個短暫的暫停。
書裏寫的是篩選回收階段。其實就包含了清理階段和回收階段。這裏咱們只討論清理階段,不討論回收。
在這個階段, NextBitmap 和 PrevBitmap 會交換位置:
因此,咱們的圖就變成了下面的樣子:
能夠看到,NextBitmap 和 PrevBitmap 交換了位置,NextTAMS 和 PrevTAMS 交換了位置。
而 Region 中, Bitmap 白色部分對應的已使用內存變成了淺灰色。它僅僅是標記了出來,並無進行清掃操做。
須要注意的是:清理階段不拷貝任何對象
引用R大的回答來描述這個階段:
清點和重置標記狀態。這個階段有點像 mark-sweep 中的 sweep 階段,不過不是在堆上 sweep 實際對象,而是在 marking bitmap 裏統計每一個 Region 被標記爲活的對象有多少。這個階段若是發現徹底沒有活對象的 Region 就會將其總體回收到可分配 Region 列表中。
好了,到這裏咱們就能把前面的那張圖給填上了:
而後再看一下論文中的這張圖片,你就會發現,我上面的過程都是基於這張圖片去分析的,圖中展現了兩個循環, A-B-C , D-E-F 。其中 E、F 過程就是 B、C 過程的重複:
我讓上面的圖片動起來,請細細品。請注意各個階段 PrevTAMS 、 NextTAMS 指針的交換、 PrevBitmap 和 NextBitmap 位置的交換:
若是一次看不懂,就再看一次。看的時候結合上面的長圖和動圖一塊兒分析,效果更佳。
參考資料:
1.https://max.book118.com/html/2018/0815/7043143036001143.shtm
2.https://www.oracle.com/webfolder/technetwork/tutorials/obe/java/G1GettingStarted/index.html
3.https://www.oracle.com/technetwork/java/javase/tech/g1-intro-jsp-135488.html
4.https://www.infoq.com/articles/G1-One-Garbage-Collector-To-Rule-Them-All/
5.https://hllvm-group.iteye.com/group/topic/44381
6.《深刻理解Java虛擬機(第三版)》
本文是對《面試官:你說你熟悉jvm?那你講一下併發的可達性分析》這篇文章的補充說明。若是你沒看過,我建議你去看看。
我以爲有些知識點僅僅靠文章和圖片是很難說清楚的,因此我費勁的作了動圖。
爲了作這篇文章和上篇文章中的幾張動圖,加起來我截了 80 多張圖。你知道我爲了把每張圖截的一個像素都不差,我有多努力嗎?
截的我眼球佈滿了血絲,眼睛都快瞎了,你不關注一波?
我四級半的英語水平,爲了文章的正確性,強行啃英文論文,你不感動嗎?
點個關注呀,別白嫖我啊,大哥。寫文章很辛苦的,須要來點正反饋。
才疏學淺,不免會有紕漏,若是你發現了錯誤的地方,還請你留言給我指出來,我對其加以修改。
感謝您的閱讀,我堅持原創,十分歡迎並感謝您的關注。
我是why技術,一個不是大佬,可是喜歡分享,又暖又有料的四川好男人。
以上。
歡迎關注公衆號【why技術】,堅持輸出原創。分享技術、品味生活,願你我共同進步。