Python的垃圾回收機制（引用計數+標記清除+分代回收）

時間 2019-12-12

原文原文鏈接

1、寫在前面：

咱們都知道Python一種面向對象的腳本語言，對象是Python中很是重要的一個概念。在Python中數字是對象，字符串是對象，任何事物都是對象，而它們的核心就是一個結構體--PyObject。算法

typedef struct_object{編程

　　int ob_refcnt;app

　　struct_typeobject *ob_type;編程語言

}PyObject;函數

PyObject是每一個對象必有的內容，其中ob_refcnt就是作爲引用計數。spa

2、垃圾回收機制

垃圾回收（Garbage Collection）你們應該多多少少都聽過，可是什麼是垃圾回收呢？咱們這裏說的垃圾回收確定不是把垃圾丟進垃圾桶。如今的高級語言Java，C#等，都採用了垃圾回收機制，而再也不是C，C++裏用戶本身管理維護內存的方式，本身管理內存是很自由，可是可能出現內存泄漏，懸空指針等問題。而垃圾回收機制做爲現代編程語言的自動內存管理機制，專一於兩件事：1. 找到內存中無用的垃圾資源 2. 清除這些垃圾並把內存讓出來給其餘對象使用。指針

3、Python中的垃圾回收

在Python中，垃圾回收機制主要是以引用計數爲主要手段，以標記清除和分代回收機制做爲輔助手段實現的。對象

一、引用計數

經過前面的介紹，咱們已經知道PyObject是每一個對象必有的內容，而當一個對象有新的引用時，它的ob_refcnt就會增長，當引用它的對象被刪除，它的ob_refcnt就會減小，當引用計數爲0時，該對象生命就結束了。blog

咱們來看看引用計數+1的狀況有什麼：生命週期

（1）對象被建立：

這裏實際上123這個對象並無在內存中新建，由於在Python啓動解釋器的時候會建立一個小整數池，在-5~256之間的整數對象會被自動加載到內存中等待調用。所以a=123是對123這個整數對象增長了一次引用。而456是不在整數池裏的，須要建立對象，那麼最後的引用次數是2呢？由於sys.getrefcount(b)也是一次引用。

（2）對象被引用：

每一次賦值操做都會增長數據的引用次數，要記住引用的變量a、b、c指向的是數據456，而不是變量自己。

（3）對象做爲參數傳遞到函數中：

這裏能夠很明顯看到在被傳遞到函數中後，引用計數增長了1。

（4）對象做爲元素儲存到容器中：

這裏咱們在建立對象以後，把a分別添加到了一個列表和一個元組中，引用計數都增長了。

雖然引用計數必須在每次分配合釋放內存的時候加入管理引用計數的操做，然而與其餘垃圾回收技術相比，引用計數有一個最大的優勢，那就是「實時性」，若是這個對象沒有引用，內存就直接釋放了，而其餘垃圾回收技術必須在某種特殊條件下才能進行無效內存的回收。可是引用計數帶來的維護引用計數的額外操做和Python中進行的內存分配和釋放，引用的賦值次數成正比的。除此以外，引用計數機制的還有一個最大的軟肋--沒法解決循環引用帶來的問題。循環引用可使一種引用對象的引用計數不爲0，然而這些對象實際上並無被任何外部對象所引用，它們之間只是相互引用，這意味着這組對象所佔用的內存空間是應該被回收的，可是因爲循環引用致使的引用計數不爲0，因此這組對象所佔用的內存空間永遠不會被釋放。以下，list1與list2相互引用，若是不存在其餘對象對它們的引用，list1與list2的引用計數也仍然爲1，所佔用的內存永遠沒法被回收，這將是致命的。

list1 = []
list2 = []
list1.append(list2)
list2.append(list1)

二、標記清除

標記清除（Mark—Sweep）算法是一種基於追蹤回收（tracing GC）技術實現的垃圾回收算法。它分爲兩個階段：第一階段是標記階段，GC會把全部的活動對象打上標記，第二階段是把那些沒有標記的對象非活動對象進行回收。

對象之間經過引用（指針）連在一塊兒，構成一個有向圖，對象構成這個有向圖的節點，而引用關係構成這個有向圖的邊。從根對象（root object）出發，沿着有向邊遍歷對象，可達的（reachable）對象標記爲活動對象，不可達的對象就是要被清除的非活動對象。根對象就是全局變量、調用棧、寄存器。

在上圖中，能夠從程序變量直接訪問塊1，而且能夠間接訪問塊2和3。程序沒法訪問塊4和5。第一步將標記塊1，並記住塊2和3以供稍後處理。第二步將標記塊2，第三步將標記塊3，但不記得塊2，由於它已被標記。掃描階段將忽略塊1，2和3，由於它們已被標記，但會回收塊4和5。

標記清除算法做爲Python的輔助垃圾收集技術，主要處理的是一些容器對象，好比list、dict、tuple等，由於對於字符串、數值對象是不可能形成循環引用問題。Python使用一個雙向鏈表將這些容器對象組織起來。不過，這種簡單粗暴的標記清除算法也有明顯的缺點：清除非活動的對象前它必須順序掃描整個堆內存，哪怕只剩下小部分活動對象也要掃描全部對象。

三、分代回收

分代回收是創建在標記清除技術基礎之上的，是一種以空間換時間的操做方式。

Python將內存根據對象的存活時間劃分爲不一樣的集合，每一個集合稱爲一個代，Python將內存分爲了3「代」，分別爲年輕代（第0代）、中年代（第1代）、老年代（第2代），他們對應的是3個鏈表，它們的垃圾收集頻率與對象的存活時間的增大而減少。新建立的對象都會分配在年輕代，年輕代鏈表的總數達到上限時，Python垃圾收集機制就會被觸發，把那些能夠被回收的對象回收掉，而那些不會回收的對象就會被移到中年代去，依此類推，老年代中的對象是存活時間最久的對象，甚至是存活於整個系統的生命週期內。