漫談 C++ 的內存堆實現原理

時間 2019-11-10

標籤漫談 c++ 內存實現原理欄目 C&C++ 简体版

原文原文鏈接

若是我來設計 C++ 的內存堆，我會這樣設計： html

進程首先會跟操做系統要一塊大內存區域，我稱之爲 Division ，簡稱 div 。算法

而後，將這塊 div 做爲堆，就能夠開始從堆裏分配內存了。數據庫

堆裏未分配可以使用的內存區域稱之爲 Free Space ，一開始的時候， div 裏只有一個 Free Space ，就是整個 div 。編程

若是只分配不回收的話， div 裏永遠都只有一個 Free Space 。隨着分配和回收， div 裏會產生多個 Free Space 。安全

咱們須要創建一張堆表來記錄 Free Space ，這樣才能知道每一次分配應該到哪一個 Free Space 裏分配。網絡

堆表應該是一個鏈表，便於插入和刪除表項。表項就是 Free Space ，或者說表項描述 Free Space 。因此表項會包含 2 個字段，一個是 Free Space 的起始地址，另外一個是 Free Space 的結束地址。數據結構

同時還應該有一個指針，指向當前在用的表項，一次分配就是在當前表項指向的 Free Space 裏分配，若是當前 Free Space 的大小不足以分配本次申請的內存塊大小，則將指針指向當前 Free Space 的下一個 Free Space 。若是下一個 Free Space 的大小也不夠，那麼就繼續指向下一個 Free Space 。如此循環。併發

那若是最後一個 Free Space 的大小也不夠的話，就須要向操做系統要一個新的 div 。注意， Free Space 只能屬於一個 div ，不能跨 div 。app

若是堆裏的 Free Space 比較多，那麼若是 Free Space 大小不夠，有可能會連續找多個 Free Space 才找到足夠大小的 Free Space ，這裏就產生了一個性能問題。高併發

最壞的狀況，「從頭找到尾」，到最後一個 Free Space 才足夠大小。但，這還不是最壞的 ^^ ，若是最後一個 Free Space 的大小也不夠的話，就要跟操做系統要一個新的 div ，這好像要「更壞」一點。 ^^

還有一個重要的問題須要考慮，就是若是跟操做系統要了 1 個以上的 div ，若是長期佔用，這是一個不小的空間。那麼，要怎樣在 div 中的內存所有都已經回收（整個 div 是一個 Free Space）的時候，將 div 歸還操做系統呢？

能夠經過一個計數器。能夠爲每一個 div 設置一個計數器，同時在堆表項裏增長一個字段： Free Space 所在的 div 。

這樣，每次分配的時候就在計數器裏加 1 ，每次回收就讓計數器減 1 ，若是減 1 之後計數器的值是 0 ，那麼就說明 div 已經所有回收，能夠將 div 歸還操做系統。

最後，我很好奇， C++ 是怎麼解決內存碎片的問題的。哈哈哈哈

忽然發現堆的管理算法有點小複雜，若是堆表自己佔用的內存空間是固定的，那麼若是 Free Space 的數量超出了對錶的空間所能存儲的數量，這就有問題，若是捨棄一些比較小的 Free Space ，會形成內存泄露。

若是堆表的存儲空間也是經過堆的方式來分配，那麼，當應用程序申請了一塊內存，此時產生了一個新的 Free Space ，爲了記錄這個 Free Space ，須要爲描述這個 Free Space 的堆表項也申請一塊內存，這樣 Free Space 又會發生變化，可能產生 1 個新的 Free Space，或者要記錄的這個 Free Space 發生變化，須要把這些狀況也考慮進去。

還有一種狀況是歸還內存塊的時候，這個內存塊恰好在 2 個 Free Space 中間，那麼歸還這個內存塊就不是簡單的在堆表裏添加一個堆表項，而是要和先後 2 個 FreeSpace 「合併」起來。這 3 個 Free Space 會合併成 1 個 Free Space ，在堆表裏會刪除原來的 2 個 Free Space 表項，同時在這 2 個表項的位置添加入合併後的新表項。

問題是，要怎麼知道歸還的內存塊在某 2 個 Free Space 中間？好像只能遍歷。但這意味着每次歸還的時候都要遍歷。

而後。

實際上，不只僅內存塊在 2 個 Free Space 之間會存在這個問題，只要歸還的內存塊的任一邊（前或後）和 1 個 Free Space 相連，都須要「合併」。

若是要快速的找到和本身鄰近的 Free Space ，可能須要創建索引。能夠創建不止一個的索引。

好比能夠按起始位置創建索引，同時還能夠按 Free Space 的大小創建索引。前者能夠快速的尋找和當前歸還的內存塊相鄰的 Free Space 。後者能夠快速的尋找接近指定大小的 Free Space ，這能夠用在分配的時候，尋找接近申請內存塊大小的 Free Space 進行分配有利於提升內存利用率，減小碎片。

索引也能夠排序，若是要優先從小的 Free Space 或者大的 Free Space 來分配的話，索引的排序做用也能夠派上用場。

關於索引，我在《我發起了一個 .Net 開源數據庫項目 SqlNet》 http://www.javashuo.com/article/p-gpuysmcv-q.html 中有一些論述。實際上，我正是考慮數據庫中 Data Block 的 Free Space 如何管理，因此才繼續思考內存堆的管理問題，而後就產生了上面的一些思考結果。

能夠設想一下具體的作法：

若是不考慮堆的無限增加的話，設計起來並不太難：）所謂無限增加，主要是指堆表的無限增加。堆表爲何會無限增加呢？堆表是保存 Free Space 的，若是 Free Space 無限增加，那麼堆表就會無限增加。 Free Space 的數量是不肯定的，但理論上，彷佛不能給出一個限制。若是咱們給定堆表的長度是 1萬，那麼就只能記錄 1萬個 Free Space ，超出 1萬個的 Free Space 會由於不能記錄而處於「遺棄」的狀態，既不能分配也不能回收。這就形成了內存泄漏。

若是在堆表達到上限的時候拋出異常「堆表超出最大範圍」，就像 StackOverflow 或者 OutOfMemory ，但這可能會限制了應用程序的能力。

若是按照上文的說法，堆表的存儲自己也徹底經過堆分配進行，這樣能夠很靈活，看起來只要內存空間足夠，那麼，堆表能夠無限增加。

但這種作法是「本身描述本身」的一個循環，會致使算法複雜，循環，或者無解。因此咱們放棄了這種方式。

問題出在哪裏呢？堆表項自身對於內存空間的佔用不能計算到堆的分配裏。堆表應該是單獨佔用一塊空間，堆表項及索引項的添加刪除在這個空間也會形成空閒空間（Free Space），但這些 Free Space 不能計算到堆裏，而應該是獨立於堆的存在。不然就會陷入上述的「本身描述本身」的循環。總之狀況很複雜，可能無解。固然也許有解，但我不想繼續思考下去了：）

因此，回到開始，若是不考慮堆的無限增加的話，就是說給定一個堆表的固定大小，咱們這樣來設計堆試試看。通過上面的論述，實際上，若是要設計無限增加的堆表，那麼，在固定大小的堆表基礎上，增長一點：當當前堆表空間不夠時，再申請一塊堆表空間用於繼續存放堆表，這樣堆表就能繼續增加了。

咱們提供一塊連續的內存空間來存儲堆表，這塊內存空間咱們稱之爲堆表空間。按照上面說的，咱們先嚐試實現一個固定大小的堆表空間的堆。

堆表的內容包括 Free Space 項和索引。索引由索引項組成，索引項最終會指向堆表項， Free Space 項之間經過鏈表的方式相連。 Free Space 項和索引項都存儲在堆表空間裏。

堆表還包括一個指針，指向堆表的最後一個元素的結束地址的下一個地址，咱們將這個指針稱爲「Append 指針」。

全部新建的堆表項（Free Space 項和索引項）都添加至 Append 指針指示的地址，每添加完一個堆表項， Append 指針會指向這個堆表項的結束地址的下一個地址。當 Append 指針指向的地址到堆表的結束地址之間的空間不夠存放新的堆表項時，會檢查「堆表空閒空間計數器」， —— 等 —— 什麼是「堆表空閒空間計數器」？在堆表的使用過程當中，隨着 Free Space 項和索引項的添加刪除，固然也會出現「空閒空間」，咱們會用一個整數變量，來記錄空閒空間有多少（以 Byte 爲單位），每次刪除堆表項（Free Space 項和索引項）的時候，會將回收的空閒空間累計到這個整數變量裏。這個變量就是「堆表空閒空間計數器」。注意，「堆表空閒空間計數器」記錄的是 Append 指針指向的地址以前「已使用的空間」中因堆表項的刪除而「空出來」的空閒空間。這些空閒空間平時不會去動它，只有上面說的「當 Append 指針指向的地址到堆表的結束地址之間的空間不夠存放新的堆表項時」，纔會去關心它。怎麼關心呢？這個時候，會作一次「垃圾回收」，就是把這些空閒空間後面的數據向前移動，填補這些空閒空間，就能夠了。固然，會先檢查「堆表空閒空間計數器」，若是計數器值爲 0 ，代表沒有空閒空間，不須要垃圾回收，大於 0 表示有空閒空間，須要垃圾回收。若是沒有要回收的空閒空間，或者回收了空閒空間之後 Append 指針指向的地址到堆表的結束地址之間的空間仍然不夠存放新的堆表項，怎麼辦呢？對於固定大小的堆表，則拋出異常「堆表超出最大範圍」，就像 StackOverflow 或者 OutOfMemory 。對於能夠無限增加的堆表，則新申請一塊堆表空間，繼續工做。新的堆表空間和原來的堆表空間之間經過鏈表的方式相連。

一個堆表空間包括 3 個部分組成：

1 一塊連續的內存空間

2 Append 指針

3 堆表空閒空間計數器

要申請新的堆表空間，須要提早進行，不要等到空間不夠用的時候再進行。這是由於新的堆表空間的申請一樣也是經過堆的方式進行，一樣須要在堆表裏記錄堆表項（Free Space 項和索引項）。當某一次申請或回收須要記錄堆表項（Free Space 項和索引項）而空間不夠時再去申請新的堆表空間，則本次應用程序的申請或者回收所產生的堆表項（Free Space 項和索引項）和申請新的堆表空間所產生的堆表項（Free Space 項和索引項）要放在一塊兒計算和存儲，這樣狀況很複雜。

因此，應用程序的申請和回收內存塊，和申請新的堆表空間，應該是 2 次獨立操做。因此須要提早進行「未雨綢繆」。提早到什麼程度呢？在原來的堆表空間的剩餘空間還足夠存儲一次申請內存塊產生的可能的最大數量的堆表項（Free Space 項和索引項）的時候。

申請一次內存塊可能產生多少堆表項（Free Space 項和索引項）？ Free Space 項容易理解，上文也分析過。那麼會產生多少索引項？

上文中提到能夠建立 2 個索引： 1 Free Space 起始地址做爲檢索條件的索引， 2 Free Space Size（空間大小）做爲檢索條件的索引。

索引 1 能夠用作回收時查詢和回收的內存塊相鄰的 Free Space ，若是 2 者是相接的，則會進行合併。

索引 2 能夠用作分配時查找 Size（空間大小）最接近申請內存塊大小的 Free Space 。

但實際上，索引的建立也是比較消耗時間的，分配能夠採用前文最先提出的先在當前 Free Space 中分配，若當前 Free Space 的空間大小不足以分配，則查找下一個 Free Space 分配，以此遞推。在內存空間充裕的條件下，這種方式比查找索引快，同時避免了建立索引消耗的時間。

咱們接下來就來分析索引的建立和查詢：

根據上述，咱們只會創建和使用索引 1 ，用於回收時合併相接的 Free Space 。

索引 1 在分配時建立（更新），在回收時查詢並更新。

索引 1 的索引項是這樣：最高位字節用來保存索引項的值，只會用到低位的 2 位，表示 4 種狀況： 00 , 01 , 10 , 11 。後面再跟 4 個字節或 8 個字節表示指向的子索引項或者 Free Space 項的地址。若是是 32 位或「Any CPU」應用程序，則是 4 個字節，若是是 64 位應用程序，則是 8 個字節。

在分配時，用於分配的 Free Space 的大小（Size）和起始地址會發生變化。對於索引 1 ，只需根據起始地址來更新索引便可。

Free Space 的起始地址字段表示空閒空間的起始地址。同上，若是是 32 位或「Any CPU」應用程序，則是 4 個字節，若是是 64 位應用程序，則是 8 個字節。根據《我發起了一個 .Net 開源數據庫項目 SqlNet》 http://www.javashuo.com/article/p-gpuysmcv-q.html 文中對於索引的論述，對於 32 位的數據，會創建 32 / 2 = 16 個索引項 -_- ，對於 64 位的數據，會創建 64 / 2 = 32 個索引項 -_- 。

因此，對於 32 位或「Any CPU」應用程序，分配時 Free Space 起始地址發生變化須要修改索引最多須要約 16 個索引項，或者說時間花費是 O(16) 。由於檢索 1 個索引項須要判斷 4 種狀況： 00 , 01 , 10 , 11 。因此咱們能夠假設 1 次操做的時間是 4ns （4 納秒），那麼 O(16) 的時間就是 16 * 4 = 64 ns （64 納秒）。而回收須要查找索引找到和回收的內存塊相鄰的 Free Space ，同時回收後可能更新相鄰 Free Space 的起始地址（合併），或者產生一個新的 Free Space ，對於前者，須要修改索引，對於後者，須要建立索引，但無論是哪一種，最多須要檢索（修改）的索引項約 16 個，能夠認爲時間花費是 O(16) ，而回收時查找索引尋找相鄰 Free Space 的時間花費也能夠認爲是 O(16) ，因此加起來就是回收的時間花費是 O(16) + O(16) = O(32) ，同上，假設 1 次操縱的時間是 4ns ，則回收的時間花費是 32 * 4 = 128 ns （128 納秒）。固然分配和回收具體花費的時間還會包括修改 Free Space 起始地址， Next 指針，合併時刪除多餘的 Free Space 項等，這些先忽略不計，在下面估算的時候會酌情估算進去。

一次分配的時間是 64ns ，再加上分配時可能發生的一些遍歷（在當前 Free Space 的大小不夠時，訪問下一個 Free Space 嘗試分配，以此遞推），就按 80ns 算， 1 秒鐘大概能夠進行 1200萬次分配。如何？還行吧，呵呵。不過比起我想象中的 new ，仍是慢了一點，我想象中的 new 應該是 1ns new 一個嘛！ P： new 就是分配。

一次回收的時間是 128ns ，就按 150ns 算， 1 秒鐘大概能夠進行 600萬次回收。能不能再快一點？ ^^

對於 64 位應用程序，時間花費是 32 位的 2 倍，因此 1 秒鐘能夠分配 600萬次，回收 300萬次。如何？哎？爲何 64 位反而慢了？

上面的分配和回收的執行速度是針對 1 個 CPU 核分析的，但對於多核，分配和回收的執行速度也是如此。由於堆是進程內全部線程共享的，堆表也是共享的，在進行分配和回收時要修改堆表，此時須要對堆表進行同步/互斥（Lock），因此，對於多核，分配和回收的執行速度也是如此。

從這裏能夠看出，堆的這一特性會成爲瓶頸。在高頻高密度計算的場合。好比高併發實時響應式系統。說的直接一點，就是跟如今的互聯網大規模計算有關。

這一類型的瓶頸也表如今其它方面。好比套接字（Socket）， Socket 對於每一個網卡只會有一個線程負責從網卡讀寫數據。這是個人推測。一個端口（Port）的 Socket 由一組線程組成： 1 負責從網卡讀寫數據的線程（1 個網卡對應 1 個線程）， 2 處理和分發數據給應用程序的線程們（有若干個線程，線程數和 CPU 的核數對應，能夠包括虛擬線程(超線程) 數）。在線程 1 和線程 2 們協做的時候，會有一個共享數據區，線程 1 會把從網卡讀取到的數據放到共享數據區，線程 2 們會從共享數據區取出數據處理分發。顯然，線程 1 和線程 2 們的協做須要同步/互斥（Lock），

咱們能夠看一下這篇文章《面向對象編程的弊端是什麼？》 https://www.zhihu.com/question/20275578/answer/136886316?utm_source=com.tencent.tim&utm_medium=social&utm_oi=697587017629851648

文中有一幅圖：

如圖紅線所示， Mutex（同步 / 互斥 Lock）的時間是 17ns （17 納秒）。這個時間是一個不太能忽視的時間。

因此，這會成爲利用並行計算大幅提高計算能力的瓶頸。而利用並行計算大幅提高計算能力正是當下和將來的主題。

另外就是，一個網卡只有一個 IO 線程，這也可能成爲瓶頸。當網絡技術發展到 5G 或 6G 的時候，會不會有 NPU（Net Process Unit）出現？就像 GPU 同樣。 ^^

實際上，對於堆表的無限增加，有一個「終極」的解決辦法，或者說更好的辦法。就是 GC （垃圾回收器）。

在現代，或者說「當代」的語言，如 C# , Java 裏都有 GC 。 GC 能夠將 Free Space 的數量控制在有限和不多的範圍。這樣就不存在堆表的無限增加了。

而後。

固然， GC 要登記全部變量，並按期遍歷，移動數據，這些也要花費時間的。

堆表的無限增加，這是一個問題。堆表增加，表示 Free Space 增多，碎片也增多，這樣在分配時可能會遍歷比較多的 Free Space 。

對於 64 位應用程序， 64 位理論上的尋址空間能夠達到 16eb ，若是應用程序對於存儲空間的使用是沒有限制的，那麼，一段時間以後，堆表，或者說 Free Space （包括碎片）的數量可能會達到很大的數量。

假想一下，若是 Free Space 不少，碎片也不少，那麼可能要遍歷不少次才能找到大小足夠的 Free Space 進行分配。這個時候，咱們能夠考慮加入這樣的算法，最多遍歷 10 個 Free Space ，遍歷了 10 個 Free Space 還找不到大小足夠的 Free Space ，則向操做系統申請 1 個新的 div ，並將 div 做爲新的 Free Space 插入到當前位置，並從這個 div（新的 Free Space）中分配。分配之後，下一次分配固然也會從這個 div 開始，若是這個 div 的剩餘空間不夠，則訪問下一個 Free Space 。若是訪問了 10 個 Free Space 也找不到足夠大小的 Free Space ，則重複上述流程，向操做系統申請 1 個新的 div ，並將 div 做爲新的 Free Space 插入到當前位置，並從這個 div（新的 Free Space）中分配。以此遞推。

這種方式，可能會浪費一些空間，或者說，會向操做系統申請多一些的空間（div），可是在時間上提升了效率。這也算是「空間換時間」吧。在如今來說，硬件容易擴充，提高計算速度是一個主要目標。

根據以上，咱們再來整理一下具體的作法。

咱們以 64位應用程序的標準來實現：

當進程啓動時，會分配一塊固定大小的連續空間，做爲堆的基礎元數據區，基礎元數據區包括 5 部分：

1 Append 指針，指向堆表可插入堆表項的地址（當前最後一個堆表項以後），插入堆表項後， Append 指針會指向堆表項結束地址的下一個地址。 Append 指針的初始值應指向第 5 個堆表項的起始位置。由於會在堆表中預先創建 4 個 1 級索引項，見下面第 4 部分。

2 堆表的 Free Space 項鏈表頭指針，指向 Free Space 項鏈表的頭。（Free Space 項之間經過鏈表的方式鏈接起來）

3 當前 Free Space 項指針，指向上一次用於分配的 Free Space 項。下一次分配會先嚐試在上一次分配的 Free Space 中進行，若 Free Space 的大小不夠，會訪問下一個 Free Space 嘗試分配。分配成功後，當前 Free Space 項指針會指向分配成功的 Free Space 項。固然這裏面還有些具體的邏輯，好比訪問超過 10 個 Free Space 項仍然找不到大小足夠的 Free Space ，則會向操做系統申請新的 div ，做爲 Free Space 加入進來，而後在這個新的 div 中分配。

4 堆表的初始空間。堆表的初始空間能夠是 1 MB 。進程啓動時，會初始化基礎元數據區，此時應在堆表的第 1 ~ 4 個堆表項位置預先創建 1 級索引項（00 , 01 , 01 , 11）。所謂初始空間是指這部分是固定不變的，以後堆表空間不夠用時，會在堆中申請新的堆表空間。這些新申請的堆表空間空出來的時候會歸還堆，但初始空間是不變的，不變是指一直存在，大小不變。且初始空間不屬於堆。

5 Next 指針，指向下一個堆表空間。隨着堆的規模的增加，堆表大小不夠時，會從堆裏申請新的堆表空間，新的堆表空間會和初始空間用鏈表的方式鏈接起來，能夠申請多個堆表空間，如：初始空間 -> 第 1 個新申請空間 -> 第 2 個新申請空間 -> 第 3 個新申請空間 -> …… 第 n 個新申請空間 -> ……

當堆的規模縮小時，會釋放空閒的堆表空間（歸還堆）。

初始空間不屬於堆，固然永遠不會釋放。

接下來，咱們這樣來定義堆表項：

堆表項分爲 2 種：

1 索引項

2 Free Space 項

具體規則是：

1) 索引項和 Free Space 項都佔用 34 個字節。第 1 個字節是標識字節，爲 1 表示索引項，爲 2 表示 Free Space 項，爲 0 表示已刪除。

2) 對於索引項，第 2 個字節表示索引值，就是 00 , 01 , 10 , 11 這 4 種值中的一種，實際上這 4 種值只用到了 2 位，不過咱們仍是用一個字節來存儲。若是是十進制表示這 4 個值，就是 0 , 1 , 2 , 3 。咱們設計的是 4 階索引，第 3 ~ 10 個字節存儲第 1 個子索引項或 Free Space 項的地址（64 位地址用 8 個字節存儲），第 11 ~ 18 個字節存儲第 2 個子索引項的地址，第 19 ~ 26 個字節存儲第 3 個子索引項的地址，第 27 ~ 34 個字節存儲第 4 個子索引項的地址。若 8 個字節表示的 64 位地址（ulong 無符號長整型 uInt64）爲 0 ，表示子項不存在。有關索引和 4 階索引，我在《我發起了一個 .Net 開源數據庫項目 SqlNet》 http://www.javashuo.com/article/p-gpuysmcv-q.html 一文中有論述。

因此，能夠看出，索引項長度是 1 + 1 + 8 + 8 + 8 + 8 = 34 個字節。

3) 對於 Free Space 項，第 2 ~ 9 個字節表示起始地址，第 10 ~ 17 個字節表示結束地址。第 18 ~ 25 個字節表示所在的 div 的起始地址。第 26 ~ 33 個字節表示 Next 指針指向下一項 Free Space 項（Free Space 項之間會經過 Next 指針來用鏈表的方式鏈接起來）。 Free Space 項的長度是 1 + 8 + 8 + 8 + 8 = 33 個字節。

爲了便於管理， Free Space 項的長度也定義爲 34 個字節，和索引項同樣。多出來的 1 個字節不會用到。

將索引項和 Free Space 項都定義爲 34 位是便於管理，或者說便於算法處理。堆表進行垃圾回收的時候，只須要每隔 34 個字節檢查一次標識字節，就能夠知道堆表項是否已刪除，若已刪除則將後面的堆表項移動上來，填補已刪除的空閒空間。這就是堆表的垃圾回收。

div ，接下來講明 div 的定義規則。 div 是進程向操做系統申請的一塊大的內存區域，用於做爲堆空間。

第 1 次分配內存塊時會申請第 1 塊 div 。若是歷來沒有申請過內存塊，則不會申請 div 。

div 分爲 3 個部分：

1 結束地址， div 的結束地址，用 8 個字節表示（ulong 無符號長整型 uInt64）

2 分配計數器 useCount ，用於記錄分配的內存塊數量，若計數器的值爲 0 ，表示 div 徹底空閒，即沒有分配任何空間，能夠歸還操做系統。固然剛申請到 div 的時候，計數器的值也是 0 ，不過那時會接着用於分配。計數器也用 8 個字節表示（ulong 無符號長整型 uInt64）

3 剩餘的空間用於分配。

接下來講明運行邏輯：

咱們先估算一下， 1 MB 的堆表空間夠存放多少個 Free Space 項（包含索引項）？

Free Space 項的地址是 64 位地址，要爲 64 位地址創建索引，須要 64 / 2 = 32 個索引項。每一個索引項佔據的空間是 34 個字節，再加上 Free Space 項佔據的 34 個字節， 1 個 Free Space 須要的存儲空間是 (32 + 1) * 34 = 1122 個字節。實際中會比 1122 小，由於索引的父節點存在共用的現象。咱們能夠按 1024 來算，存儲一個 Free Space 須要 1024 個字節（包含索引項），那麼 1 MB 能夠存儲 1024 個 Free Space（包含索引項）。

因此， 1 MB 的堆表能夠記錄 1024 個 Free Space ，若是應用程序申請和歸還內存塊產生的 Free Space 不超過 1024 個的話， 1 MB 的堆表就夠了。若是超過，則須要申請新的堆表空間。新的堆表空間在堆中申請。能夠仍然申請 1 MB 。若是新申請的 1 MB 堆表空間用完了，能夠繼續申請 1 MB ，以此遞推。固然，實際中不會等到堆表空間不夠用時纔去申請新的堆表空間，上文分析過，若是這樣的話，會陷入「本身描述本身」的循環中，因此，應該在快用完（至少還足夠保存一次申請產生的最大的 Free Space 變化 ( 包含索引項 ) ）的堆表空間時就申請新的堆表空間。

當應用程序第 1 次申請內存塊時，堆管理程序會檢查基礎元數據區的第 1 個 div 的起始地址，若爲 0 （div 不存在），就向操縱系統申請 div ，申請到後將 div 的起始地址記錄到基礎元數據區的「第 1 個 div 的起始地址」。

而後，將 div 的第 3 部分（用於分配的空間）做爲 1 個 Free Space 記錄入堆表（這是第 1 個 Free Space）。固然，記錄的操做包括了創建索引。注意， 1 級索引項（00 , 01 , 10 , 11）固定存儲在堆表的第 1 ~ 4 個堆表項位置。應用程序啓動，初始化基礎元數據區時應預先建好這 4 個索引項。

接下來，就開始在堆表中訪問 Free Space 進行分配，固然如今只有 1 個 Free Space ，就是上面剛添加進去的 Free Space 。分配的話，就從 Free Space 的起始地址開始分配。好比，要申請 1 KB 的內存塊，那麼就把 Free Space 起始地址 ~ Free Space 起始地址 + 1 K - 1 這塊內存分配給應用程序。若是申請的內存塊大小比這個第 1 個 Free Space 都大，那麼應該拋出異常「只容許申請大小在 xx 範圍內的內存塊」。

分配的具體工做：修改當前 Free Space 的起始地址，修改成 Free Space 起始地址 + 1 K ，同時修改索引，根據 Free Space 原來的起始地址遍歷索引項，遍歷到和新的起始地址不一樣的索引項就修改索引項。這麼說好像不知道在說什麼。好吧，咱們舉個具體的例子：

咱們的設計是 64 位地址，舉例的話就簡單一點，咱們以 8 位地址爲例，假設 Free Sapce 的起始地址是 0 （0000 0000），申請 4 個字節大小的內存塊。

申請前 Free Space 的索引是這樣的： 00 -> 00 -> 00 -> 00 ，申請後 Free Sapce 的起始地址會變成 4 （0000 0100），相應的，索引會變成： 00 -> 00 -> 01 -> 00 ，能夠看到，從第 3 個索引項開始，新的索引和舊的索引變得不一樣，因此咱們從第 3 個索引項開始修改爲新的索引項就能夠了。

整個修改索引的過程會遍歷所有的索引項（包含了修改）， 64 位地址是 32 個索引項，因此分配的時間複雜度約大於 O(32) （還要考慮其它的操做，因此是約大於），咱們上文中就是這樣估算的。

其它還有什麼操做呢，好像沒有了。 ^^

分配就 2 步操做： 1 修改 Free Space 起始地址， 2 修改索引。

接下來是歸還，歸還分爲 4 種狀況：

1 歸還的內存塊的先後不和已有的 Free Space 相接，這樣歸還會產生一個新的 Free Space 。

2 歸還的內存塊和前面或者後面已有的 Free Space 相接，這樣須要和相接的 Free Space 合併。

3 歸還的內存塊和前面和後面已有的 Free Space 相接，這樣須要和先後 2 個 Free Space 合併。

4 歸還的內存塊沒有相鄰的 Free Space ，這種狀況比較特殊，這種狀況就是整個 div 的內存徹底被分配出去的狀況。

具體流程是這樣：

應用程序將內存塊的起始地址提供給堆來歸還這塊內存塊。堆根據內存塊的起始地址查找索引，查找和內存塊前相鄰的 Free Space 。前相鄰，是指相鄰且在前面。什麼是前面？ Free Space 的起始地址小於內存塊的起始地址叫前面，大於叫後面。

根據索引查找到前相鄰的 Free Space ，還不必定是真正的前相鄰的 Free Space ，還要加一個判斷條件： Free Space 所在的 div 和內存塊所在的 div 是同一個 div ，這樣纔是前相鄰的 Free Space 。

咱們這樣來定義前相鄰後相鄰：

前相鄰：起始地址小於內存塊的起始地址，且和內存塊屬於同一個 div ，則爲前相鄰。

後相鄰：起始地址大於內存塊的起始地址，且和內存塊屬於同一個 div ，則爲前相鄰。

若是查找不到前相鄰，那麼就根據基礎元數據區裏的 Free Space 鏈表頭指針找到頭指針指向的 Free Space 項，這個 Free Space 項就是內存塊的後相鄰。

若是 Free Space 鏈表頭指針爲空（0），也表示沒有相鄰（既沒有前相鄰，也沒有後相鄰）。

什麼狀況下 Free Space 鏈表頭指針爲空（0）呢？在應用程序初始化後，尚未分配的時候。以及分配之後，整個 div 都被分配出去。若是有多個 div ，全部 div 都被徹底的分配出去，頭指針也爲空（0）。

頭指針不空，能夠找到起始地址大於或小於內存塊起始地址的 Free Space ，但 Free Space 和內存塊不在同一個 div 的話，也不是相鄰。

怎麼判斷 Free Space 和內存塊在不在同一個 div ？ Free Space 項有一個字段是所在 div 的起始地址， div 的第 1 個部分是 div 的結束地址（見上文對 div 的定義），根據 div 的起始地址能夠找到 div 的結束地址，根據 div 的起始地址和結束地址能夠判斷內存塊在不在 div 裏。

找到前相鄰後，判斷前相鄰的結束地址 + 1 和內存塊的起始地址是否相等，若相等，則二者應合併。但這裏還要進一步的判斷，是狀況 2 仍是狀況 3 ，因此還須要根據前相鄰的 Next 指針找到下一個 Free Space 項，這就是後相鄰。判斷後相鄰的起始地址和內存塊的結束地址 + 1 是否相等，若相等，表示是狀況 3 ，若不等，表示是狀況 2 。

若是沒有相鄰的 Free Space ，就是狀況 4 。若是有相鄰的 Free Space ，但既不是狀況 2 ，也不是狀況 3 ，就是狀況 1 。

對於狀況 1 ，須要新建一個 Free Space 項，插入到 Free Space 項鏈表裏，插入位置是內存塊的前相鄰以後，或者說，後相鄰以前。固然，新建 Free Space 項須要創建相應的索引。索引有 32 個索引項，因此新建 Free Space 的時間複雜度約大於 O(32) 。再加上查找前相鄰的時間複雜度 O(32) ，因此狀況 1 的時間複雜度約大於 O(32) + O(32) = O(64) ，約大於 O(64) 。上文就是這樣估算的。

對於狀況 2 ，若是和前相鄰相接，就修改前相鄰的結束地址和索引就能夠，若是和後相鄰相接，修改後相鄰的起始地址和索引就能夠，這個和分配的操做方法同樣，參考上文分配的部分就能夠。

對於狀況 3 ，能夠修改前相鄰的結束地址和索引，同時刪除後相鄰，相應的，後相鄰的索引也要刪除。刪除索引的步驟是：根據後相鄰的起始地址遍歷索引項，對於只有 1 個子索引項的索引項刪除便可。只有一個子索引項表示從當前索引項開始的索引路徑僅僅指向要刪除的這個後相鄰。

對於狀況 4 ，直接按照內存塊的起始地址結束地址新建一個 Free Space 項，添加到 Free Space 堆表，固然會創建相應的索引。同時，還要將 Free Space 項插入 Free Space 項鏈表裏。插入位置在 —— 根據索引查找出起始地址小於本身的 Free Space 項，插入到這一項以後就行。注：由於不在同一個 div ，因此不能叫前相鄰或者後相鄰。若是查找不到起始地址小於本身的，就插入到頭，即基礎元數據區裏的 Free Space 鏈表頭指針指向本身，本身的 Next 指針指向原來頭指針指向的那一項。若是頭指針原來是空（0），那就讓頭指針指向本身就能夠了。

Free Space 項鏈表不是一個獨立的東西，而是堆表裏的 Free Space 項之間會經過 Next 指針來用鏈表的方式鏈接起來。由於只有 Next 指針，因此是單向鏈表。如今看起來，單向鏈表夠用了。 -_- '

每次申請和歸還後會檢查是否進行垃圾回收，當知足如下 2 個條件時進行垃圾回收：

1 Append 指針到堆表結束地址的內存空間小於 1500 個字節時，

2 堆表的空閒空間超過堆表空間的 2/3 的時候

每次垃圾回收後會檢查是否須要擴充堆表，當知足如下條件時擴充堆表：

Append 指針到堆表結束地址的內存空間小於 1500 個字節時，

擴充堆表就是申請新的堆表空間和初始空間用鏈表的方式鏈接起來，固然，隨着堆的規模的擴大，能夠申請第 2 個、第 3 個、第 n 個 …… 堆表空間，用鏈表的方式連起來就是：初始空間 -> 第 1 個新申請空間 -> 第 2 個新申請空間 -> 第 3 個新申請空間 -> …… 第 n 個新申請空間 -> ……

這一點的意義上面已經屢次分析過，爲了不陷入「本身描述本身」的陷阱，因此須要在堆表空間快用完時，擴充堆表空間。堆表空間最少要可以存儲一次分配（包含可能申請 div 的狀況）所產生的 Free Space 項（包含索引項）。通常的分配只需修改 Free Space 項的起始地址和索引，當有申請 div 的情形時，會新建 Free Space 項及完整的索引（32 個索引項），這應該是分配時佔用空間最大的狀況，咱們按這種狀況來計算。上面說過， 1 個 Free Space （包含索引項）會佔用 1122 個字節，咱們放寬鬆一點，在堆表剩餘空間只有 1500 個字節時就擴充堆表。

那何時「壓縮」或者說釋放空閒出來的堆表空間呢？

在垃圾整理後，檢查最後一個「不空」的堆表空間，即最後一個存儲了至少 1 個堆表項的堆表空間，若是這個堆表空間的空閒空間超過堆表空間的 2/3 ，那麼將釋放這個堆表空間以後全部的堆表空間。釋放就是將堆表空間歸還堆。上文說了，初始空間之外的堆表空間都是從堆裏申請的。

初始空間不屬於堆，顯然，永遠不會釋放。

說到這裏，顯然，「堆表」是一個可擴充的，由若干個線性表經過鏈表的方式鏈接起來的數據結構。

Append 指針指向的是最後一個堆表項，這個堆表項可能在初始空間，也可能在新申請的第 n 個堆表空間。

在分配時，會從當前 Free Space 項指針指向的 Free Space 項開始嘗試分配，若是當前項大小不夠，會訪問下一個 Free Space 項，若是訪問超過 10 個 Free Space 項還找不到大小足夠的 Free Space ，則會向操做系統申請新的 div ，做爲 Free Space 加入進來，而後在這個新的 div （新的 Free Space）中分配。

這主要是從執行速度的角度考慮。這也算是「空間換時間」。

這邏輯真的亂，煩。

咱們能夠用文件的方式來模擬實現這個堆管理算法。

就是用一個文件模擬一塊內存區域，來實現這個堆算法。

咱們會先實現一個 EnLargableList 的數據結構， EnLargableList 是一個線性表經過鏈表的方式鏈接起來的可擴充的數據結構，用來實現堆表。

堆的複雜來自於堆表的動態增加（無限增加），若是堆表是固定大小的，那麼堆並不太難。

上面有一個地方的邏輯有漏洞，向操做系統申請了一個 div 以後，除了將 div 可分配的空間做爲一個 Free Space 項加入 Free Space 項鏈表外，還應該新建一個「空的」 Free Space 項加入。這個「空的」 Free Space 項的起始地址和結束地址都是 div 的可分配空間的起始地址。由於起始地址和結束地址相等，因此是「空的」。由於大小是 0 ，老是小於申請的內存塊的大小，因此，在分配的時候不會分配這個 Free Space 。

這個空的 Free Space 有什麼用呢？這是爲了解決整個 div 都被徹底的分配出去的狀況，上文分析過了，整個 div 都被徹底的分配出去的話， Free Space 鏈表裏就沒有這個 div 的 Free Space ，這樣當這個 div 裏的內存塊歸還時，會找不到前相鄰和後相鄰，從而不知道這個內存塊是哪一個 div 的，這樣歸還的邏輯就有問題，就算無論是哪一個 div 而直接將內存塊做爲 Free Space 歸還，最終也會致使即便這個 div 已經所有空閒（全部分配出去的內存塊都歸還了），可是沒法將這個 div 歸還操做系統。至關於這個 div 處於「半遺棄」的狀態。由於它的 Free Space 仍然能夠繼續分配和歸還，但這個 div 已經不在正式名單上了，沒法在所有空閒時歸還操做系統。固然，實際中這樣的操做是不容許的，由於 Free Space 項最後一個字段就是指向本身所在 div 的起始地址，就是說 Free Space 項應該知道本身所在的 div ，若是不知道，程序不能運行下去。

因此，每一個 div 必定會有一個空的 Free Space ，無論 div 的空間如何分配，這個空的 Free Space 會一直存在下去，直到 div 歸還操做系統，這個空的 Free Space 纔會被刪除。

由於咱們沒有專門的表來記錄 div ，因此這個空的 Free Space 至關於 div 的表明，或者佔位。

上面的作法仍是有一點問題。用一個「空的」 Free Space 來表示 div 會有一些問題。實際上「空的」 Free Space 不是空的，是大小爲 1 個字節的空間。起始地址和結束地址相等， Free Space 的大小 = 結束地址 - 起始地址 + 1 = 1 。因此，在歸還 Free Space 時，若是歸還的 Free Space 和這個「空的」 Free Space 相接，會和「空的」 Free Space 合併，這又會引出合併後下次分配時第 1 個字節不能分配（做爲「空的」 Free Space）之類的判斷，會把算法邏輯變複雜。

因此，咱們放棄了這種方式。正統的作法應該仍是把 div 記錄到堆表裏，也會爲 div 創建索引。也就是說，增長一種堆表項： div 項。標識字節（第 1 個字節）爲 3 表示 div 項。 div 項的第 2 ~ 9 個字節存儲 div 的起始地址。固然 div 項的長度也是 34 （和索引項 Free Space 項相同），多餘的字節不會用到。

這樣，在歸還內存塊時，若是找不到前相鄰，也找不到後相鄰，說明 div 被徹底分配出去了，此時就會根據索引查找 div ，找到起始地址小於內存塊的起始地址且相鄰的 div ，這就是內存塊所在的 div 。

歸還內存塊後， div 的分配計數器會減 1 ，減 1 後檢查計數器值是否爲 0 ，若爲 0 則 div 的空間已徹底空閒，因而將 div 歸還操做系統。

但這樣的作法仍是有問題，要爲 div 創建索引，這有一點額外的麻煩，好比如今的堆表項開始的 4 個項位置存儲的是 4 個 1 級索引項，若是要爲 div 創建索引，須要專門再爲 div 創建 4 個 1 級索引項，這些會增長算法內容，會變得複雜或者麻煩。

因此，咱們仍是回到用一個「空的」 Free Space 來表示 div ，或者佔位的作法。在申請一個新的 div 的時候，會建立 2 個 Free Space ，一個是「空的」 Free Space ，另外一個是可用的 Free Space 。 div 的開頭會用 8 + 8 = 16 個字節分別表示結束地址和分配計數器 use Count ，「空的」 Free Space 就是第 17 個字節，起始地址和結束地址都是第 17 個字節，從第 18 個字節開始就是可用空間了，可用的 Free Space 就是第 18 個字節開始到 div 的結束地址。

咱們能夠給 Free Space 項增長一個字節來表示 Free Space 的「Type」，在標識字節以後。第 1 個字節是標識字節，咱們用第 2 個字節來表示 Free Space Type ， 0 表示「空的」 Free Space ， 1 表示普通的 Free Space 。這樣的話， Free Space 項和索引項同樣，都是 34 個字節了。

在分配和回收時須要判斷 Free Space 時「空的」 Free Space 仍是普通的 Free Space 。上文中定義過，標識字節爲 2 表示普通的 Free Space 。

在分配時判斷，若是是「空的」 Free Space ，就不進行分配，而是訪問下一個 Free Space 嘗試分配。

在回收時會尋找前相鄰，若是前相鄰是「空的」 Free Space ，則不進行判斷是否相接若相接則合併的邏輯。

EnLargableList （用於堆表）會設定這樣一些參數：

1 whenRecycleFragment ，這是一個整數，表示碎片數量超過多少應開始碎片回收，能夠設置爲 1萬，碎片數量是以對錶項爲單位。假設堆表空間是 1MB ，每一個堆表項佔用 34 個字節，能夠存約 3 萬個堆表項，約表示 1024 個 Free Space （每一個 Free Space 最多由 33 個堆表項表示，包含 32 個索引項 + 1 個 Free Space 項）。

若是設置 whenRecycleFragment 爲 1 萬，至關因而一個堆表空間中有 1/3 的空閒空間，此時回收。效果怎麼樣？不知道。

或者說至關於一個堆表空間中記錄了 600 個 Free Space 項，還有 300 個 Free Space 的位置能夠記錄，此時回收。效果怎麼樣？不知道。

上文中提到當 Append 指針到堆表空間的結束位置的空間小於 1500 時回收，但如今放棄了這種作法。

由於這種作法好像不太科學，在應對規模很大的堆時候，好像不太適用。堆的規模很大，是指能夠無限制的使用地址空間，內存塊數量和 Free Space 數量（包含碎片）可能持續增加。大小 1MB 的堆表能夠存約 3 萬個堆表項，以堆表項爲單位遍歷一遍須要遍歷 3 萬個堆表項。 3 萬是一個不小的數量，因此咱們想當碎片（空閒出來的項位置）達到 1 萬的時候回收可能會比較好。

2 whenEnLarge ，這是一個整數，表示 append 指針到堆表末尾的空間還有多少時擴充堆表容量，擴充堆表容量就是申請新的堆表空間，新申請的堆表空間以鏈表的方式鏈接到當前堆表空間。

3 heapTableSpace ：就是每個堆表空間的大小，能夠設爲 1MB ，每次申請新的堆表空間就是申請 heapTableSpace 大小的一個內存塊。

EnLargableList 還會保存這樣一些字段：

1 appendPtr ， append 指針，存儲一個 64位地址， EnLargableList 寫入數據時從 append指針指向的數據開始寫，每寫入一段數據， append 指針會移動到這段數據以後的位置。

2 currentHeapTableSpace ，當前堆表空間，即 append 指針指向的位置所在的堆表空間。這個字段用來歸還堆表空間。歸還是指，當末尾一個堆表空間，即當前堆表空間的空間所有空閒出來時候，會將堆表空間歸還堆。僅僅憑 append 指針不能知道 append 指針所在的堆表空間，因此還須要這個字段來記錄 append 指針所在的堆表空間，即當前堆表空間。

3 recycleFreeItem ，碎片回收時指向空閒的項位置，即「碎片」，或者說「已刪除」的項。

4 recycleScanItem ，碎片回收時會先掃描「碎片」，掃描到一個「碎片」以後，會將 recycleFreeItem 指向這個「碎片」的位置。而後會掃描堆表項，每掃描一個堆表項，會檢查堆表項的子項（子索引項 Free Space項），若子項的位置大於 recycleFreeItem 指向的位置，則將子項移動到 recycleFreeItem 指向的位置，「填補」這個碎片，同時修改當前掃描的堆表項中保存的該子項的位置。這樣就完成一個「碎片」的回收（「填補」）。

而後就繼續掃描下一個「碎片」，掃描到「碎片」後，又接着掃描上一次掃描的堆表項。怎麼知道上一次掃描的堆表項？就是 recycleScanItem 指向的堆表項。不過這樣看起來，還要加一個字段，來表示掃描到了堆表項裏的哪一個子項，以下：

5 recycleScanSubItem ，表示掃描到的堆表項的子項。這個字段只要 8 位整數就能夠了。

6 fragmentCount ，表示「碎片」數量，每次刪除堆表項時加 1 ，在碎片回收「填補」碎片的時候減 1 ，這個字段用於上文中若是 fragmentCount 的數量達到 whenRecycleFragment 的值的時候，就開始碎片回收。

7 堆表空間的 useCount ，這個字段是每一個堆表空間保存 1 個，就是堆表空間的 useCount ，就是堆表空間使用的計數（以堆表項爲單位）。每寫入 1 個堆表項，就在堆表空間的 useCount 加 1 ，每刪除 1 個堆表項， useCount 就減 1 。 useCount 爲 0 表示堆表空間

每次分配和回收以後會檢查 fragmentCount ，當 fragmentCount 超過 whenRecycleFragment 時會開始回收。因爲不但願回收佔用太多時間，能夠設定一個參數好比 recycleItemCount ，好比 300 ，表示無論有沒有回收完，只掃描 300 個堆表項。

但這樣會有一個問題，自己要 fragmentCount 超過 whenRecycleFragment 時纔開始回收，並且每次又不回收完，空閒出來的碎片空間得不到重複利用， append 指針只能一直向後移動，因此可能致使永遠回收不完，堆表持續增加。

因此 ……

咱們這裏有了一個突破，即對於堆表的碎片回收，咱們採用了一個新的算法，就是在堆表項裏增長 1 個字段： fragmentNext 。

就是把已刪除的堆表項（碎片）用鏈表的方式鏈接起來，這樣每次寫入堆表項的時候從這個鏈表的頭取出一個碎片，做爲新的堆表項的寫入位置。 fragmentNext 表示下一個碎片的位置，或者說， fragmentNext 是一個指針，指向下一個碎片。

實際上是一個用鏈表實現的隊列。

因此，須要在基礎元數據區裏增長 2 個字段 fragmentListHead , fragmentListTail ，用於保存碎片鏈表（隊列）的頭指針和尾指針。

每次刪除堆表項時，將被刪除的堆表項的標識字節更新爲 0 ，表示已刪除，同時將堆表項添加到碎片隊列的尾部。

若是是第一次刪除，那麼碎片隊列裏尚未元素，則將頭指針和尾指針都指向堆表項。

每次寫入堆表項的時候，會先從碎片隊列裏取得碎片，做爲寫入位置，若是碎片隊列爲空，纔會將 append 指針做爲寫入位置。

fragmentNext 指針也是一個 64位無符號整數 ( uInt64 ) ，因此也佔用 8 個字節。這樣的話，索引項和 Free Space 項的大小都是 34 + 8 = 42 個字節了。

好的，如今咱們再來看看在這種算法下，如何回收碎片。（這裏的「碎片」是指堆表裏的碎片，不是堆裏的碎片）

實際上，在這個算法下，碎片能夠獲得充分的利用（每次寫入都優先從碎片隊列中取得碎片做爲寫入位置，碎片隊列爲空纔會用 append 指針的方式），因此看起來堆表不會無理增加。但又一些特殊的狀況，好比應用程序先申請了大量的小塊內存，形成了大量的 Free Space ，爲了存儲這些 Free Space ，堆表會變得很大，以後應用程序又歸還了全部或者大部分內存塊，也是 Free Space 會變得不多，此時堆表中就會產生大量空閒空間（碎片），這些空閒空間若是長時間不用又不歸還堆，也是一種浪費。

咱們能夠這樣來設計堆表的碎片回收算法：

首先，只有碎片數量大於某個值的時候，纔會開始回收。好比大於 1000 個碎片（約 1 MB）。

從初始空間開始，向後遍歷每個堆表空間，若是堆表空間的 useCount 爲 0 ，則能夠考慮釋放這個堆表空間（歸還堆）。

注意，這裏是考慮，不是必定要歸還。還要判斷一個條件，就是堆表的可用空間 usableSpace 是否足夠，若足夠則釋放（歸還）堆表空間，不然不釋放。注意 usableSpace 是整個堆表的可用空間（包括全部的堆表空間）。

堆表的初始空間不屬於堆，屬於基礎元數據區，永遠不會釋放。

因此在基礎元數據區中要增長一個字段 usableSpace ，上文的一些算法邏輯也要作一些修改。

usableSpace 初始值等於初始空間的大小。以後每申請一個新的堆表空間，則加上新的堆表空間的大小，若歸還堆表空間，則減去歸還的堆表空間的大小。

每次向堆表寫入數據， usableSpace 加上寫入數據的長度，好比 1 個堆表項長度是 34 個字節，那麼寫入一個堆表項的話， usableSpace += 34; 。

每次從堆表中刪除數據， usableSpace 減去刪除數據的長度，好比刪除 1 個堆表項，則 usableSpace -= 34; 。

上文中的 append 指針到堆表末尾的空間小於 1500 時應擴充堆表（申請新的堆表空間）這一段須要改爲：

usableSpace 小於 1500 時，應擴充堆表（申請新的堆表空間）。上文中也提到若是一個堆表空間的 useCount 爲 0 ，則能夠考慮釋放這個堆表空間，但要判斷一個條件，即堆表的可用空間 usableSpace 是否足夠。咱們能夠設定好比當 usableSpace - 當前考慮釋放的堆表空間的大小 > 50 萬個字節（能夠存儲約 500 個 Free Space 項 (包含索引項)）時，能夠釋放這個堆表空間。

咱們上文設定的 1 個堆表空間的大小是 1MB ，因此 50萬個字節約等於 0.5 MB ，上面的條件至關因而釋放了這個堆表空間後，堆表的可用空間還有 0.5 MB ，也就是至關於還有半個堆表空間。

這些參數能夠根據須要進行設定，上面給出的是參考數值，也是舉例。

概括一下，就是 usableSpace 小於 1500 時應擴充堆表， usableSpace - 考慮釋放的堆表空間大小大於 50萬時能夠釋放堆表空間。

是否是更清晰了？

碎片回收應放在一個另外的線程裏進行。（是否是想起了 GC -_- ' ），每隔一段時間運行一次（好比每秒運行一次），若是堆表空間的數量很大，能夠每次只遍歷幾個堆表空間（好比 10 個），後面的下次繼續遍歷。這樣能夠不影響分配和回收內存塊的執行速度。

（這裏的「碎片」是指堆表裏的碎片，不是堆裏的碎片）

爲了能在更新索引時只上溯到索引項值不一樣的索引項，須要再在索引項和 Free Space 項裏再增長一個字段， parentItem ，保存上一級索引項的地址，是一個 ulong 無符號長整型，佔 8 個字節，這樣，索引項和 Free Space 項的長度就是 42 + 8 = 50 了。

更新索引時只上溯到索引項值不一樣的索引項，能夠避免爲了更新一個 Free Space 項的索引項而刪除這個 Free Space 項的所有索引項並重建所有索引項。刪除所有索引項再重建可能會比較省事一些，但效率上可能會低一點。

上溯的邏輯是檢查上一級索引項的索引值和新索引在這一層級的索引項的索引值是否相等，若是相等，則在這一級索引項上開始向下創建新索引的索引項，若是不等，則檢查這個「上一級」索引項除了當前索引項之外還有沒有其它子項，若是沒有，則刪除這個「上一級」索引項以後繼續上溯，若是有，則直接繼續上溯。刪除「上一級」索引項固然包括了刪除當前索引項，實際上，上溯是從 Free Space 項開始， Free Space 項是索引樹的最底層，也能夠說是葉子節點，也能夠說是索引最終指向的數據，或者說數據項。

實際上「上溯」這個邏輯好像行不通，由於上溯到索引值和新索引在這一層級的索引值相同這並不能說明更上層的索引值和新索引的對應相同。要知道更上層（或者說每一層）的索引值是否和新索引的對應相同，須要一直上溯到頂層（一級索引），但這和從一級索引自頂而下好像沒什麼區別。啊哈哈

爲了簡單起見，咱們採用刪除舊索引，創建新索引的方式。即更新索引採用刪除舊索引創建新索引的方式。

咱們來看一下這樣的作法的時間花費：

對於申請內存塊（new），須要更新用於分配內存塊的 Free Space 的索引，按照上述的作法，更新包括了刪除舊索引和創建新索引，刪除舊索引和創建新索引的時間複雜度均可以認爲是 O(32) ，加起來就是 O(32) + O(32) = O(32 + 32) = O(64) 。按照咱們在上面的估算方法， O(1) 的時間按 4ns （4納秒）算，那麼申請內存塊（new）的時間花費就是 64 * 4 = 256 ns 。 256 ns 咱們按 300ns 算的話， 1 微秒就能夠執行 3.3 次 new 操做， 1 秒就能夠執行 330 萬次 new 操做。由於咱們將 256 ns 近似爲 300 ns 計算，因此能夠認爲 1 秒能夠執行 330 萬次以上的 new 操做。

對於歸還內存塊（delete），分爲 4 種狀況：

狀況 1 ：歸還的內存塊前面和後面都不和已有的 Free Space 相接，因此不須要「合併」，這樣只須要新建索引就行，時間複雜度是 O(32) ，時間花費是 32 * 4 = 128 ns ，能夠估算爲 1 微秒能夠執行 7 次，那麼 1 秒能夠執行 700 萬次。

狀況 2 ：歸還的內存塊前面和已有的 Free Space 相接，須要「合併」。合併只需更新相接的 Free Space 的結束地址就行。由於索引是按 Free Space 的起始地址創建的，因此更新結束地址不須要更新索引，因此狀況 2 的時間複雜度是 O(1) ，因爲只是更新結束地址，能夠認爲 O(1) 的時間花費是 1 * 1ns = 1ns ， 1 秒能夠執行 10 億次。我也有點懷疑，真的這麼簡單嗎？

狀況 3 ：歸還的內存塊後面和已有的 Free Space 相接，須要「合併」。合併只需更新後面相接的 Free Space 的起始地址，因爲索引是按起始地址創建的，因此須要更新索引，和申請內存塊同樣，更新索引包含刪除舊索引和創建新索引，時間複雜度是 O(64) ，時間花費是 64 * 4 = 256ns ， 1 秒能夠執行 330 萬次以上。

狀況 4 ：歸還的內存塊前面和後面都和已有的 Free Space 相接，須要將前面後面的 Free Space 「合併」爲一個。合併須要修改前面的 Free Space 的結束地址，刪除後面的 Free Space 。修改結束地址不須要更新索引，因此只須要刪除後面的 Free Space 的索引就行。因此時間複雜度是 O(32) ，和狀況 1 同樣，時間花費是 32 * 4 = 128 ns ， 1 秒能夠執行 700 萬次。

哎？我剛又想到一個好主意，申請內存塊的時候爲何不從 Free Space 的結束地址分配呢？若是從 Free Space 的結束地址分配的話，就不用更新索引，只要修改 Free Space 的結束地址就能夠了。這樣就和歸還的狀況 2 同樣，時間複雜度是 O(1) ，時間花費是 1 * 1ns = 1ns ， 1 秒能夠執行 10 億次。（1 秒能夠 new 10 億次）

上面的討論是從起始地址開始分配內存塊的，因此每次 new 的時候會更新起始地址，也就會更新索引。

若是換成從結束地址一端來分配內存塊的話，就不須要更新起始地址，也就不須要更新索引，能夠大大提升效率。

固然這是在 Free Space 的大小足夠分配的狀況下，若是 Free Space 的大小不夠，會向後尋找 Free Space，若尋找了 10 個 Free Space 還未找到大小足夠的 Free Space，則會向操做系統申請 div 。在這些狀況下，還須要考慮這些時間花費。

由於不須要上溯，因此索引項和 Free Space 項不須要保存上一級索引項的位置（地址），也就是不須要 parentItem 這個字段，這樣的話，索引項和 Free Space 項的長度就從 50 個字節變回 50 - 8 = 42 個字節了。

實際上，咱們在索引項裏設計了一個字段用來保存索引值，但後來發現，由上一級索引保存的 4 個子索引項的指針字段能夠直接指向子索引項，子索引項好像不須要保存索引值。

我這個設計是不會回收堆裏的碎片的。這跟 C# Java 之類有 GC 的不一樣。我想 C++ 也不會回收堆裏的碎片。上文提到的「碎片回收」是回收堆表裏的碎片，不是回收堆的碎片。因此不存在「全盤整理」。每次歸還內存塊的時候會檢查 div 的 useCount ，每次分配內存塊的時候，這個內存塊所在的 div 會 useCount ++ ，每次歸還內存塊，這個內存塊所在的 div 會 useCount -- 。若是 useCount == 0 ，則將 div 歸還操做系統。但這種狀況機率可能不大，由於一旦 div 投入使用後，分配出去的內存塊必須所有釋放， div 纔會空（useCount == 0），才能歸還操做系統。但在實際使用中， div 投入使用後，有申請有歸還，所有清空的機率可能不大，很長時間後，可能還有一些「零碎」的內存塊佔據着，即便是少許的內存塊，也致使 div 不能歸還。這就是 C++ 這一類靜態作法的侷限。可能致使大塊內存區域（div）被進程佔據，沒法迴歸到操做系統層面，形成資源的浪費。

因此，要解決這種靜態作法的侷限，就須要引入 GC 這樣的動態特性。我想，當初 GC 的出現（以 Java 爲表明），不只僅是爲了解決「內存泄漏」的問題，其實也隱藏了上述靜態作法的種種侷限的緣由吧！

固然， GC 的作法會增長工做量，會花費時間，可是， GC 確實能夠有效的控制堆碎片數量和堆表大小。就是說， GC 能夠使堆碎片控制在一個有限的範圍內，使堆表大小控制在一個有限的範圍內，這自己就簡化了問題，減小了管理開銷和複雜度。從這個角度來說， GC 又是減少了時間花費，提高了效率的。

因此，從技術進步或者進化的角度來看， GC 是一次進化，使得能夠用更現代更高級的方法來管理存儲資源。

相較之下， C++ 的靜態作法，是早期和樸素的。

在現代存儲資源能夠大幅甚至無限擴展的情形下，或許確實須要 GC 這樣「動態」的方式來管理存儲資源。靜態的方式面對大幅存儲資源可能會有侷限。

固然，在本文中設計的這種「靜態」作法，實際上也是利用了現代存儲資源大幅提高的特色，比較多的應用了「空間換時間」。

但確實存在一個問題，就是靜態的作法沒法控制碎片的增加，包括堆碎片，甚至堆表碎片，或者說不能有效控制堆表大小的增加。本文的作法能夠回收堆表碎片，可是效果如何，不知道。只要堆表空間裏還有一個堆表項，就不能釋放堆表空間（歸還堆），這是一個機率問題。

因此，要準確有效的管理存儲資源，仍是須要 GC 這樣的「動態」作法。

所謂「動態」，套用一個術語， GC 創建了一個「抽象層」。

由於有這個「抽象層」， GC 能夠移動進程中的變量位置，而對於程序來說，沒有感受到變化。

也正由於這樣， GC 能夠有效的控制堆碎片的數量和堆表大小在一個有限的範圍。

在 C++ 裏，因爲 C++ 比較直接的面向「底層」（操做系統），因此， C++ 不能提供 GC 這樣的「抽象層」，對於堆管理，也就只能使用「靜態」的作法，如上所述。

但到目前爲止，上面說的設計解決了基本的分配和回收（包括索引機制，索引機制確保了檢索操做的時間花費在一個已知的範圍內），但還存在一個重要的問題，就是「碎片佔據 div」的問題。就是說， div 裏只要還有一個內存塊沒有歸還， div 就會被進程一直佔用，不能歸還操做系統。這就致使大塊內存空間的浪費。這是一個大問題。

有網友查了資料，說 Linux 有一塊 3G 的用戶空間，進程可使用，使用這個用戶空間不須要系統調用（不須要切換到系統進程，即不須要跨進程）。個人理解是這是操做系統提供的系統級的一個「公共堆」，可供全部進程使用。這樣在 3G 的範圍內，進程能夠共用這個公共堆，這樣能夠解決「碎片佔據 div」的問題。

因此，我說這是個重大發現。

但後來一想，這樣又有一個問題，就是地址訪問的時候不能或者難於做安全檢測了，所謂安全檢測，是指檢查訪問的地址是否越界。越界指訪問了其它進程的內存。

資料顯示，如今的安全檢測是在存儲管理部件中完成的。這是一個硬件，是 CPU 的一部分。

操做系統爲存儲管理部件設置頁表，而後存儲管理部件就能夠工做了。

看起來，公共堆沒有「段」的概念，大概很難實施判斷是否越界的安全檢查。

呀，這可怎麼辦？

碎片，分爲 2 個層面，

1 物理內存，頁文件

2 虛擬內存，虛擬地址

對於 1 ，操做系統能夠進行整理，能夠將多個頁上的零碎的數據整理到一個頁，再把虛擬地址映射到新的頁就行。這樣能夠避免頻繁的載入載出頁。

對於 2 ，須要程序本身管理。好比 GC ，內存池。

但上面的說法也有一點問題，操做系統（虛擬內存）也不能整理數據層面的碎片，由於虛擬內存管理的是虛擬頁和物理頁之間的對應關係，並無細化到虛擬地址和物理頁之間的對應關係，因此虛擬內存也不能整理數據層面的碎片，上面說的「將多個頁上的零碎的數據整理到一個頁」這是不能作到的。