ILBC 運行時（ILBC Runtime）架構

時間 2019-11-18

標籤 ilbc 運行時 runtime 架構欄目系統架構简体版

原文原文鏈接

本文是 VMBC / D# 項目的系列文章，html

有關 VMBC / D# ，見《我發起並創立了一個 VMBC 的子項目 D#》（如下簡稱《D#》） http://www.javashuo.com/article/p-zziqptgy-s.html 。小程序

ILBC 運行時架構圖以下：數組

爲了便於講解，圖中一些位置標註了紅色數字。架構

ILBC 運行時包含 3 個部分：調度程序、 InnerC（Byte Code to Native Code）、 GC 。函數

1 處，調度程序調用入口程序集的 ILBC_Main() 函數，開始執行程序。性能

若是入口程序集是 ILBC 程序集，就會調用 InnerC（Byte Code to Native Code）編譯 ILBC 程序集爲本地程序集（2 處）。優化

ILBC 程序集就是 ILBC Byte Code 程序集，本地程序集就是本地代碼程序集。spa

若是入口程序集是 ILBC 程序集，就直接調用 ILBC_Main() 函數，開始執行程序。操作系統

3 處表示 A 程序集引用了 B 程序集，在調度程序加載 A 程序集的時候，會調用 A 本地程序集的 ILBC_GetAssembly() 函數，線程

ILBC_GetAssembly() 函數以前沒有提到，如今補充上來。

ILBC_GetAssembly() 函數會返回 A 程序集引用的程序集列表，包含了這些程序集的名字。

程序集列表是一個數組，數組元素是一個字符數組的首地址，這個字符數組就是程序集的名字。

調度程序會根據程序集列表去加載列表裏的程序集，

假設 A 程序集引用了 B 程序集，則程序集列表裏有 B，調度程序會先把 B 加載到內存，若是 B 是本地代碼程序集，則直接加載到內存，若是 B 是 ILBC 程序集，則先 JIT 編譯爲本地代碼程序集，再加載到內存。

4 處表示 ILBC 程序集 JIT 編譯爲本地程序集後投入使用。

把 B 加載到內存後，調用 B 的 ILBC_GetMethodList() 函數，返回 B 的函數表首地址，另外一方面，調度程序會調用 A 的 ILBC_GetMethodListList() 函數，返回「函數表列表」的首地址，「函數表列表」是一個數組，數組元素是函數表首地址，因此是「函數表的列表」。

這樣，把 B 的函數表首地址存到函數表列表中 B 的位置，加載 A 和「依賴項」 B 的過程就完成了。

若是 A 還引用了其它程序集，或者 B 引用了其它程序集，也是按照這個過程依次加載。

上面這個過程說的有點囉嗦，沒事，咱們先來看一下 InnerC 的架構，等下再把這個流程總結一遍。

InnerC 的架構以下：

InnerC 分爲 2 個模塊：

1 InnerC to Byte Code

2 Byte Code to Native Code

InnerC to Byte Code 的職責是語法分析和類型檢查，語法分析包含了語法檢查。

經過語法分析，把 C 代碼解析爲表達式對象樹，而後對表達式對象樹進行類型檢查，

類型檢查經過後，就能夠返回表達式對象樹了，

表達式對象樹能夠直接傳給 Byte Code to Native Code，

Byte Code to Native Code 負責將表達式生成爲目標代碼和連接（連接外部庫），最終生成本地庫，

這就是 AOT 編譯。

表達式對象樹也能夠序列化，序列化獲得的 byte 數組（byte [ ]）就是 Byte Code， Byte Code 保存爲文件就是 ILBC 程序集。

ILBC 程序集能夠讀取爲 byte 數組（byte [ ]）， byte 數組反序列化就是表達式對象樹，表達式對象樹傳給 Byte Code to Native Code 編譯爲本地庫，

這就是 JIT 編譯。

C 代碼是第一級中間代碼， Byte Code 是第二級中間代碼。

這就是 InnerC 的架構，以及 AOT 編譯和 JIT 編譯的原理。

咱們能夠把 C 中間代碼文件的擴展名定義爲 .ilc ，意思是「ILBC C Code」，

把 ILBC 程序集（Byte Code 文件）的擴展名定義爲 .ilb，意思是「ILBC Byte Code」。

本地代碼程序集的擴展名遵循操做系統的規定，好比 Windows 上就是動態連接庫 .dll，由於本地程序集就是操做系統定義的動態連接庫。

咱們接下來把 ILBC 運行時加載程序集和運行應用程序的流程總結一下：

1 調度程序加載入口程序集，若是入口程序集是本地程序集，就直接加載到內存，

若是入口程序集是 ILBC 程序集，則先 JIT 編譯，把入口程序集編譯爲本地程序集再加載到內存。

2 調度程序調用入口程序集的 ILBC_GetAssemblyList() 函數， ILBC_GetAssemblyList() 函數返回 AssemblyList 首地址。

AssemblyList 是一個數組，數組元素是一個 char 數組（char [ ]）的首地址，表示 Assembly 的名字（文件名，不包含擴展名）。

3 調度程序用 Assembly 名字查找當前目錄下的程序集，先查找本地程序集，好比「程序集名字.dll」，若是找到，直接加載到內存，

若是找不到本地程序集，就找 ILBC 程序集，好比「程序集名字.ilb」，若是找到，先 JIT 編譯爲本地程序集，再把本地程序集加載到內存。

若是 ILBC 程序集也沒有找到，就報錯「找不到某某程序集。」。

怎麼把本地程序集加載到內存？這遵循操做系統提供的方式，好比 Windows 把 .dll 庫加載到應用程序裏的方式。

總的來講，加載程序集的流程如上，從入口程序集開始依次加載，加載完成後，調用入口程序集的 ILBC_Main() 開始執行程序。

另外， ILBC_GetMethodListList() 函數應該是 ILBC_InitializeMethodListList() ，具體邏輯不長，但講起來煩瑣，以後看 Demo 代碼就清楚了。

能夠看到， ILBC 運行時加載程序集會將全部引用到的程序集所有加載完成，纔會開始執行程序。

這是和 .Net / C# 不一樣的， .Net / C# 應該是用到這個程序集的時候纔會加載，用到這個程序集是指第一次調用到這個程序集裏的類的時候。

實際上， .Net / C# 的動態加載的粒度可能更細，多是 Class 這一級別的，

咱們在調試 .Net / C# 程序的時候能夠觀察到，只有第一次用到某個 Class 的時候，這個 Class 的靜態構造函數纔會被調用。

從這一點上來看， .Net / C# 的動態性比 ILBC 更強，更加動態。

進一步， ILBC 加載的單位是整個程序集，而不是類（Class），若是是本地程序集，則將整個本地程序集加載到內存，

若是是 ILBC 程序集，則對整個 ILBC 程序集進行 JIT 編譯，編譯爲本地程序集後，再把整個本地程序集加載到內存。

也所以， D# / ILBC 不提供類的靜態構造函數，而是提供一個 ILBC_AssemblyLoad() 函數， ILBC 運行時會在加載程序集完成時調用 ILBC_AssemblyLoad() 函數，整個程序集全部類的初始化工做能夠在 ILBC_AssemblyLoad() 裏來完成。

.Net / C# 的動態性須要更加複雜的設計和實現，這不是 ILBC 的定位。

咱們能夠探討一下，若是要實現 .Net / C# 的動態性，好比第一次 new 類的對象或者第一次調用類的靜態方法時，加載類（若是 Assembly 未加載則先加載 Assembly 再加載 Class）並調用類的靜態構造函數這個動態加載怎麼實現：

咱們能夠寫一段僞碼：

簡單起見，咱們假設 Assembly 已經加載了，只要判斷類是否已加載，若未加載則加載類。

編譯器會把 new 類的對象，以及調用類的靜態方法的代碼處理成一段臨時代碼，咱們稱之爲「連接代碼」，

假設該類是 A Class，

僞碼以下：

bool ifAClassLoad = false;

if ( ! ifAClassLoad )

{

lock ( ifAClassLoad )

{

if ( ! ifAClassLoad )

{

加載 A Class ;

調用類的靜態構造函數 ;

ifAClassLoad = true ;

}

new () 或者 A.靜態方法() ;

按照這個代碼的邏輯，第一次 new A() 或者調用 A.靜態方法() 時，會判斷 A Class 是否已加載，若是未加載，會有一個線程通知 CLR 加載 A Class，其它線程等待（若是有其它線程也在 new A() 或者調用 A.靜態方法() 的話）， CLR 加載完成後，就執行真正的 new A() 或者 A.靜態方法() ，

以後，再 new A() 或者調用 A.靜態方法() 的時候，在連接代碼的第一句，

if ( ! ifAClassLoad )

就能夠判斷出來 A Class 已經加載，因而就直接執行 new A() 或者 A.靜態方法() 。

但這樣的作法，每次 new A() 或者 A.靜態方法() 都要有一個判斷，雖然只是一個判斷，但從微觀上來講，也形成了性能消耗。

這樣的性能消耗，應該是「應該被優化掉的」。

若是 .Net / C# 已經把這個判斷優化掉了，那麼應該用到了「修改已經編譯好的本地代碼」的操做，形象的講，就是給「已經編譯好的本地代碼」作了個「微創手術」。

具體就是在第一次加載成功後， .Net CLR 會把這段「連接代碼」替換掉，替換爲 new A() 和 A.靜態函數() 的代碼，

在新的 new A() 和 A.靜態函數() 代碼中， A() 構造函數和 A.靜態方法() 已經替換爲 A Class 加載後的實際的函數地址。

這樣，替換後的代碼和訪問同一個程序集中的類的代碼是同樣的。

性能也和訪問同一個程序集中的類同樣。

順便加一句，原本連接代碼中 new A() 和 A.靜態函數() 的部分還有一個相似調用虛函數的查函數表的操做，也被這個替換優化掉了。

這個技術很底層， ILBC 不打算涉及這個技術，

ILBC 仍然把 C 語言和 C 編譯器（InnerC）看做一個總體，不會介入 C 編譯器的工做細節。

不過，從上面的討論也能夠知道，若是 ILBC 想實現和 .Net / C# 同樣的「動態特性」，好比用到 A Class 的時候才加載 A Class，若是 A Class 所在的程序集未加載則先加載程序集再加載 A Class，

若是要作到這樣的動態特性的話，簡單點也能夠用上面的「連接代碼」的作法，只是每次調用 new A() 構造函數和 A.靜態方法() 都要多一個

if ( ! ifAClassLoad )

的判斷了。

還有就是查函數表的操做也是要有的。

固然，即便不實現這個「動態特性」，查函數表的操做也是有的。

ILBC 的動態連接就至關於調用虛函數。

不過即便用了上面「連接代碼」的方式，也只能「用到某個程序集的時候才加載程序集」，還不能達到 Class 的粒度，

由於上文也說了， ILBC 是把整個 ILBC 程序集編譯成本地程序集的，

這是由於 ILBC 程序集是 C 語言寫的， C 語言只能整個項目（程序集）一塊兒編譯，不能把裏面的 .c 文件一個一個拿出來編譯。

就算能把若干 .c 文件任意的拿出來編譯，根據 ILBC 規範，這些單獨拿出來的 .c 文件編譯成的程序集裏必需要提供 ILBC_GetAssemblyList()， ILBC_InitializeMethodList()， ILBC_Link() 函數，這就亂套了。由於本來的程序集已經爲本來的整個項目生成了一份這些函數。

假設 A 引用 B， A 裏編譯好的邏輯是引用 B，如今把 B 拆成了若干個小程序集，你讓 A 怎麼引用？