深刻理解Java虛擬機(類文件結構)

歡迎關注微信公衆號:BaronTalk,獲取更多精彩好文!git

以前在閱讀 ASM 文檔時,對於已編譯類的結構、方法描述符、訪問標誌、ACC_PUBLIC、ACC_PRIVATE、各類字節碼指令等等許多概念聽起來都是雲山霧罩、只知其一;不知其二,緣由就在於對類文件結構和類加載機制不夠了解。直到後來細讀了《深刻理解 Java 虛擬機》中虛擬機執行子系統的相關內容,才創建了清晰的認知。若是你也和我同樣,不瞭解類結構和類加載,可是工做中又涉及到字節碼相關內容,相信後面兩篇文章會對你有所幫助。github

咱們所編寫的每一行代碼,要在機器上運行最終都須要編譯成二進制的機器碼 CPU 才能識別。可是因爲虛擬機的存在,屏蔽了操做系統與 CPU 指令集的差別性,相似於 Java 這種創建在虛擬機之上的編程語言一般會編譯成一種中間格式的文件來存儲,好比咱們今天要聊的字節碼(ByteCode)文件。編程

一. 語言無關性

Java 虛擬機的設計者在設計之初就考慮並實現了其它語言在 Java 虛擬機上運行的可能性。因此並非只有 Java 語言可以跑在 Java 虛擬機上,時至今日諸如 Kotlin、Groovy、Jython、JRuby 等一大批 JVM 語言都可以在 Java 虛擬機上運行。它們和 Java 語言同樣都會被編譯器編譯成字節碼文件,而後由虛擬機來執行。因此說類文件(字節碼文件)具備語言無關性。安全

二. Class 文件結構

Class 文件是一組以 8 位字節爲基礎單位的二進制流,各個數據嚴格按照順序緊湊的排列在 Class 文件中,中間無任何分隔符,這使得整個 Class 文件中存儲的內容幾乎所有都是程序運行的必要數據,沒有空隙存在。當遇到須要佔用 8 位字節以上空間的數據項時,會按照高位在前的方式分割成若干個 8 位字節進行存儲。微信

Java 虛擬機規範規定 Class 文件格式採用一種相似與 C 語言結構體的微結構體來存儲數據,這種僞結構體中只有兩種數據類型:無符號數和表。編程語言

  • 無符號數屬於基本的數據類型,以 u一、u二、u四、u8來分別表明 1 個字節、2 個字節、4 個字節和 8 個字節的無符號數,無符號數能夠用來描述數字、索引引用、數量值或者按照 UTF-8 編碼結構構成的字符串值。this

  • 是由多個無符號數或者其餘表做爲數據項構成的複合數據類型,全部表都習慣性地以「_info」結尾。表用於描述有層次關係的複合結構的數據,整個 Class 文件就是一張表,它由下表中所示的數據項構成。編碼

類型 名稱 數量
u4 magic 1
u2 minor_version 1
u2 major_version 1
u2 constant_pool_count 1
cp_info constant_pool constant_pool_count-1
u2 access_flags 1
u2 this_class 1
u2 super_class 1
u2 interfaces_count 1
u2 interfaces interfaces_count
u2 fields_count 1
field_info fields fields_count
u2 methods_count 1
method_info methods methods_count
u2 attributes_count 1
attribute_info attributes attributes_count

Class 文件中存儲的字節嚴格按照上表中的順序緊湊的排列在一塊兒。哪一個字節表明什麼含義,長度是多少,前後順序如何都是被嚴格限制的,不容許有任何改變。操作系統

2.1 魔數與 Class 文件版本

每一個 Class 文件的頭 4 個字節稱爲魔數(Magic Number),它的惟一做用是肯定這個文件是否爲一個能被虛擬機接收的 Calss 文件。之因此使用魔數而不是文件後綴名來進行識別主要是基於安全性的考慮,由於文件後綴名是能夠隨意更改的。Class 文件的魔數值爲「0xCAFEBABE」。設計

緊接着魔數的 4 個字節存儲的是 Class 文件的版本號:第 5 和第 6 兩個字節是次版本號(Minor Version),第 7 和第 8 個字節是主版本號(Major Version)。高版本的 JDK 可以向下兼容低版本的 Class 文件,虛擬機會拒絕執行超過其版本號的 Class 文件。

2.2 常量池

主版本號以後是常量池入口,常量池能夠理解爲 Class 文件之中的資源倉庫,它是 Class 文件結構中與其餘項目關聯最多的數據類型,也是佔用 Class 文件空間最大的數據項目之一,同是它仍是 Class 文件中第一個出現的表類型數據項目。

由於常量池中常量的數量是不固定的,因此在常量池入口須要放置一個 u2 類型的數據來表示常量池的容量「constant_pool_count」,和計算機科學中計數的方法不同,這個容量是從 1 開始而不是從 0 開始計數。之因此將第 0 項常量空出來是爲了知足後面某些指向常量池的索引值的數據在特定狀況下須要表達「不引用任何一個常量池項目」的含義,這種狀況能夠把索引值置爲 0 來表示。

Class 文件結構中只有常量池的容量計數是從 1 開始的,其它集合類型,包括接口索引集合、字段表集合、方法表集合等容量計數都是從 0 開始。

常量池中主要存放兩大類常量:字面量符號引用

  • 字面量比較接近 Java 語言層面的常量概念,如字符串、聲明爲 final 的常量值等。

  • 符號引用屬於編譯原理方面的概念,包括瞭如下三類常量:

    • 類和接口的全限定名
    • 字段的名稱和描述符
    • 方法的名稱和描述符

2.3 訪問標誌

緊接着常量池以後的兩個字節表明訪問標誌(access_flag),這個標誌用於識別一些類或者接口層次的訪問信息,包括這個 Class 是類仍是接口;是否認義爲 public 類型;是否認義爲 abstract 類型;若是是類的話,是否被申明爲 final 等。具體的標誌位以及標誌的含義見下表:

標誌名稱 標誌值 含義
ACC_PUBLIC 0x0001 是否爲 public 類型
ACC_FINAL 0x0010 是否被聲明爲 final,只有類可設置
ACC_SUPER 0x0020 是否容許使用 invokespecial 字節碼指令的新語意,invokespecial 指令的語意在 JKD 1.0.2 中發生過改變,微聊區別這條指令使用哪一種語意,JDK 1.0.2 編譯出來的類的這個標誌都必須爲真
ACC_INTERFACE 0x0200 標識這是一個接口
ACC_ABSTRACT 0x0400 是否爲 abstract 類型,對於接口或者抽象類來講,此標誌值爲真,其它類值爲假
ACC_SYNTHETIC 0x1000 標識這個類並不是由用戶代碼產生
ACC_ANNOTATION 0x2000 標識這是一個註解
ACC_ENUM 0x4000 標識這是一個枚舉

access_flags 中一共有 16 個標誌位可使用,當前只定義了其中的 8 個,沒有使用到的標誌位要求一概爲 0。

2.4 類索引、父類索引與接口索引集合

類索引(this_class)和父類索引(super_class)都是一個 u2 類型的數據,而接口索引集合(interfaces)是一組 u2 類型的數據集合,Class 文件中由這三項數據來肯定這個類的繼承關係。

  • 類索引用於肯定這個類的全限定名
  • 父類索引用於肯定這個類的父類的全限定名
  • 接口索引集合用於描述這個類實現了哪些接口

2.5 字段表集合

字段表集合(field_info)用於描述接口或者類中聲明的變量。字段(field)包括類變量和實例變量,但不包括方法內部聲明的局部變量。下面咱們看看字段表的結構:

類型 名稱 數量
u2 access_flag 1
u2 name_index 1
u2 descriptor_index 1
u2 attributes_count 1
attribute_info attributes attributes_count

字段修飾符放在 access_flags 中,它與類中的 access_flag 很是類似,都是一個 u2 的數據類型。

標誌名稱 標誌值 含義
ACC_PUBLIC 0x0001 字段是否爲 public
ACC_PRIVATE 0x0002 字段是否爲 private
ACC_PROTECTED 0x0004 字段是否爲 protected
ACC_STATIC 0x0008 字段是否爲 static
ACC_FINAL 0x0010 字段是否爲 final
ACC_VOLATILE 0x0040 字段是否爲 volatile
ACC_TRANSIENT 0x0080 字段是否爲 transient
ACC_SYNTHETIC 0x1000 字段是否由編譯器自動生成
ACC_ENUM 0x4000 字段是否爲 enum

2.6 方法表集合

Class 文件中對方法的描述和對字段的描述是徹底一致的,方法表中的結構和字段表的結構同樣。

由於 volatile 關鍵字和 transient 關鍵字不能修飾方法,因此方法表的訪問標誌中沒有 ACC_VOLATILE 和 ACC_TRANSIENT。與之相對的,synchronizes、native、strictfp 和 abstract 關鍵字能夠修飾方法,因此方法表的訪問標誌中增長了 ACC_SYNCHRONIZED、ACC_NATIVE、ACC_STRICTFP 和 ACC_ABSTRACT 標誌。

對於方法裏的代碼,通過編譯器編譯成字節碼指令後,存放在方法屬性表中一個名爲「Code」的屬性裏面。

2.7 屬性表集合

在 Class 文件、字段表、方法表中均可以攜帶本身的屬性表(attribute_info)集合,用於描述某些場景專有的信息。

屬性表集合不像 Class 文件中的其它數據項要求這麼嚴格,不強制要求各屬性表的順序,而且只要不與已有屬性名重複,任何人實現的編譯器均可以向屬性表中寫入本身定義的屬性信息,Java 虛擬機在運行時會略掉它不認識的屬性。

寫在最後

爲了控制篇幅,這篇文章裏丟棄了不少細節,好比常量池的項目類型、方法表、屬性表的具體內容等等。建議想要深刻了解的同窗能夠本身動手將 Java 類編譯成二進制字節碼文件,根據文章裏介紹的類文件結構逐個字符去對照和實驗,有助於加深理解。

關於「類文件結構」咱們就介紹到這裏,下一篇咱們來聊聊「虛擬機的類加載機制」。

參考資料:

  • 《深刻理解 Java 虛擬機:JVM 高級特性與最佳實踐(第 2 版)》

若是你喜歡個人文章,就關注下個人公衆號 BaronTalk知乎專欄 或者在 GitHub 上添個 Star 吧!

相關文章
相關標籤/搜索