「一次編寫,處處運行(Write Once,Run Anywhere)「,這是 Java 誕生之時一個很是著名的口號。在學習 Java 之初,就瞭解到了咱們所寫的.java
會被編譯期編譯成.class
文件以後被 JVM 加載運行。JVM 全稱爲 Java Virtual Machine
,一直覺得 JVM 執行 Java 程序是一件理所固然的事情,但隨着工做過程當中接觸到了愈來愈多的基於 JVM 實現的語言如Groovy
Kotlin
Scala
等,就深入的理解到了 JVM 和 Java 的無關性,JVM 運行的不是 Java 程序,而是符合 JVM 規範的.class
字節碼文件。字節碼是各類不一樣平臺的虛擬機與全部平臺都統一使用的程序儲存格式。是構成Run Anywhere
的基石。所以瞭解 Class 字節碼文件對於咱們開發、逆向都是十分有幫助的。html
Class文件是一組以 8位字節爲基礎單位的二進制流,各個數據項目嚴格按照順序緊湊地排列在 Class 文件中,中間沒有添加任何分隔符,這使得整個 Class 文件中存儲的內容幾乎所有是程序運行的必要數據,沒有空隙存在。當遇到須要佔用 8 位字節以上空間的數據項時,則會按照Big-Endian
的方式分割成若干個 8 字節進行存儲。Big-Endian
具體是指最高位字節在地址最低位、最低位字節在地址最高位的順序來存儲數據。SPARC
、PowerPC
等處理器默認使用Big-Endian
字節存儲順序,而x86
等處理器則是使用了相反的Little-Endian
順序來存儲數據。所以爲了Class文件的保證平臺無關性,JVM必須對其規範統一。java
在講解Class類文件結構以前須要先介紹兩個概念:無符號數和表。一種相似 C 語言結構體的僞結構。web
_info
結尾,用於描述有層次關係的複合結構的數據。當須要描述同一類型但數量不定的多個數據時,常常會使用一個前置的容量計數器加若干個連續的數據項的形式,這時就表明此類型的集合。整個 Class文件本質上就是一張表,其數據項以下僞代碼所示:數組
ClassFile { u4 magic; u2 minor_version; u2 major_version; u2 constant_pool_count; cp_info constant_pool[constant_pool_count-1]; u2 access_flags; u2 this_class; u2 super_class; u2 interfaces_count; u2 interfaces[interfaces_count]; u2 fields_count; field_info fields[fields_count]; u2 methods_count; method_info methods[methods_count]; u2 attributes_count; attribute_info attributes[attributes_count]; }
每項數據項的含義咱們能夠對照下圖參照表:oracle
同時咱們將根據一個具體的 Java 類來分析 Class 文件結構jvm
public class ByteCode { private String username; public String getUsername() { return username; } public void setUsername(String username) { this.username = username; } }
其.class 文件內容以下:工具
使用 javap
命令能夠獲得反彙編代碼:post
Classfile /Users/chenjianyuan/IdeaProjects/blog/blog-web/target/test-classes/tech/techstack/blog/ByteCode.class Last modified 2020-8-8; size 581 bytes MD5 checksum 43eb79f48927d9c5bbecfa5507de0f3c Compiled from "ByteCode.java" public class tech.techstack.blog.ByteCode minor version: 0 major version: 52 flags: ACC_PUBLIC, ACC_SUPER Constant pool: #1 = Methodref #4.#21 // java/lang/Object."<init>":()V #2 = Fieldref #3.#22 // tech/techstack/blog/ByteCode.username:Ljava/lang/String; #3 = Class #23 // tech/techstack/blog/ByteCode #4 = Class #24 // java/lang/Object #5 = Utf8 username #6 = Utf8 Ljava/lang/String; #7 = Utf8 <init> #8 = Utf8 ()V #9 = Utf8 Code #10 = Utf8 LineNumberTable #11 = Utf8 LocalVariableTable #12 = Utf8 this #13 = Utf8 Ltech/techstack/blog/ByteCode; #14 = Utf8 getUsername #15 = Utf8 ()Ljava/lang/String; #16 = Utf8 setUsername #17 = Utf8 (Ljava/lang/String;)V #18 = Utf8 MethodParameters #19 = Utf8 SourceFile #20 = Utf8 ByteCode.java #21 = NameAndType #7:#8 // "<init>":()V #22 = NameAndType #5:#6 // username:Ljava/lang/String; #23 = Utf8 tech/techstack/blog/ByteCode #24 = Utf8 java/lang/Object { public tech.techstack.blog.ByteCode(); descriptor: ()V flags: ACC_PUBLIC Code: stack=1, locals=1, args_size=1 0: aload_0 1: invokespecial #1 // Method java/lang/Object."<init>":()V 4: return LineNumberTable: line 7: 0 LocalVariableTable: Start Length Slot Name Signature 0 5 0 this Ltech/techstack/blog/ByteCode; public java.lang.String getUsername(); descriptor: ()Ljava/lang/String; flags: ACC_PUBLIC Code: stack=1, locals=1, args_size=1 0: aload_0 1: getfield #2 // Field username:Ljava/lang/String; 4: areturn LineNumberTable: line 11: 0 LocalVariableTable: Start Length Slot Name Signature 0 5 0 this Ltech/techstack/blog/ByteCode; public void setUsername(java.lang.String); descriptor: (Ljava/lang/String;)V flags: ACC_PUBLIC Code: stack=2, locals=2, args_size=2 0: aload_0 1: aload_1 2: putfield #2 // Field username:Ljava/lang/String; 5: return LineNumberTable: line 15: 0 line 16: 5 LocalVariableTable: Start Length Slot Name Signature 0 6 0 this Ltech/techstack/blog/ByteCode; 0 6 1 username Ljava/lang/String; MethodParameters: Name Flags username } SourceFile: "ByteCode.java"
每一個 Class 文件的頭 4 個字節0xCAFEBABE
稱爲魔數(Magic Number),用來肯定這個文件是否爲能被虛擬機接受的 Class 文件格式。學習
第 五、6 個字節爲次版本號(minor_version),第 六、7 個字節是主版本號(major version)上圖次版本號 00 00
轉換爲 10 進製爲 0,主版本號 00 34
轉換爲十進制爲 52,表明 JDK 1.8。觀察反彙編代碼也能獲得次版本和主版本信息。高版本的 JDK 向下兼容低版本的 Class 文件,但低版本不能運行高版本的 Class 文件,即便文件格式沒有發生任何變化,虛擬機也拒絕執行高於其版本號的 Class 文件。ui
後面緊跟着的 2 個字節爲常量池個數(constant_pool_count),而後後面緊跟 constant_pool_count 個數的常量。constant_pool_count 是從 1 開始而不是從 0 開始,是爲了將 0 項空出來標識後面某些指向常量池的索引值的數據在特定狀況下不引用常量池,這種狀況下就能夠把索引值置爲 0 來表示。(除常量池計數外,對於其餘類型集合包括接口索引集合、字段表集合、方法表集合等的容量計數都與通常習慣相同,是從0開始的)
常量池(constant_pool)主要存放兩大類常量:
常量池中的每個常量都是一個常量表,常量表開始的第一位是一個u1類型的標誌位(tag),來區分常量表的類型。在JDK 1.7以前共有11種結構各不相同的表結構數據,在JDK 1.7中爲了更好地支持動態語言調用,又額外增長了3種(CONSTANT_MethodHandle_info、CONSTANT_MethodType_info和CONSTANT_InvokeDynamic_info),14 中常量類型所表明的具體含義以下:
咱們對其按照字面量和符號引用類型分類的話能夠入下圖所示
Class文件中的常量池結構經過上例彙編代碼可看出:
Constant pool: #1 = Methodref #4.#21 // java/lang/Object."<init>":()V #2 = Fieldref #3.#22 // tech/techstack/blog/ByteCode.username:Ljava/lang/String; #3 = Class #23 // tech/techstack/blog/ByteCode #4 = Class #24 // java/lang/Object #5 = Utf8 username #6 = Utf8 Ljava/lang/String; #7 = Utf8 <init> #8 = Utf8 ()V #9 = Utf8 Code #10 = Utf8 LineNumberTable #11 = Utf8 LocalVariableTable #12 = Utf8 this #13 = Utf8 Ltech/techstack/blog/ByteCode; #14 = Utf8 getUsername #15 = Utf8 ()Ljava/lang/String; #16 = Utf8 setUsername #17 = Utf8 (Ljava/lang/String;)V #18 = Utf8 MethodParameters #19 = Utf8 SourceFile #20 = Utf8 ByteCode.java #21 = NameAndType #7:#8 // "<init>":()V #22 = NameAndType #5:#6 // username:Ljava/lang/String; #23 = Utf8 tech/techstack/blog/ByteCode #24 = Utf8 java/lang/Object
觀察上面Class文件00 19
表示有 25 個常量,依次日後數 24(25-1)個常量則爲常量池中的常量。緊隨其後的一個字節爲第一個常量表的 tag 位 0A
-> 10
,經過常量表類型查詢可知 10 爲 CONSTANT_Methodref_info
,表內數據項爲u1: tag
u2: class_info
u2: name_and_type_index
,結合Class文件分析,這表示從第一個常量CONSTANT_Methodref_info
佔用 5 個字節,其中第一個字節0A
爲標誌位,其後兩個字節00 04
-> 4
以後兩個字節爲 class_info,緊隨 2 個字節00 15
-> 21
爲 name_and_type_index。咱們經過查詢彙編代碼常量池中的一個常量表爲#1 = Methodref #4.#21
得出一個常量表正是方法引用,其數據項索引也是#4
和#21
。剩下的 24 種常量分析也是如此。也是由於這 14 中常量類型各自均有本身的結構,因此說常量池是最繁瑣的數據。
小知識:
因爲Class文件中方法、字段等都須要引用CONSTANT_Utf8_info型常量來描述名稱,因此CONSTANT_Utf8_info型常量的最大長度也就是Java中方法、字段名的最大長度。而這裏的最大長度就是length的最大值,既u2類型能表達的最大值65535。因此Java程序中若是定義了超過64KB英文字符的變量或方法名,將會沒法編譯。
在常量池結束以後,緊接着兩個字節表明訪問標誌(access_flag)這個標誌用於識別一些類或接口層次的訪問信息。具體標誌位以及標誌的含義見下表:
invokeSpecial 指令語義在 JDK1.0.2發生過改變,爲了區別這條指令使用哪一種語意,在 JDK1.0.2以後編譯出來的類的這個標誌都必須爲真。
分析[Class]文件咱們得出 access_flag 爲 00 21
,可是查詢上表確沒有查詢到對應的標誌,這是由於 ByteCode
是一個普通的 Java 類,不是接口、枚舉或者註解,被public關鍵字修飾但沒有被聲明爲final和abstract,而且它使用了JDK 1.2以後的編譯器進行編譯,所以它的ACC_PUBLIC、ACC_SUPER標誌應當爲真,而其他 6 個標誌應當爲假,所以它的access_flags的值應爲:0x0001|0x0020=0x0021
。而咱們經過 ByteCode
彙編代碼查看獲得 flags: ACC_PUBLIC, ACC_SUPER
也證實了的確爲上述所言。
類索引(this_class)、父類索引(super_class)和 接口數量(interface_count)是一個 u2類型的數據,而接口索引集合 interfaces[] 是一組 u2 類型的數據的集合。這四項數據直接肯定了這個類的繼承關係。Java 不容許多繼承可是容許實現多個接口,這就爲何super_class是一個而 interfaces 是一個集合。咱們經過分析[Class]文件能夠看出 this_class 對應00 03 -> 3
從常量池中查詢 #3 對應的常量
#3 = Class #23 // tech/techstack/blog/ByteCode #23 = Utf8 tech/techstack/blog/ByteCode
能夠看出 #3 對應的就是當前類 tech/techstack/blog/ByteCode
。後面一樣爲佔兩個字節的 super_class 對應的``00 04 -> 4`從常量池中查詢出來對應的常量爲
#4 = Class #24 // java/lang/Object #24 = Utf8 java/lang/Object
因此 super_class 表示的爲:java/lang/Object
。隨後即是 interface_count 對應的 00 00 -> 0
說明 ByteCode
沒有實現接口,所以就不存在後面的 interfaces[]。
字段表(field_info)用於描述接口或者類中聲明的變量。字段(field)包括類級變量以及實例級變量,但不包括在方法內部聲明的局部變量。fields_count 類中 field_info 的數量。fields[] 則是 field_info 的集合。field_info 的結構以下圖所示:
字段修飾符 access_flag 和類中的 access_flag十分類似:
在實際狀況中,ACC_PUBLIC、ACC_PRIVATE、ACC_PROTECTED三個標誌最多隻能選擇其一,ACC_FINAL、ACC_VOLATILE不能同時選擇。接口之中的字段必須有ACC_PUBLIC、ACC_STATIC、ACC_FINAL標誌。
繼續分析Class文件,00 01 00 02 00 05 00 06 00 00
。其中 00 01 -> 1
表示 field_count,很顯然 ByteCode
類中的字段只有一個 private String username;
。 參照上表繼續取兩個字節00 02 -> 2
表示access_flag,查詢可知修飾符號爲ACC_PRIVATE
,繼續取兩個字節00 05 -> 5
表示 name_index,從彙編代碼中查詢常量池#5爲
#5 = Utf8 username
繼續取兩個字節00 006 -> 6
表示descriptor_index
,指向的是常量池 #6 的常量
#6 = Utf8 Ljava/lang/String;
後續的 00 00 -> 0
表示attribute_count
的個數,此處爲 0。
名詞釋義:
全限定名和簡單名稱
把類名中的.
替換成/
,連續多個全限定名時,爲了避免產生混淆,在使用時最後通常都會加入一個;
表示全限定名結束。方法、字段索引描述
方法的參數列表(包括數量、類型以及順序)和返回值。根據描述符規則,基本數據類型(byte、char、double、float、int、long、short、boolean)以及表明無返回值的void類型都用一個大寫字符來表示,而對象類型則用字符L加對象的全限定名來表示。
基本數據類型
B---->byte
C---->char
D---->double
F----->float
I------>int
J------>long
S------>short
Z------>boolean
V------->void對象類型
String------>Ljava/lang/String;
數組類型:每個惟獨都是用一個前置 [ 來表示
int[] ------>[ I,
String [][]------>[[Ljava.lang.String;
用描述符來描述方法的,先參數列表,後返回值的格式,參數列表按照嚴格的順序放在()中
好比源碼 String getUserInfoByIdAndName(int id,String name) 的方法描述符(I,Ljava/lang/String;)Ljava/lang/String;
Class文件儲存格式中對方法的描述與對字段的描述幾乎採用了徹底一致的方式。方法表的結構以下圖所示:
由於volatile關鍵字和transient關鍵字不能修飾方法,因此方法表的訪問標誌中沒有了ACC_VOLATILE標誌和ACC_TRANSIENT標誌。與之相對的,synchronized、native、strictfp和abstract關鍵字能夠修飾方法,因此方法表的訪問標誌中增長了ACC_SYNCHRONIZED、ACC_NATIVE、ACC_STRICTFP和ACC_ABSTRACT標誌:
一樣根據Class文件進行分析。00 03
表示 method_count 說明ByteCode
類的方法有三個,根據Method_info繼續取出第一個方法的 8 個字節00 01 00 07 00 08 00 01
,00 01 -> 0
表示的是方法的修飾符 表示的是access_flag 爲 acc_public,00 07 -> 7
表示的是方法的名稱(name_index) 指向常量池中#7常量
#7 = Utf8 <init>
表示方法爲<init>
的構造方法。00 08 ->8
表明方法的描述符號(descriptor_index),指向常量池 #8 常量
#8 = Utf8 ()V
表示的是無參無返回值。00 01 -> 1
表示有一個方法屬性的個數爲 1。
根據 attribute_info 結構繼續從Class文件中取出00 09 00 00 00 2F
。00 09 -> 9
表示方法屬性名稱(attribute_name_index)指向常量池 #9 常量
#9 = Utf8 Code
00 00 00 2F ->
表示Code
屬性的長度爲 47 個字節。(特別特別須要注意這47個字節從Code屬性表中第三個開始也就是max_stack開始,由於此 attribute_info爲 Code_attribute 自己,attribute_name_index 和 attribute_length 爲 Code 的屬性)。
Code_attribute屬性表結構以下:
Code_attribute { u2 attribute_name_index; // 屬性名索引,常量值固定爲"Code" u4 attribute_length; //屬性值長度,值爲整個表的長度減去6個字節(attribute_name_index + attribute_length) u2 max_stack; //操做數棧深度最大值 u2 max_locals; //局部變量表所需的存儲空間,單位爲"Slot",Slot是虛擬機爲局部變量分配內存所使用的最小的單位。 u4 code_length; // 存儲Java源程序編譯後生成的字節碼指令,每一個指令爲u1類型的單字節。虛擬機規範中明確限制了一個方法不容許超過65535條字節指令,實際上只用了u2長度。 u1 code[code_length]; // 方法指向的具體指令碼 u2 exception_table_length; // 異常表的個數 { u2 start_pc; // start_pc 和 end_pc 表示在 Code 數組中的[start_pc, end_pc)處指令所拋出的異常由這個表處理。 u2 end_pc; u2 handler_pc; // 異常代碼的開始處 u2 catch_type; // 表示被處理流程的異常類型,指向常量池中具體的某一個異常類,catchType爲 0 處理全部的異常 } exception_table[exception_table_length]; // 異常表結構,用於存放異常信息 u2 attributes_count; // 屬性的個數 attribute_info attributes[attributes_count]; // 屬性的集合 }
第一個 Code 的彙編代碼以下:
Code: stack=1, locals=1, args_size=1 0: aload_0 1: invokespecial #1 // Method java/lang/Object."<init>":()V 4: return LineNumberTable: line 7: 0 LocalVariableTable: Start Length Slot Name Signature 0 5 0 this Ltech/techstack/blog/ByteCode;
Tips: args_size=1是由於在任何實例方法裏面,均可以經過"this"關鍵字訪問到此方法所屬的對象。這個訪問機制對Java程序的編寫很重要,而它的實現卻很是簡單,僅僅是經過Javac編譯器編譯的時候把對this關鍵字的訪問轉變爲對一個普通方法參數的訪問,而後在虛擬機調用實例方法時自動傳入此參數而已。所以在實例方法的局部變量表中至少會存在一個指向當前對象實例的局部變量,局部變量表中也會預留出第一個Slot位來存放對象實例的引用,方法參數值從1開始計算。
回到示例代碼,取出 47 位 Code 值:
// _ 是本文自行添加方便表示數據項之間的間隔,Class 文件中是不存在的 00 01 _00 01 _00 00 00 05 _2A B7 00 01 B1 _00 00 _00 02 _00 0A _00 00 00 06 _00 01 _00 00 _00 06 _00 0B _00 00 00 0C _00 01 00 00 00 05 00 0C 00 0D 00 00
00 01 -> 1
表示 操做數棧(max_stack)的最大深度爲 1。後面的00 01 -> 1
表示局部變量表的長度(max_locals)爲 1,正好與 Code 的彙編代碼stack=1
locals=1
對應。緊接着後面 4 位00 00 00 05 -> 5
表示字節碼指令長度(code_length)爲 5。繼續日後數 5 位2A B7 00 01 B1
表示 JVM具體的字節碼指令。
0: aload_0 1: invokespecial #1 // Method java/lang/Object."<init>":()V 4: return
00 00
表示異常表個數(exception_table_length)爲 0,方法沒有拋出異常。
00 02 -> 2
表示 Code_attribute 結構中屬性表的個數爲 2 個。00 0A -> 10
表示 attribute_name_index 指向常量池 #10 LineNumberTable
常量。繼續後面 4 位00 00 00 06 -> 10
表示 attribute_length 即 LineNumberTable 的長度。LineNumberTable 是用來描述Java源碼行號與字節碼行號(字節碼偏移量)之間的對應關係,好比咱們平時 debug 某一行代碼。其結構以下所示:
LineNumberTable_attribute { u2 attribute_name_index; u4 attribute_length; u2 line_number_table_length; { u2 start_pc; u2 line_number; } line_number_table[line_number_table_length]; }
00 01 -> 1
表示行號表的個數爲 1,即只存在一個行號表。00 00
表示start_pc爲字節碼行號,00 06 -> 6
表示源碼行號爲第 7(6+1) 行。
00 0B -> 11
表示第二個屬性表對應常量池 #11 LocalVariableTable
常量。00 00 00 0C -> 12
表示 LocalVariableTable
常量的長度爲 12。LocalVariableTable 屬性用於描述棧幀中局部變量表中的變量與Java源碼中定義的變量之間的關係。其結構以下:
LocalVariableTable_attribute { u2 attribute_name_index; u4 attribute_length; u2 local_variable_table_length; { u2 start_pc; u2 length; u2 name_index; u2 descriptor_index; u2 index; } local_variable_table[local_variable_table_length]; }
LocalVariableTable也不是運行時必需的屬性,但默認會生成到Class文件之中,能夠在Javac中分別使用-g:none
或-g:vars
選項來取消或要求生成這項信息。若是沒有生成這項屬性,最大的影響就是當其餘人引用這個方法時,全部的參數名稱都將會丟失,IDE將會使用諸如arg0、arg1之類的佔位符代替原有的參數名,這對程序運行沒有影響,可是會對代碼編寫帶來較大不便,並且在調試期間沒法根據參數名稱從上下文中得到參數值。
00 01 -> 1
表示本地變量表的個數 local_variable_table_length 爲 1。00 00
表示local_variable_table 的 start_pc 爲 0,其含義爲這個局部變量的生命週期開始的字節碼偏移量。00 05 -> 5
表示 local_variable_table 的 length 爲 5,其含義爲這個局部變量做用範圍覆蓋的長度。二者結合起來就是這個局部變量在字節碼之中的做用域範圍。00 0C
00 0D
分別表示 name_index 和 descriptor_index,分別指向常量池中 #12 this
和 #13 Ltech/techstack/blog/ByteCode;
常量。分別表明了局部變量的名稱以及這個局部變量的描述符。00 00
表示了這個變量在本地變量表中的index 即這個局部變量在棧幀局部變量表中Slot的位置。當這個變量數據類型是64位類型時(double和long),它佔用的Slot爲index和index+1兩個。
屬性表(attribute_info)用於描述某些場景專有的信息。在Class文件、字段表、方法表均可以攜帶本身的屬性表集合。全部的屬性都具備一下常規格式:
attribute_info { u2 attribute_name_index; u4 attribute_length; u1 info [attribute_length]; }
根據The Java® Virtual Machine Specification已經增長到了 23 項。根據其用途能夠分爲三組:
五個屬性對於class
Java虛擬機正確解釋文件相當重要 :
十二個屬性對於Java SE平臺的類庫正確解釋class
文件相當重要 :
六個屬性對於classJava虛擬機或Java SE平臺的類庫對文件的正確解釋不是相當重要的 ,但對於工具來講很是有用:
參考:
[1] 周志明.深刻理解Java虛擬機:JVM高級特性與最佳實踐.北京:機械工業出版社,2013.
[2] Chapter 4. Th class File Format
[3] Chapter 6. The Java Virtual Machine Instruction Set
文章首發於陳建源的博客,歡迎訪問。
文章做者:陳建源
文章連接:https://www.techstack.tech/post/zi-jie-ma-wen-jian-jie-gou-xiang-jie/