一、前言
代码编译的结果从本地机器码转变为字节码,是存储格式发展的一小步,却是编程语言发展的一大步。经过多年的发展,目前的计算机仍然只能识别0和1,但是由于近10年内虚拟机以及大量建立在虚拟机之上的程序语言如雨后春笋般出现并蓬勃发展,将我们编写的程序编译成二进制本地机器码(Native Code)已不再是唯一的选择,越来越多的程序语言选择了操作系统和机器指令集无关的、平台中立的格式作为程序编译后的存储格式。
二、class类文件结构
Class文件是一组以8位字节为基础单位的二进制流,各项数据严格的按照顺序紧凑的地排列在Class文件中,中间没有添加任何分隔符,这使得整个Class文件中存储的内容几乎全部是程序运行的必要数据,没有空隙存在。当遇到需要占用8个字节以上空间的数据项时,则会按照高位在前的方式分割成若干个8位字节进行存储。
根据Java虚拟机规范的规定,Class文件格式采用一种类似于C语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型L:无符号和表,后面的解析都要以这两种数据类型为基础,所以这里先介绍这两个概念;无符号属于基本数据类型,以u1,u2,u4,u8来分别代表1个字节,2个字节,4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量或者按照utf-8编码构成字符串值。表是由多个无符号或者其他表作为数据项构成的复合数据类型,所有表都习惯性地以“_info”结尾。表用于描述有层次关系的复合结构的数据,整个Class文件本质上就是一张表,他由一下表格中的数据项构成:
无论是无符号数还是表,当需要描述同一类型但数量不定的多个数据时,经常会使用一个前置的容量计数器加若干个连续的数据项的形式,这是称这一系列连续的某一类型的数据为某一类型的集合。
三、魔数和Class文件的版本
每个Class文件的头4个字节称为魔数(Magic Number),它的唯一作用是确定这个文件是否为一个能被虚拟机接受的Calss文件。很多文件存储标准中都使用魔数来进行身份识别,使用魔数而不是使用拓展名来进行识别主要是基于安全方面的考虑,因为文件的拓展名可以随意的改动。Class文集爱你的魔数值为“0xCAFEBABE”,这个魔数值在Java还称为“Oak”的时候就已经确定下来了。
紧接着摸数的4个字节存储的是Class文件的版本号:第5和第6个字节是次版本号,第7和第8个字节是主版本号。Java版本号是从45开始的。JDK1.1之后的每一个JDK大版本发布主版本号向上加1,高版本的JDK能向下兼容以前的版本的Class文件,但是不能运行以后的版本的Class文件,即使文件格式并没有发生任何变化,虚拟机也必须拒绝执行超过其版本号的Class文件。
四、常量池
在主版本和次版本之后的是常量池的入口,由于常量池的中常量数量是不固定的,所以常量池的入口通常需要放置一个常量池容量计数器,计数器是从1开始而不是从0开始,其目的是为了在特殊情况下表达“不引用任何常量池的项目”的情况。
常量池是Class文件中与其他项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一。常量池的常量的类型分为:字面量和符号引用。字面量比较接近Java层面的常量的概念,比如文本字符串“abc”,被声声明卫final的常量等。符号引用属于编译原理的概念,包括以下3个方面:
- 类和接口的全限定名,比如: java.lang.String
- 字段的名称的描述符,比如private,static等
- 方法的名称和描述符,比如private,static等描述
常量池中每一个常量都是一个表,在jdk1.7后提供了14种表结构,他们都有一个共同的特点,就是表开始第一个位置是一个u1类型的标志位,代表当前的常量是属于哪一种类型的。如下表:
五、访问标志
常量池结束后就是访问标志(access_flag)了,用于标识一些类或接口的访问信息,比如这个Class是类还是接口,是public还是private,是否为abstract等,每种访问信息都是由一个16进制的标志值表示,如果同时表示多种访问信息,则得到的标志值为这几种访问信息的逻辑或,其标志位和含义如下表:
标志名称 | 标志值 | 含义 |
ACC_PUBLIC | 0X0001 | 是否为public类型 |
ACC_FINAL | 0X0010 | 是否被声明为final,只有类可以设置 |
ACC_SUPER | 0X0020 | 是否允许使用invokespecial字节码指令的新语意,invokespecial指令的语意在JDK1.0.2发生过改变,为了区别这条指令使用哪种语意,JDK1.0.2之后编译 |
ACC_INTERFACE | 0X0200 | 标志这是一个接口 |
ACC_ABSTRACT | 0X0400 | 是否为abstract类型,对于接口或者抽象类来说,此标志值为真,其他类为假 |
ACC_SYNTHETIC | 0X1000 | 标志这个类并非由用户代码产生的 |
ACC_ANNOTATION | 0X2000 | 标志这是一个注解 |
ACC_ENUM | 0X4000 | 标志这是一个枚举 |
六、类索引(this_class)、父类索引(super_class)、接口索引(interfaces)
类索引和父类索引都是一个u2的类型,而接口索引是一个u2类的数据集合,Class中由这三项数据来确定类的继承关系。类索引、父类索引和接口索引集合都是有序的排列在访问标识之后,类索引和父类索引两个u2类型的索引值表示,他们各自指向一个类型为COMNSTANT_Class_info的类描述符常量,通过该常量的索引值找到定义在COMNSTANT_Utf8_info类型的常量中的全限定名字符串,而接口索引集合用来描述这个类实现了哪些接口,这些被实现的接口按implements语句后的接口顺序从左往右排列在接口集合中。
七、字段表集合(fileds)
字段表(field_info)用于描述类或者接口中声明的变量。字段包括了类级别变量和实例变量,但是不包括声明在方法中的变量。字段的名称,类型和修饰符等都是无法固定的,只能引用常量池中的常量来描述,可以包括的信息有:
- 字段的作用域,如public,private等修饰符。
- 示例变量还是类变量,如static修饰符。
- 可变性,final修饰符
- 并发可见性,volatile修饰符。
- 可否被序列化,transient修饰符。
- 字段数据类型,基本数据类型,数组,引用类型等。
- 字段名称
字段表结构如下:
类型 | 名称 | 数量 |
u2 | access_flags | 1 |
u2 | name_index | 1 |
u2 | descriptor_index | 1 |
u2 | attribute_count | 1 |
attribute_info | attributes | attribute_count |
其中的access_flags与类中的access_flags非常类似,表示数据类型的修饰符,比如public,private,protected等,后面的name_index和descriptor_index都是对常量池的引用,分别表示字段的简单名称以及字段和方法的描述符。描述符的作用是用来描述字段的类型,方法的参数列表和返回值,根据描述符的规则,详细的描述符含义如下:
对于数组类型,每一个维度都将使用一个前置的“[”字符来描述,如一个整数数组int[] 将被记录为 "[I",二维整数数组int[][] 记录为 "[[I"。而对于对于一个对象类型比如 String[] 数组,将被记录为 "[Ljava/lang/String"。用方法描述符描述方法时,先按照方法参数的顺序,然后再返回值的顺序来描述,比如 int get(String name,int[] index,int i,char c)方法的描述符为 "(Ljava/lang/String[IIC)I"。字段表都包含的固定的数据项在descriptor_index为止,不过在descriptor_index后是一个属性表集合,用于存储一些额外的信息。
八、方法表集合(methods)
放发表(method_info)的结构与属性表的就够相同,方法里的Java代码经过编译器编译后编程字节码指令,然后存放在方法属性表的一个名为“Code”的属性里,关于属性表的项目,同样会在后面跟进行详细的介绍。
与字段表集合相对应,如果父类方法在子类中没有被覆盖,方法表中就不会出现父类的方法的信息,但同样,有可能会出现会出现由编译器自动添加的方法,最典型的就是类构造器“<cinit>”方法和实例狗构造器"<init>"方法。
在Java语言中,要重载一个方法,除了要方法与原方法的简单名称一样之外,还必须要求拥有一个与原方法不同的特征签名,特诊签名就是一个方法中各个参数在常量池中字段符号引用的集合,但是返回值不包含在特征签名中,因此Java语言中想要覆盖一个方法的话,如果是返回值不同是无法覆盖的。
方法表的结构:
方法访问标志:
九、属性表集合(attributes)
在Class文件,字段表和方法表中都可以携带自己的属性表集合,用于描述某些场景下专有的信息。属性表集合没有那么严格的限定,不再要求各个属性表具有严格的顺序,并且只要不予已有的属性表的名字重复,任何人实现的编译器都可以想属性表中写入自己定义的属性信息,但Java虚拟机在运行时会忽略掉它不认识的属性。Java虚拟机规范中预定义了9中虚拟机应当被识别的属性(jdk1.5后又增加了一些新的特性),如下表:
对于每个属性,它的名称都需要从常量池中引用的一个CONSTANT_Utf8_info类型的常量来表示,每个属性值的结构完全可以自定义,只需说明属性值所需暂用的位数长度即可,一个符合规范的属性表至少应具备attribute_name_info”、“attribute_length”和至少一项信息属性。
1)Code属性
前面已经提到过,Java程序的方法体中的代码经过编译器编译后,生成的字节码指令会存储在Code属性中,但并非所有的方法表都有属性表,比如抽象类和接口中可能不存在属性表。属性表的结构如下如所示:
attribute_name_index是一项指向CONSTANT_Utf8_info型常量的索引,常量固定值为 "Code",它代表了该属性的名称。attribute_length表示属性值的长度,由于属性名称索引与属性长度一共是6个字节,所以属性值长度为整个属性表长度减去 6个字节。
max_stack代表操作数栈的最大深度,max_locals代表了局部变量表所需要的空间,它的单位为slot。
code_length和code是用来存储Java源程序编译后生成的字节码指令。code用于存储字节码指令的一些列字节流,它是u1类型的单字节,因此取值范围为0x00到0xFF,那么一共可以存储256条指令,目前,Java虚拟机规范中已经定义了200条指令。code_length为u4类型,理论上可以达到2^32-1,但是虚拟机中明确的规定了一个方法不允许超过65525条字节码指令,如果超过了这个数值,编译器将拒绝编译。
字节码指令之后是这个方法显示处理的异常表集合(exception_table),对于属性表来说这个属性不是必须存在的,它的格式如下表所示:
它包含四个字段,这些字段的含义是如果字节从 start_pc 到 end_pc 行之间(不含end_pc)出现了 catch_pc类型或者它的子类类型的异常(catch_type为指向一个CONSTANT_Class_info型常量的索引),则转到第handler_pc行继续处理,当catch_pc为0时,代表任何的异常都要转到handler_pc行进行处理。异常表实际上的Java代码的一部分,编译器使用异常表而不是简单地使用跳转的命令来实现Java的异常即finally处理机制,也因此,finally里面的代码内容会在try或catch中的return语句调用之前调用。
2)Exception属性
这里的Exception属性的作用是列举出方法中可能会出现的受检查异常,也就是方法描述是throws关键字后面列举的异常,它的结构很简单,只有attribute_name_index、attribute_length、number_of_exceptions、exception_index_table四项。
3)LineNumberTable属性
它用于描述Java源码行号与字节码行号之间的对应关系。
4)LocalVariableTable属性
它用于描述栈帧中局部变量表中的变量与Java源码中定义的变量之间的对应关系。
5)SourceFile属性
它用于记录生成这个Class文件的源码文件名称。
6)ConstantValue属性
ConstantValue属性的作用是通知虚拟机自动为静态变量赋值,只有被static修饰的变量才可以使用这项属性,在Java中对非static属性的赋值是在构造器中完成的,而对于类变量,则有两种方法可以选择,在类构造器赋值,或者在ConstantValue属性赋值。
7)InnerClasses属性
该属性用于记录内部类与宿主类之间的关联。如果一个类中定义了内部类,那么编译器将会为它及它所包含的内部类生成InnerClasses属性。
8)Deprecated属性和Synthetic属性
该属性用于表示某个类、字段和方法,已经被程序作者定为不再推荐使用,它可以通过在代码中使用@Deprecated注释进行设置。
9)Synthetic属性
该属性代表此字段或方法并不是Java源代码直接生成的,而是由编译器自行添加的,如this字段和实例构造器、类构造器等。
参考资料: 《深入理解Java虚拟机-JVM高级特性与最佳实践》 -周志明
Java虚拟机相关系列博客推荐:
原文地址:https://www.cnblogs.com/rainple/p/10846917.html