深入理解java虚拟机学习笔记(四)

来源:互联网 发布:vb sleep函数 编辑:程序博客网 时间:2024/06/07 03:15

第六章 类文件结构

6.1概述

我们知道我们写的程序需要编译器翻译成由0和1构成的二进制格式文件才能被计算机执行。现在虚拟机以及建立在虚拟机之上的程序语言出现并蓬勃发展,将我们编写的程序编译成二进制本地机器码(Native Code)已不再是唯一的选择,越来越多的程序语言选择了与操作系统和机器指令集无关的、平台中立的格式作为程序编译后的存储格式。

6.2无关性的基石

如果计算机的CPU指令集只有x86一种,操作系统也只有Windows一种,那也许Java语言就不会出现。Java在刚诞生时提出过:“一次编写,到处运行(WriteOnce,Run Anywhere)”,这句话充分体现了开发人员对冲破平台界限的渴求。“与平台无关”的理想最终实现在操作系统的应用层上:Sun公司以及其他虚拟机提供商发布了许多可以运行在各个平台的虚拟机,这些虚拟机都可以载入和执行同一种平台无关的字节码,从而实现了程序的“一次编写,到处运行”。

各种不同平台的虚拟机与所有平台都统一使用的程序存储格式—字节码(ByteCode)是构成平台无关性的基石,但这节标题刻意省略了“平台”二字,那是因为作者注意到虚拟机的另外一种中立特性—语言无关性正越来越受到开发者的重视。到目前为止,或许大部分程序员都还认为Java虚拟机执行Java程序是一件理所应当的事情。但在Java发展之初,设计者就曾经考虑过让其他语言运行在Java虚拟机上的可能性,他们发布规范文档时,也刻意把Java规范拆分成了Java语言规范与Java虚拟机规范。

时至今日,商业机构以及开源机构已经在Java语言之外发展出一大批在Java虚拟机之上运行的语言,如Clojure、Groovy、JRuby、Jython、Scala等。使用过这些语言的开发者可能还不是非常多,但是听说过的人肯定不少。

实现语言无关性的基础仍然是虚拟机和字节码存储格式。Java虚拟机不和包括Java在内的任何语言绑定,它只与“Class 文件”这种二进制文件格式关联,Class文件中包含了Java虚拟机指令集和符号表以及其他若干辅助信息。基于安全方面的考虑,Java虚拟机要求在Class文件中使用许多强制性的语法和结构化约束,但任一门功能性的语言都能表示为一个能被Java虚拟机所接受的有效的Class文件。作为一个通用的、与平台无关的执行平台,任意其他语言的实现者都可以将Java虚拟机作为语言的产品交付媒介。例如使用Java编译器可以把Java代码编译为存储字节码的Class文件,使用JRuby等其他语言的编译器一样可以把程序代码编译成字节码文件,虚拟机并不关系Class的来源是何种语言。

Java语言中的各种变量、关键字和运算符号的语义最终都是由多条字节码命令组合而成的,因此字节码提供的语义描述能力肯定比Java语言本身更加强大。因此有一些Java语言本身无法有效支持的语言特性不代表字节码本身无法有效支持,这也为其他语言实现一些有别于Java的语言特性提供了基础。

6.3Class类文件的结构

在本章关于Class文件结构的讲解中,将以《Java虚拟机规范(第2版)》(1999年发布,对应于JDK1.4时代的虚拟机)中的定义为主线,这部分内容虽然古老,但它所包含的指令、属性是Class文件中最重要、最基础的。同时,也会以后续JDK1.5~JDK1.7中添加的内容做较简略的、介绍性的讲解。

Class文件是一组以8字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑的排列在Class文件之中,中间没有添加任何分隔符号,这使得整个Class文件中存储的几乎全是程序运行的必要数据,没有空隙存在。当遇到需要占用8位字节以上空间的数据项时,则会按照高位在前的方式分割成若干个8字节进行存储。

根据Java虚拟机规范的规定,Class文件格式采用一种类似于C语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型:无符号数和表,后面的解析都要以这两种数据类型为基础。

无符号数属于基本数据类型,以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节、8个字节的无符号,无符号数可以用来描述数字、索引引用、数量值或者按照utf-8编码构成字符串值。

表是由多个无符号数或者其他表作为数据项构成的复合数据类型,所有表都习惯性地以“_info”结尾。表用于描述有层次关系的复合结构的数据,整个Class文件本质上就是一张表。

无论是无符号数还是表,当需要描述同一类型但数量不定的多个数据时,经常会使用一个前置的容量计数器加若干个连续的数据项的形式,这时称这一系列连续的某一类型的数据为某一类型的集合。

Class的结构不像XML等描述语言,由于它没有任何分隔符,所有的数据项,无论是顺序还是数量,甚至于数据存储的字节序这样的细节,都是被严格限定的,哪个字节代表什么含义,长度是多少,先后顺序如何,都不允许改变。下面看看字节码中各个数据项的具体含义。

6.3.1魔数与Class文件的版本

每个Class文件的头4个字节称为魔数(Magic Number),它的唯一作用就是确定这个文件是否是一个能被虚拟机接受的Class文件,很多文件存储标准中都使用魔数来进行身份识别。比如图片格式,如gif和jpeg等文件中都存有魔数。使用魔数而不是扩展名来进行识别主要是出于安全的考虑,因为文件扩展名可以随意改动。魔数值是文件格式的制定者指定的一个没有没广泛采用过且不会引起混淆的值。Class文件的魔数值为0xCAFEBABE(咖啡宝贝?)。

紧接着魔数的4个字节是Class文件的版本号:第5和第6个字节是次版本号,第7和第8个字节是主版本号。Java的版本号是从45开始的,JDK1.1之后的每个JDK大版本发布主版本号向上加1(JDK1.0~1.1使用了45.0~45.3的版本号)。高版本的JDK能向下兼容以前版本的Class文件,但不能运行以后版本的Class文件,即使文件格式并未发生任何变化,虚拟机也必须拒绝执行超过其版本号的Class 文件。

package org.fenixsoft.clazz;public class TestClass {private int m;public int inc(){return m+1;}}

可以清楚的看到,开头的4个字节的十六进制的表示是0xCAFEBABE,代表次版本号的是第5、第6个字节为0x0000,而主版本号是0x0032,也即是十进制的50,该版本号说明该文件是可以被JDK1.6或以上版本虚拟机执行的Class文件。

6.3.2常量池

紧接着主次版本号的就是常量池入口,常量池可以理解为Class文件的资源仓库,它是Class文件结构与其他项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一,同时它还是在Class文件中第一个出现的表类型数据项目。

由于常量池中常量的数量是不固定的,所以在常量池的入口需要放置一个u2类型的数据,代表常量池容量计数值(constant_pool_count)。与Java语言习惯不一样的是,这个容量计数是从1而不是0开始的,如上图所示,常量池容量(偏移地址:0x00000008)为十六进制数0x0016,即十进制22,这就代表这常量池中有21项常量,索引值范围是1~21。在Class文件格式规范制定之时,设计者将第0项常量空出来是有特殊考虑的,这样做的目的在于满足后面某些指向常量池的索引值的数据在特定情况下需要表达“不引用任何一个常量池项目”的含义,这种情况就可以把索引值置为0来表示。Class文件结构中只有常量池的容量计数是从1开始的,对于其他集合类型,包括接口索引集合、字段表集合、方法表集合等的容量计数都与一般习惯相同,从0开始。

常量池中主要存放两大类常量:字面量(Literal)和符号引用(SymbolicReferences)。字面量比较接近于Java语言层面的常量概念,如文本字符串、申明为final的常量值等。而符号引用则属于编译原理方面的概念,包括了下面三类常量:

类和接口的全限定名(Fully Qualified Name)

字段的名称和描述符(Descriptor)

方法的名称和描述符

Java代码在进行编译的时候并不像C和C++那样有“连接”这一步骤,而是在虚拟机加载Class文件的时候进行动态连接。也就是说,在Class文件中不会保存各个方法、字段的最终内存布局信息,因此这些字段、方法的符号引用不经过运行期转换的话无法得到真正的内存入口地址,也就无法被虚拟机使用。当虚拟机运行时需要从常量池获得对应的符号引用,再在类创建时或运行时解析、翻译到具体的内存地址中。

常量池中每一项常量都是一个表,在JDK1.7之前共有11种结构各不相同的表结构数据,在JDK1.7中为了更好的支持动态语言调用,又额外增加了3种。

这14种表都有一个共同特点,就是表开始的第一位是一个u1类型的标志位,代表当前这个常量属于哪种常量类型。

之所以说常量池是最繁琐的数据,是因为这14种常量类型各自均有自己的结构。在上图中常量池第一个常量,它的标志位(0x0000000A)是0x07,查表可以发现这个常量属于CONSTANT_Class_info类型,此类型的常量代表一个类或接口的符号引用。CONSTANT_Class_info的结构比较简单,第一位是一个u1的标志位,用于区分常量类型,后面是一个u2类型的索引值,用来代表这个类或者接口的全限定名,这里的索引值是(0x000000B)是0x0002,也即是指向常量池中第二个常量。继续从图中查找第二项常量,它的标志位(0x0000000D)是0x01,查表可以知道它确实是一个CONSTANT_Utf8_info类型的常量,这个类型的数据是一个使用UTF-8缩略编码表示的字符串。UTF-8缩略编码与普通UTF-8编码的区别是:从’\u0001’到’\u007f’之间的所有字符(相当于1~127的ASCII码)的缩略编码用一个字节表示,从’\u0080’到’\u07ff’之间的所有字符的缩略编码用两个字节表示,从’\u0800’到’\uffff’之前的所有字符的缩略编码就按照普通UTF-8的编码规则使用三个字节表示。

由于Class文件中方法、字段等都需要引用CONSTANT_Utf8_info型常量来描述名称,所以CONSTANT_Utf8_info型常量的最大长度也就是Java中方法、字段名的最大长度。而这里的最大长度就是length的最大值,即u2类型能表达的最大值65535.所以Java程序中如果定义了超过64KB英文字符的变量或方法名,将无法编译。

本例中这个字符串的length值(偏移地址:0x0000000E)是0x001D,也就是长29字节,往后29字节正好都在1~127的ASCII码范围以内,内容为“org/fenixsoft/clazz/TestClass”。

到此为止,已经分析了TestClass.class常量池中21个常量中的两个,       其余的19个常量都可以通过类似的方法计算出来。在JDK的bin目录中,Oracle公司为我们准备好了一个专门用于分析Class文件字节码的工具:javap,下面列出使用javap的-verbose参数输出的TestClass.class文件字节码内容。

C:\Users\Administrator>javap -verbose TestClass.classClassfile /C:/Users/Administrator/TestClass.class  Last modified 2017-12-19; size 393 bytes  MD5 checksum 8ad01ee33f0f7f34adc7bc078387f17d  Compiled from "TestClass.java"public class org.fenixsoft.clazz.TestClass  SourceFile: "TestClass.java"  minor version: 0  major version: 50  flags: ACC_PUBLIC, ACC_SUPERConstant pool:   #1 = Class              #2             //  org/fenixsoft/clazz/TestClass   #2 = Utf8               org/fenixsoft/clazz/TestClass   #3 = Class              #4             //  java/lang/Object   #4 = Utf8               java/lang/Object   #5 = Utf8               m   #6 = Utf8               I   #7 = Utf8               <init>   #8 = Utf8               ()V   #9 = Utf8               Code  #10 = Methodref          #3.#11         //  java/lang/Object."<init>":()V  #11 = NameAndType        #7:#8          //  "<init>":()V  #12 = Utf8               LineNumberTable  #13 = Utf8               LocalVariableTable  #14 = Utf8               this  #15 = Utf8               Lorg/fenixsoft/clazz/TestClass;  #16 = Utf8               inc  #17 = Utf8               ()I  #18 = Fieldref           #1.#19         //  org/fenixsoft/clazz/TestClass.m:I  #19 = NameAndType        #5:#6          //  m:I  #20 = Utf8               SourceFile  #21 = Utf8               TestClass.java{  public org.fenixsoft.clazz.TestClass();    flags: ACC_PUBLIC    Code:      stack=1, locals=1, args_size=1         0: aload_0         1: invokespecial #10                 // Method java/lang/Object."<init>":()V         4: return      LineNumberTable:        line 2: 0      LocalVariableTable:        Start  Length  Slot  Name   Signature               0       5     0  this   Lorg/fenixsoft/clazz/TestClass;  public int inc();    flags: ACC_PUBLIC    Code:      stack=2, locals=1, args_size=1         0: aload_0         1: getfield      #18                 // Field m:I         4: iconst_1         5: iadd         6: ireturn      LineNumberTable:        line 5: 0      LocalVariableTable:        Start  Length  Slot  Name   Signature               0       7     0  this   Lorg/fenixsoft/clazz/TestClass;}

从代码清单中可以看出,计算机已经帮我们把整个常量池的21项常量都计算出来了,并且第1、2项常量与我们计算的一致。仔细看可以看出,其中有一些我们没有定义的常量,如“I”、“V”、“<init>”、“ LineNumberTable”、“LocalVariableTable”等。

这部分自动生成的常量确实没有在Java代码里直接出现,但他们会被后面即将讲到的字段表(filed_info)、方法表(method_info)、属性表(attribute_info)引用到,它们会用来描述一些不方便使用“固定字节”进行表达的内容。譬如描述方法的返回值是什么?有几个参数?每个参数的类型是什么?因为Java中的类是无穷无尽的,        无法通过简单的无符号字节来描述一个方法用到了什么类,因此在描述方法的这些信息时,需要引用常量表中的符号引用来进行表达。

6.3.3访问标志

在常量池结束之后,紧随着的两个字节代表访问标志(access_flags),这个标志用于识别一些类或者接口层次的访问信息,包括:这个Class是类还是接口;是否被定义为public类型;是否被定义为abstract类型;如果是类的话,是否被申明为final等。

access_flags中一共有16个标志可以使用,没有使用到的标志一律为0。TestClass是一个普通的类,不是接口、枚举或者注解,被public关键字修饰但没有被申明为final和abstract,并且它使用了JDK1.2之后的编译器进行编译,因此它的ACC_PUBLIC、ACC_SUPER标志应当为真,而ACC_FINAL、ACC_INTERFACE、ACC_ABSTRACT、ACC_SYNTHETIC、ACC_ANNOTATION、ACC_ENUM这6个标志应该为假,因此它的access_flags的值  应为:0x0001|0x0020=0x0021。从之前的图中可以看出,access_flags标志(偏移地址:0x000000EF)的确为0x0021。

6.3.4类索引、父类索引和接口索引集合

类索引(this_class)和父类索引(super_class)都是一个u2类型的数据,而接口索引集合(interface)是一组u2类型数据的集合,Class文件中由这三项数据来确定这个类的继承关系。类索引用于确定这个类的全限定名,父类索引用于确定这个类的父类的全限定名。由于Java语言不允许多继承,所以父类索引只有一个,除了java.lang.Object之外,所有的Java类都有父类,因此除了java.lang.Object之外,所有Java类的父类索引都不为0。接口索引集合就是用来描述这个类实现了哪些接口,这些被实现的接口将按implements语句(如果这个类本身是一个接口,则是extends语句)后的接口从左到右排列在接口索引集合中。

类索引、父类索引和接口索引集合都按顺序排列在访问标志之后,类索引和父类索引用两个u2类型的索引值表示,它们各自指向一个类型为CONSTANT_Class_info的类描述符常量,通过CONSTANT_Class_info类型的常量中的索引值可以找到定义在CONSTANT_Utf8_info类型的常量中的全限定名字符串。

对于接口索引集合,入口的第一项u2类型的数据为接口计数器(interfaces_count),表示索引表的容量。如果该类没有实现任何接口,则该计数器值为0,后面的接口索引表不再占用任何字节。

6.3.5字段表集合

字段表(field_info)用于描述类或接口中声明的变量。字段包括类级变量和实例级变量,但不包括在方法中声明的局部变量。描述一个字段包括的信息有:字段的作用域(public、private、protected修饰符)、是实例变量还是类变量(static修饰符)、可变性(final)、并发可见性(volatile修饰符,是否强制从主内存读写)、可否被序列化(transient修饰符)、字段数据类型(基本数据类型、对象、数组)、字段名称。上述这些信息中,各个修饰符都是布尔值,要么有某个修饰符,要么没有,很适合使用标志位来表示。而字段叫什么名称、字段是什么数据类型这些都是无法固定的,只能引用常量池中的常量来表示。变量的数据结构是access_flags(u2)、name_index(u2)、descriptor_index(u2),字段修饰符放在access_flags中,跟随access_flags的是两项索引值:name_index和descriptor_index。他们都是对常量池的引用,分别代表着字段的简单名称以及字段和方法的描述符。

权限定名和简单名称很好理解,如上代码的org/fenixsoft/clazz/TestClass是全限定名,仅仅是把类中的“.”替换成“/”而已,为了使多个全限定名之间不产生混淆,在使用时最后一般会加入一个“;”表示结束。简单名称是指没有类型和参数修饰的方法或者字段名称,这个类中的inc()和m字段的简单名称分别是“inc”和“m”。

相对于全限定名和简单名称来说,方法和字段的描述符就要复杂一些。描述符的作用是用来描述字段的数据类型、方法的参数列表(包括数量、类型以及顺序)和返回值。根据描述符的规则基本数据类型以及代表无返回值的void类型都用一个大写字符来表示,而对象类型则用字符L加对象的全限定名来表示。

对于数组类型,每一维度用一个前置的“[”字符来描述,如一个定义为“java.lang.String[][]”类型的二维数组,将被记录为:“[[Ljava.lang.String;”,一个整型数组将被记录为“[I”。

用描述符来描述方法时,按照先参数列表,后返回值的顺序描述,参数列表按照参数的顺序放在一组小括号“()”之内。如方法void inc()的描述符为“()V”,方法java.lang.StringtoString()的描述符为“()Ljava.lang.toString;”,方法int indexOf(char[]source,int sourceOffset,int sourceCount,char []target,int targetOffset,int targetCOunt,int fromIndex)的描述符为“([CII[CIII)I”。

对于TestClass.class文件来说,字段表集合从地址0x000000F8开始,第一个u2类型的数据为容量计数器fields_count,如上图,其值为0x0001,说明这个类只有一个字段表数据。接下来紧跟着容量计数器的是access_floags标志,值为0x0002,代表private修饰符的ACC_PRIVATE标志位为真,其他修饰符为假。代表字段名称的name_index的值为0x0005,从代码清单列出的常量表可查到第5项常量是一个CONSTANT_Utf8_info类型的字符串,值为“m”,代表字段描述符的descriptor_index的值为0x0006,指向常量池中的字符串“I”,根据这些信息,可以推断出源代码定义的字段是“private int m;”。

字段表都包含的固定数据项目到descriptor_index为止就结束了,不过在descriptor_index之后跟随着一个属性表集合用于存储一些额外信息,字段都可以在属性表中描述零至多项的额外信息。对于本例中的字段m,它的属性表计数器是0,也就是没有需要额外描述的信息,但是如果将字段m声明为“final  static int  m=123;”,那就可能存在一项名称为ConstantValue的属性,其值指向常量123。

字段表中不会列出从超类或父接口中继承来的字段,但有可能列出原本java代码中不存在的字段,比如内部类中为了保持对外部类的访问性,会自动添加指向外部类实例的字段。另外,Java语言中字段是无法重载的,两个字段的数据类型、修饰符不管是否相同,都必须使用不同的名称,但是对字节码来说,如果两个字段的描述符不同,那字段重名就是合法的。

6.3.6方法表集合

Class文件存储格式中对方法的描述与对字段的描述几乎采用了完全一致的方式,方法表的结如同字段表一样,依次包括了访问标志(access_flags)、名称索引(name_index)和描述符索引(descriptor_index)、属性表集合(attributes)几项。这些数据项目的含义也非常类似,仅在访问标志和属性表集合的可选项中有所区别。

因为volatile关键字和transient关键字不能修饰方法,所以方法表的访问标志中没有了ACC_VOLATILE和ACC_TRANSIENT标志。与之相对的,synchronized、native、strictftp和abstract关键字可以修饰方法,所以方法表的访问标志增加了ACC_SYNCHRONIZED、ACC_NATIVE、ACC_STRICTFTP、ACC_ABSTRACT标志。

可能会有这样的疑问,方法的定义可以通过访问标志、名称索引和描述符索引来表达清楚,但方法里的代码哪去了?方法里的Java代码,经过编译器编译成字节码指令后,存放在方法属性表集合中一个为“Code”的属性里面,属性表是Class文件中最具扩展性的数据项目。

以TestClass.class文件进行分析,方法表集合的入口地址是0x00000101,第一个u2类型的数据的值是0x0002,代表集合有两个方法(编译器添加的实例构造器<init>和源码中的inc()),第一个方法的访问标志是0x001,也就是只有ACC_PUBLIC标志为真,名称索引值为0x0007,查代码清单的常量池得方法名为“<init>”,描述符索引值为0x0008,对应常量值为“()V”,属性表的计数器attributes_count的值为0x0001表示此方法的属性集合有一项属性,属性名称索引为0x0009,对应常量为“Code”,说明此属性是方法的字节码描述。

与字段表集合相对于的,如果父类方法在子类中没有被重写,方法表集合中就不会出现父类方法的信息。但同样的,有可能出现编译器自动添加的方法,最典型的就是类构造器“<clinit>”方法和实例构造器“<init>”方法。

在Java语言中,要重载一个方法,除了要与原方法具有相同的简单名称之外,还要求必须拥有一个与原方法不同的特征签名,特征签名就是一个方法中各个参数在常量池中的字段符号引用的集合,也就是返回值不会包含在特征签名中,因此Java语言里面无法仅仅靠返回值的不同来对一个已有方法进行重载的。但是在Class文件格式中,特征签名的范围更大一些,只要描述符不是完全一样的两个方法也可以共存。也就是说,如果两个方法有相同的特征签名和名称,但返回值不同,那么也是可以合法共存于同一个Class文件中的。

6.3.7属性表集合

属性表(attribute_info),在Class文件中字段表和方法表都可以携带自己的属性表集合,用于描述某些场景专有的信息。

与Class文件中其他的数据项目要求严格的顺序、长度和内容不同,属性表集合的限制稍微宽松一些,不再要求各个属性表具有严格的顺序,并且只要不与已有属性名重复,任何人实现的编译器都可以向属性表中写入自己定义的属性信息,Java虚拟机运行时会忽略掉它不认识的属性。为了能正确解析Class文件,《Java虚拟机规范(第2版)》中预定义了9项虚拟机实现应当能识别的属性,在《Java虚拟机规范(Java SE 7)》版中,预定义属性已增加到21项。

对于每个属性,它的名称需要从常量池中引用一个CONSTANT_Utf8_info类型的常量来表示,而属性值的结构则是完全自定义的,只需要通过一个u4的长度属性去说明属性值所占用的位数即可。

1.Code属性

Java程序方法体中的代码经过javac编译后,最终变为字节码指令存储在Code属性中。Code属性出现在方法表的属性集合之中,但接口或者抽象类中的方法是不存在Code属性的。

以代码清单TestClass.class文件为例,实例构造器“<init>”方法的Code属性。它的操作数栈的最大深度和本地变量表的容量都为0x0001,。字节码区域所占用的空间的长度是0x0005。虚拟机读取到字节码区域的长度后,按照顺序一次读入紧随的5个字节的数据,并根据字节码指令表翻译出所对应的字节码指令。翻译“2A B7 00 0A B1”的过程为:

1)读入2A,查表的0x2A对应的指令为aload_0,这个指令的含义是将第0个Slot中为reference类型的本地变量推送到操作数栈顶。

2)读入B7,查表的0xB7对应的指令为invokespecial,这条指令的作用是以栈顶reference类型的数据所指向的对象作为方法接收者,调用此对象的实例构造器方法、private方法或者父类方法。这个方法有一个u2类型的参数说明具体调用哪一个方法,它指向常量池中的一个CONSTANT_Methodref_info类型的常量,即此方法的方法符号引用。

3)读入000A,这是invokespecial的参数,查常量池得0x000A对应的常量为实例构造器“<init>”方法的符号引用。

4)读入B1,查表得0xB1对应的指令为return,含义是返回此方法,并且返回值为void。这条指令执行后,当前方法结束。

这段字节码虽然很短,但是至少可以看出它的执行过程中的数据交换、方法调用等操作就是基于栈(操作栈)的。可以初步猜想:Java虚拟机执行字节码是基于栈的体系结构。但是与一般基于堆栈的零字节指令又不太一样,某些指令(如invokespecial)后面还会带参数。

同样的inc()方法的字节码指令中,包含的args_size是1,这个1是因为在实例方法里面,都可以通过“this”关键字访问到此方法所属的对象。这个访问机制对Java程序的编写很重要,而它的实现却非常简单,仅仅是通过javac编译器编译的时候把对this关键字的访问转变为对一个普通方法参数的访问,然后在虚拟机调用此方法时自动传入此参数而已。因此在实例方法的局部变量表中至少会存在一个指向当前对象实例的局部变量,局部变量表中也会预留出第一个Slot位来存放对象实例的引用,方法参数值从1开始计算。这个处理只对实例方法有效,如果inc()方法的声明为static,那么args_size的值就不是1而是0了。

在字节码指令之后的是这个方法的显式异常处理表集合,异常表对于Code属性来说并不是必须存在的。

2.Exceptions属性

这里的Exceptions属性是在方法表中与Code属性平级的一项属性,不要与前面的异常表产生混淆。Exceptions属性的作用是列举出方法中可能抛出的受查异常(Checked Exceptions),也就是方法描述时在throws关键字后面列举的异常。

Exceptions属性中的number_of_exceptions项表示方法可能抛出number_of_exceptions种受查异常,每一种受查异常使用一个exception_index_table项表示,exception_index_table是一个指向常量池中CONSTANT_Class_info型常量的索引,代表了该受查异常的类型。

3.LineNumberTable属性

LineNumberTable属性用于描述Java源码行号和字节码行号(字节码的偏移量)之间的对应关系。它并不是运行时必需的属性,但默认会生成到Class文件之中,可以在Javac中分别使用-g:none或-g:lines选项来取消或要求生成这项信息。如果选择不生成LineNumberTable属性,对程序产生的最主要的影响是当抛出异常时,堆栈中将不会显示出错的行号,并且在调试程序的时候,也无法按照源码行来设置断点。

line_number_table是一个数量为line_number_table_length、类型为line_number_info的集合,line_number_info表包括了start_pc和line_number两个u2类型的数据项,前者是字节码行号,后者是Java源码行号。

4.LocalVariableTable属性

LocalVariableTable属性用于描述栈帧中局部变量表中的变量与Java源码中定义的变量之间的关系,它也不是运行时必需的属性,但默认会生成到Class文件中,可以在Javac中分别使用-g:none或者-g:vars选项来取消或要求生成这项信息。如果没有生成这项属性,最大的影响就是当其他人引用这个方法时,所有的参数名称都会丢失,IDE将会使用诸如arg0、arg1之类的占位符代替原来的参数名,这对程序运行没有影响,但是会对代码编写带来较大不便,而且在调试期间无法根据参数名称从上下文中获得参数值。

其中,local_variable_info项目代表了一个栈帧与源码中的局部变量的关联,结构中的start_pc和length属性分别代表了这个局部变量的生命周期开始的字节码偏移量及其作用范围覆盖的长度,两者结合起来就是这个局部变量在字节码中的作用域范围。

name_index和descriptor_index都是指向常量池中CONSTANT_Utf8_info型常量的索引,分别代表了局部变量的名称和描述符。

index是这个局部变量在栈帧局部变量表中Slot的位置。当这个变量的数据类型是64位类型时,它占用的Slot为index和index+1两个。

顺提一下,在JDK1.5引入泛型之后,LocalVariableTable属性增加了一个“姐妹属性”:LocalVariableTypeTable,这个新增的属性结构与LocalVariableTable非常相似,仅仅是把记录的字段描述符的descriptor_index替换成了字段的特征签名,对于非泛型来说,描述符和特征签名能描述的信息是基本一致的,但是泛型引入之后,由于描述符中泛型的参数化类型被擦除掉了,描述符就不能准确的描述泛型类型了,因此出现了LocalVariableTypeTable。

5.SourceFile属性

SourceFile属性用于记录生成这个Class文件的源码文件名称。这个属性也是可选的,可以分别使用Javac的-g:none和-g:source选项来关闭或要求生成这项信息。在Java中,对大多数类来说,类名和文件名是一致的,但是有一些特殊情况(如内部类)例外。如果不生成这项属性,当抛出异常时,堆栈中将不会显示出错代码所属的文件名。这个属性是一个定长的属性。sourcefile_index数据项是指向常量池中CONSTANT_Utf8_info型常量的索引,常量值是源码文件的文件名。

6.ConstantValue属性

ConstantValue属性的作用是通知虚拟机自动为静态变量复制。只有被static关键字修饰的变量才能使用这项属性。类似“intx=123;”和“static int x=123;”这样的变量定义在Java程序中是非常常见的事情,但虚拟机对这两种变量赋值的方式和时刻都有所不同。对于非static变量(也就是实例变量)的赋值是在实例构造器<init>方法中进行的,而对于类变量,则有两种方式可以选择:在类构造器<clinit>方法或者使用COnstantValue属性。目前Sun Javac编译器的选择是:如果同时使用final和static来修饰一个变量,并且这个变量的数据类型是基本数据类型或者java.lang.String类型的话,就生成ConstantValue属性来进行初始化,如果这个变量没有被final修饰或者并非基本数据类型及字符串,则将会选择在<clinit>方法中进行初始化。

虽然有final关键字才更符合“ConstantValue”的语义,但虚拟机规范中并没有强制要求字段必须设置了ACC_FINAL标志,只要求了有ConstantValue属性的字段必须设置ACC_STATIC标志而已,对final关键字的要求是Javac编译器自己加入的限制,因为此属性的属性值只是常量池中的一个索引号,由于Class文件格式的常量类型中只有与基本属性和字符串相对应的字面量,所以就算ConstantValue属性想支持别的类型也无能为力。

从ConstantValue的数据.结构中可看出,ConstantValue属性是一个定长属性,它的attribute_length数据项值必须固定为2。constantvalue_index数据项代表了常量池中一个字面量常量的引用,根据字段类型的不同,字面量可以是CONSTANT_Long_info、CONSTANT_Float_info、CONSTANT_Double_info、CONSTANT_Inter_info、CONSTANT_String_info常量中的一个。

7.InnerClasses属性

InnerClasses属性用于记录内部类与宿主类之间的关系。如果一个类中定义了内部类,那编译器将会为它以及所包含的内部类生成InnerClasses属性。数据项number_of_classes代表需要记录多少个内部类信息,每一个内部类的信息都由一个inner_classes_info表进行描述。

inner_class_info_index和outer_class_info_index都指向常量池中CONSTANT_Class_info型常量的索引,分别代表了内部类和宿主类的符号引用。

inner_name_index是指向常量池中CONSTANT_Utf8_info型常量的索引,代表了这个内部类的名称,如果是匿名内部类,那么这项值为0。

inner_class_access_flags是内部类的访问标志,类似于类的access_flags。

8.Deprecated及Synthetic属性

Deprecated及Synthetic属性都属于标志类型的布尔属性,只存在有和没有的区别,没有属性值的概念。

Deprecated属性用于表示某个类、字段或者方法,已经被程序作者定义为不再推荐使用,它可以通过在代码中使用@deprecated注释进行设置。

Synthetic属性代表此字段或方法并不是由Java源码直接产生的,而是由编译器自行添加的,在JDK1.5之后,标识一个类、字段或者方法是编译器自动产生的,也可以设置它们访问标识中的ACC_SYSTHETIC标志位,其中最典型的例子就是BridgeMethod。所有由非用户代码产生的类、字段及方法都应当至少设置Synthetic属性或者ACC_SYSTHETIC标志位中的一项,唯一的例外是实例构造器“<init>”方法和类构造器“<clinit>”方法。

9.StackMapTable属性

StackMapTable属性在JDK1.6发布后增加到了Class文件规范中,它是一个复杂的变长属性,位于Code属性的属性表中。这个属性会在虚拟机类加载的字节码验证阶段被新类型检查验证器(Type Checker)使用。目的在于代替以前比较消耗性能的基于数据流分析的类型推导验证器。

这个类型检查验证器最初来源于Sheng Liang为Java ME CLDC实现的字节码验证器。新的验证器在同样能保证Class文件合法性的前提下,省略了在运行期通过数据流分析去确认字节码的行为逻辑合法性的步骤,而是在编译阶段将一系列的验证类型直接记录在Class文件中,通过检查这些验证类型代替了类型推导过程,从而大幅提升了字节码验证的性能。这个验证器在JDK1.6中首次提供,并在JDK1.7中强制代替原来基于类型推导的字节码验证器。

StackMapTable属性中包含零至多个栈映射帧(Stack Map Frames),每个栈映射帧都显式或隐式地代表了一个字节码偏移量,用于表示执行到该字节码时局部变量表和操作数栈的验证类型。类型检查验证器会通过目标方法的局部变量和操作数栈所需要的类型来确定一段字节码指令是否符合逻辑约束。

《Java虚拟机规范(Java SE 7版)》明确规定,在版本号大于或等于50.0的Class文件中,如果方法的Code属性没有附带StackMapTable属性,那就意味着它带有一个隐式的StackMapTable属性。这个StackMapTable属性的作用等同于number_of_entries值为0的StackMapTable属性。一个方法的Code属性最多只能有一个StackMapTable属性,否则将抛出ClassFormatError异常。

10.Signature属性

Signature属性在JDK1.5发布后增加到了Class文件规范中,它是一个可选的定长属性,可以出现于类、字段、或者方法表结构的属性表中。在JDk1.5中大幅增强了java语言的语法,在此之后,任何类、接口、初始化方法或成员的泛型签名如果包含了类型变量或参数化类型,则Signature属性会为它记录泛型签名信息。之所以要专门使用这样一个属性去记录泛型类型,是因为Java语言的泛型采用的是擦除法实现的伪泛型,在字节码(Code属性)中,泛型信息编译(类型变量、参数化类型)之后都通通被擦除掉。使用擦除法的好处是实现简单(主要是修改Javac编译器,虚拟机内部只做了很少的改动)、非常容易实现Backport,运行期也能够节省一些类占用的内存空间。但坏处就是运行期无法像C#等有真泛型支持的语言那样,将泛型类型与用户定义的普通类型同等对待,例如运行期做反射时无法获得到泛型信息。Signature属性就是为了弥补这个缺陷增设的,现在Java的反射API能够获得到泛型类型,最终数据来源也就是这个属性。

其中signature_index项的值必须是一个对常量池的有效索引。常量池       在该索引处的项必须是CONSTANT_Utf8_info结构,表示类签名、方法类型签名或字段类型签名。如果当前的Signature属性是类文件的属性,则这个结构表示类签名,如果当前的Signature属性是方法表属性,则这个Signature属性表示方法类型签名,如果当前的Signature属性属性是字段表的属性,则这个结构表示字段的类型签名。

11.BootstrapMethods属性

BootstrapMethods属性在JDK1.7发布后增加到了Class文件规范中,它是一个复杂的变长属性,位于类文件的属性表中。这个属性用于保存invokedynamic指令引用的引导方法限定符。《Java虚拟机规范(Java SE 7版)》规定,如果某个类文件结构的常量池中曾经出现过CONSTANT_InvokeDynamic_info类型的常量,那么这个类文件的属性表中必须存在一个明确的BootstrapMethods属性,另外,即使CONSTANT_InvokeDynamic_info类型的常量在常量池中出现过多次,类文件的属性表中最多也只能有一个BootstrapMethods属性。

6.4字节码指令简介

Java虚拟机的指令由一个字节长度的、代表着某个特定操作含义的数字(操作码)以及跟随其后的零至多个代表此操作所需参数而构成。由于Java虚拟机采用面向操作数栈而不是寄存器的架构,所以大多数的指令都不包含操作数,只有一个操作码。

字节码指令集是一种具有鲜明特点、优劣势都很突出的的指令集架构,由于限制了Java虚拟机操作码的长度是一个字节(即0~255),这意味着指令集的操作码总数不可能超过256个;又由于Class文件格式放弃了编译后代码的操作数长度对齐,这就意味着虚拟机在处理那些长度超过一个字节的数据时,不得不在运行时重建出具体数据的结构,如果要将一个16位的无符号整数使用两个无符号字节存储起来(将他们命名为byte1和byte2),那他们的值应该是这样的:

(byte1<<8)|byte2

这种操作在某种程度上会导致解释执行字节码时损失一些性能。但这样做的优势也是非常明显,放弃了操作数对齐。就意味着可以省略很多填充和间隔符号,用一个字节表示操作码也是为了尽可能获得短小精干的编译代码。这种追求竟可能小数据量、高传输效率的设计是由于Java语言设计之初面向网络、智能家电的技术背景所决定的,并且一直沿用至今。

如果不考虑异常处理的话,那么Java虚拟机的解释器可以使用下面的伪代码作为最基本的的执行模型来理解,这个执行模型虽然很简单,但依然可以有效的工作:

do{

         自动计算PC寄存器的值加1;

根据PC寄存器的指示位置,从字节码流中取出操作码;

         if(字节码存在操作数)从字节码流中取出操作数;

         执行操作码所定义的操作;

}while(字节码流长度>0);

6.4.1字节码与数据类型

在Java虚拟机的指令集中,大多数指令都包含了其操作所对应的数据类型信息。例如,iload指令用于从局部变量表中加载int型数据到操作数栈中,而fload加载的数据则是float类型。这两条指令的操作在虚拟机内部可能会是由同一段代码来实现的,但在Class文件中它们必须拥有各自独立的操作码。

对于大部分与数据类型相关的字节码指令,它们的操作码助记符中都有特殊的字符来表明专门为哪种数据类型服务:i代表对int类型的数据操作,l代表long,s代表short、b代表byte、c代表char、f代表float、d代表double、a代表reference,也有一些指令的助记符中没有明确的指明操作类型的字母,如arraylength指令,它没有代表数据类型的特殊字符,但操作数永远只能是一个数组类型的对象。还有另外一些指令,如无条件跳转指令goto则是与数据类型无关。

由于Java虚拟机的操作码长度只有一个字节,所以包含了数据类型的操作码就为指令集的设计带来了很大的压力:如果每一种与数据类型相关的指令都支持Java虚拟机所有运行时数据类型的话,那指令的数量恐怕就会超过一个字节所能表示的数量范围了。因此,Java虚拟机的指令集对于特定的操作只提供了有限的类型相关指令去支持它,换句话说,指令集会故意设计成非完全独立的(Java虚拟机规范中把这种特性称为“NotOrthogonal”,即并非每一种数据类和每一种操作都有对应的指令)。有一些单独的指令可以在必要的时候将一些不支持的类型转换为可被支持的类型。

大部分的指令都没有支持整数类型byte、char和short,甚至没有任何指令支持boolean类型。编译器会在编译期或运行期将byte和short类型的数据带符号扩展为相应的int型数据,将boolean和char类型数据零位扩展为int类型数据。与之类似,在处理byte、short、boolean和char型数组时,也会转换成相应的int类型的字节码指令来处理。因此,大多数对于boolean、byte、char和short类型数据的操作,实际上都是使用相应的int类型作为运算类型。

6.4.2加载和存储指令

加载和存储指令用于将数据在栈帧的局部变量表和操作数栈之间来回传输,这类的指令包括如下内容:

将一个局部变量加载到操作数栈:iload、iload_<n>、lload、lload_<n>、fload、fload_<n>、dload、dload_<n>、aload、aload_<n>。

将一个数值从操作数栈存储到局部变量表:istore、istore_<n>、lstore、lstore_<n>、fstore、fstore_<n>、dstore、dstore_<n>、astore、astore_<n>。

将一个常量加载到操作数栈:bipush、sipush、ldc、ldc_w、ldc2_w、aconst_null、iconst_ml、iconst_<i>、lconst_<l>、fconst_<f>、dconst_<d>。

扩充局部变量表的访问索引指令:wide。

存储数据的操作数栈和局部变量表主要就是由加载和存储指令进行操作,除此之外,还有少量指令,如访问对象的字段或数组元素的指令也会向操作数栈传输数据。

上面所列举的指令助记符中,有一部分是以尖括号结尾的(例如iload_<n>),这些指令助记符实际上是代表了一组指令(例如iload_<n>,它代表了iload_0、iload_1、iload_2和iload_3这几条指令)。这几组指令都是某个带有一个操作数的通用指令(例如iload)的特殊形式,对于这若干组特殊指令来说,它们省略掉了显式的操作数,不需要进行取操作数的操作,实际上操作数就隐含在指令中。除了这点外,它们的语义与原生的通用指令完全一样(例如iload_0与操作数为0时的iload指令语义完全一致)。

6.4.3运算指令

运算或算术指令用于对两个操作数栈上的值进行某种特定运算,并把结果重新存入操作数栈顶。大体上算术指令可以分为两种:对整型数据进行运算的指令和对浮点数进行运算的指令,无论是哪种指令都是使用的Java虚拟机中的类型,由于没有直接支持byte、char、short和boolean类型的算术指令,对于这类数据的运算,应使用int类型的指令代替。整数和浮点数的算术指令在溢出和被零除时也有各自不同的表现,所有的算术指令如下:

加法指令:iadd、ladd、fadd、dadd。

减法指令:isub、lsub、fsub、dsub。

乘法指令:imul、lmul、fmul、dmul。

除法指令:idiv、ldiv、fdiv、ddiv。

求余指令:irem、lrem、frem、drem。

取反指令:ineg、lneg、fneg、dneg。

位移指令:ishl、ishr、iushr、lshl、lshr、lushr。

按位或指令:ior、lor。

按位与指令:iand、land。

按位异或指令:ixor、lxor。

局部变量自增指令:iinc。

比较指令:dcmpg、dcmpl、fcmpg、fcmpl、lcmp。

数据运算可能会导致溢出,例如两个很大的正整数相加,结果可能是一个负数,这种数学上不可能出现的现象,对程序员来说很容易理解,但Java虚拟机规范没有明确定义过整型数据溢出的具体计算结果,仅规定了在处理整型数据时,只有除法指令(idiv、ldiv)以及求余指令(irem、lrem)中当出现除数为零时会导致虚拟机抛出ArithmeticException异常,其余任何整型运算场景都不应该抛出运行时异常。

Java虚拟机规范要求虚拟机实现在处理浮点数时,必须严格遵循IEEE754规范中所规定的行为和限制。也就是说,Java虚拟机必须完全支持IEEE754中定义的非正规浮点数值和逐级下溢的运算规则。这些特征将会使某些数值算法处理起来变得相对容易一些。

Java虚拟机要求在进行浮点数运算时,所有的运算结果都必须舍入到适当的精度,非精确的结果必须舍入为可被表示的最接近的精确值,如果有两种可表示的形式与该值接近,将优先选择最低有效位为零的。这种舍入模式也是IEEE754规范中默认的舍入模式,称为向最接近数舍入模式。

在把浮点数转换为整数时,Java虚拟机使用IEEE754标准中的向零舍入模式,这种模式的舍入结果会导致数字被截断,所有小数部分的有效字节都会被丢弃掉。向零舍入模式将在目标数值类型中选择一个最接近但是不大于原值的数字来作为最精确的舍入结果。

另外,Java虚拟机在处理浮点数运算时,不会抛出任何运行时异常,当一个操作产生溢出时,将会使用有符号的无穷大来表示,如果某个操作结果没有明确的数学定义的话,将会使用NaN值来表示。所有使用NaN值作为操作数的算术操作,结果都会返回NaN。

在对long类型数据进行比较时,虚拟机采用带符号的比较方式,而对于浮点数进行比较时(dcmpg、dcmpl、fcmpg、fcmpl),虚拟机会采用IEEE754规范所定义的无信号比较方式。

6.4.4类型转换指令

类型转换指令可以将两种不同的数值类型进行相互转换,这些转换操作一般用来实现代码中的显式类型转换操作,或者用来处理字节码指令集中数据类型相关指令无法与数据一一对应的问题。

Java虚拟机直接支持(即转换时无须显式的转换指令)以下数值         类型的宽化类型转换(即小范围类型向大范围类型的安全转换):

int类型到long、float或double类型。

long类型到float、double类型。

float类型到double类型。

相对的,处理窄化类型转换时,必须显式的使用转换指令来完成,这些转换指令包括:i2b、i2s、i2c、l2i、f2i、f2l、d2i、d2l和d2f。窄化类型转换可能会导致转换结果产生不同的正负号、不同的数量级的问题,转换过程很可能会导致数值的精度丢失。

在将int或long类型窄化转换为整数类型T的时候,转换过程仅仅是简单的丢弃除最低位N个字节以外的内容,N是类型T的数据类型长度,这将可能导致转换结果与输入值有不同的正负号。这点很容易理解,因为原来符号位处于数值的最高位,高位被丢弃后,转换结果的符号就取决于低N个字节的首位了。

在将一个浮点数窄化转化为整型T(T限于int和long类型之一)时,将遵循以下规则:

如果浮点值是NaN,那转换结果就是int类型或long类型的0。

如果浮点值不是无穷大的话,浮点值使用IEEE754的向零舍入模式取整,获得整数v,如果v在目标类型T(int或long)的表示范围之内,那转换结果就是v。

否则将根据v的符号,转换为T所能表示的最大值或最小值。

从double类型到float类型的窄话过程与IEEE754中定义的一致,通过IEEE754向最接近数舍入模式舍入到一个可以使用的float类型的数值。如果转换结果的绝对值太小而无法使用float来表示的话,将返回float类型的正负零。如果转换结果的绝对值太大而无法使用float来表示的话,将返回float类型的正负无穷大。对于double类型的NaN值将按规定转换为float类型的NaN值。

尽管数据类型窄化可能会发生上限溢出、下限溢出、精度丢失等情况,但是Java虚拟机规范中明确规定数值类型的窄化转化指令永远不可能导致虚拟机抛出运行时异常。

6.4.5对象创建与访问指令

虽然类实例和数组都是对象,但Java虚拟机对类实例和数组的创建与操作使用了不同的字节码指令,对象创建后,就可以通过对象访问指令获取对象实例或者数组实例中的字段或数组元素,这些指令如下:

创建类实例的指令:new。

创建数组的指令:newarray、anewarray、multianewarray。

访问类字段(static字段,或者称为类变量)和实例字段(非static字段,或者称为实例变量)的指令:getfield、putfield、getstatic、putstatic。

把一个数组元素加载到操作数栈的指令:baload、caload、saload、iaload、laload、faload、daload、aaload。

将一个操作数栈中的值存储到数组元素中的指令:bastore、castore、sastore、iastore、lastore、fastore、aastore。

取数组长度的指令:arraylength。

检查类实例类型的指令:instanceof、checkcast。

6.4.6操作数栈管理指令

如同操作一个不同数据结构的堆栈那样,Java虚拟机提供了一些用于直接操作操作数栈指令,包括:

将操作数栈栈顶的一个或两个元素出栈:pop、pop2.

复制操作数栈栈顶的一个或两个值并将复制值或双份数值值重新压入栈顶:dup、dup2、dup_x1、dup2_x1、dup_x2、dup2_x2。

将栈最顶端的两个数互换:swap。

6.4.7控制转移指令

控制转移指令可以让Java虚拟机有条件或无条件的从指定的位置指令而不是控制转移指令的下一条指令继续执行程序,从概念模型上理解,可以认为控制转移指令就是有条件或无条件的修改PC寄存器的值。控制转移指令如下。

条件分支:ifeq、iflt、ifle、ifne、ifgt、ifge、ifnull、ifnonnull、if_icmpeq、if_icmpne、if_icmplt、if_icmpgt、if_icmple、if_icmpge、if_acmpeq、if_acmpne。

复合条件分支:tableswitch、lookupswitch。

无条件分支:goto、goto_w、jsr、jsr_w、ret。

在Java虚拟机中有专门的指令集用来处理int和reference类型的条件分支比较操作,为了可以无须明显标识一个实体值是否为null,也有专门的指令来检测null值。

与前面算术运算时的规则一致,对于boolean类型、byte类型、char类型、short类型的条件分支比较操作,都是使用int类型的比较指令来完成,而对于long类型、float类型和double类型的条件分支比较操作,则会执行相应类型的比较运算指令(dcmpg、dcmpl、fcmpg、fcmpl、lcmpl),运算指令会返回一个整型值到操作数栈中,随后再执行int类型的条件分支比较操作来完成整个分支跳转。由于各种类型的比较都会转换为int类型的比较int类型比较是否方便完善就显得尤为重要,所以Java虚拟机提供的int类型的条件分支指令是最为丰富和强大的。

6.4.8方法调用和返回指令

这里列举以下5条用于方法调用的指令。

invokevirtual指令用于调用对象的实例方法,根据对象的实际类型进行分派(虚方法分派),这也是Java语言最常用的方法分派方式。

invokeinterface指令用于调用接口方法,它会在运行时搜索一个实现了该接口方法的对象,找出适合的方法进行调用。

invokespecial用于调用一些需要进行特殊处理的实例方法,包括实例初始化方法、私有方法和父类方法。

invokestatic指令用于调用类方法(static方法)。

invokedynamic指令用于在运行时动态解析出调用点限定符所引用的方法,并执行该方法,前面4条指令的分派逻辑都固化在了Java虚拟机内部,而invokedynamic指令的分派逻辑是由用户所设定的引导方法决定的。

方法调用指令与数据类型无关,而方法返回指令是根据返回值进行区分的,包括ireturn(当返回值是boolean、byte、char、short、int类型时使用)、lreturn、freturn、dreturn、areturn,另外还有一条return指令供声明为void的方法、实例初始化方法以及类和接口的类初始化方法使用。

6.4.9异常处理指令

在Java程序中显式抛出异常的操作(throw语句)都由athrow指令实现,除了用throw语句显式抛出异常外,Java虚拟机规范还规定了许多运行时异常会在其他Java虚拟机指令检测到异常状况时自动抛出。例如,在前面介绍的整数运算中,当除数为零时,虚拟机会在idiv或ldiv指令中抛出ArithmeticException异常。

而在Java虚拟机中,处理异常(catch语句)不是由字节码指令来实现的,而是采用异常表来实现的。

6.4.10同步指令

Java虚拟机可以支持方法级的同步和方法内部一段指令序列的同步,这两种同步都是使用管程来实现的。

方法级的同步是隐式的,即无须通过字节码指令来控制,它实现在方法调用和方法返回之中。虚拟机可以从方法常量池的方法表结构中的ACC_SYNCHRONIZED访问标志得知一个方法是否声明为同步方法。当方法调用时,调用指令将会检查方法的ACC_SYNCHRONIZED访问标志是否被设置,如果设置了,执行线程就要求先成功持有管程,然后才能执行方法,最后当方法完成(无论是正常完成还是非正常完成)时释放管程。在方法执行期间,执行线程持有了管程,其他任何线程都无法再获取同一管程。如果一个同步方法执行期间抛出了异常,并且在方法内部无法处理此异常,那么这个方法所持有的管程在异常抛到同步方法之外时自动释放。

同步一段指令集序列通常是由Java语言中的synchronized语句块来表示的,Java虚拟机的指令集中有monitorenter和monitorexit两条指令来支持synchronized关键字的语义,正确实现synchronized关键字需要Javac编译器与Java虚拟机两者共同协作支持,比如下面的代码。

void onlyMe(){synchronized(this){m++;}}

编译后,这段代码生成的字节码序列如下:

 void onlyMe();    flags:    Code:      stack=3, locals=2, args_size=1         0: aload_0         1: dup         2: astore_1         3: monitorenter                    //以栈顶元素this作为锁,开始同步         4: aload_0         5: dup         6: getfield      #18                 // Field m:I         9: iconst_1        10: iadd        11: putfield      #18                 // Field m:I        14: aload_1        15: monitorexit  //退出同步        16: goto          22        19: aload_1        20: monitorexit                     //退出同步        21: athrow        22: return                         //方法正常返回      Exception table:                      //异常表         from    to  target type             4    16    19   any            19    21    19   any      LineNumberTable:        line 9: 0        line 10: 4        line 9: 14        line 12: 22      LocalVariableTable:        Start  Length  Slot  Name   Signature               0      23     0  this   Lorg/fenixsoft/clazz/TestClass;      StackMapTable: number_of_entries = 2           frame_type = 255 /* full_frame */          offset_delta = 19          locals = [ class org/fenixsoft/clazz/TestClass, class org/fenixsoft/clazz/TestClass ]          stack = [ class java/lang/Throwable ]           frame_type = 250 /* chop */          offset_delta = 2}

编译器必须确保无论方法通过何种方式完成,方法中调用过的每一条monitorenter指令都必须执行其对应的monitorexit指令,而不论这个方法是正常结束还是异常结束。

从上面代码的字节码序列中可以看出,为了保证在方法异常完成时monitorenter和monitorexit指令依然可以正确配对执行,编译器会自动产生一个异常处理器,这个异常处理器声明可处理所有的异常,它的目的就是用来执行monitorexit指令。

6.5公有设计和私有实现

Java虚拟机规范描绘了Java虚拟机应有的共同程序存储格式:Class文件格式以及字节码指令集。这些内容与硬件、操作系统以及具体的Java虚拟机之间是完全独立的,虚拟机实现者可能更愿意把它们看做是程序在各种Java平台实现之间互相安全地交互的手段。

理解公有设计和私有实现之间的界限是非常有必要的,Java虚拟机实现必须能够读取Class文件并精确实现包含在其中的Java虚拟机代码的语义。拿着虚拟机规范一成不变的逐字实现其中的要求的内容当然是一种可行的途径,但一个优秀的虚拟机实现,在满足虚拟机规范的约束下对具体实现做出修改和优化也是完全可行的,并且虚拟机规范中明确鼓励实现者这样做。只要优化后Class文件可以被正确读取,并且包含在其中的语义能得到完整的保持,那实现者就可以选择任何方式去实现这些语义,虚拟机后台如何处理Class文件完全是实现者自己的事情,只要它在外部接口上看起来与规范描述的一致即可。

虚拟机实现者可以使用这种伸缩性来让Java虚拟机获取到更高的性能、更低的内存消耗或者更好的可移植性,选择哪种特性取决于Java虚拟机实现的目标和关注点是什么。虚拟机实现的方式主要有以下两种:

将输入的Java虚拟机代码在加载或执行时翻译成另外一种虚拟机的指令集。

将输入的Java虚拟机代码在加载或执行时翻译成宿主机CPU的本地指令集(即JIT代码生成技术)。

精确定义的虚拟机和目标文件格式不应当对虚拟机实现者的创造性产生太多的限制,Java虚拟机应被设计成允许有众多不同的实现,并且各种实现可以在保持兼容性的同时提供不同的、新的、有趣的解决方案。

6.6Class文件结构的发展

Class文件结构自Java虚拟机规范第1版订立以来,已经有十多年的历史。在十多年间,Java技术有着翻天覆地的变化,JDK版本号从1.0提升到1.7。相对于语言、API以及Java技术体系中其他方面的变化,Class文件结构一直处于比较稳定的状态,Class文件的主体结构、字节码指令的语义和数量几乎没有出现过变动,所有对Class文件格式的改进,都集中在向访问标志、属性表这些在设计上就是可扩展的数据结构中添加内容。

如果以《Java虚拟机规范(第2版)》为基准进行比较的话,那么在后续Class文件格式的发展过程中,访问标志里新加入的ACC_SYNTHETIC、ACC_ANNOTATION、ACC_ENUM、ACC_BRIDGE、ACC_VARARGS共5个标志。而属性表集合中,在JDK1.5到JDK1.7版本之间一共增加了12项新属性,这些属性大部分用于支持Java中许多新出现的语言特性,比如枚举、变长参数、泛型、动态注解等。还有一些是为了支持性能改进和调试信息,比如JDK1.6的新类型校验器的StackMapTable属性和对非Java代码调试中用到的SourceDebugExtension属性。

Class文件格式所具备的平台中立(不依赖特定硬件及操作系统)、紧凑、稳定和可扩展的特点,是Java技术体系实现平台无关、语言无关两项特性的重要支柱。
原创粉丝点击