《深入理解Java虚拟机》——字节码指令简介

来源：互联网发布：华为网络管理系统编辑：程序博客网时间：2024/05/23 17:04

Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字(称为操作码，Opcode)以及跟随其后的零至多个代表此操作所需参数(称为操作数，Operands)而构成。由于Java虚拟机采用面向操作数栈而不是寄存器的架构，所以大多数的指令都不包含操作数，只有一个操作码。

字节码指令集是一种具有鲜明特点、优劣势都很突出的指令集架构，由于限制了Java虚拟机操作码的长度为一个字节(即0~255)，这意味着指令集的操作码总数不可能超过256条，又由于Class文件格式放弃了编译后代码的操作数长度对齐，这就意味着虚拟机处理那些超过一个字节数据的时候，不得不在运行时从字节中重建出具体数据的结构，如果要将一个16位长度的无符号整数使用两个无符号字节存储起来(将它们命名为byte1和byte2)，那它们的值应该是这样的：
(byte1<<8)|byte2

这种操作在某种程度上会导致解释执行字节码时损失一些性能。但这样做的优势也非常明显，放弃了操作数长度对齐，就意味着可以省略很多填充和间隔符号；用一个字节来代表操作码，也是为了尽可能获得短小精干的编译代码。

如果不考虑异常处理的话，那么Java虚拟机的解释器可以使用下面这个伪代码当做最基本的执行模型来理解，这个执行模型虽然很简单，但依然可以有效地工作：
do｛

自动计算PC寄存器的值加１;

根据PC寄存器的指示位置，从字节码流中取出操作码;

if(字节码存在操作数)　从字节码流中取出操作数；

执行操作码所定义的操作；

｝while(字节码流长度>0);

字节码与数据类型

在Java虚拟机的指令集中，大多数的指令都包含了其操作所对应的数据类型信息。例如：iload指令用于从局部变量表中加载int型的数据到操作数栈中，而fload指令加载的则是float类型的数据。这两条指令的操作在虚拟机内部可能会是由同一段代码来实现的，但在Class文件中它们必须拥有各自独立的操作码。对于大部分与数据类型相关的字节码指令，它们的操作码助记符中都有特殊的字符来表明专门为哪种数据类型服务：i代表对int类型的数据操作，ｌ代表long，s代表short，b代表byte，c代表char，f代表float，d代表double，a代表reference。注意并不是所有的字节码指令都有数据类型相关，比goto无条件跳转指令就与数据类型无关。这里需要注意的是，并非每种数据类型和每一种操作都有对应的指令。这是因为Java虚拟机的操作码长度只有一个字节，如果每一种与数据类型相关的指令都支持Java虚拟机所有运行时数据类型的话，那指令的数量就会超出一个字节所能表示的数量范围，所以Java虚拟机的指令集对于特定的操作只提供了有限的类型相关指令去支持它。

大部分的指令都没有支持整数类型byte、char和short，甚至没有任何指令支持boolean类型。编译器会在编译期或运行期将byte和short类型的数据带符号扩展为相应的int类型数据。与之类似，在处理boolean、byte、short和char类型的数组时，也会转换为使用对应的int类型的字节码指令来处理。因此，大多数对于boolean、byte、short和char类型数据的操作，实际上都是使用相应的int类型作为运算类型。

字节码指令按照用途大致可以分为９类：加载和存储指令、运算指令、类型转换指令、对象创建与访问指令、操作数栈管理指令、控制转移指令、方法调用和返回指令、异常处理指令、同步指令。

加载和存储指令

加载和存储指令用于将数据在栈帧中的局部变量表和操作数栈之间来回传输，这类指令包括如下内容：

1.将一个局部变量加载到操作栈：iload、iload_<n>、lload、lload_<n>、fload、fload_<n>、dload、dload_<n>、aload、aload_<n>。

2.将一个数值从操作数栈存储到局部变量表：istore、istore_<n>、lstore、lstore_<n>、fstore、fstore_<n>、dstore、dstore_<n>、astore、astore_<n>。

3.将一个常量加载到操作数栈：bipush、sipush、ldc、ldc_w、ldc2_w、aconst_null、iconst_m1、iconst_<i>、lconst_<l>、fconst_<f>、dconst_<d>。

4.扩充局部变量表的访问索引的指令：wide。

存储数据的操作数栈和局部变量表主要就是由加载和存储指令进行操作，除此之外，还有少量指令，如访问对象的字段或数组元素的指令也会向操作数栈传输数据。

运算指令

运算或算术指令用于对两个操作数栈上的值进行某种特定运算，并把结果重新存入到操作栈顶。大体上算术指令可以分为两种：对整型数据进行运算的指令与对浮点型数据进行运算的指令，无论是哪种算术指令，都使用Java虚拟机的数据类型，由于没有直接支持byte、short、char和boolean类型的算术指令，对于这类数据的运算，应使用操作int类型的指令代替。整数与浮点数的算术指令在溢出和被零除的时候也有各自不同的行为表现，所有的算法指令如下：

1.加法指令:iadd、ladd、fadd、dadd。

2.减法指令:isub、lsub、fsub、dsub。

3.乘法指令:imul、lmul、fmul、dmul。

4.除法指令:idiv、ldiv、fdiv、ddiv。

5.求余指令:irem、lrem、frem、drem。

6.取反指令：ineg、lneg、fneg、dneg。

7.位移指令：ishl、ishr、iushr、lshl、lshr、lushr。

8.按位或指令:ior、lor。

9.按位与指令：iand、land。

10.按位异或指令：ixor、lxor。

11.局部变量自增指令：iinc。

12.比较指令：dcmpg、dcmpl、fcmpg、fcmpl、lcmp。

类型转换指令

类型转换指令可以将两种不同的数值类型进行相互转换，这些转换操作一般用于实现用户代码中的显示类型转换操作，或者用来处理字节码指令中数据类型相关指令无法与数据类型一一对应的问题。

Java虚拟机直接支持（即转换时无需显式的转换指令）以下数值类型的宽化类型转换(即小范围类型向大范围类型的安全转换)：

int类型是long、float或者double类型

long类型到float、double类型

float类型到double类型

相对的，处理窄化类型转换时，必须显式地使用转换指令来完成，这些转换指令包括：i2b、i2c、i2s、l2i、f2i、f2l、d2i、d2l和d2f。窄化类型转换可能会导致转换结构产生不同的正负号，不同的数量级的情况，转换过程很可能会导致数值的精度丢失。在将int或long类型窄化转换为整数类型T的时候，转换过程仅仅是简单地丢弃除最低位N个字节以外的内容，N是类型T的数据类型长度，这将可能导致转换结果与输入值有不同的正负号。这点很容易理解，因为原来符号位处于数值的最高位，高位被丢弃之后，转换结果的符号就取决于低N个字节的首位了。

在将一个浮点值窄化为整数类型T(T限于int或long类型之一)的时候,将遵循以下转换规则：

如果浮点值是NaN，那转换结果就是int或long类型的0

如果浮点值不是无穷大的话，浮点值使用IEEE 754的向零舍入模式取整，获得整数值ｖ,如果v在目标类型T(int　或long)的表示范围之内，那转换结果就是v.

否则，将根据v的符号，转换为T所能表示的最大或最小正数。

对象创建与访问指令

虽然类实例和数组都是对象，但Java虚拟机对类实例和数组的创建与操作使用了不同的字节码指令。对象创建后，就可以通过对象访问指令获取对象实例或者数组实例中的字段或者数组元素，这些指令如下：
创建类实例的指令：new。

创建数组的指令：newarray、anewarray、multianewarray。

访问类字段(static字段，或者称为类变量)和实例字段(非static字段，或者称为实例变量)的指令：getstatic、putstatic、getfield、putfield。

把一个数组元素加载到操作数栈的指令：baload、caload、saload、iaload、laload、faload、daload、aaload。

将一个操作数栈的值存储到数组元素中的指令：bastore、castore、sastore、iastore、fastore、dastore、aastore。

取数组长度的指令：arraylength。

检查类实例类型的指令：instanceof、checkcast。

操作数栈管理指令

如同操作一个普通数据结构中的堆栈那样，Java虚拟机提供了一些用于直接操作操作数栈的指令，包括：

将操作数栈的栈顶一个或两个元素出栈：pop、pop2。

复制栈顶一个或两个数值并将复制值或双份的复制值重新压入栈顶：dup、dup2、dup_x1、dup2_x1、dup_x2、dup2_x2.

将栈最顶端的两个数值互换:swap。

控制转移指令

控制转移指令可以让Java虚拟机有条件或无条件地从指定的位置指令而不是控制转移指令的下一条指令继续执行程序，从概念模型上理解，可以认为控制转移指令就是在有条件或无条件地修改PC寄存器的值。控制转移指令如下：
条件分支：ifeq、iflt、ifle、ifne、ifgt、ifge、ifnull、ifnonnull、if_icmpeq、if_icmpne、if_icmplt、if_icmpgt、if_icmple、if_icmpge、if_acmpeq和if_acmpne。

复合条件分支：tableswitch、lookupswitch。

无条件分支：goto、goto_w、jsr、jsr_w、ret。

在Java虚拟机中有专门的指令集用来处理int和reference类型的条件分支比较操作，为了可以无须明显标识一个实体值是否null，也有专门的指令用来检测null值。

方法调用和返回指令

invokevirtual:用于调用对象的实例方法，根据对象的实际类型进行分派(虚方法分派)，这也是Java语言中最常见的方法分派方式。

invokeinterface:用于调用接口方法，它会在运行时搜索一个实现了这个接口方法的对象，找出适合的方法进行调用。

invokespecial：用于调用一些需要特殊处理的实例方法，包括实例初始化方法、私有方法和父类方法。

invokestatic:用于调用类方法(static 方法)

invokedynamic：用于在运行时动态解析出调用点限定符所引用的方法，并执行该方法，前面４条调用指令的分派逻辑都固化在Java虚拟机内部，而invokedynamic指令的分派逻辑是由用户所设定的引导方法决定的。

方法调用指令与数据类型无关，而方法返回指令是根据返回值的类型区分的，包括ireturn（当返回值是boolean、byte、char、short和int类型时使用）、lreturn、freturn、dreturn和areturn，另外还有一条return指令供声明为void的方法，实例初始化方法以及类和接口的类初始化方法使用。

异常处理指令

在Java程序中显示抛出异常的操作（throw语句）都由athrow指令来实现，除了用throw语句显示抛出异常情况之外，Java虚拟机规范还规定了许多运行时异常会在其他Java虚拟机指令检测到异常状况时自动抛出。而在Java虚拟机中，处理异常(catch语句)不是由字节码指令来实现的，而是采用异常表来完成的。

同步指令

Java虚拟机可以支持方法级的同步和方法内部一段指令序列的同步，这两种同步结构都是使用管程(Monitor)来支持的。

方法级的同步是隐式的，即无须通过字节码指令来控制，它实现在方法调用和返回操作之中。虚拟机可以从方法常量池的方法表结构中的ACC_SYNCHRONIZED访问标志得知一个方法是否声明为同步方法。当方法调用时，调用指令将会检查方法的ACC_SYNCHRONIZED访问标志是否被设置，如果设置了，执行线程就要求先成功持有管程，然后才能执行方法，最后当方法完成（无论是正常完成还是非正常完成）时释放管程。在方法执行期间，执行线程持有了管程，其他任何线程都无法再获取到同一个管程。如果一个同步方法执行期间抛出了异常,并且在方法内部无法处理此异常，那么这个同步方法所持有的管程将在异常抛到同步方法之外自动释放。

同步一段指令集序列通常是由Java语言中的synchronized语句块来表示，Java虚拟机的指令集中有monitorenter和monitorexit两条指令来支持synchronized关键字的语义，正确实现synchronized关键字需要Javac编译器与Java虚拟机两者共同协作支持。

字节码指令的内容大概就这么多，但是想要真正的熟练掌握字节码指令，还是需要多多阅读字节码代码。下面我们来一起阅读一下之前文章中的inc方法中的指令：

public int inc(){return m+1;}

public int inc();    flags: ACC_PUBLIC    Code:      stack=2, locals=1, args_size=1         0: aload_0                1: getfield      #18                 // Field m:I         4: iconst_1               5: iadd                   6: ireturn             LineNumberTable:        line 6: 0      LocalVariableTable:        Start  Length  Slot  Name   Signature               0       7     0  this   Lcom/general/class_structure/TestClass;

inc方法的方法体所对应的字节码指令为：aload_0 、getfield、iconst_1、iadd、ireturn

这５个字节码指令在本篇文章的理论部门都有简单的涉及

aload_0的指令含义是将第一个引用类型本地变量推送至栈顶，这个引用变量就是this。

getfield的指令含义是获取指定类的实例域，并将其值压人栈顶。

iconst_1的指令含义是将int型１推送至栈顶

iadd的指令含义是将栈顶两个int型数值相加并将结果压人栈顶，即m和１。

ireturn的指令含义是从当前方法返回int

注意这里所说的栈是栈帧中的操作数栈。

大家在看完类文件结构的内容以及本篇文章，应该就可以根据虚拟机字节码指令表来解读任何字节码文件中的字节码指令，以及能够表达出这些指令是如何运作的了。下面几张图片来给出虚拟机字节码指令表（对于下面图片的字节码指令的具体含义以及深入理解，还是需要大家去翻看Java虚拟机规范中的指令集描述模块的内容）。