深入java虚拟机(一)——java虚拟机底层结构详解

来源:互联网 发布:c语言专家电子书 编辑:程序博客网 时间:2024/05/22 04:46


Java虚拟机

Java虚拟机(Java Virtual Machine) 简称JVM Java虚拟机是一个想象中的机器,在实际的计算机上通过软件模拟来实现。Java虚拟机有自己想象中的硬件,如处理器、堆栈、寄存器等,还具有相应的指令系统。下面我们就来看一下这几部分比较重要的java虚拟机的结构

JVM寄存器

所有的CPU均包含用于保存系统状态和处理器所需信息的寄存器组。如果虚拟机定义义较多的寄存器,便可以从中得到更多的信息而不必对栈或内存进行访问,这有利于提高运行速度。然而,如果虚拟机中的寄存器比实际CPU的寄存器多,在实现虚拟机时就会占用处理器大量的时间来用常规存储器模拟寄存器,这反而会降低虚拟机的效率。针对这种情况,JVM只设置了4个最为常用的寄存器。它们是:pc程序计数器optop操作数栈顶指针 ,frame当前执行环境指针, vars指向当前执行环境中第一个局部变量的指针, 所有寄存器均为32位。pc用于记录程序的执行optop,frame和vars用于记录指向Java栈区的指针

JVM栈结构

作为基于栈结构的计算机,Java栈是JVM存储信息的主要方法。当JVM得到一个java字节码应用程序后,便为该代码中一个类的每一个方法创建一个栈框架(java类中的每一个方法都对应一个栈框架,以保存该方法的状态信息。每个栈框架包括以下三类信息:(局部变量、执行环境、操作数栈)。 局部变量用于存储一个类的方法中所用到的局部变量。vars寄存器指向该变量表中的第一个局部变量。执行环境用于保存解释器对Java字节码进行解释过程中所需的信息。它们是:上次调用的方法、局部变量指针和操作数栈的栈顶和栈底指针。执行环境是一个执行一个方法的控制中心。例如:如果解释器要执行iadd(整数加法),首先要从frame寄存器中找到当前执行环境,而后便从执行环境中找到操作数栈,从栈顶弹出两个整数进行加法运算,最后将结果压入栈顶。  操作数栈用于存储运算所需操作数及运算的结果

JVM碎片回收堆

Java类的实例所需的存储空间是在堆上分配的。解释器具体承担为类实例分配空间的工作。解释器在为一个实例分配完存储空间后,便开始记录对该实例所占用的内存区域的使用。一旦对象使用完毕,便将其回收到堆中。在Java语言中,只有new语句为一对象申请和释放内存。对内存进行释放和回收的工作是由Java运行系统承担的。这允许Java运行系统的设计者自己决定碎片回收的方法。在SUN公司开发的Java解释器和Hot Java环境中,碎片回收用后台线程的方式来执行。这不但为运行系统提供了良好的性能,而且使程序设计人员摆脱了自己控制内存使用的风险。

JVM存储区

  JVM有两类存储区:常量缓冲池和方法区常量缓冲池用于存储类名称、方法和字段名称以及串常量方法区则用于存储Java方法的字节码。对于这两种存储区域具体实现方式在JVM规格中没有明确规定。这使得Java应用程序的存储布局必须在运行过程中确定,依赖于具体平台的实现方式。JVM是为Java字节码定义的一种独立于具体平台的规格描述,是Java平台独立性的基础。目前的JVM还存在一些限制和不足,有待于进一步的完善,但无论如何,JVM的思想是成功的。对比分析:如果把Java原程序想象成我们的C++原程序,Java原程序编译后生成的字节码就相当于C++原程序编译后的80x86的机器码(二进制程序文件),JVM虚拟机相当于80x86计算机系统,Java解释器相当于80x86CPU。在80x86CPU上运行的是机器码,在Java解释器上运行的是Java字节码。  Java解释器相当于运行Java字节码的“CPU”,但该“CPU”不是通过硬件实现的,而是用软件实现的。Java解释器实际上就是特定的平台下的一个应用程序只要实现了特定平台下的解释器程序,Java字节码就能通过解释器程序在该平台下运行,这是Java跨平台的根本。当前,并不是在所有的平台下都有相应Java解释器程序,这也是Java并不能在所有的平台下都能运行的原因,它只能在已实现了Java解释器程序的平台下运行。

 

Java虚拟机的体系结构图

                                                                 

                                                                                      

               

从上图可以看到,JVM管理的内存区域主要分为以下几部分:

      1、方法区(Method Area):所有线程共享;用于存储虚拟机加载的类信息、常量、静态变量、即时编译器编译的代码等。这个区域的数据是比较固定的,可认为是"永久代"(Permanent Generation)。运行时常量池(Runtime Constant Pool):方法区的一部分,用于存放编译期生成的各种字面量和符号引用。
      2、Java 堆(Heap):虚拟机管理内存最大的一块,被所有线程共享,存放对象实例垃圾收集器主要管理JAVA 堆
      3、Java栈(JVM Stacks):线程私有、生命周期与线程相同。主要作用是描述JAVA方法执行的过程:方法被执行时会创建一个栈帧(stack frame),用于存放方法执行时的局部变量、操作栈、动态链接、方法出口等信息。方法从调用到执行完成的过程,就是一个栈帧在虚拟机栈的入栈、出栈过程。
      4、PC寄存器(Program Counter Register):占用较小的内存空间,是当前线程执行的字节码的行号指示器。每个线程都会有独立的程序计数器。存放的是字节码指令的地址。
      5、本地方法栈(Native Method Stack):作用与JAVA栈类似,区别在于用于执行本地方法

Java虚拟机从启动到结束的生命周期,当java虚拟机启动后,在如下几种情况下,Java虚拟机将结束生命周期

               1.执行了System.exit()方法 

               2.程序正常执行结束 

               3.程序在执行过程中遇到了异常或错误而异常终止

               4.由于操作系统出现错误而导致Java虚拟机进程终止 

Java栈有三个区域:局部变量区、运行环境区、操作数区。


局部变量区

每个Java方法使用一个固定大小的局部变量集。它们按照与vars寄存器的字偏移量来寻址。局部变量都是32位的。长整数和双精度浮点数占据了两个局部变量的空间,却按照第一个局部变量的索引来寻址。(例如,一个具有索引n的局部变量,如果是一个双精度浮点数,那么它实际占据了索引n和n+1所代表的存储空间)虚拟机规范并不要求在局部变量中的64位的值是64位对齐的。虚拟机提供了把局部变量中的值装载到操作数栈的指令,也提供了把操作数栈中的值写入局部变量的指令。

运行环境区

在运行环境中包含的信息用于动态链接,正常的方法返回以及异常捕捉。

操作数栈区

机器指令只从操作数栈中取操作数,对它们进行操作,并把结果返回到栈中。选择栈结构的原因是:在只有少量寄存器或非通用寄存器的机器(如Intel486)上,也能够高效地模拟虚拟机的行为。操作数栈是32位的。它用于给方法传递参数,并从方法接收结果,也用于支持操作的参数,并保存操作的结果。例如,iadd指令将两个整数相加。相加的两个整数应该是操作数栈顶的两个字。这两个字是由先前的指令压进堆栈的。这两个整数将从堆栈弹出、相加,并把结果压回到操作数栈中。

每个原始数据类型都有专门的指令对它们进行必须的操作。每个操作数在栈中需要一个存储位置,除了long和double型,它们需要两个位置。操作数只能被适用于其类型的操作符所操作。例如,压入两个int类型的数,如果把它们当作是一个long类型的数则是非法的。在Sun的虚拟机实现中,这个限制由字节码验证器强制实行。但是,有少数操作(操作符dupe和swap),用于对运行时数据区进行操作时是不考虑类型的。

本地方法栈,当一个线程调用本地方法时,它就不再受到虚拟机关于结构和安全限制方面的约束,它既可以访问虚拟机的运行期数据区,也可以使用本地处理器以及任何类型的栈。例如,本地栈是一个C语言的栈,那么当C程序调用C函数时,函数的参数以某种顺序被压入栈,结果则返回给调用函数。在实现Java虚拟机时,本地方法接口使用的是C语言的模型栈,那么它的本地方法栈的调度与使用则完全与C语言的栈相同。


下图可以表示出来java程序运行的一个全过程

                                            

3  Java虚拟机的运行过程

上面对虚拟机的各个部分进行了比较详细的说明,下面通过一个具体的例子来分析它的运行过程。

虚拟机通过调用某个指定类的方法main启动,传递给main一个字符串数组参数,使指定的类被装载,同时链接该类所使用的其它的类型,并且初始化它们。例如对于程序:

class HelloApp 

{

    public static void main(String[] args) 

    {

        System.out.println("Hello World!"); 

        for (int i = 0; i < args.length; i++ )

        {

            System.out.println(args[i]);

        }

    }

}

编译后在命令行模式下键入: java HelloApp run virtual machine

将通过调用HelloApp的方法main来启动java虚拟机,传递给main一个包含三个字符串"run"、"virtual"、"machine"的数组。现在我们略述虚拟机在执行HelloApp时可能采取的步骤。

 开始试图执行类HelloApp的main方法,发现该类并没有被装载,也就是说虚拟机当前不包含该类的二进制代表,于是虚拟机使用ClassLoader试图寻找这样的二进制代表。如果这个进程失败,则抛出一个异常。类被装载后同时在main方法被调用之前,必须对类HelloApp与其它类型进行链接然后初始化。链接包含三个阶段:检验,准备和解析。检验检查被装载的主类的符号和语义,准备则创建类或接口的静态域以及把这些域初始化为标准的默认值,解析负责检查主类对其它类或接口的符号引用,在这一步它是可选的。类的初始化是对类中声明的静态初始化函数和静态域的初始化构造方法的执行一个类在初始化之前它的父类必须被初始化。整个过程如下:

                                       


JVM内存组成及分配:

 

java内存组成介绍:堆(Heap)和非堆(Non-heap)内存

       按照官方的说法:“Java 虚拟机具有一个堆,堆是运行时数据区域,所有类实例和数组的内存均从此处分配。堆是在 Java 虚拟机启动时创建的。”“在JVM中堆之外的内存称为非堆内存(Non-heap memory)”。可以看出JVM主要管理两种类型的内存:堆和非堆。简单来说堆就是Java代码可及的内存,是留给开发人员使用的;非堆就是JVM留给 自己用的,所以方法区、JVM内部处理或优化所需的内存(如JIT编译后的代码缓存)、每个类结构(如运行时常数池、字段和方法数据)以及方法和构造方法 的代码都在非堆内存中。

组成图

  • 方法栈&本地方法栈:
    线程创建时产生,方法执行时生成栈帧
  • 方法区
    存储类的元数据信息 常量等

  • java代码中所有的new操作
  • native Memory(C heap)
    Direct Bytebuffer JNI Compile GC;

 

堆内存分配

       JVM初始分配的内存由-Xms指定,默认是物理内存的1/64;JVM最大分配的内存由-Xmx指 定,默认是物理内存的1/4。默认空余堆内存小于40%时,JVM就会增大堆直到-Xmx的最大限制;空余堆内存大于70%时,JVM会减少堆直到 -Xms的最小限制。因此服务器一般设置-Xms、-Xmx相等以避免在每次GC 后调整堆的大小。对象的堆内存由称为垃圾回收器的自动内存管理系统回收。

 

组成详解Young Generation即图中的Eden + From Space + To Space

Eden

存放新生的对象

Survivor Space

有两个,存放每次垃圾回收后存活的对象Old GenerationTenured Generation 即图中的Old Space
主要存放应用程序中生命周期长的存活对象

    以前老的sun公司的jvm堆中还有一个持久代(permanent generation),但是IBM公司的JVM没有此概念,且Oracle公司最新的JVM已经取消掉了持久代(permanent generation)在堆内存的概念。参考资料见:http://rednaxelafx.iteye.com/blog/905273

 

      非堆内存分配
      JVM使用-XX:PermSize设置非堆内存初始值,默认是物理内存的1/64;由XX:MaxPermSize设置最大非堆内存的大小,默认是物理内存的1/4。

组成 详解Permanent Generation保存虚拟机自己的静态(refective)数据
主要存放加载的Class类级别静态对象如class本身,method,field等等
permanent generation空间不足会引发full GC(详见
HotSpot VM GC种类)Code Cache用于编译和保存本地代码(native code)的内存
JVM内部处理或优化

      JVM内存限制(最大值)

      JVM内存的最大值跟操作系统有很大的关系。简单的说就32位处理器虽然 可控内存空间有4GB,但是具体的操作系统会给一个限制,这个限制一般是2GB-3GB(一般来说Windows系统下为1.5G-2G,Linux系统 下为2G-3G),而64bit以上的处理器就不会有限制了。

来看一些关于JVM结构的重要问题。

1.哪些区域是共享的?哪些是私有的?

Java栈、本地方法栈、PC寄存器是随用户线程的启动和结束而建立和销毁的,
每个线程都有独立的这些区域。而方法区、堆被整个JVM进程中的所有线程共享的

2.方法区保存什么?会被回收吗?

方法区不是只保存的方法信息和代码,同时在一块叫做运行时常量池的子区域还
保存了Class文件中常量表中的各种符号引用,以及翻译出来的直接引用。通过堆中
的一个Class对象作为接口来访问这些信息。

虽然方法区中保存的是类型信息,但是也是会被回收的,只不过回收的条件比较苛刻:

(1)该类的所有实例都已经被回收

(2)加载该类的ClassLoader已经被回收

(3)该类的Class对象没有在任何地方被引用(包括Class.forName反射访问)


3.方法区中常量池的内容不变吗?

方法区中的运行时常量池保存了Class文件中静态常量池中的数据。除了存放这些编译时
生成的各种字面量和符号引用外,还包含了翻译出来的直接引用。但这不代表运行时常量池
就不会改变。比如运行时可以调用String的intern方法,将新的字符串常量放入池中

Java代码  收藏代码
  1. package com.cdai.jvm;  
  2.   
  3. public class RuntimeConstantPool {  
  4.   
  5.     public static void main(String[] args) {  
  6.   
  7.         String s1 = new String("hello");  
  8.         String s2 = new String("hello");  
  9.         System.out.println("Before intern, s1 == s2: " + (s1 == s2));  
  10.           
  11.         s1 = s1.intern();  
  12.         s2 = s2.intern();  
  13.         System.out.println("After intern, s1 == s2: " + (s1 == s2));  
  14.           
  15.     }  
  16.   
  17. }  


4.所有的对象实例都在堆上分配吗?

随着逃逸分析技术的逐渐成熟,栈上分配、标量替换优化技术使得“所有对象都分配
在堆上”也变得不那么绝对。

所谓逃逸就是当一个对象的指针被多个方法或线程引用时,我们称这个指针发生逃逸。
一般来说,Java对象是在堆里分配的,在栈中只保存了对象的指针。假设一个局部变量
在方法执行期间未发生逃逸(暴露给方法外),则直接在栈里分配,之后继续在调用栈
里执行,方法执行结束后栈空间被回收,局部变量就也被回收了。这样就减少了大量临时
对象在堆中分配,提高了GC回收的效率。

另外,逃逸分析也会对未发生逃逸的局部变量进行锁省略,将该变量上拥有的锁省略掉。
启用逃逸分析的方法时加上JVM启动参数:-XX:+DoEscapeAnalysis?EscapeAnalysisTest。


5.访问堆上的对象有几种方式?

(1)指针直接访问

栈上的引用保存的就是指向堆上对象的指针,一次就可以定位对象,访问速度比较快。
但是当对象在堆中被移动时(垃圾回收时会经常移动各个对象),栈上的指针变量的值
也需要改变。目前JVM HotSpot采用的是(指针直接访问)



(2)句柄间接访问

栈上的引用指向的是句柄池中的一个句柄,通过这个句柄中的值再访问对象。因此句柄
就像二级指针,需要两次定位才能访问到对象,速度比直接指针定位要慢一些,但是当
对象在堆中的位置移动时,不需要改变栈上引用的值。


原创粉丝点击