引子
Java虚拟机是Java应用程序的执行环境。通常而言,JVM是由一组严格的指令集和一个复杂的内存模型来具体实现的虚拟机,它用来解释编译好的java字节码文件,将字节码转换为特定机器可以执行的本机代码(native code)。它也可以指代某一软件运行时的进程实例。这里,我们以hotspot实现的JVM为例。
JVM的规则保证任何一款具体实现的JVM都要以完全相同的方式去解释java字节码文件,无论是一个进程,一个独立的java操作系统,抑或是一个直接执行字节码命令的处理器芯片。一般情况下,我们通常讨论的JVM是一个运行在操作系统上的进程。
JVM的架构设计使得它可以精细的控制JAVA应用程序的每一个动作,在没有权限的情况下,应用程序无法去访问本地文件系统,处理器,网络等。例如,在远程操作的情况下,代码需要有签名证书。
除了去解释java字节码,许多软件实现的JVM都有一个JIT编译器用于生成频繁执行的方法机器代码。机器代码是可以直接被cpu解析执行的,所以比字节码速度更快。
你无需去理解JVM的内部,就能编写并运行一个JAVA应用程序。但是,如果你知道了其中的一些原理,就能避免一些性能上的问题。本文以sunspot为例子来说明。
架构
JVM主要有两大子系统:
- 类加载器:负责读取java源文件,并把类加载进内存。
- 执行引擎:负责执行指令。
这里的内存是底层操作系统分配给JVM的,如下所示:
类加载器
JVM应用不同类型的类加载器构造了层次结构:
- bootstrap类加载器,它是其他类加载器的父母,负责加载核心java类库,并且是唯一的一个使用本机代码进行编写的类加载器。
- 扩展类加载器,它是bootstrap类加载器的孩子,负责加载扩展类库。
- 系统类加载器,它是扩展类加载器的的孩子, 负责从classpath中加载类文件。
- 用户自定义类加载器,它是系统类加载器或其他用户自定义类加载器的孩子。
当类加载器收到去加载一个类的请求时,会去检查cache中该类是否已经被加载,然后向其父加载器发出加载请求,如果其父加载器加载失败,那么它就自己进行加载。一个子类加载器可以检查其父类加载器的cache中是否加载了某个类,但是父类加载器无法查看子类cache中的缓存。这样设计的原因是为了防止子类加载器加载那些已经被父类加载器加载过的类。(呼,好绕口。。。)
执行引擎
执行引擎负责执行被加载进内存的字节码指令,为了使计算机能够识别字节码,执行引擎采用了两种方式:
- 解释:执行引擎将字节码解释成机器语言。
- JIT编译:如果一个方法被频繁的执行,执行引擎会把该方法的字节码编译成本机代码存于cache中,于是,所有与该方法相关的指令都无需解释,直接执行。
尽管JIT的编译过程比普通的解释过程要耗时,但是它只需编译一次,对于那些上千次调用的方法来说,直接执行机器代码就比每次都要转换字节码再执行要划算了。
JIT编译器对于JVM而言并非是必须的组件,同时,也不是提升JVM性能的唯一手段。JVM规范只是定义了字节码与机器代码的对应关系,至于如何具体实现,就是不同版本JVM的事情了。
内存模型
JAVA内存模型是建立在内存自动管理机制之上的。当一个对象不在被应用程序引用,垃圾收集器GC就丢弃它并释放内存。这与其他编程语言需要手动释放对象的方式不同。
JVM从操作系统中申请来内存,并分割成如下几个区域:
- 堆:存放对象实例的共享区,GC会来进行扫描。
- 方法区:用于存放类加载器加载进来的字节码,静态变量,常量等等。最近,它被JVM移除,类被当做元数据加载进本机操作系统的内存。
- 栈:存放基本类型变量和类对象实例的引用,线程私有。
将堆根据类实例的生存周期划分为不同区域使得内存管理更加有效,GC无需遍历整个堆。绝大多数对象的生命周期都很短,而那些略长一些的对象所占内存在程序结束之前不大可能被全部回收。
当一个类对象被创建,它会被存于堆的eden池中,当Eden池满时就会触发young GC。首先,GC标记那些已经废弃的对象,然后增加那些仍然存活的对象的"寿命值"(使用经历过垃圾回收次数来表示)。然后进行Eden区+有对象的Survivor区(设为S0区)垃圾回收,把存活的对象用复制算法拷贝到一个空的Survivor(S1)中,此时Eden区被清空,另外一个Survivor S0也为空。下次触发Young GC回收Eden+S1,将存活对象拷贝到S0中。新生代垃圾回收简单、粗暴、高效。足够Old,也拷贝到Old区(每次Young GC都会使Survivor区存活对象值+1,直到阈值)。
若发现Survivor区满了,则将这些对象拷贝到old区或者Survivor没满但某些对象的"寿命值"达到阈值,它们将进入老年期并被放入tenured池中,tenured池也会进行垃圾收集,发生一次 Major GC 至少伴随一次Young GC,一般比JVM在tenured区申请不到内存,会进行Full GC。tenured区使用一般采用Concurrent-Mark–Sweep策略回收内存。
当一个GC运行时,应用程序所有的进程都将停止。Young GC很频繁,但是会很快清理Eden池中的对象。而Major GC由于涉及到大量仍存活的对象,所以比Young GC慢很多。
堆内存是动态的。当堆内存满时,JVM会重新分配内存给它直到最大限度,同时也停止应用程序进程来完成内存分配。
线程
JVM是一个单进程,但是它可以并发多个线程,不同线程执行自己的方法。所有的线程共享着JVM分配到的资源。JVM进程在程序入口(main方法)新开一个线程,其余的线程都来自与此线程,并独立执行。多个线程可以并发地在不同处理器中执行,或者共享同一个处理器。