前言:
首先思考垃圾收集(Garbage Collection,GC)需要完成的三件事情
1)哪些内存需要回收?
2)什么时候回收?
3)如何回收?
再上一个博客中提到了Java内存运行时区域的各个部分,其中程序计数器、虚拟机栈、本地方法栈3个区域会随着线程而生,随线程而灭;栈中的栈帧随着方法的进行有条不紊地执行着出栈和入栈操作。每一个栈帧中分配多少内存基本上是在类结构确定下来时就已知得,因此这几个区域的内存分配回收都具备确定性,在这几个区域就不需要过多的考虑回收的问题,因为在方法结束或线程结束时内存就被回收了。而Java堆和方法区则不一样,一个接口中的实现类需要的内存可能不一样,一个方法中的多个分支需要的内存也可能不一样,我们只有在程序处于运行期间才能知道会创建那些对象,这部分内存的分配和回收都是动态的,垃圾收集器所关注的是这部分内存。
一、对象已死
1.所谓对象已死,其实就是垃圾收集器在对堆进行回收之前需要判断这些对象中哪些还“存活着”,哪些已经“死去”
2.判断算法
1)引用计数法(Reference Counting):许多教科书上判断对象是否存活都是这个算法,但是在主流的Java虚拟机里没有选用这个算法来管理内存,下面来简单介绍一下此算法,其实就是为对象中添加一个引用计数器,每当一个地方引用它时,计数器就加1;当引用失效时,计数器就减1;任何时刻计数器为0的对象就是不可能再被使用的
2)可达性分析算法(Reachability Analysis):在主流的商用程序语言的实现中,都是通过可达性分析法来判定对象是否存活的。这个算法的基本思路就是通过一系列的称为“GC Roots”的对象作为起始点,从这些节点开始向下搜索,搜索所走的路径称为引用链(Reference Chain),当一个对象到GC Roots没有任何引用链相连时,则证明此对象是不可用的
在Java语言中,可作为GC Roots的对象包括:
虚拟机栈(栈帧中的本地变量表)中引用的对象
方法区中常量引用的对象
方法区中类静态属性引用的对象
本地方法栈中JNI(即一般说的Native方法)引用的对象
3.引用
其实无论通过那种算法来判断对象是否已死,判断都与“引用”有关
Java中引用可分为强引用、软引用、弱引用、虚引用四种,这4中引用强度一次降低
1)强引用:程序间普遍存在的,类似“Object obj = new Object()”这类引用,只要强引用还存在,垃圾收集器就永远不会回收掉被引用的对象
2)软引用:用来描述一些还有用但并非必须的对象。对于软引用关联的对象,在系统将要发生内存溢出异常之前,将会把这些对象列进回收范围之中进行第二次回收。如果这次回收还没有足够的内存,才会抛出内存溢出异常
3)弱引用:也是用来描述非必须对象的,但是它的强度比软引用更弱一些,被弱引用关联的对象只能生存到下一次垃圾收集发生之前。当垃圾收集器工作时,无论当前内存是否足够,都会回收掉被弱引用关联的对象
4)虚引用:也成为幽灵引用或者欢迎引用,它是最弱的一种引用关系。一个对象是否具有虚引用的存在,完全不会对其生存时间构成影响,也无法通过虚引用来取得一个对象实例
二、垃圾收集算法
1.标记-清除算法
最基本的收集算法“标记-清除”(Mark-Sweep)算法,算法分为“标记”和“清除”两个阶段:首先标记出所有需要回收的对象,在标记完成后统一回收所有被标记的对象,之所以说它是最基本的收集算法,是因为后续的收集算法都是基于这种思路并对其不足进行改进而得到的。它的主要不足有两个:
一是效率问题,标记和清除效率都不高,二是空间问题,标记清除后会产生大量不连续的内存碎片,空间碎片太多可能会导致以后程序在运行过程中需要分配较大对象时,无法找到足够的连续内存而不得不提前触发另一次垃圾收集动作
执行过程如下图:
2.复制算法
为了解决效率问题,一种称为“复制”(Copying)的收集算法出现了,他将可用内存按容量划分为大小相等的两块,每次只使用其中的一块。当这块的内存用完了,就将还存活这的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。这样使得每次都是对整个半区进行内存回收,内存分配时也就不用考虑内存碎片等复杂情况,只要移动堆顶指针,按顺序分配内存即可,实现简单,运行高效。只是这种算法的代价是将内存缩小为了原来的一半,未免太高了一点。
3.标记-整理算法
复制收集算法在对象存活率较高时就要进行较多的复制操作,效率将会变低。更关键的是如果不想浪费50%的空间就要使用额外的空间进行分配担保(Handle Promotion当空间不够时,需要依赖其他内存),以应对被使用的内存中所有对象都100%存活的极端情况
对于“标记-整理”算法,标记过程仍与“标记-清除”算法一样,但是后续步骤不是直接对可回收对象进行清理,而是让所有的存活对象都向一端移动,然后直接清理掉端边界以外的内存,”标记-整理“算法示意图如下:
4.分代收集算法
当前的商业虚拟机的垃圾收集都是采用“分代收集”(Generational Collection)算法,这种算法并没有什么新的思想,只是根据对象存活周期的不同将内存划分为几块。一般是把堆划分为新生代和老年代,这样就可以根据各个年代的特点采用最适合的收集算法。在新生代中,每次垃圾收集时都发现有大批对象死去,只有少量存活,那就采用复制算法,只需要付出少量存活对象的复制成本就可以完成收集。而老年代中因为对象存活率高、没有额外空间对它进行分配担保,就必须使用“标记-清理”或者“标记-整理”算法来进行回收
三、内存分配与回收策略
对象的内存分配往大方向上讲,就是在堆上分配,对象主要分配在新生代的Eden区上(一种分代布局方式,将新生代内存分为一块较大的Eden空间和两块较小的Survivor空间,这里就不细说了,了解就好),如果启动了本地线程分配缓冲TLAB(Thread Local Allocation Buffer),将按线程优先在TLAB上分配。少数情况下也可能会直接分配在老年代中,分配的规则并不是百分之百固定的,其细节取决于当前使用的是哪一种垃圾收集器组合,还有虚拟机中与内存相关的参数设置
1.对象优先在Eden分配
大多数情况下,对象在新生代Eden区中分配。当Eden区没有足够的空间进行分配时,虚拟机将发起一次新生代垃圾回收(Minor GC:发生在新生代的垃圾收集动作,因为Java对象大多数都具备朝生夕灭的特性,所以Minor GC非常频繁,一般回收速度也比较快。这里也顺带说一下老年代垃圾回收Major GC:经常会伴随至少一次Minor GC,Major GC的速度一般会比Minor GC慢10倍以上)
2.大对象直接进入老年代
所谓大对象,是指需要大量连续内存空间的Java对象,最典型的大对象就是那种很长的字符串和数组。大对象对虚拟机的内存分配来说就是一个坏消息,经常出现大对象容易导致内存还有不少空间时就提前触发垃圾收集以获取足够的连续空间来安置他们
3.长期存活的对象将进入老年代
既然Java虚拟机采用了分代收集的思想来管理内存,那么内存回收时就必须能识别哪些对象应该放在新生代,哪些对象应放在老年代。为了做到这一点,虚拟机为每个对象定义了一个对象年龄计数器。如果对象在Eden出生并经过第一次Minor GC后仍然存活,并且能被Survivor容纳的话,将被移动到Survivor空间中,并且对象年龄增加1岁,当它的年龄增加到一定程度(默认15岁),将会晋升到老年代中
4.动态对象年龄判定
为了能更好地适应不同程序的内存状况,虚拟机并不是永远地要求对象的年龄必须达到了最大年龄才能晋升老年代,如果在Survivor空间中相同年龄所有对象大小的总和大于Survivor空间的一半,年龄大于或等于该年龄的对象就可以直接进入老年代,无须等到最大年龄
5.空间分配担保
在发生Minor GC之前,虚拟机会先检查老年代最大可用的连续空间是否大于新生代所有对象总空间,如果这个条件成立,那么Minor GC可以确保是安全的。如果不成立虚拟机会查看HandlePromotionFailure设置值是否允许担保失败。如果允许,那么会继续检查老年代最大可用的连续空间是否大于历次晋升到老年代对象的平均大小,如果大于,将尝试着进行一次Minor GC,尽管这次Minor GC有风险;如果小于,或者不允许担保失败,那这是也要改为一次老年代垃圾回收
解释一下“风险”是什么风险:新生代使用的是复制收集算法,但为了内存利用率,只使用其中一个Survivor空间作为轮换备份,因此当出现大量对象在Minor GC后仍然存活的情况(最极端的情况就是内存回收后新生代中对象都存活),就需要老年代进行分配担保,把Survivor无法容纳的对象直接进入老年代
补充:
参考:深入Java虚拟机
对垃圾收集部分与内存分配部分做了简单整理,供大家快速了解此部分知识点,想要深入了解可以去看此书