JVM系列-02-GC-扫盲

来源：互联网发布：开发者没有网络adb调试编辑：程序博客网时间：2024/04/26 11:45

声明
GC算法
- 1 标记清除算法
- 2 复制算法
- 3 标记整理算法
- 4 分代收集算法Generational Collection
GC的代价Stop The World
垃圾收集器
- 1 Serial收集器
- 2 ParNew收集器
- 3 Parallel Scavenge收集器
  - 31 简介
  - 32 参数
- 4 Serial Old收集器
- 5 Parallel Old收集器
- 6 CMS收集器
- 7 G1收集器
GC日志
和GC相关的JVM参数
Minor GC 和 Full GCMajor GC
参考文章

声明

本篇文章是本人阅读《深入理解JVM》和《java虚拟机规范》时的笔记。
记录的都是一些概念性的东西。
JVM是HotSpot，jdk1.7。
大神绕路，不喜勿喷。

1 GC算法

先来走马观花般地浏览一些著名的GC算法。
这里也仅仅是说一下大致过程，具体细节的介绍对于我一个Java程序员来说表示无能为力,因为底层实现要牵扯到具体的实现语言了，而且不同的JVM实现商肯定有不同的实现细节。

1.1 标记/清除算法

这种算法的大概过程是:

标记出所有需要回收的对象
统一回收所有被标记的对象

这种算法很直观，但他的缺点如下：

标记和清除的两个阶段，效率并不是很好，因为回收的粒度太细了
清除后的内存区域一般都是千疮百孔，可用内存区域一般都不连续

1.2 复制算法

上面说的标记/清除算法不太好的主要原因就是其回收粒度太过细微了。
签于此，复制算法的主要做法是：

将内存分为大小相等的两块，暂且称之为内存块
每次当某一内存块(A)占满之后，将该内存块(A)的有用数据复制到另外一块内存块(B)
将A内存块的整个块直接清除

这种算法相比于标记/清除算法的最大特点是：

每次回收都是以内存块为单位(粒度较大)
只有两个内存块，收集完后内存不连续的情况也就不用考虑了
但是，将整个内存分为两块，实际的可用内存也就减半了(这就有点无法接受了)
存在大量的对象复制操作

1.3 标记/整理算法

上面说的复制算法的最大缺点就是对象的复制操作。尤其是在有效的对象很多的情况下。

这里的标记/整理算法的大致过程是:

标记应该回收的区域
将有用的对象/数据集中移动到一块区域,暂且称之为”有效区”,有效区的位置往往是在两端的某一端
将”有效区”之外的区域集体清理

1.4 分代收集算法(Generational Collection)

既然上面说集中算法都各有优劣,那么根据他们各自的优点，在不同的情况下使用最优的算法会不会更好呢？

分代收集的大致思路就是这样的:

将JVM堆内存分为新生代和年老代
年老代中的对象存活率一般都很高，采用’标记/清理’或’标记/复制’算法
新生代中一般对象的’死亡率’都很高，采用复制算法

2 GC的代价——Stop The World

上面说了一大堆GC的理论。但是忽略了一点：

怎么确定哪些对象或内存区域是可以被回收的呢？？？

在java中对于对象是否还“活着”，采用的不是像Python或者其他语言中的”引用计数”的方法。
java中采用的是”可达性分析”。
至于可达性分析的细节没必要去深究，但是由”判断对象是否还存活？”引出的另一个问题却不得不考虑，看下文。

无论采用什么方法去区分哪些对象还活着，不得不做的一个让步就是：这个判定过程中必须暂时让其他所有的线程都暂时停顿，这个现象对于JVM中的各个对象来说就相当于整个世界停止了。也就是所谓的Stop The World。

这个停顿当然是有必要的，比如你开始分析对象的存活状态时一个对象是无用的，当你分析完成后那个对象却让其他线程操作了变成有效对象了。

所以，在整个判断过程中，要能够确保一致性。也就免不了Stop The World。

当然，应用的规模越大，Stop The World带来的影响越大。
所以，频繁的GC也不见得是好事。

3 垃圾收集器

上面说的都是GC的大致理论知识，现在看看GC的实现：垃圾收集器。

3.1 Serial收集器

Serial收集器是众多垃圾收集器中的元老。是一个单线程的收集器。在它进行垃圾收集时，必须暂停其他所有的工作线程，直到它收集结束(Stop The World)。
虽然它的出现非常早，但是它依然是虚拟机运行在Client模式下的默认新生代收集器,也有其独特的优点:

简单而高效（与其他收集器的单线程比）
对于限定单个CPU的环境来说，Serial收集器由于没有线程交互的开销

3.2 ParNew收集器

这个ParNew的介绍是来自《深入理解JVM》的作者说的，与本人没任何关系 ^^ .. ^^

ParNew收集器其实就是Serial收集器的多线程版本，除了使用多条线程进行垃圾收集之外，其余行为包括Serial收集器可用的所有控制参数（例如：-XX：SurvivorRatio、 -XX：PretenureSizeThreshold、 -XX：HandlePromotionFailure等）、收集算法、 Stop The World、对象分配规则、回收策略等都与Serial收集器完全一样，在实现上，这两种收集器也共用了相当多的代码。

是许多运行在Server模式下的虚拟机中首选的新生代收集器，其中有一个与性能无关但很重要的原因是，除了Serial收集器外，目前只有它能与CMS收集器配合工作
ParNew收集器在单CPU的环境中绝对不会有比Serial收集器更好的效果
- 甚至由于存在线程交互的开销，该收集器在通过超线程技术实现的两个CPU的环境中都不能百分之百地保证可以超越Serial收集器。
- 当然，随着可以使用的CPU的数量的增加，它对于GC时系统资源的有效利用还是很有好处的。它默认开启的收集线程数与CPU的数量相同，在CPU非常多的环境下，可以使用-XX：ParallelGCThreads参数来限制垃圾收集的线程数

3.3 Parallel Scavenge收集器

3.3.1 简介

他的特点如下：

是一个新生代收集器
使用复制算法的收集器
并行的多线程收集器
Parallel Scavenge收集器的目标则是达到一个可控制的吞吐量
- 吞吐量=运行用户代码时间/(运行用户代码时间+垃圾收集时间)
- 也经常称为“吞吐量优先”收集器

3.3.2 参数

-XX:MaxGCPauseMillis ==> 控制最大垃圾收集停顿时间,大于零的毫秒数
-XX:GCTimeRatio ==> 直接设置吞吐量大小,吞吐量的倒数，既然是个比率，也就是个0到100的整数
-XX:+UseAdaptiveSizePolicy
- 是一个开关参数，当这个参数打开之后，就不需要手工指定新生代的大小（-Xmn）、Eden与Survivor区的比例（-XX：SurvivorRatio）、晋升老年代对象年龄（-XX：PretenureSizeThreshold）等细节参数了.
- 虚拟机会根据当前系统的运行情况收集性能监控信息，动态调整这些参数以提供最合适的停顿时间或者最大的吞吐量，这种调节方式称为GC自适应的调节策略（GC Ergonomics）

3.4 Serial Old收集器

Serial收集器的老年代版本
一个单线程收集器
使用“标记-整理”算法

3.5 Parallel Old收集器

是Parallel Scavenge收集器的老年代版本
使用多线程和“标记-整理”算法

3.6 CMS收集器

CMS:Concurrent Mark Sweep
是一种以获取最短回收停顿时间为目标的收集器
- 此处的停顿指的就是上文提到的”Stop The World”
其名称中的MS指的就是Mark Sweep，它采用的算法就是标记/清除
他有另外一个名字就是：Concurrent Low Pause Collector(并发、低停顿)

他的缺点如下：

对CPU资源非常敏感
- 它虽然不会导致用户线程停顿，但是会因为占用了一部分线程而导致应用程序变慢，总吞吐量会降低
无法处理浮动垃圾
标记/清除——->内存不连续

3.7 G1收集器

是一款面向服务端应用的垃圾收集器
并行与并发
- G1能充分利用多CPU、多核环境下的硬件优势，使用多个CPU（CPU或者CPU核心）来缩短Stop-The-World停顿的时间，部分其他收集器原本需要停顿Java线程执行的GC动作，G1收集器仍然可以通过并发的方式让Java程序继续执行
分代收集
空间整合
- 不会产生内存空间碎片,收集后能提供规整的可用内存
- 分配大对象时不会因为无法找到连续内存空间而提前触发下次GC
可预测的停顿:低停顿

《深入理解JVM》一书是这么说的:

在G1之前的其他收集器进行收集的范围都是整个新生代或者老年代，而G1不再是这样。使用G1收集器时，Java堆的内存布局就与其他收集器有很大差别，它将整个Java堆划分为多个大小相等的独立区域（Region），虽然还保留有新生代和老年代的概念，但新生代和老年代不再是物理隔离的了，它们都是一部分Region（不需要连续）的集合。

4 GC日志

GC日志的格式乍看起来乱七八糟，乌漆嘛黑的。当然他肯定是有格式的。就拿《深入理解JVM》中的这段代码来说吧：

public class ReferenceCountingGC {    public Object instance = null;    private static final int _1MB = 1024 * 1024;    /**     * 这个成员属性的唯一意义就是占点内存，以便能在GC日志中看清楚是否被回收过     */    byte[] bigSize = new byte[2 * _1MB];    public static void main(String[] args) {        ReferenceCountingGC objA = new ReferenceCountingGC();        ReferenceCountingGC objB = new ReferenceCountingGC();        objA.instance = objB;        objB.instance = objA;        objA = null;        objB = null;        // 假设在这行发生GC,objA和objB是否能被回收？        System.gc();    }}

虚拟机参数:

-XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps

在我的机器(jdk1.7)上输出如下:

2016-12-17T16:11:19.650+0800: 0.093: [GC [PSYoungGen: 5427K->568K(38400K)] 5427K->568K(124416K), 0.0016819 secs] [Times: user=0.00 sys=0.00, real=0.00 secs] 2016-12-17T16:11:19.652+0800: 0.095: [Full GC [PSYoungGen: 568K->0K(38400K)] [ParOldGen: 0K->463K(86016K)] 568K->463K(124416K) [PSPermGen: 2514K->2513K(21504K)], 0.0109008 secs] [Times: user=0.02 sys=0.00, real=0.01 secs] Heap PSYoungGen      total 38400K, used 998K [0x00000007d5c80000, 0x00000007d8700000, 0x0000000800000000)  eden space 33280K, 3% used [0x00000007d5c80000,0x00000007d5d79a60,0x00000007d7d00000)  from space 5120K, 0% used [0x00000007d7d00000,0x00000007d7d00000,0x00000007d8200000)  to   space 5120K, 0% used [0x00000007d8200000,0x00000007d8200000,0x00000007d8700000) ParOldGen       total 86016K, used 463K [0x0000000781600000, 0x0000000786a00000, 0x00000007d5c80000)  object space 86016K, 0% used [0x0000000781600000,0x0000000781673eb0,0x0000000786a00000) PSPermGen       total 21504K, used 2520K [0x000000077c400000, 0x000000077d900000, 0x0000000781600000)  object space 21504K, 11% used [0x000000077c400000,0x000000077c676178,0x000000077d900000)

解释如下：

2016-12-17T16:11:19.650+0800    -XX:+PrintGCDateStamps的作用,就是GC的时间了0.093:表示的从JVM启动以来经过的秒数GC [PSYoungGen:....    GC发生的区域        PSYoungGen表示采用的收集器为Parallel Scavenge        如果使用的是Serial收集器，新生代名为“Default New Generation”，显示就是“[DefNew”        如果使用的是ParNew收集器，新生代名称为“[ParNew”，意为“Parallel New Generation”        如果采用的是Parallel Scavenge收集器，新生代名称就是“PSYoungGen”“Full”，说明这次GC是发生了Stop-The-World

GC日志，暂时就先写这么多吧，在后续的文章中再详细介绍GC日志。

5 和GC相关的JVM参数

注:以下参数总结来自《深入理解JVM》一书

UseSerialGC : 是否使用Serial收集器
- 启用后将使用Serial + Serial Old的组合来进行垃圾回收
- 这也是Client模式下的默认值
UseParNewGC : 是否使用ParNew收集器
- 将使用ParNew + Serial Old的组合来进行垃圾回收
UseConcMarkSweepGC
- 启用后将使用ParNew + CMS + Serial Old的组合来进行垃圾回收
- Serial Old 作为CMS的后备收集器(Concurrent Mode Failure)
UseParallelGC
- 使用Parallel Scavenge + Serial Old的组合来进行垃圾回收
- 这也是Server模式下的默认值
UseParallelOldGC
- 使用 Parallel Scavenge + Parallel Old的组合来进行垃圾回收
SurvivorRatio
- 新生代中Eden和Survivor的比值
- 默认为8,即:Eden:Survivor=8:1
PretenureSizeThreshold
- 这个大小值，表示对象大小大于多少之后直接分配到老年代而不进入新生代
MaxTenuringThreshold
- 这个年龄值表示对象在经过多少次Minor GC之后就进入老年代
- 每次Minor GC之后，对象的该属性值就加1
UseAdaptiveSizePolicy
- 动态调节堆中各个区域的大小和进入老年代的年龄
HandlePromotionFailure
- 是否允许分配担保失败
- 担保失败指的是: 老年代的剩余空间大小无法容纳新生代中的Eden和Survivor的情况
ParallelGCThreads
- 并行GC的线程数
GCTimeRatio
- GC时间占总时间的比例
- 只有在使用Parallel Scavenge的情况下生效
- 默认值：99
MaxGCPauseMillis
- GC的最大停顿时间
- 只有在使用Parallel Scavenge的情况下生效
CMSInitiatingOccupancyFraction
- CMS收集器在老年代空间被占用多少后触发GC
- 只对CMS收集器生效
- 默认值：68%
UseCMSCompactAtFullCollection
- CMS收集器在完成垃圾回收后是否进行内存碎片整理
- 只对CMS收集器生效
CMSFullGCsBeforeCompaction
- CMS经过多少次GC后再进行碎片整理
- 也就是设置CMS收集器在进行N次垃圾收集后再进行一次碎片整理
- 只对CMS收集器生效

6 Minor GC 和 Full GC/Major GC

Minor GC指的是新生代的GC
- Minor GC比较频繁
- 速度也比较快
Full GC/Major GC指的是老年代的GC
- Full GC的速度一般比Minor GC慢10倍左右
- Full GC的出现往往会有Minor GC的伴随

参考文章

《深入理解JVM》
《Java虚拟机规范》-JDK1.7

0 0