Twitter 工程师谈 JVM 调优

一. 调优需要关注的几个方面

  • 内存调优
  • CPU 使用调优
  • 锁竞争调优
  • I/O 调优

二. Twitter 最大的敌人:延迟

导致延迟的几个原因?

  • 最大影响因素是 GC
  • 其他的有:锁和线程调度、I/O、算法数据结构选取不当效率低

三. 内存性能调优

(1)内存占用调优

OutOfMemoryError 异常原因:可能真的数据量太大、可能要数据显示的太多、可能内存泄露

数据量太大观察及解决:

  • 查看 GC 日志, 看 Full GC 前后内存变化, 变化不大说明确实数据量太大
  • 尝试增加 JVM 的内存使用
  • 考虑这些数据是否真的需要都在内存中吗? 可以考虑使用: LRU 算法换入换出等, 弱引用(Soft References)

数据臃肿(Fat data)

  • 当你想做一些奇怪的事情时候回发生数据占用太大问题,比如:把整个社交图谱加载到单个 JVM 实例上、加载全部用户的元数据到单个 JVM 实例上
  • 在 Twitter 这样大的规模下减少内部数据呈现工作

数据臃肿原因:

(1)对象头(JVM 对象头一般占用两个机器码,在 32-bit JVM 上占用 64bit, 在 64-bit JVM 上占用 128bit 即 16 bytes, 例如:new java.lang.Object() 占用 16 bytes; new byte[0] 占用 24 bytes)  更多对象头内容参考:http://blog.csdn.net/wenniuwuren/article/details/50939410

(2)填充补全

看个例子

public static class D {
    byte d1;
}  

public static class E extends D {
    byte e1;
}

new D() 占用 24 bytes 空间, new E() 占用 32 bytes 空间。 具体空间计算参考:http://blog.csdn.net/wenniuwuren/article/details/50958892

现在一般是 64-bit 的 JVM,64-bit 的指针会导致 CPU 缓存相比 32-bit 指针减少很多, 所以建议 JVM 参数加入 -XX:+UseCompressedOops 采用指针压缩将 64-bit 指针压缩为 32-bit, 但是却又能使用 64-bit 的内存空间, 达到一举两得的作用。另外,建议最大堆小于 30G。

尽量别使用原始类型对象的包装类

在 Scala 2.7.7 中:Seq[Int] 存 Integer,Array[Int] 存 int, 第一个空间占用 (24 + 32*length) bytes,第二个空间占用 (24 + 4*length) bytes。

在 Scala 2.8 中修复了这个问题, 从这我们可以看出:

  • 你不清楚你所使用类库的性能特征(比如能用 int 就用 int)
  • 除非在性能分析工具下运行, 否则你可能永远不知道这个问题

Map 空间占用(Map footprints)

  • Guava MapMaker.makeMap() 占用 2272 bytes
  • MapMaker.concurrencyLevel(1).makeMap() 占用 352 bytes

小心使用 Thread Local

典型的问题在线程池 m*n 的资源相关,如 200 线程池使用了 50 个连接,最终有 10000 个连接缓存

考虑使用同步对象或者每次新建一个对象

四. 与延迟做斗争

性能三角

图1:内存占用下降,延迟下降,吞吐量上升

图2:压缩(Compactness,即减小内存占用)率上升,吐量上升,响应速度上升

新生代是如何工作的?

  • 所有新对象分配在 Eden 代,因为新生代 GC 有压缩,所以内存分配用指针碰撞
  • 当 Eden 满的时候,进行一次 stop-the-world 的 Minor GC,存活下来的放到 Survivor
  • 经过几次 Minor GC,还存活下来的对象会被提升(tenured)到老年代

理想化得新生代操作

  • Eden 代足够容纳超过一组并发的请求和响应对象(这样没有 stop-the-world,吞吐量会比较高)
  • 每个 Survivor 空间足够容纳活跃对象和有年龄的对象(减少过早提升到老年代)
  • 提升阈值正好能让存活时间长的对象早点提升到老年代(给 Survivor 腾出空间)

从新生代开始调优

  • 打印详细 GC 日志, 如开启 JVM 参数:-XX:+PrintGCDetails,-XX:+PrintGCDateStamps,-XX:+PrintHeapAtGC,-XX:+PrintTenuringDistribution 等等…
  • 关注 Survivor 大小,设置合适的 Survivor 大小
  • 关注提升阈值,使长期存活对象快速提升到老年代

(1)-XX:+PrintHeapAtGC

Heap after GC invocations=1 (full 0):
 par new generation   total 943744K, used 54474K [0x0000000757000000, 0x0000000797000000, 0x0000000797000000)
  eden space 838912K,   0% used [0x0000000757000000, 0x0000000757000000, 0x000000078a340000)
  from space 104832K,  51% used [0x00000007909a0000, 0x0000000793ed2ae0, 0x0000000797000000)
  to   space 104832K,   0% used [0x000000078a340000, 0x000000078a340000, 0x00000007909a0000)
 concurrent mark-sweep generation total 1560576K, used 0K [0x0000000797000000, 0x00000007f6400000, 0x00000007f6400000)
 concurrent-mark-sweep perm gen total 159744K, used 38069K [0x00000007f6400000, 0x0000000800000000, 0x0000000800000000)
}

(2)-XX:+PrintTenuringDistribution

Desired survivor size 53673984 bytes, new threshold 4 (max 6)
- age   1:    9165552 bytes,    9165552 total
- age   2:    2493880 bytes,   11659432 total
- age   3:    6817176 bytes,   18476608 total
- age   4:   36258736 bytes,   54735344 total
: 899459K->74786K(943744K), 0.0654030 secs] 1225769K->401096K(2504320K), 0.0657530 secs] [Times: user=0.55 sys=0.00, real=0.07 secs]

CMS 调优

  • CMS 收集器需要更多的内存, 尽量多分配就对了
  • 减少碎片、避免 Full GC
  • -XX:CMSInitiatingOccupancyFraction=n n一般设置为 75-80(太早启动降低吞吐量,太晚启动导致 concurrent mode failed)

响应速度还是太慢?

  • Minor GC 时有太多存活对象,尝试减少新生代空间,减少 Survivor 空间,减少晋升阈值
  • 太多线程。尝试找到最小的并发层次或者增加更多 JVM 实例
  • 尝试使用 Volatile 而不是 synchronized 减少锁竞争,尝试使用 Atomic* 的原子类

用分配 slab 应对 CMS 的碎片问题

Apache 的 Cassandra 内部使用 slab 分配。每个 slab 大小为 2MB,使用 CAS 复制 byte[] 到里面,使用 Cassandra 前开销为 30-60 秒每小时, 使用后在3天零十小时开销 5 秒。

使用分配 slab 的方式有一些局限性:在缓存满的时候才把缓存内容写进磁盘,而且对象需要转化为二进制等问题。

时间: 2024-10-13 10:45:20

Twitter 工程师谈 JVM 调优的相关文章

JVM调优浅谈

1.数据类型 java虚拟机中,数据类型可以分为两类:基本类型和引用类型.基本类型的变量保存原始值,即:它代表的值就是数值本身,而引用类型的变量保存引用值.“引用值”代表了某个对象的引用,而不是对象本身,对象本身存放在这个引用值所表示的地址的位置. 基本类型包括:byte.short.int.long.char.float.double.boolean.returnAddress 引用类型包括:类类型.接口类型和数组 2.堆与栈 堆和栈是程序运行的关键,很有必要它他们的关系说清楚. 栈是运行时的

Java性能调优_深入Java程序性能调优(并行开发、JVM调优)

深入Java程序性能调优(阿姆达尔定律.缓存组件.并行开发.线程池.JVM调优)课程讲师:special课程分类:Java核心适合人群:初级课时数量:33课时更新程度:完成用到技术:阿姆达尔定律.缓存组件.并行开发.线程池.JVM调优涉及项目:模式在实际开发中运用深入Java程序性能调优下载: http://pan.baidu.com/s/1ntn0ZTB 密码: ijluJava性能调优:国内关于Java性能调优的课程非常少,如此全面深入介绍Java性能调优,北风算是独家,Special讲师,

JVM调优-新生代

JAVA虚拟机新生代,包括eden space+2个survivor空间. 新生代用来存放新近创建的对象,新生代的特点是对象更新速度快,在短时间内产生大量的"死亡对象".对年轻代的垃圾回收称作次级回收 (minor gc) 1.新生代与次级回收 新生代分为三个区域,  一个eden spac , 2个大小相同的survivor,  应用程序只能使用一个eden和一个survivor, 当发生初级垃圾回收的时候,gc挂起程序, 然后将eden和survivorA中的存活对象复制到另外一个

JVM调优经验分享

前言 一.JVM调优知识背景简介 二.JVM调优参数简介 三.JVM调优目标 四.JVM调优经验 结束语 <br/> 本次分享探讨的JVM调优是指server端运行的JVM调优,适应版本为[1.6– 1.7], 不涉及最新的1.8版本. 假设线程池.连接池.程序代码等都已经做过优化,效果(系统吞吐量.响应性能)仍然不理想,我们就可以考虑JVM调优了. <br/> 一. JVM调优知识背景简介 1.堆与栈的概念 堆和栈是程序运行的关键:栈是运行时的单位,而堆是存储的单位. 栈解决程序

JVM调优

转自:http://blog.csdn.net/chen77716/article/details/5695893 一.JVM内存模型及垃圾收集算法 1.根据Java虚拟机规范,JVM将内存划分为: New(年轻代) Tenured(年老代) 永久代(Perm) 其中New和Tenured属于堆内存,堆内存会从JVM启动参数(-Xmx:3G)指定的内存中分配,Perm不属于堆内存,有虚拟机直接分配,但可以通过-XX:PermSize -XX:MaxPermSize 等参数调整其大小. 年轻代(N

Spark性能调优之JVM调优

Spark性能调优之JVM调优 通过一张图让你明白以下四个问题 1.JVM GC机制,堆内存的组成                2.Spark的调优为什么会和JVM的调优会有关联?--因为Scala也是基于JVM运行的语言                3.Spark中OOM产生的原因                4.如何在JVM这个层面上来对Spark进行调优 补充:                Spark程序运行时--JVM堆内存分配比例 RDD缓存的数据(0.6)    默认 对象_

Tomcat的JVM调优实战

一些调优点在上篇日志中已写到,在此不做说明 直接使用Jmeter进行调优测试吞吐量Code package cn; import java.io.IOException; import java.util.Map; import java.util.WeakHashMap; import javax.servlet.ServletException; import javax.servlet.annotation.WebServlet; import javax.servlet.http.Htt

JVM调优及参数设置

(1)参数 -Xms:初始堆大小 -Xmx :最大堆大小 此值可以设置与-Xmx相同,以避免每次垃圾回收完成后JVM重新分配内存 -Xmn :年轻代大小 整个堆大小=年轻代大小 + 年老代大小 + 持久代大小.持久代一般固定大小为64m,所以增大年轻代后,将会减小年老代大小.此值对系统性能影响较大,Sun官方推荐配置为整个堆的3/8. -XX:NewSize:设置年轻代大小 -XX:MaxNewSize:年轻代最大值 -XX:NewRatio 年老代与年轻代的比值 -XX:SurvivorRat

JVM 调优参数详解

GC有两种类型:Scavenge GC 和Full GC 1.Scavenge GC 一般情况下,当新对象生成,并且在Eden申请空间失败时,就会触发Scavenge GC,堆的Eden区域进行GC,清除非存活对象,并且把尚且存活的对象移动到Survivor的两个区中. 2.Full GC 对整个堆进行整理,包括Young.Tenured和Perm.Full GC 比Scavenge GC要慢,因此应该尽可能减少Full GC,有如下原因可能导致Full GC a.Tenured被写满: b.P