Hession反序列化导致CPU占用飙高

背景

今天发布一个线上服务,暂且称之为O,发布完后,依赖O服务的2个服务C和W大量Time报警,并且这两个服务的CPU占用都飙到了40%左右,平时只有10%的样子。

这时去看O服务的监控,Time并没有升高,QPS反倒降了一半。同时C和W服务器日志中出现了大量的WARNING,信息如下:

java.lang.ClassNotFoundException: com.我是不可描述的信息.PropertyAo
Dec 02, 2016 6:24:33 PM com.alibaba.com.caucho.hessian.io.SerializerFactory getDeserializer
WARNING: Hessian/Burlap: ‘com.我是不可描述的信息.PropertyAo‘ is an unknown class in WebappClassLoader
  context:
  delegate: false
  repositories:
    /WEB-INF/classes/
----------> Parent Classloader:
[email protected]

短时间内找不到原因,且C服务是核心服务,找QA童鞋把O服务回滚,C和W报警恢复,CPU占用回到正常。

定位

可能见过这个WARNING的朋友已经知道了我这次发布干了啥,其实就是在API返回的模型中增加了两个自定义类型的属性,如下:

private List<PropertyAo> properties1;
private List<PropertyAo> properties2;

这两个属性W中会用到,之所以会有上面提到的WARNING,是由于我先发布了O服务,O服务中设置了这两个属性,而W服务还没有发布,这样Hession在反序列化的时候,检测到了PropertyAo不存在,所以给出了WARNING。但这与CPU飙高有关系吗?

与同事讨论了一番,他提到了Hession反序列化时会使用到反射,他之前遇到过CPU占用飙高的情况(是由于反射代码被大量调用),这点提醒了我,顺着com.alibaba.com.caucho.hessian.io.SerializerFactory getDeserializer这个方法看到了这样的实现:

try {
    Class cl = Class.forName(type, false, _loader);
    deserializer = getDeserializer(cl);
} catch (Exception e) {
    log.warning("Hessian/Burlap: ‘" + type + "‘ is an unknown class in " + _loader + ":\n" + e);
    log.log(Level.FINER, e.toString(), e);
}

可以看到Hession是通过名字去拿到Class,这里使用了反射,当反射失败时就会打出上面的warning。这时聪明的你可能想到了,即使没有失败也是在使用反射啊,继续向下看代码:

if (deserializer != null) {
    if (_cachedTypeDeserializerMap == null)
        _cachedTypeDeserializerMap = new HashMap(8);

    synchronized (_cachedTypeDeserializerMap) {
        _cachedTypeDeserializerMap.put(type, deserializer);
    }
}

反射成功就会将其cache起来,也就是说,如果反射成功,只会调用一次反射,反射失败,则每次都会执行反射。

验证

先将C升级到最新api,然后发布,再发布O服务,C表现正常,W的CPU又开始飙高,执行jstack看一下事故现场,可以看到一些线程正在执行反射,栈信息如下:

"New I/O worker #17" daemon prio=10 tid=0x00007fb1ed33b000 nid=0x63fe runnable [0x00007fb22fcfa000]
    java.lang.Thread.State: RUNNABLE
         at java.lang.Class.forName0(Native Method)
         at java.lang.Class.forName(Class.java:270)
         at com.alibaba.com.caucho.hessian.io.SerializerFactory.getDeserializer(SerializerFactory.java:500)

解决

  • 当服务端模型升级时,尤其是新增自定义类型时,尽量让所有消费端升级,但当消费端过多时,这个方案成本太高,且不友好
  • 改进SerializerFactory,把反射失败的情况也缓存,避免重复反射
  • 给Dubbo提了issue,不过估计不会解决

结论

Hession默认的反序列化实现满足下面2点条件时,就会导致CPU占用飙高:

  • 服务端新增了自定义类型
  • 对该服务接口的调用QPS较高,我的应用中是100+

其本质原因还是由于反射,所以开发过程中慎用反射,反射得到的信息尽量Cache,避免频繁反射。



本文来自:高爽|Coder,原文地址:http://blog.csdn.net/ghsau/article/details/53414694,转载请注明。

时间: 2024-11-08 22:01:43

Hession反序列化导致CPU占用飙高的相关文章

SQL语句导致cpu占用如此高

一般我们可以使用sql server自带的性能分析追踪工具sql profiler分析数据库设计所产生问题的来源,进行有针对性的处理.但我们也可以通过自己写SQL语句来有针对性的进行性能方面的查询.通常会用到如下三个系统视图:sys.sysprocesses ,dm_exec_sessions ,dm_exec_requests --一.查看当前的数据库用户连接有多少USE master GOSELECT *FROM sys.[sysprocesses]WHERE [spid] > 50--AN

JVM探秘:线上CPU占用过高故障排查

线上系统突然变得卡顿或无法访问,排除网络异常的情况下,检查服务器资源占用情况,如果CPU.内存.磁盘IO等资源占用过高,就会导致无法继续处理HTTP请求. 如果是CPU占用飙高,有可能是程序中存在死循环.死锁导致的,也有可能是内存紧张从而频繁GC导致的,要具体问题具体分析. 排查过程 这里记录一次线上CPU占用过高的故障排查过程,重点会用到jstack命令. top命令 首先,使用top命令查看服务器资源使用情况,找到CPU占用过高的进程. 发现pid为29167的Java进程CPU占用很高,已

从 kswapd0 进程CPU占用过高 到计算机内存详解

问题发现 操作系统都用分页机制来管理物理内存,操作系统将磁盘的一部分划出来作为虚拟内存,由于内存的速度要比磁盘快得多,所以操作系统要按照某种换页机制将不需要的页面换到磁盘中,将需要的页面调到内存中,由于内存持续不足,这个换页动作持续进行,kswapd0是虚拟内存管理中负责换页的,当服务器内存不足的时候kswapd0会执行换页操作,这个换页操作是十分消耗主机CPU资源的.如果通过top发现该进程持续处于非睡眠状态,且运行时间较长,可以初步判定系统在持续的进行换页操作,可以将问题转向内存不足的原因来

Nodejs mkdirP 模块导致CPU占用高的问题

Nodejs mkdirP 模块导致CPU占用高的问题 近期将nodejs项目部署到服务器上并启动时,发现node进程的cpu占用率在40%左右,当时表示非常不解,刚启动的服务并没有运行什么需要大量消耗cpu的逻辑,且此时还未有请求发送到服务器端. 鉴于这种情况,只能猜测是某段程序在初始化一些东西的时候异常,所以才导致了这种情况. 经过对代码的排查后,最终锁定出为题的代码块如下: router.use(multer({ dest: config.uploadDir, limits:{ fileS

“RESOURCE MONITOR“CPU占用特别高

背景: SQL Server 2008 R2 10.50.1600 没有设置页面文件,内存为64G,数据库分配50G cpu使用占了50%以上,平时只有10-20%,某台服务器“RESOURCE MONITOR“CPU占用特别高. 原因: 网上有说是虚拟内存不够,也有说升级版本就可以解决. 猜测,是因此资源不足,导致RESOURCE MONITOR一直在运行,从而导致cpu太高 解决方法: 设置更大到内存

工具运行过程中,CPU占用过高的分析定位

之前使用Java Swing开发了一款设备档案收集工具.支持多台设备同时收集,每个设备使用一个线程.在同时收集多台设备信息时,发现CPU占用率居然达到了97%,而且高居不下.显然这样的性能是令人无法忍受的. 我们知道,通过jdk自带的工具jvisualvm可以查看每个线程的执行情况,但就是无法分析每个线程的CPU占用情况.由于工具是运行在Windows系统上的,所以也没办法像Linux下面那样通过命令去分析线程的CPU占用.而微软的process explorer工具可以解决这一难题.通过这个强

在VMware Workstation Pro 虚拟系统中CPU占用过高的原因?

分析原因: 在超线程单处理器主机上,采用虚拟 SMP 的虚拟机可能无法达到正常性能水平.即便在多处理器主机上,如果您运行了多个工作负载,导致整体 CPU 资源需求超过物理资源极限,虚拟机的性能也会受到影响. 在配置虚拟机处理器的时候建议根据物理主机配置仅设置处理器数量.每个处理器核心数量即可,如果勾选禁用二进制转换加速.虚拟化 Intel VT-x/EPT 或 AMD-V/RVI或虚拟化 CPU 性能计数器,将造成虚拟系统CPU占用过高.

当windows7系统CPU占用过高该怎办?

电脑变慢卡死的其中一个原因就是被安装了很多流氓软件,曾经有一个笑话,自从某人安装了某软件之后,一周之后电脑满屏都是它推荐安装的软件.本次我就为大家带来如Win7电脑CPU占用过高该怎办,大家一定要认真阅读! 随着电脑文档越来越多,电脑也越来越卡,有时候玩游戏都卡的要死.有用户在使用Win7系统的时候,运行非常卡,随后发现是CPU使用了过高所致,那么是什么原因导致CPU使用率过高呢?有没有什么办法可以降低CPU使用率,下面小编就给大家介绍下Win7电脑CPU占用过高的解决方法. 要解决CPU使用率

性能测试问题-Mysql数据库服务器的CPU占用很高

MySQl服务器CPU占用很高 1.  问题描述 一个简单的接口,根据传入的号段查询号码归属地,运行性能测试脚本,20个并发mysql的CPU就很高,监控发现只有一个select语句,且表建立了索引 2.  问题原因 查询语句索引没有命中导致 开始时的select SELECT `province_name`, `city_name` FROM `phoneno_section` WHERE SUBSTRING(?, phoneno_section_len) = phoneno_section