生产环境OOM\死锁问题排查修复

OOM:

  1.快速恢复业务:如果是集群中的一台机器故障,先隔离故障服务器;如果是多台,则根据Nginx转发策略,对该功能转发到单独的集群,与其他流量隔离,确保其他业务不受影响

  2.收集内存溢出Dump文件:方式有两种:

    1.设置JVM启动参数

    -XX:+HeapDumpOnOutOfMemoryError

    -XX:HeapDumpPath=/opt/jvmdump

    设置之后,在每次发生内存溢出时,JVM会自动将堆转储,dump文件存放在-XX:HeapDumpPath指定的路径下

    2.使用jmap命令收集

    通过jamp -dump:live,format=b,file=/opt/jvm/dump.hprof pid

  3.分析dump文件:可以通过MAT(Memory Analyzer Tool)进行分析,使用MAT打开Dump文件后,首页截图如下:

工具按钮介绍:

:直方图视图,将堆中所有的内存消耗情况统计出来,其如图所示:

:内存使用树状结构,以线程为维度,树状形式展开,如图所示:

线程栈,其截图如下:

根据该图,可以明确,堆的总大小为1.9G,被4个线程全部占据,导致其他线程无法再申请资源,抛出堆内存溢出错误。

接下来,我通常的做法是直接去看这个视图(以线程为基本维度,查找线程中占用内存的对象),为后续定位排查提供必要的依据。

从上面的截图中可以得出如下关键信息点:

  • org.apache.ibatis.executor.result.DefaultResultHandler内部持有一个List,其原始为java.util.HashMap,从这个类基本可以看出是与数据库的查询相关,对数据库返回结果的解码并组织成HashMap。
  • 这个List中的元素总共有146033个,初步可以判断出是在一次查询中从数据库中一次查询出了太多数据,造成了内存溢出。

由于SQL查询代码中,是用HashMap来接收数据库中的返回字段,无法一时间看出是那个查询,那我们能不能精确找到是哪一个查询,哪一行代码,甚至与哪一条SQL语句呢?

答案是可以的,我们可以从视图一探究竟。

温馨提示:
视图使用技巧:展开技巧:沿着使用率最高的项一层一层进行展开,直至发现具体占用内存的对象。

接下来我们从 视图去寻找是哪个方法,哪条SQL语句触发的。
具体方法:首先完全展开一个线程,从展开图的底部向上寻找:
其线程的入口(控制层代码)

继续往上查找,要找到SQL语句,应该找到Mybatis处理结果集相关的类,如图所示:

然后展开boundSql即能找到SQL语句:

然后鼠标可以放在SQL属性中,右键,可以将SQL语句复制出来。

由于这里涉及到公司的代码机密,故在这里不贴出具体的SQL语句。

这里根据后面的分析,原来是在做导出功能的时候,没有使用分页对数据进行分页查询,分页写入Excel文件,而是一次将全部数据查询,导致导出功能如果并发数超过4个时,就会将所有内存耗尽。

解决方案:

  • 首先在运维层面将该请求导入到指定的一台服务器上,是导出任务与其他任务进行隔离,避免对其他重要服务造成影响。
  • 项目组对其代码进行修复,可以使用分页查数据,然后分配写入Excel。

    

死锁:

  1.查看系统日志,找到对应的死锁方法:

org.springframework.dao.CannotAcquireLockException: could not execute statement; SQL [n/a]; nested exception is org.hibernate.exception.LockAcquisitionException: could not execute statement
at com.kuding.order.services.ChildOrderService.lambda$modifyChildOrderDeliverStatus$23(ChildOrderService.java:423)
at com.kuding.order.services.ChildOrderService.modifyChildOrderDeliverStatus(ChildOrderService.java:416)
at com.kuding.order.controllers.ChildOrderController.modifyDeliveringStatus(ChildOrderController.java:68)
at com.kuding.common.basestructure.filters.GeetestFilter.doFilter(GeetestFilter.java:102)
Caused by: org.hibernate.exception.LockAcquisitionException: could not execute statement
at com.kuding.common.basestructure.interfaces.daointerfacesv2.AbstractDao.create(AbstractDao.java:22)
Caused by: com.mysql.cj.jdbc.exceptions.MySQLTransactionRollbackException: Deadlock found when trying to get lock; try restarting transaction

2.在mysql中使用命令:SHOW ENGINE INNODB STATUS;总能获取到最近一些问题信息,通过搜索deadlock 关键字即可找到死锁的相关日志信息。

分析哪些语句申请锁资源冲突,结合1来确定对应的代码,通过使用分布式锁或者修改获取数据锁顺序来修复

原文地址:https://www.cnblogs.com/Mr-Rocker/p/11757455.html

时间: 2024-08-30 03:02:19

生产环境OOM\死锁问题排查修复的相关文章

记录一次生产环境OOM

生产环境突然频繁挂掉,查看日志报错OOM 光看日志没法确定原因,于是想把内存dump下来分析 首先来看看tomcat的启动脚本startup.sh,在tomcat的bin目录下(这里的版本是tomcat8.5) 启动过程中会去执行catalina.sh,以下是catalina.sh的部分内容 如果setenv.sh脚本存在的话,启动tomcat就会去执行这个脚本,这里很适合添加自定义的参数 vim setenv.sh 创建这个文件 写入:JAVA_OPTS="-Dfile.encoding=UT

总结:利用asp.net core日志进行生产环境下的错误排查(asp.net core version 2.2,用IIS做服务器)

概述 调试asp.net core程序时,在输出窗口中,在输出来源选择“调试”或“xxx-ASP.NET Core Web服务器”时,可以看到类似“info:Microsoft.AspNetCore.Hosting.Internal.WebHost[2] Request finished in 285.6ms 200 text/css”这样的内容,这就是asp.net core的日志 如果出现了未捕获的异常,在输出窗口中可以看到出错信息,如:fail: Microsoft.AspNetCore.

记一次生产环境线程阻塞的排查

1.使用top命令查找出消耗最多的进程id $ top #进程 $ top -H #线程 2.查看进程中具体线程的资源消耗情况 $ strace -p [线程ID] 3.将线程ID转成16进制 $ printf "%x\n" [线程ID] 4.查找具体阻塞的代码中的方法 $ jstack [进程ID] |grep [转好的16进制] -A 30 5.其他的一些常用命令 $ htop #top的升级版,一般需要安装,centos7安装如下 $ yum install epel-relea

生产环境下JAVA进程高CPU占用故障排查

问题描述:生产环境下的某台tomcat7服务器,在刚发布时的时候一切都很正常,在运行一段时间后就出现CPU占用很高的问题,基本上是负载一天比一天高. 问题分析:1,程序属于CPU密集型,和开发沟通过,排除此类情况.2,程序代码有问题,出现死循环,可能性极大. 问题解决:1,开发那边无法排查代码某个模块有问题,从日志上也无法分析得出.2,记得原来通过strace跟踪的方法解决了一台PHP服务器CPU占用高的问题,但是通过这种方法无效,经过google搜索,发现可以通过下面的方法进行解决,那就尝试下

MySQL redo lock 死锁问题排查 & 解决过程

版权声明:本文由 MySQL redo lock 死锁问题排查 & 解决过程 张青林 原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/181 来源:腾云阁 https://www.qcloud.com/community 周一上班,首先向同事了解了一下上周的测试情况,被告知在多实例场景下 MySQL Server hang 住,无法测试下去,原生版本不存在这个问题,而新版本上出现了这个问题,不禁心头一颤,心中不禁感到奇怪

生产环境缺陷来源VS 缺陷管理响应机制

生产环境缺陷主要来源于用户反馈.版本内遗留.内部反馈和监控后台报警,具体内容包含以下途径: 1.用户反馈: ①  前台电话方式 ②  意见反馈后台 ③  第三方平台:如微博.App Store等渠道 2.版本内遗留: ①  业务线在版本测试中,发现的线上问题(bug的影响模块需要选成“主软件用户问题反馈”) ②  业务线在版本测试中遗留的问题全部转线上需求 3.内部反馈: ①  各条业务线钉钉群反馈的线上版本产生的问题 ②  各条业务线微信群反馈的线上版本产生的问题 ③  内部人员使用中反馈的线

Jexus 5.8.2 正式发布为Asp.Net Core进入生产环境提供平台支持

Jexus 是一款运行于 Linux 平台,以支持  ASP.NET.PHP 为特色的集高安全性和高性能为一体的 WEB 服务器和反向代理服务器.最新版 5.8.2 已经发布,有如下更新: 1,现在大部分网站已经部署HTTPS,大家对于安全越来越重视,顺应潮流新增HTTPS多证书支持,每个网站都可以配置自己独立的SSL证书,现在有2种方式支持网站部署HTTPS. A.添加全服务器使用的SSL配置:如果需要,可以添加一个ssl配置为所有没有单独配置ssl的网站提供共享,这个配置,对支持泛域名的证书

生产环境遇到的hashMap非线程安全问题java.lang.thread.waiting

写在前面:工作有几年了,从入门到现在,遇到也解决了一些问题.(当然,框架级别的暂时还没有)一直以来,都是从博客园以及其他各大社区搜罗出来的各种fix方法.目前稍有闲暇时间,在看过大V沈剑的博文后,我也鼓起勇气来书写博客,记录工作中遇到和解决的问题(其中当然也包括我在博园获取的各种解决方法:能找到原博文的小弟一定会注明出处.)因为总觉得自己水平不够,怕写出来的文章误导了别人.以下是这周生产环境遇到的一个问题,写出来供大家参考. 现象 周五一大早,车子都没停稳(电动车),群里就开始在询问谁最近的代码

CentOS(6.8)linux生产环境若干优化实战

CentOS系统安装之后并不能立即投入生产环境使用,需要经过运维人员的优化才行.在此讲解几点关于Linux系统安装后的基础优化操作. 注意:不同版本5.x和6.x两者优化时会有些区别. CentOS修改时区 echo 'ZONE="Asia/Shanghai"' > /etc/sysconfig/clock cp -f /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 优化条目: 1.   修改ip地址.网关.主机名.DNS等 2.