Linux(2)---记录一次线上服务 CPU 100%的排查过程

当时产生CPU飙升接近100%的原因是因为项目中的websocket时时断开又重连导致CPU飙升接近100% 。如何排查的呢是通过日志输出错误信息: 得知websocket时时重新
连接的信息,然后找到原因解决了。
当然这里幸好能通过日志大致分析出原因那么我就在思考如果日志没有告诉任何信息但线上CPU还是接近100%那么如何排查呢。所以学习了下排查过程。
通过查阅资料并实践后，这里总结了两种办法。第一种博客满天飞的方法 通过top命令 第二种非常好用 通过大牛写的脚本排查

一、top命令排查

1、命令四部曲

（1）通过top命令，知道CPU最高的进程

top

（2）具体查看java中哪个线程一直在占用cpu时间(这里我的java进程号是: 8752)

 #java进程ID进行CPU占用排查（sort -rn 以数值的方式进行逆序排列）
 ps -mp 8752 -o THREAD,tid,time | sort -rn | more

（3）根据2中查找到的CPU最高的排序中的结果，找出几个占用cpu时间比较高的TID，将线程ID转换为16进制

printf "%x\n" TID

（4）再使用jstack命名查询是哪个线程

#8752是java进程ID,6669是第三步线程ID转换的16进制
jstack 8752 |grep 6669 -A 30

2、案例

(1) top命令

（2）ps命令

（3）printf命令

（4）jstack命令

二、show-busy-java-threads.sh脚本

上面的 4 步虽然能够排查问题，但总的还是还是太繁琐耗时了，于是有大神写了个脚本，在有问题的时候一键定位，能够妙计找到问题。这个作者是一个叫淘宝的oldratlee 同学。

1、脚本使用说明

怎么使用呢？可以看作者的GitHub地址中的文档说明，而且里面也有相应脚本：Github

我们可以把这个git项目clone到Linux环境中（说明：目前这个脚本只支持linux环境）

git clone https://github.com/oldratlee/useful-scripts.git  #将下面下载到linux环境中。

这里也整理一些该脚本的常用命令

show-busy-java-threads.sh
# 从 所有的 Java进程中找出最消耗CPU的线程（缺省5个），打印出其线程栈。

show-busy-java-threads.sh -c <要显示的线程栈数>

show-busy-java-threads.sh -c <要显示的线程栈数> -p <指定的Java Process>
# -F选项：执行jstack命令时加上-F选项（强制jstack），一般情况不需要使用

show-busy-java-threads.sh -p <指定的Java Process> -F

show-busy-java-threads.sh -s <指定jstack命令的全路径>
# 对于sudo方式的运行，JAVA_HOME环境变量不能传递给root，
# 而root用户往往没有配置JAVA_HOME且不方便配置，
# 显式指定jstack命令的路径就反而显得更方便了

show-busy-java-threads.sh -a <输出记录到的文件>

show-busy-java-threads.sh -t <重复执行的次数> -i <重复执行的间隔秒数>
# 缺省执行一次；执行间隔缺省是3秒

##############################
# 注意：
##############################
# 如果Java进程的用户 与 执行脚本的当前用户 不同，则jstack不了这个Java进程。
# 为了能切换到Java进程的用户，需要加sudo来执行，即可以解决：
sudo show-busy-java-threads.sh

2、案例说明

为了反应真实性，找了个能让CPU飙升100%的代码打包成jar在线上跑，这里采用定时任务让它跑起来。

//java 正则表达式回溯造成 CPU 100%
@Service
public class GateTrigger {

    @Scheduled(fixedDelay = 1 * 1000)
    public void startSummary() {
        String[] patternMatch = {"([\\w\\s]+)+([+\\-/*])+([\\w\\s]+)",
                "([\\w\\s]+)+([+\\-/*])+([\\w\\s]+)+([+\\-/*])+([\\w\\s]+)"};
        List<String> patternList = new ArrayList<String>();

        patternList.add("Avg Volume Units product A + Volume Units product A");
        patternList.add("Avg Volume Units /  Volume Units product A");
        patternList.add("Avg retailer On Hand / Volume Units Plan / Store Count");
        patternList.add("Avg Hand Volume Units Plan Store Count");
        patternList.add("1 - Avg merchant Volume Units");
        patternList.add("Total retailer shipment Count");

        for (String s : patternList) {
            for (int i = 0; i < patternMatch.length; i++) {
                Pattern pattern = Pattern.compile(patternMatch[i]);

                Matcher matcher = pattern.matcher(s);
                System.out.println(s);
                //CPU飙升根源
                if (matcher.matches()) {

                    System.out.println("Passed");
                } else
                    System.out.println("Failed;");
            }
       }}
}

（1）top命令发现CPU的确飙升了

（2）执行脚本

bash show-busy-java-threads.sh

（3）看后台运行结果

......

发现一下子就定位问题了，不得不说缺少很方便，快捷。

参考

1、Java死锁排查和Java CPU 100% 排查的步骤整理

2、线上服务 CPU 100%？一键定位 so easy！

如果一个人充满快乐，正面的思想，那么好的人事物就会和他共鸣，而且被他吸引过来。同样，一个人老带悲伤，倒霉的事情也会跟过来。
?                                                      ——在自己心情低落的时候，告诫自己不要把负能量带给别人。（大校10）

原文地址：https://www.cnblogs.com/qdhxhz/p/9998638.html

时间： 2024-08-08 22:11:50

Linux(2)---记录一次线上服务 CPU 100%的排查过程

Linux(2)---记录一次线上服务 CPU 100%的排查过程

一、top命令排查

1、命令四部曲

2、案例

二、show-busy-java-threads.sh脚本

1、脚本使用说明

2、案例说明

参考

Linux(2)---记录一次线上服务 CPU 100%的排查过程的相关文章

线上服务 CPU 100%？一键定位 so easy！

一则线上MySql连接异常的排查过程

线上服务CPU100%问题快速定位实战--转

发布或重启线上服务时抖动问题解决方案

软件开发交易线上服务_威客平台

线上服务应急与技术攻关方法论

千万级记录的Discuz论坛导致MySQL CPU 100%的优化笔记

云计算之路-阿里云上：CPU 100%引发的状况

java线上服务问题排查