火焰图--记一次cpu降温过程

  正值周末,娃儿6:30又如闹铃般准时来叫醒了我们。年前离开美菜,又回到了杭州。原本是想有更多时间陪伴娃儿,然而新的工作节奏与工作地点,让我们每天都是早上见面;这不,为了周末可以多玩一会儿,早早就过来唤醒我们。因为前几天我们就约好了周末一起放风筝。有些事儿,我以为只是随口一说,小孩子确真真的记着。

  吃过早饭,拉着媳妇儿,领着娃,带上风筝就出门了。其实我是忐忑的,因为我也从来没有把风筝放起来过。来到草坪上,娃就拉着风筝如脱缰之马跑了起来。小孩子的幸福就这么简单,无关乎风筝能飞多高。

                        

  迎着暖暖朝阳,吹着徐徐春风,一下子感觉2周加班的疲惫都消散了。然而,一阵儿急促的“钉钉”声打破了难得的宁静:Warning, ***applicaiton, cpu 高于51%,持续2分钟。此服务涉及大部分单车投放操作,目前是新老并用,我们是新服务,tps不高,但业务非常重要。于是拉着还未尽兴的娃儿,回去处理问题了。当然我的内心是紧张而喜悦的,每次的故障就是一次学习的机会。

问题分析  

  既然是cpu告警,首先查看cpu最近的使用情况,一看得到两条信息:1,下图中剪头所指的地方就是促发告警的阀值,2,cpu一直在40-50%上下徘徊 。

我想大家看到这个图也明白了:告警是正常的,目前cpu的情况很容易就会促发告警。反思一分钟:整天埋头支撑业务,连系统的如此重要指标都没有关注到。然后迅速回忆最近上线的功能,想到2月底,上线过电子锁的需求,但是系统已经无法查看2月分的cpu日志,接下来我们需要去找出问题。

排除内存原因

  平时很少有处理生产环境cpu过高问题,真正碰到这样的场景还是蒙圈的。看看网上好些帖子都是说: heap 内存不足,分配内存失败,会导致cpu偏高。首先使用jstat -gcutil 查看内存使用情况,如下图,可见 新生代的区域 survivor0, survivor1,  eden 以及老生代都正常,FGC 也正常。

jstat -gcutil 参数说明如下

  

重新再来

   遇到问题,猜是需要经验的,瞎忙是没用的,既然没经验那就一步一步来验证吧;

1, ps -ef | grep java 找到进程id   27931

  2,  top -H -p 9527 找到占cpu的线程

3,  使用jstack 分别找也上面的线程的具体内容,比如第一个线程 28045。

a,  转化线程id为16进制   printf ‘%x\n‘ 28045,输出 6d8d, 因为jstack 中线程id 是16进制的。

b,jstack  27931 | grep 6d8d ,找到此线程

c, 再用同样的方法,发现其他几个线程也是 kafka 消费者引起的。

4,知道问题在于消费kafka了,原来上次做电子锁需求时,为了拿到开锁结果,监听了一个kafka topic,这是一个特别核心的topic(后来听其他同事说,这是公司消息量最多的上个topic了),

随手查了下一个小时的数据26亿/h,也就是 70w/s,  如此巨大的tps, 而此服务只有两个结点,cpu维持在50%左右就不奇怪了。

  到这里,我还想再深究下,到底时哪几行代码占了cpu,  那应该如何找到这些代码呢。说来真是特别巧,上周5听了测试同学的性能测试分享,后来还找时间了解了其中的火焰图(flame graph)和arthas , 对就是“火焰图”- 今天的主角儿。关于火焰图有几个基本的知识就可以简单分析了:  

1,y-axis 表示调用父子关系,下面函数是上面的parent;

2 x-axis 表示抽样合并的结果,越宽表示调用频率越高,即执行的时间长;

3 颜色,左右,没有特别的意义。

一开始看到火焰图,也是特别蒙圈的,下面有几个文章特别不错,英文文档读起来不算太复杂,中文的似乎就是翻译英文文档。

英文文档:

 http://www.brendangregg.com/flamegraphs.html , https://queue.acm.org/detail.cfm?id=2927301

中文说明:

http://www.ruanyifeng.com/blog/2017/09/flame-graph.html

火焰图demo:

 https://queue.acm.org/downloads/2016/Gregg7.svg

  

火焰图实践

   1,clone javaFlameGraph,git 地址如下:https://github.com/saquibkhan/javaFlameGraph

有一个地方要特别注意下:javaFlameGraph 核心是调用 FlameGraph中的实现,如图中剪头所指的项目,要确保FlameGraph也下载了。

  

   2,拉出一个节点摘掉流量,上传clone的文件。

   3,到上传文件的所在目录执行  ./flame-gen.sh 27931  ,等待30s, control +c 就开始生成报告了。

  4,报告为当前目录下的  flame.html ,  找开就是生成的火焰图了。如下图。

  

这个图是可交互的,可以点击每个长方形获取更多详情的信息,如图,可看到有很多都是消耗都是 fastjson的 perseobject,因为我们每收到一个消息,会使用fastjson解析,过滤出指定的消息。

 说明下其中几个除kafka相关线程外的线程,参考文章地址:https://blog.csdn.net/clamaa/article/details/70045983

  DestroyJavaVM:

执行main()的线程在main执行完后调用JNI中的 jni_DestroyJavaVM() 方法唤起DestroyJavaVM 线程。JVM在服务器启动之后,就会唤起DestroyJavaVM线程,处于等待状态,等待其它线程(java线程和native线程)退出时通知它卸载JVM。线程退出时,都会判断自己当前是否是整个JVM中最后一个非daemon线程,如果是,则通知DestroyJavaVM 线程卸载JVM。

  Surrogate Locker Thread:

这个线程主要用于配合CMS垃圾回收器使用,它是一个守护线程,其主要负责处理GC过程中,Java层的Reference(指软引用、弱引用等等)与jvm 内部层面的对象状态同步。

结语

  因为工作的原因,很少有机会处理高tps场景下的问题,终于理性的分析了一次生产环境cpu的问题,相信以后的再有这样的情况会从容一些。因为经验不足,文章中也有很多不足的地方,欢迎指出;如果觉得有用,也欢迎点赞鼓励。

   成为一名优秀的程序员!

原文地址:https://www.cnblogs.com/jijunjian/p/12637246.html

时间: 2024-07-29 19:33:18

火焰图--记一次cpu降温过程的相关文章

Linux程序性能分析和火焰图

Linux程序性能分析和火焰图 Linux程序的性能分析工具数量比较多,涉及到整个操作系统的方方面面,可能是开源的原因吧,相对于Windows来说丰富太多.其中应用分析性能方面Dtrace, SystemTap, Perf_events应该算是这方面的集大成者.Dtrace目前只在较高的内核版本有支持,记得是4.8以后, SystemTap则是需要在Red Hat的官方网站下载OS版本对应的调试符号和对应的调试版本内核,配置起来需要花费一定的时间,只有Perf_events使用起来比较方面,但是

perf+火焰图使用

使用 # 安装perf yum install perf -y # 下载绘图工具 git clone https://github.com/brendangregg/FlameGraph.git # 采集数据 perf record -F99-p3887-g -- sleep 30 # 生成火焰图 perf script -i perf.data &> perf.unfold ./FlameGraph/stackcollapse-perf.pl perf.unfold &> p

记一次获得 3 倍性能的 go 程序优化实践,及 on-cpu / off-cpu 火焰图的使用

转自:https://mp.weixin.qq.com/s/9IKaXeWTiiQTFlvZzxgsEA 记一次获得 3 倍性能的 go 程序优化实践,及 on-cpu / off-cpu 火焰图的使用 原创 2017-07-27 petergz 唯技术 先把结论列在前面: 1.Golang的性能可以做到非常好,但是一些native包的性能很可能会拖后腿,比如regexp和encoding/json.如果在性能要求较高的场合使用,要根据实际情况做相应优化. 2.on-cpu/off-cpu火焰图

动态追踪技术(中) - Dtrace、SystemTap、火焰图

http://openresty.org/cn/presentations.html http://weibo.com/agentzh?is_all=1 http://openresty.org/posts/dynamic-tracing/ 动态追踪技术(中) - Dtrace.SystemTap.火焰图 原创 2016-05-06 章亦春 MacTalk 动态追踪技术中篇,关于 DTrace.SystemTap 和 火焰图的那点事. DTrace 与 SystemTap 说到动态追踪就不能不提

cpu设计过程

一款CPU是如何设计出来的? 前面一段,我们了解了芯片的制造过程,也就是如何从沙子中提取硅.把硅切成片,在片上通过离子注入实现PN结.实现各种二极管.三极管.CMOS管.从而实现千万门级大规模集成电路的大致流程.接下来,我们继续了解一下,一款CPU是如何设计出来的.集成电路设计一般分为模拟IC设计.数字IC设计以及数模混合等.而数字IC设计,比如设计一款ARM Soc CPU芯片的基本流程如下: 1)设计芯片规格:根据需求,设计出基本的框架.功能.模块划分.有些复杂的芯片可能还需要建模.使用MA

火焰图分析openresty性能瓶颈

注:本文操作基于CentOS 系统 准备工作 用wget从https://sourceware.org/systemtap/ftp/releases/下载最新版的systemtap.tar.gz压缩包,然后解压../configure; make; make install 安装到目标主机:执行命令 stap -ve 'probe begin { log("hello systemtap!") exit() }' 如果提示pass 5: run completed ... 就表示安装成

转发 Java火焰图在Netflix的实践

为了分析不同软件或软件的不同版本使用CPU的情况,相关设计人员通常需要进行函数的堆栈性能分析.相比于定期采样获得数据的方式,利用定时中断来收集程序运行时的PC寄存器值.函数地址以及整个堆栈轨迹更加高效.目前,OProfile.gprof和SystemTap等工具都是采用该方法,给出详细的CPU使用情况报告.然而,这些工具在处理复杂的统计数据时,给出的报告往往过于繁杂.不够直观.不能直接反应分析员所需要的数据.为此,Brendan Gregg开发了专门把采样到的堆栈轨迹(Stack Trace)转

perf + 火焰图分析程序性能

1.perf命令简要介绍 性能调优时,我们通常需要分析查找到程序百分比高的热点代码片段,这便需要使用 perf record 记录单个函数级别的统计信息,并使用 perf report 来显示统计结果: perf record perf report 举例: sudo perf record -e cpu-clock -g -p 2548 -g 选项是告诉perf record额外记录函数的调用关系 -e cpu-clock 指perf record监控的指标为cpu周期 -p 指定需要reco

使用linux perf工具生成java程序火焰图

pre.cjk { font-family: "Nimbus Mono L", monospace } p { margin-bottom: 0.1in; line-height: 120% } a:link { } 重要参考文献:www.brendangregg.com/blog/2017-06-30/package-flame-graph.html Java FlameGraph(火焰图)能够非常直观的展示java程序的性能分析结果,方便发现程序热点和进一步调优.本文将展示如何使用