高规格虚机 sys cpu高现场分析工具箱

导言

线上运行环境有时候会遇到cpu 飙升的场景,一般来讲对于多核的虚机,一个常见猝发场景就是高并发导致,核多并发高时,syscall会在锁这块 sys 消耗高,当然只有猜测不行,下面就列出了几个常见捉鬼工具 ,后半部分会拿一个示例。

工具箱

1、nmon promes 分析

尤其是promes ,比较推荐用起来,提供比较立体的系统级别监控

2、perf 分析

perf top -a -G
perf top -a -e cs -G
perf record -g -p 14778 -e cycles sleep 10
TIPS:
perf 采样界面中按
shift + e 可展开堆栈
shift + c 可折叠
展开 折叠状态分别截图
右方向键可以下钻函数查看其上下文(例如属于哪个lib),左方向键返回
最好排在前面的几个函数都去下钻截图

3、系统调用统计

{ top -H -p PID  -b -n 1|grep execname|awk ‘{print $1}‘| sed ‘s/\([0-9]*\)/-p \1/g‘|xargs strace -c  2> /tmp/stat & }; sleep 5;pkill strace

4、调用细节

{ top -H -p PID -b -n 1|grep execname|awk ‘{print $1}‘| sed ‘s/\([0-9]*\)/-p \1/g‘|xargs strace -i -v -T  2> /tmp/detail & }; sleep 5;pkill strace

5、sar -wq 1 10

6、vmstat 1 10

7、mpstat -I ALL 1

8、rpm -qa > /tmp/rpms

9、堆栈dump

echo 1 >   /proc/sys/kernel/sysrq
echo t > /proc/sysrq-trigger

一个案例

某数据库系统导数据时,syscpu 会很高

可以看到每到任务运行时间,sys 就会高企,,初步分析,目标机器有16c,根据经验怀疑是时间耗在并发锁处理上,但是具体哪部分需要使用perf 线上抓取堆栈

,可以看见sys time 耗在了spinlock 处,是MM 系统的内存压实整理例程中,结合该数据库开启了hugepage 因此初步可以断定是因为内存过于碎片化,无法满足巨页分配,也就是整体看内存高阶页不足

当然伴随的现象不止这一个,也注意到问题时刻系统的进程创建非常多,高达每秒数百,如下图

这个与项目组认为的10并发是对不上的,因此的出的综合结论是

sys高时间主要耗在了内存碎片整理, 主因是内存不足,伴随现象之一是线程创建多 fork 300-800/s  内存回收多,很多cache 问题时间段回收,得扩内存,动态模型也似乎有问题,不知道fork 那么多进程做什么用 

上面的结论看着很模糊,但是提供了比较全面的现场总结,坚定了问题的排查方向,果然,项目组重新梳理代码后,发现一处高并发场景,修改参数后,问题得以解决

原文地址:https://blog.51cto.com/13866624/2387022

时间: 2024-08-30 05:57:58

高规格虚机 sys cpu高现场分析工具箱的相关文章

MySQL SYS CPU高的案例分析(一)

原文:MySQL SYS CPU高的案例分析(一) [现象] 最近关注MySQL CPU告警的问题时,发现有一种场景,有一些服务器最近都较频繁的出现CPU告警,其中的现象是 SYS CPU占比较高. 下面的截图来源于“MySQL CPU报警”采集的文件 [问题分析] 可以分析出这服务器CPU升高的原因是由于表的高并发写入引起.优化方案通常是通知开发停止写入或降低写入频率. 究竟是什么原因导致高并发写入时CPU sys的占比这么高. 从采集的[Perf Stat]指标看到CPU有大量消耗是集中ke

Expert 诊断优化系列------------------你的CPU高么?

现在很多用户被数据库的慢的问题所困扰,又苦于花钱请一个专业的DBA成本太高.软件维护人员对数据库的了解又不是那么深入,所以导致问题迟迟不能解决,或只能暂时解决不能得到根治.开发人员解决数据问题基本又是搜遍百度各种方法尝试个遍,可能错过诊断问题的最佳时机又可能尝试一堆方法最后无奈放弃. 怎么样让琐事缠身的程序维护人员,用最快的方式解决数据库出现的问题?怎么让我们程序员的痛苦降低到最小...每天喝喝茶水,看看新闻平安度过一天呢?本系列重要通过Expert for sqlserver工具讲解下数据库遇

SQLSERVER服务器的CPU 100%紧急对应:查询占CPU高的session并KILL

---查询使用CPU高的sessionSELECT TOP 10[session_id],[request_id],[start_time] AS '开始时间',[status] AS '状态',[command] AS '命令',dest.[text] AS 'sql语句', DB_NAME([database_id]) AS '数据库名',[blocking_session_id] AS '正在阻塞其他会话的会话ID',[wait_type] AS '等待资源类型',[wait_time]

【疑难问题】Java疑难CPU高定位

1   CPU高分析 1.1   说明(root执行) 建议使用root账号执行命令,使用其他账号登录可能会无法看到部分进程信息. 1.2   查看服务进程ID(ps) 命令格式:  ps –ef | grep XXXX 1.3   查看机器CPU占用情况(top) 命令格式:  top 执行结果如下,结果会动态刷新 %CPU取值说明:以347949为例,58.7%并不是类似Windows的整体CPU占用率.CPU通常是多核,命令执行机器是8核CPU,则CPU全部可用率为8*100%=800%:

cpu高负载解决思路

服务器上tomcat启动之后,使用top查看cpu使用率,竟然达到200%,虽然服务器配置有8核,但是业务量一大,扛不住滴.于是,通过以下方法排查问题: 1.查看占用cpu高的进程数: 根据top命令,发现PID为14586的Java进程占用CPU高达200%,出现故障. 通过ps aux | grep PID命令,可以进一步确定是tomcat进程出现了问题.但是,怎么精确到问题所在呢? 首先显示线程列表: ps -mp pid -o THREAD,tid,time 找到耗时最高的线程id为:1

Java进程CPU高

Java进程CPU高1-1) 查看$PID进程里面的线程CPU占用状况    top -H -p $PID1-2) 显示线程列表,并按照CPU占用高的线程排序     ps -mp $PID -o THREAD,tid,time | sort -rn2) 找出CPU消耗较多的线程id, 并转换成16进制     printf "%x\n" $TID3) 查询出具体的线程状态     jstack $PID | grep -A 10 0x$TID

没GPU也能玩梵高作画:Ubuntu tensorflow CPU版

            没GPU也能玩梵高作画:Ubuntu tensorflow CPU版 作者:七月在线开发/市场团队骁哲.李伟.July时间:二零一六年九月二十七日 一.前言 9月22号,我们开发/市场团队的两同事利用DL学梵高作画,安装cuda 8.0趟遍无数坑,很多朋友求避坑.因此,3天后的9月25日,便把教程<教你从头到尾利用DL学梵高作画:GTX 1070 cuda 8.0 tensorflow gpu版>公布出去.但令人尴尬的是,不少同学没有GTX 1070.甚至没有一块像样的

BlueCoat SG CPU高问题

问题原因:主要是因IWA   WINDOWS AD域控做admin设备管理及WEB访问认证时消耗大量CPU,IWA使用导致SG设备CPU高问题详细原因暂时不能确定 解决过程: 1.通过对VPM策略中相关IWA调用关系进行解除,在authentication导航中行后对IWA进行删除并对windows domain中的SDB进行离开动作,解除IWA与域控之间的交互,以尝试解决CPU高的问题. 2.在statistics选项卡中点击summary,并查看device,CPU利用率逐渐降低,直到与主用

查看进程中占cpu高的线程方法

当在任务管理器中发现有进程占用cpu过高的时候通过下面的指令将进程快照导出到c盘 jstack -l 进程PID> c:/进程PID.stack 查看进程PID的方法: 然后我们需要下载微软提供的process-explorer工具用来查看那个线程占cpu高 下载地址:https://docs.microsoft.com/zh-cn/sysinternals/downloads/process-explorer 下载后解压打开 然后找到threads下的占用cpu高的线程TID (注意:这里的T