Linux性能分析Top

前言

在实际开发中，有时候会收到一些服务的监控报警，比如CPU飙高，内存飙高等，这个时候，我们会登录到服务器上进行排查。本篇博客将涵盖这方面的知识：Linux性能工具。

一次线上问题排查模拟

背景：服务在平稳运行一段时间后，CPU突然飙高。

通过top命令，可以确认下，到底是哪个进程导致CPU飙高了（也许是误报呢？）。

可以看到图中PID是2816的进程，CPU使用率非常高。

使用top -Hp 2816来对进程下的线程进行观察。图中可以发现，2825这个线程CPU非常高。

这里利用Python非常方便的把十进制的线程ID转化成了16进制，为什么要这么做呢？

因为在接下来的线程DUMP文件中使用的就是16进制的NID。

在实际中，我们应该利用jstack pid多DUMP几次，因为线程存在状态转换，因此多次DUMP有利于抓取到线程更多的信息。

图中，你可以观察到，一个线程得到了锁，在运行，迟迟没有释放，而另一个线程一直在等待这个锁。至此，就可以到去查看代码去分析为什么锁迟迟不释放的原因了。

性能监测工具top详解

上文的案例中，就使用到了top，而在实际中，top的信息量是很大的，这里详细分析下。

第一行：

涉及到2个时间，一个是系统时间，一个是机器运行的时间。【我们应该重点关注的是机器运行的时间，Why? 有时候，重启机器能带来很多问题，你懂的！】

多少用户登录了系统？【通过who/w/history可以查到更多信息】

3个load值是什么含义？

分别代表的是1MIN,5MIN,15MIN机器的负载情况，如何确定负载的大小呢？需要和CPU的核数相结合来看，比如该机器是4核CPU，那么如果load值超过了4，就意味着负载很大了！【在top下按下1可以观察出CPU的个数】

上述信息，其实也可以通过uptime命令来获取。

第二行：

主要是总共有多少个任务，重点应该关注的是僵尸状态的任务数。

第三行：

主要是CPU的一些信息。

US/SY，说的就是用户进程和系统进程使用CPU的占比。

NI，即NICE，表示被调整过线程优先级的进程占比，这个比例正常不应该很大。

ID，表示空闲；WA表示资源等待的时间，比如在瞬时大流量下，服务打了很多日志的话，那么这个值就会飙高，因为这会很消耗资源的。

HI，硬中断，一般就是外设引起的，如果HI飙高的话，那么意味着外设在硬件层面出现了问题。SI表示软中断。

ST，即steel，如果该主机是虚拟的话会有这个ST信息，也即是该虚拟机从宿主机获取CPU的时间片的百分占比。

第四和第五行：

这里主要说2个概念性的东西：buffer 和 cache。

buffer主要是什么呢？应该是待处理的数据，主要是处理2个系统之间速度不匹配的问题。而cache，一般应该是结果数据的缓存，比如从DB加载一些信息供查询用。

SWAP分区，就是想利用硬盘的做一部分缓存，如果SWAP交换非常频繁的话，就是说内存不够用！

列表说明：

PID 进程ID、USER 用户、PR 优先级、VIRT 虚拟内存、RES 驻留内存、SHR 共享内存

这里需要指出的是，RES表示的是该进程实际占用的内存，而并不是申请的内存大小。也就是说当前进程所占用的内存物理大小是 RES-SHR。

原文地址：https://www.cnblogs.com/qlqwjy/p/8406884.html

时间： 2025-01-09 08:29:40

Linux性能分析Top的相关文章

Linux性能分析top iostat vmstat free

最近看到一大牛的分析报告,才知道笔者认识这4个命令是多么肤浅,其实要读懂内存的信息,是要一些功力的.1.top VIRT 虚拟内存总量,VIRT=SWAP+RESSWAP 使用的虚拟内存中被换出的大小RES 进程使用的.未被换出的物理内存大小SHR 共享内存大小,单位kbS 进程状态%MEM 进程使用的物理内存百分比%CPU CPU时间占用百分比M

超全整理！Linux性能分析工具汇总合集

出于对Linux操作系统的兴趣,以及对底层知识的强烈欲望,因此整理了这篇文章.本文也可以作为检验基础知识的指标,另外文章涵盖了一个系统的方方面面.如果没有完善的计算机系统知识,网络知识和操作系统知识,文档中的工具,是不可能完全掌握的,另外对系统性能分析和优化是一个长期的系列. 本文档主要是结合Linux 大牛,Netflix 高级性能架构师 Brendan Gregg 更新 Linux 性能调优工具的博文,搜集Linux系统性能优化相关文章整理后的一篇综合性文章,主要是结合博文对涉及到的原理和性

vmstat命令详解——linux性能分析

版本信息: procps version 3.2.8 基本使用: vmstat [-a] [-n] [-t] [-S unit] [delay [ count]] [-a]:显示活跃和非活跃内存 [-n]:只在开始时显示一次字段名,针对多次收集信息的情况输出人性化一点 [-t]:在每条信息的末尾,显示收集信息的时间 [-S unit]:使用指定单位显示.参数有 k .K .m .M ,分别代表1000.1024.1000000.1048576字节(byte).默认单位为K(1024 bytes)

Linux 性能分析工具汇总合集

【原创】一文掌握 Linux 性能分析之 I/O 篇

本文首发于我的公众号 CloudDeveloper(ID: cloud_dev),专注于干货分享,号内有大量书籍和视频资源,后台回复「1024」即可领取,欢迎大家关注,二维码文末可以扫. 一文掌握 Linux 性能分析之 CPU 篇一文掌握 Linux 性能分析之内存篇这是 Linux 性能分析系列的第三篇,前两篇分别讲了 CPU 和内存,本篇来看 IO. IO 和存储密切相关,存储可以概括为磁盘,内存,缓存,三者读写的性能差距非常大,磁盘读写是毫秒级的(一般 0.1-10ms),内存读

Linux性能分析工具汇总合集

iostat命令详解——linux性能分析

之前总结uptime和free命令,今天继续来总结一下iostat.给自己留个笔记,同时也希望对大家有用. 版本信息: sysstat version 9.0.4 (C) Sebastien Godard (sysstat <at> orange.fr) 基本使用: iostat [ -c ] [ -d ] [ -N ] [ -n ] [ -h ] [ -k | -m ] [ -t ] [ -V ] [ -x ] [ -z ] [ device [...] | ALL

Linux性能分析之mpstat&iostat&sar&vmstat

安装sysstat rpm包就有iostat.mpstat.sar.sa的功能,rpm –Uvh sysstat* mpstat 另一个用于获取 CPU 相关统计信息的有用的命令是 mpstat.下面是一个示例输出: # mpstat -P ALL 5 2 Linux 2.6.9-67.ELsmp (oraclerac1) 12/20/2008 10:42:38 PM CPU %user %nice %system %iowait %irq %soft %idle

三种Linux性能分析工具的比较

无论是在CPU设计.服务器研发还是存储系统开发的过程中,性能总是一个绕不过去的硬指标.很多时候,我们发现系统功能完备,但就是性能不尽如意,这时候就需要找到性能瓶颈.进行优化.首先我们需要结合硬件特点.操作系统和应用程序的特点深入了解系统内部的运行机制.数据流图和关键路径,最好找出核心模块.建立起抽象模型:接着需要利用各种性能分析工具,探测相关模块的热点路径.耗时统计和占比.在这方面,Linux操作系统自带了多种灵活又具有专对性的工具,此外一些厂家也开源了不少优秀的性能分析工具.下面就结合笔者最近