IO负载高的来源定位 IO系列

http://elf8848.iteye.com/category/281637

前言：

在一般运维工作中经常会遇到这么一个场景，服务器的IO负载很高（iostat中的util），但是无法快速的定位到IO负载的来源进程和来源文件导致无法进行相应的策略来解决问题。

这个现象在MySQL上更为常见，在5.6（performance_schema提供io instrument）之前，我们通常只能猜到是MySQL导致的高IO，但是没法定位具体是哪个文件带来的负载。

例如是ibdata的刷写？还是冷门ibd的随机读取？

本文就将介绍一个比较简单的定位IO高负载的流程。

工具准备：

iotop: http://guichaz.free.fr/iotop/

pt-ioprofile:http://www.percona.com/downloads/percona-toolkit/2.2.1/

Step1 : iostat 查看IO情况

iostat -x 1 查看IO情况，从下图可以看到dfa这个磁盘的IO负载较高，接下来我们就来定位具体的负载来源

Step2： iotop定位负载来源进程

iotop的本质是一个python脚本，从proc中获取thread的IO信息，进行汇总。

从下图可以看出大部分的IO来源都来自于mysqld进程。因此可以确定dfa的负载来源是数据库

Step3 pt-ioprofile定位负载来源文件

pt-ioprofile的原理是对某个pid附加一个strace进程进行IO分析。

以下是摘自官网的一段警示：

However, it works by attaching strace to the process using ptrace(), which will make it run very slowly until strace detaches. In addition to freezing the server, there is also some risk of the process crashing or performing badly after strace detaches from it, or indeed of strace not detaching cleanly and leaving the process in a sleeping state. As a result, this should be considered an intrusive tool, and should not be used on production servers unless you are comfortable with that.

通过ps aux|grep mysqld 找到 mysqld进程对应的进程号，通过pt-ioprofile查看哪个文件的IO占用时间最多。

默认参数下该工具展示的是IO占用的时间。

对于定位问题更有用的是通过IO的吞吐量来进行定位。使用参数 --cell=sizes，该参数将结果已 B/s 的方式展示出来

从上图可以看出IO负载的主要来源是sbtest （sysbench的IO bound OLTP测试）。

并且压力主要集中在读取上。

时间： 2024-11-08 23:29:36

IO负载高的来源定位 IO系列的相关文章

IO负载高的来源定位

前言: 在一般运维工作中经常会遇到这么一个场景,服务器的IO负载很高(iostat中的util),但是无法快速的定位到IO负载的来源进程和来源文件导致无法进行相应的策略来解决问题. 这个现象在MySQL上更为常见,在5.6(performance_schema提供io instrument)之前,我们通常只能猜到是MySQL导致的高IO,但是没法定位具体是哪个文件带来的负载. 例如是ibdata的刷写?还是冷门ibd的随机读取? 本文就将介绍一个比较简单的定位IO高负载的流程. 工具准备: io

iotop,pt-ioprofile : mysql IO负载高的来源定位

http://www.cnblogs.com/cenalulu/archive/2013/04/12/3016714.html 前言: 在一般运维工作中经常会遇到这么一个场景,服务器的IO负载很高(iostat中的util),但是无法快速的定位到IO负载的来源进程和来源文件导致无法进行相应的策略来解决问题. 这个现象在MySQL上更为常见,在5.6(performance_schema提供io instrument)之前,我们通常只能猜到是MySQL导致的高IO,但是没法定位具体是哪个文件带来的

Clickhouse 性能瓶颈排查 IO过高

前几天公司clickhouse 有个查询很慢.经理一直追问为什么慢是cpu 不够还是IO 占用太高,还是其他的原因.于是有了以下的排查执行该条,在不考虑优化sql 的情况下进行性能排查 1.首先便是万能的 top第三行CPU信息统计数据: %Cpu(s): 0.3 us, 0.2 sy, 0.0 ni, 99.5 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st ``` Cpu(s): 0.3% us: 用户空间占用CPU百分比 0.2% sy: 内核(系统)空间占用

CPU、内存、IO负载过高排障方法及解决方案

内存使用过高处理方法: 查询手段使用top查看, 处理方法 1.将没有用的进程杀掉 2.查看占用进程高的应用的日志,对其做相应用的优化 3.增加内存或者通过pstack这些工具去查对应进程的pid对系统调用的情况来定位故障原因. CPU负载过高处理方法: 查询手段:CPU资源负载过高,可通过使用top命令查出对应cpu资源使用率高的进程, 分析原因: 根据进程判断是什么应用,再去查对应应用的访问量大小,以及日志去定位是因为访问量过大导致,还是因为性能的原因导致. 处理方法: 如果是访问量导致

查看IO负载

负载(load)是linux机器的一个重要指标,直观了反应了机器当前的状态.如果机器负载过高,那么对机器的操作将难以进行. Linux的负载高,主要是由于CPU使用.内存使用.IO消耗三部分构成.任意一项使用过多,都将导致服务器负载的急剧攀升. 查看服务器负载有多种命令,w或者uptime都可以直接展示负载, $ uptime 12:20:30 up 44 days, 21:46, 2 users, load average: 8.99, 7.55, 5.40 $ w 12:22:02 up 4

Nginx写IO占用高故障处理

文章来源:<https://www.centos.bz/2015/04/handle-nginx-write-io-problem/> 故障现象突然收到一台服务器负载过高告警,紧接着网站打开缓慢. 故障分析 1.登录服务器,使用top命令看到Cpu行的iowait达到了70%以上,所以断定是IO负载过高的原因; 2.接着使用iotop -o命令发现,Nginx的写IO特别大,并且在上一步的top命令看到Nginx的进程状态为D,表示Nginx在等待IO已经为僵死状态; 3.这时候是清楚知道是

liunx 定位IO瓶颈方法

定位IO瓶颈的一些方法(iotop工具具体查看IO负载主要是落在哪个进程上) IO瓶颈往往是我们可能会忽略的地方(我们常会看top.free.netstat等等,但经常会忽略IO的负载情况),今天给大家详细分享一下如何确认一台服务器的IO负载是否到达了瓶颈,以及可能优化.定位的点. 先来看一台典型的IO密集型服务器的cpu统计图: 可以看到,CPU总使用率不高,平均1.3%,max到5.6%,虽然大部分都耗在了iowait上,但才百分之五左右,应该还没到瓶颈吧???错了!这里要特别注意:iowa

云服务器 ECS Linux IO 占用高问题排查方法

https://help.aliyun.com/knowledge_detail/41224.html?spm=5176.7841174.2.19.uqC1as#使用 iostat 从系统纬度查看磁盘 IO 负载 IO 负载查看方法使用 iostat 从系统纬度查看磁盘 IO 负载使用 iotop 从进程纬度查看磁盘 IO 负载使用 iostat 从系统纬度查看磁盘 IO 负载可以通过 iostat 从系统维度查看 IO 负载情况. iostat 并非常见 Linux 发行版本自带工具,

磁盘IO过高时的处理办法

针对系统中磁盘IO负载过高的指导性操作主要命令:echo deadline > /sys/block/sda/queue/scheduler 注:以下的内容仅是提供参考,如果磁盘IO确实比较大的话,是数据库,可以进行读写分离或者分库操作,减小磁盘压力,文件的话,可以利用raid来减轻压力一)I/O调度程序的总结: 1)当向设备写入数据块或是从设备读出数据块时,请求都被安置在一个队列中等待完成.2)每个块设备都有它自己的队列.3)I/O调度程序负责维护这些队列的顺序,以更有效地利用介质.I/O