系统监控

系统监视和进程控制工具—top和free
top命令的功能
top命令显示结果中一些常用状态信息的具体含义
free命令的功能
系统中进程的监控—ps
什么是进程
什么是守护进程
什么是父进程、子进程
ps命令的功能
系统中进程的监控—pstree、kill、pkill、pgrep
pstree命令的功能
pstree命令的用法举例
kill命令的功能
kill命令的用法举例
kill -9
pkill、pgrep命令的功能

1. 系统监视和进程控制工具—top和free
1) 掌握top命令的功能:top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。
2) 了解使用top命令列出系统状态时,系统默认每5秒刷新一下屏幕上的显示结果。

1. 第一行是任务队列信息


12:38:33


当前时间


up 50days


系统运行时间,格式为时:分


1 user


当前登录用户数


load average: 0.06, 0.60, 0.48


系统负载。 三个数值分别为  1分钟、5分钟、15分钟前到现在的平均值。

2. 第二、三行为进程和CPU的信息


Tasks: 29 total


进程总数


1 running


正在运行的进程数


28 sleeping


睡眠的进程数


0 stopped


停止的进程数


0 zombie


僵尸进程数


Cpu(s): 0.3% us


用户空间占用CPU百分比


1.0% sy


内核空间占用CPU百分比


0.0% ni


用户进程空间内改变过优先级的进程占用CPU百分比


98.7% id


空闲CPU百分比


0.0% wa


等待输入输出的CPU时间百分比


0.0% hi

硬件中断占用CPU时间的百分比

0.0% si

软件中断占用CPU时间的百分比 

3. 第四五行为内存信息。

4.  进程信息


列名


含义


PID


进程id


PPID


父进程id


RUSER


Real user name


UID


进程所有者的用户id


USER


进程所有者的用户名


GROUP


进程所有者的组名


TTY


启动进程的终端名。不是从终端启动的进程则显示为 ?


PR


优先级


NI


nice值。负值表示高优先级,正值表示低优先级


P


最后使用的CPU,仅在多CPU环境下有意义


%CPU


上次更新到现在的CPU时间占用百分比


TIME


进程使用的CPU时间总计,单位秒


TIME+


进程使用的CPU时间总计,单位1/100秒


%MEM


进程使用的物理内存百分比


VIRT


进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES


SWAP


进程使用的虚拟内存中,被换出的大小,单位kb。


RES


进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA


CODE


可执行代码占用的物理内存大小,单位kb


DATA


可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb


SHR


共享内存大小,单位kb


nFLT


页面错误次数


nDRT


最后一次写入到现在,被修改过的页面数。


S


进程状态。
            D=不可中断的睡眠状态
            R=运行
            S=睡眠
            T=跟踪/停止
            Z=僵尸进程


COMMAND


命令名/命令行


WCHAN


若该进程在睡眠,则显示睡眠中的系统函数名


Flags


任务标志,参考 sched.h

cpu利用率与load average

cpu是用来干活的,按照这个层面去理解,每个码农都是一个cpu

cpu利用率:上一天班的时间是8个小时,而码农敲代码的时间为2个小时,2/8=0.25  ,25%就是码农在一天的时间内的利用率(正常情况,cpu利用率<70%)

cpu负载:公司在一分钟内为某个码农安排了3个任务,而1分钟内该码农能做6个任务,那么该码农一分钟内的负载为0.5

          如果公司在5分钟内为某个码农安排了100个任务,而5分钟内该码农只能做50个任务,那么该码农5分钟内的负载为2.0,即超负荷运转

      cpu负载<=1:能正常应付

cpu负载>1:超负荷运转

     如果有4核,相当于将100个任务交给4个码农去干,如果每个码农的负载都是100%,那么整体的cpu负载达到4.0则是很正常的现象

      

多核cpu, load average 应该 <= cpu核数 * 0.7

为何要有1分钟,5分钟,15分钟三种cpu负载?

  其实之所以要给出3个值,就是希望我们能结合起来看。或者说希望展示一个动态的图表式的数据,比如最近一分钟显示负载120%。而最近5分钟和15分钟显示负载为50%。可能你不用太过担心。但是如果你发现系统的负载一直维持在120%以上,就必须要提高硬件配置了。

cpu利用率和cpu负载过高,都是不好的现象,但是也有可能出现,低利用率,高负载的情况:

  为一个码农分配了100个项目,毫无疑问,该码农的负载是很高的,但是码农在具体去做一个项目时,可能会碰到需要购买机器,或者查询资料等耗费时间的问题,真正动手写代码的时间可能很短,而这段时间才是码农真正为公司干活的时间,如果每个项目都有类似这种问题,那么100个项目加到一起,码农真正工作的时间也不会太多,这就造成了低利用率。

  在两种情况下会导致一个进程在逻辑上不能运行,

  1. 进程挂起是自身原因,遇到I/O阻塞,便要让出CPU让其他进程去执行,这样保证CPU一直在工作

  2. 与进程无关,是操作系统层面,可能会因为一个进程占用时间过多,或者优先级等原因,而调用其他的进程去使用CPU。

  因而一个进程有三种状态

3) 掌握free命令的功能:显示内存的使用状态。(下图centos6中查看效果,用二维数组代表FO即free output)

                   1          2          3          4          5          6
1              total       used       free     shared    buffers     cached
2 Mem:      24677460   23276064    1401396          0     870540   12084008
3 -/+ buffers/cache:   10321516   14355944
4 Swap:     25151484     224188   24927296

从操作系统的角度:

  物理内存FO[2][1]=24677460KB

  物理内存被使用的内存FO[2][2]=23276064KB

  可以用内存F[2][3]=1401396KB

  等式:FO[2][1] = FO[2][2] + FO[2][3]

  共享内存F[2][4]=0,表示几个进程共享的内存(数据共享)

  F[2][5]=870540表示已经分配但是还未使用的buffers大小

  F[2][6]=12084008表示已经分配但是还未使用的buffers大小

  buffer和cache的解释:

    • A buffer is something that has yet to be "written" to disk. 
    • A cache is something that has been "read" from the disk and stored for later use.

  也就是说buffer是用于存放要输出到disk(块设备)的数据的,而cache是存放从disk上读出的数据。这二者是为了提高IO性能的,并由OS管理。

  Linux和其他成熟的操作系统(例如windows),为了提高IO read的性能,总是要多cache一些数据,这也就是为什么FO[2][6](cached memory)比较大,而FO[2][3]比较小的原因。我们可以做一个简单的测试

  1. 释放掉被系统cache占用的数据;

    echo 3>/proc/sys/vm/drop_caches 

  2. 读一个大文件,并记录时间;
  3. 关闭该文件;
  4. 重读这个大文件,并记录时间;

  第二次读应该比第一次快很多。

  free输出的第二行是从一个应用程序的角度看系统内存的使用情况。

  • 对于FO[3][2],即-buffers/cache,表示一个应用程序认为系统被用掉多少内存;
  • 对于FO[3][3],即+buffers/cache,表示一个应用程序认为系统还有多少内存;

  因为被系统cache和buffer占用的内存可以被快速回收,所以通常FO[3][3]比FO[2][3]会大很多。

  这里还用两个等式:

  • FO[3][2] = FO[2][2] - FO[2][5] - FO[2][6]
  • FO[3][3] = FO[2][3] + FO[2][5] + FO[2][6]

  free命令的所有输出值都是从/proc/meminfo中读出的。

4)  掌握free命令的功能:显示内存的使用状态。(下面均为centos7中查看效果)

http://www.linuxatemyram.com/提到使用free命令查看Linux系统使用内存时,used一项会把当前cache的大小也会加进去,这样会造成free这一栏显示的内存特别少:

$ free -m
               total        used        free      shared  buff/cache   available
Mem:           1504        1491          13           0         855      869
Swap:          2047           6        2041

可是实际上,cache根据应用程序的需要是可以回收利用的,因此free这一栏并不能真实地表现有多少“可以使用”的内存。实际系统可用内存应该以available数据为准。

linuxatemyram所提到的free命令也许是比较老的版本,我尝试了RHEL 7.2Ubuntu 16.04Arch Linux3Linux发行版,均没有出现used包含cache的情况:

$ free -m
              total        used        free      shared  buff/cache   available
Mem:          64325       47437        3150        1860       13737       14373

另外,从man free命令中也可以得到,目前计算used的值是要减掉freebuff/cache的:

used Used memory (calculated as total – free – buffers – cache)

可以使用-w命令行选项得到buffcache各自使用的数量:

$ free -wm
              total        used        free      shared     buffers       cache   available
Mem:          64325       48287        2476        1859        1430       12131       13524

需要注意的是,free表示的是当前完全没有被程序使用的内存;而cache在有需要时,是可以被释放出来以供其它进程使用的(当然,并不是所有cache都可以释放,比如当前被用作ramfs的内存)。而available才真正表明系统目前可以提供给应用程序使用的内存。/proc/meminfo3.14内核版本开始提供MemAvailable的值;在2.6.27~3.14版本之间,是free程序自己计算available的值;早于2.6.27版本,available的值则同free一样。

2. 系统中进程的监控—ps
1) 掌握进程的定义:进程是程序的一次动态执行。
2) 掌握守护进程的定义:守护进程是在后台运行并提供系统服务的一些进程。
3) 掌握父进程、子进程的定义:当一个进程创建另一个进程时,第1个进程被称为新进程的父进程,而新进程被称为子进程。
4) 掌握ps命令的功能:用来显示当前进程的状态。
Ps –aux 显示所有的与用户相关的完整信息
系统中进程的监控pstree、kill

centos7默认没有pstree,需要yum -y install psmisc
1) 掌握pstree命令的功能:以树状图显示程序。
2) 掌握pstree命令的用法举例:
例如:列出PID为4729的进程的进程状态树的命令:pstree 4729
3) 掌握kill命令的功能:把一个信号发送给一个或多个进程。默认发送终止信号。
4) 灵活应用kill命令终止进程
例如:终止PID为3852的进程的命令:kill 3852
5) 灵活应用kill -9命令杀死进程
例如:杀死PID为3906的进程的命令:kill -9 3906
3. 掌握pgrep命令的功能:通过名称或其他属性查找进程
例如:查找名为firefox的进程的命令为:pgrep firefox
4. 掌握pkill命令的功能:通过名称或其他属性发信号给进程
例如:杀死名为firefox的进程的命令为:pkill firefox

时间: 2024-10-23 02:43:57

系统监控的相关文章

Nagios 系统监控

Nagios 系统监控 Nagios 是一款免费的开源 IT 基础设施监控系统,功能强大,灵活性强,能有效监控 Windows.Linux.VMware 和 Unix 主机状态,交换机.路由器等网络设置等.一旦主机或服务状态出现异常时,会发出邮件或短信报警第一时间通知 IT 运营人员,在恢复后发出正常的邮件或短信.Nagios 结构简单,可维护性强,提供一个可选的基于浏览器的 Web 界面,方便管理人员查看系统的运行状态,网络状态.服务状态.日志信息,以及其它异常现象. 一.Nagios 结构简

《shell脚本系统监控-------邮件告警》

我与众多同学一样,在没有学习shell编程之前是对shell编程是一头雾水的,然而它能做什么我也不知道,就是觉得能够使用一个与别人不一样的方式去管理系统.现在我慢慢的懂shell的重要性,为小型的机房里面做一个小小的shell监控足够,当然大型的机房不能使用shell来监控系统,因为大型机房监控的机器有很多,而它们的状态是以报表和图形界面的形式来汇报问题的. 接下来我写一篇关于怎么用shell来进行系统监控并在进行发送邮件. 创建一个文件: vim monitor.sh #/bin/bash  

NO.7day系统监控,硬盘分区和文件系统管理

系统监控,硬盘分区和文件系统管理 1.系统监控 top命令:top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器.默认每5秒刷新屏幕数据. top pid  进程id  ppid 父进程id free命令:显示内存的使用状态 buffer是用于存放要输出到disk(块设备)的数据的,而cache是存放从disk上读出的数据.这二者是为了提高IO性能的,并由OS管理.实际系统可用内存应该以available数据为准. ps命令:进程

Day 7 Linux之系统监控、硬盘分区等

Linux之系统监控.硬盘分区等 系统监控 系统监视和进程控制工具—top和free 1) 掌握top命令的功能:top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器. 2) 了解使用top命令列出系统状态时,系统默认每5秒刷新一下屏幕上的显示结果.  1.第一行是任务队列信息 14:54:36 当前时间 up 3:42 系统运行时间(时:分) 3 users 当前登录用户数 load average:0.03 0.05 0.10

Linux 系统监控、诊断工具-top,vmstat,iostat,iotop

1.问题: 最近在做日志的实时同步,上线之前是做过单份线上日志压力测试的,消息队列和客户端.本机都没问题,但是没想到上了第二份日志之后,问题来了: 集群中的某台机器 top 看到负载巨高,集群中的机器硬件配置一样,部署的软件都一样,却单单这一台负载有问题,初步猜测可能硬件有问题了. 同时,我们还需要把负载有异常的罪魁祸首揪出来,到时候从软件.硬件层面分别寻找解决方案. 2.排查: 从 top 中可以看到 load average 偏高,%wa 很高,%us 偏低: 从上图我们大致可以推断 IO

Kafka消息系统监控

1.监控目标 当系统可能或处于亚健康状态时及时提醒,预防故障发生 报警提示 2.监控内容 2.1 机器监控 Kafka服务器指标 CPU Load Disk IO Memory 2.2 JVM监控 主要监控JAVA的 GC time(垃圾回收时间),JAVA的垃圾回收机制对性能的影响比较明显 2.3 Kafka系统监控 1.Kafka总体监控 zookeeper上/kafka08/broker/ids目录下节点数量 leader 选举频率 2.Kafka Broker监控 Broker是否存活

系统监控及软件包管理

一.系统监控 1.top指令:列出系统中各个资源占用情况 free指令:显示内存使用状态     -m内存使用情况 2.buffer:用于存放要输出到disk的数据 cache:存放从disk上读出的数据 3.进程是程序的一次动态执行. 守护进程:就是系统后台一种保护进程的系统服务. 父进程:当一个进程创建另一个进程时,第一个进程称为父进程. 子进程:新的那个进程称为子进程 4.uname-a查看系统信息 5.ps aux显示所用进程信息 ps aux |grep 包含该进程的信息 kill -

zabbix系统监控部署(上)

一.为什么要用zabbix zabbix 是最近比较流行的一款开源的系统监控软件,他的特点是配置简单,可以直接通过web界面进行管理和维护,同时能够自定义监控的数据和图形,从使用上使比较轻松的,但是她也有不足的地方,如报警功能比较弱,对于一些特别出图需求无法做到.在实际的生产场景中,可以根据自己的需求进行合理的选择. 二.zabbix的安装 zabbix官方更新版本的速度是比较快的,到目前为止已经更新到了3.4的版本,最新的版本还是测试版,在生产环境我们最好使用3.2的稳定版本.对于3.0以上的

linux系统监控、诊断工具摘录top IO wait lsof

linux 系统监控.诊断工具之 top 详解 http://my.oschina.net/leejun2005/blog/157910 linux系统监控.诊断工具之 IO wait http://my.oschina.net/leejun2005/blog/355915 linux 系统监控.诊断工具之 lsof 用法简介 http://my.oschina.net/leejun2005/blog/153584 CPU Load过高问题分析和解决方案 http://yikebocai.com

Linux常用的系统监控shell脚本

http://www.linuxqd.com下面是我常用的几个Linux系统监控的脚本,大家可以根据自己的情况在进行修改,希望能给大家一点帮助.1.查看主机网卡流量 #!/bin/bash #network #Mike.Xu while : ; do time=’date +%m”-”%d” “%k”:”%M’ day=’date +%m”-”%d’ rx_before=’ifconfig eth0|sed -n “8″p|awk ‘{print $2}’|cut -c7-’ tx_before