监控pbs运行状况

# 监控内存使用情况

job_id=163997
workdir=/share_bio/
echo "population_sizes" >> $workdir/pbs/pbs.job.$job_id.mem_used.logs

while [ 1 -eq 1 ]
  do
     msg=`qstat -f $job_id`
     chars_count=${#msg}
     if (($chars_count<100))
     then
       break
     else
       qstat -f $job_id | grep resources_used.mem >> $workdir/pbs/pbs.job.$job_id.mem_used.logs
       sleep 60
     fi
   done

# 监控cpu使用情况

tracejob -n 365 2222

Job: 2222.centos64

07/30/2014 18:50:48  S    enqueuing into batch, state 1 hop 1
07/30/2014 18:50:48  S    Job Modified at request of [email protected]
07/30/2014 18:50:48  L    Job Run
07/30/2014 18:50:48  S    Job Run at request of [email protected]
07/30/2014 18:50:48  S    Not sending email: User does not want mail of this type.
07/30/2014 18:50:48  A    queue=batch
07/30/2014 18:50:48  A    user=aimin group=aimin jobname=cow5utr01 queue=batch ctime=1406717448 qtime=1406717448 etime=1406717448 start=1406717448 [email protected] exec_host=centos64/1 Resource_List.neednodes=1:ppn=1
                          Resource_List.nodect=1 Resource_List.nodes=1:ppn=1 Resource_List.walltime=1440:00:00
07/30/2014 19:15:14  M    scan_for_terminated: job 2222.centos64 task 1 terminated, sid=3480
07/30/2014 19:15:14  M    job was terminated
07/30/2014 19:15:15  S    Exit_status=0 resources_used.cput=00:24:21 resources_used.mem=9708kb resources_used.vmem=254684kb resources_used.walltime=00:24:26
07/30/2014 19:15:15  S    Not sending email: User does not want mail of this type.
07/30/2014 19:15:15  M    obit sent to server
07/30/2014 19:15:15  S    on_job_exit valid pjob: 2222.centos64 (substate=50)
07/30/2014 19:15:15  A    user=aimin group=aimin jobname=cow5utr01 queue=batch ctime=1406717448 qtime=1406717448 etime=1406717448 start=1406717448 [email protected] exec_host=centos64/1 Resource_List.neednodes=1:ppn=1
                          Resource_List.nodect=1 Resource_List.nodes=1:ppn=1 Resource_List.walltime=1440:00:00 session=3480 end=1406718915 Exit_status=0 resources_used.cput=00:24:21 resources_used.mem=9708kb resources_used.vmem=254684kb
                          resources_used.walltime=00:24:26
07/30/2014 19:15:20  M    removed job script
07/30/2014 19:20:23  S    dequeuing from batch, state COMPLETE

时间: 2024-10-10 14:01:18

监控pbs运行状况的相关文章

Python监控网站运行状况

利用python便捷的类库,可以方便快速实现对网站运行状况的监控,主要包括对80端口(即网站运行端口),其它tcp服务等端口的监控就可以了解服务器大概的一个运行状况,使用的库主要为urllib2及socket. 1.监控80端口或者其它网站运行端口,如tomcat ,nginx,iis等其它.监控这个比较简单,直接通过urllib2访问网站便可以了解网站的情况,如果不正常返回则会返回false.如下: def http_monitor(server_info): try: data = urll

监控 SQL Server (2005/2008) 的运行状况--来自微软TetchNet

原文地址:http://technet.microsoft.com/zh-cn/library/bb838723.aspx Microsoft SQL Server 2005 提供了一些工具来监控数据库.方法之一是动态管理视图.动态管理视图 (DMV) 和动态管理函数 (DMF) 返回的服务器状态信息可用于监控服务器实例的运行状况.诊断问题和优化性能. 常规服务器动态管理对象包括: dm_db_*:数据库和数据库对象 dm_exec_*:执行用户代码和关联的连接 dm_os_*:内存.锁定和时间

linux用于后台监控指定程序运行状况的脚本(如果程序死了则重启程序)

#!/bin/sh while true do ps | grep "main_3g" | grep -v "grep" > /dev/null if [ "$?" -ne 0 ] then ls /root/main_3g > /dev/null if [ "$?" -eq 0 ] then chmod 777 /root/main_3g /root/main_3g & echo "main_3

使用Telegraf + Influxdb + Grafana 监控SQLserver服务器的运行状况

使用Telegraf + Influxdb + Grafana 监控SQLserver服务器的运行状况 前言 本文在Debian9下采用Docker的方式安装Telegraf + Influxdb + Grafana对服务器进行监控. 首先我们需要在一台Server上安装Debian9作为监控主机,这个监控主机可以配置为可监控多台Server. 安装Docker 如果之前已经安装过旧版本的Docker,先移除旧版本的安装 sudo apt-get remove docker docker-eng

使用VisualVM分析tomcat运行状况(1)

VisualVM是一款java程序性能分析与调优工具,而且还是jdk中自带的工具之一. tomcat也是一个java程序,自然也可以用它来进行监控.不过这里还是会有些问题,tomcat有两种常用的期待方式,一种是通过startup.bat来启动:另一种是通过配置服务来启动. 如果使用stratup.bat启动,那么打开visualvm后会自动找到该tomcat程序:而如果使用服务期待tomcat的话,打开visualvm是无法自动找到该程序的,你需要再加一些配置. 在tomcat的/bin目录下

Linux Shell常用技巧(八) 系统运行状况

Linux Shell常用技巧(八) 系统运行状况 十八.  和系统运行状况相关的Shell命令:    1.  Linux的实时监测命令(watch):     watch   是一个非常实用的命令,可以帮你实时监测一个命令的运行结果,省得一遍又一遍的手动运行.该命令最为常用的两个选项是-d和-n,其中-n表示间隔多少秒 执行一次"command",-d表示高亮发生变化的位置.下面列举几个在watch中常用的实时监视命令:    /> watch -d -n 1 'who'  

Linux crontab的使用方式,sh脚本的编写,sh脚本自动启动tomcat服务器,sh监控系统运行情况

1.如果想使用Linux crontab(类似java quartz),需要先启动crontab.关于crontab的启动.关闭.重启.重新载入配置的方式如下: /sbin/service crond start //启动服务 /sbin/service crond stop //关闭服务 /sbin/service crond restart //重启服务 /sbin/service crond reload //重新载入配置 2.crontab的命令介绍: A:添加crontab的命令是:c

healthMonitoring与运行状况监视

配置针对应用程序的运行状况监视的一个服务 配置节内容比以往的较为复杂,如下 <healthMonitoring Enabled="true|false" heartbeatInterval="time interval"> <bufferModes>...</bufferModes> <providers>...</providers> <eventMappings>...</eventM

WSFC2016 跨站点运行状况检测

之前在WSFC基础知识奠基篇曾经为大家介绍过微软WSFC故障转移的过程,我们来重温一下 1.按照要求部署配置群集节点,确保群集服务器利用了冗余技术消除了服务器,网络,存储的单一故障点 2.保证群集内所有节点都可以访问到共享存储 3.群集应用将应用数据写入到群集共享存储 4.管理员新增节点1服务器上面功能角色,新增完成后节点1服务器群集数据库记录新增的角色功能以及相关联的信息,稍后会把信息同步至其它节点2,及群集仲裁磁盘 5.群集节点之间按照预定的心跳检测频率进行全网握手检测 6.节点1出现故障服