torque 排错

一:在管理节点发现某个节点状态为down,这种情况有两种原因

第一种原因:pbs_mom 配置文件错误

1.分析:服务pbs_mom启动后,默认首先去查看/var/spool/torque/mom_priv目录下是否有config文件,如果有则根据该文件下指出的pbsserver的主机名去联系管理节点(以该文件为准),如果没有该文件,则根据/var/spool/torque/server_name文件下指出的pbsserver的主机名去联系管理节点,那么如果这两个文件内指出的pbsserver的IP地址该计算节点都不能ping通,那么该计算节点pbs_mom日志就会报如下错误:

10/16/2015 20:49:46;0001;  pbs_mom.4538;Svr;pbs_mom;LOG_ERROR::Inappropriate ioctl for device (25)in tcp_connect_sockaddr, cannot connect to port 9 in socket_connect_addr -errno:101 Network is unreachable

10/16/2015 20:49:46;0001;  pbs_mom.4538;Svr;pbs_mom;LOG_ERROR::mom_server_all_update_stat, Couldnot contact any of the servers to send an update

当然管理节点也会显示该节点状态为down

2.解决方法:

方法⑴:如果在/var/spool/torque/mom_priv目录下存在config文件,修改该文件内$pbsserver的值为正确的管理节点主机名(该计算节点能ping通的主机名)

方法⑵:在/var/spool/torque/mom_priv目录下不存在config文件时,请确保/var/spool/torque/server_name的值为正确的管理节点主机名

第二种原因:/var/spool/torque/server_priv/nodes文件内,主机名错误

1.分析:首先在计算节点查看pbs_mom日志,没有发现错误,接着查看管理节点的pbs_server日志,发现如下错误信息:

10/16/201521:22:26;0001;PBS_Server.11915;Svr;PBS_Server;LOG_ERROR::get_node_from_str,Node node1.wjcyf.com is reporting on node node1, which pbs_server doesn‘t know about

服务pbs_server发现了一个名为node1.wjcyf.com的主机,但是根据get_node_from_str得知主机名应该为node1,所有就不能联系该计算节点

2.解决方法

把/var/spool/torque/server_priv/nodes文件内涉及到的计算节点的主机名,全部改为“uname -n”主机名,即如果在计算节点node1上运行命令uname -n得到的主机名为node1,那么该文件内node1的主机名就写为node1,如果是node1.wjcyf.com,就写为node1.wjcyf.com,以此类推

时间: 2024-10-27 08:28:15

torque 排错的相关文章

Linux系统排错

Linux 系统排错 1. 忘记root密码 当到达如下引导界面,按e进入引编辑面. 在编辑集面将ro后边的东西全部删除,然后加上rw  rd.break,ctrl+s进入命令行界面 在命令行执行如下命令: chroot /sysroot/  #为了得到你真实的根. passwd root        #为root修改密码 touch /.autorelabel #创建这个文件,使系统识别新修改的密码 exit exit #注意两个exit重起系统. 2. 当你缺失内核文件的时候 内核文件在/

JBOSS配置排错

jboss提供了二种运行模式:standalone(独立运行模式).domain(域模式),日常开发中,使用standalone模式足已:但生产部署时,一个app,往往是部署在jboss集群环境中的,如果所有jboss server均采用standalone模式,会给运维带来极大的工作量,需要每台jboss server上逐一部署/更新,显然不适合. domain模式正是为了解决这一问题,该模式下,所有jbossserver可以划分成不同的group(注:这里的jbossserver并不一定要对

记一次企业高级组网中不正确配置PBR引发的环路排错

嗨,各位.好久没了,最近忙的一塌糊涂,作为一个勤奋好学的网工,我要把实战中遇到的问题记录下来,同时分享给各位.此次的文档分享,是上个月的一次项目实战中记录下来的PBR-策略路由排错.具体的配置不会一一记录,但是会写个大概配置. 毕竟都是有几年的网工经验了,基础的不会就别看了,我都嫌弃!!! 不多说,我们先上一张图,图的背景就不多介绍了,反正可以给大家保证的是全部均为实实在在的真机. PS:图进行了和谐,还有很多设备均进行了删减,做网工永远要记住一件事情,信息安全!!!! 图中设备清单如下:(仅列

Mysql主从复制排错案例一

MYSQL主从复制排错案例一: 问题:主从无法同步现象:MASTER: mysql> show master status;              Empty set (0.00 sec)      SLAVE:  mysql> show slave status \G;              Slave_IO_Running: Connecting              Slave_SQL_Running: Yes              Seconds_Behind_Mast

网络排错

关于网络排错的几点看法 今天下午公司网络出现了全体断网的情况,经过排查是路由器接口上的RJ45网线出现了松动,指示灯也不闪烁,从而使整个公司内网出现了异常. 经过此次事件,我对网络排错做了如下总结: 一,如果公司只有一个网段,那么就需要了解是单个客户端出现问题还是整个网段有问题.如果是单个客户端有问题则通常是物理层和数据链路层有问题,如计算机RJ45接口是否松动.网卡问题.连接计算机的交换机端口出现异常.像以上的情况,在右下角的网络图标会有一个红叉,并且网卡指示灯不亮.如果实在无法确定,就只有借

网络不能使用的排错

现在我给大家介绍一下网络的排错功能: 首先我们打开cmd窗口. ping<空格>127.0.0.1看看能不能ping通. 如果有问题看看自己的网卡有没有问题. 查看IP地址和子网掩码和网关有没有问题. 最后ping<空格>www.baidu.com---在这里只是列举一个例子,可以尝试ping其他的网站. 如果不通看看路由器设置有没有问题. 如果没有请联系你的网络运营商.

Apache Torque入门学习

Introduction Apache Torque is an object-relational mapper for java. In other words, Torque lets you access and manipulate data in a relational database using java objects. Unlike most other object-relational mappers, Torque does not use reflection to

project02 U盘系统与排错系统

U盘系统与排错系统 制作U盘系统的两个主要目的: 1.以U盘为救援系统来修复有故障无法启动操作系统 修复步骤: 1)选尝试从单用户模式启动(内核和基本服务,可以参考/etc/rc.d/rc1.d/S..) 2)如果单用户模式也无法正常启动,可以考虑从光盘或者是U盘启一个linux操作系统,首选使用U盘 2.通过U盘系统的制作让你更了解一个主机上linux系统组成,以及启动流程 LINUX操作系统的组成: 内核 SHELL 应用程序 文件系统 内核 核心文件    vmlinuz 临时根文件  i

mysql的详细安装及排错

#===================== 导入数据库: # tar -xvf employees_db-full-1.0.6.tar.bz2 # cd employees_db # msyql -h localhost -u root < employees.sql  ============================================= 注意事项: 1.[ ]# rpm -qa|grep mysql  如果同时存在mysql-libs 和mysql-server ,要把