超算CST DC分布式作业Main Controller 主控节点程序连接不上问题

问题:CST的main controller 程序在大量程序仿真时会出现失去响应和崩溃

ssh到主控节点(比如节点名是mc06):ssh mc06

查看main controller进程状态:/etc/init.d/lsb-maincontroller2013 status

1提示Not running ,侧重新开启/etc/init.d/lsb-maincontroller2013 start

2提示is up and running ,则表示程序正在运行,但可能已无响应,这个时候手动结束main controller进程和重启进程

第一步:ps -ef | grep CSTDCMaincontroller.real   (查找到main controller进程的PID,可能会看到两个与main controller相关的进程,其中有一个进程是刚刚我们用grep 命令产生的进程,这个不用管它)

第二步:kill -9 pid  (杀掉main controller进程)

第三步:ps -ef | grep CSTDCMaincontroller.real    (重新确认系统已经没有main controller相关的进程了)

第四步:/etc/init.d/lsb-maincontroller2013 start  (重新再启动main controller 进程)

这个时候再重新连接主控节点MC06就应该能连接上了 。

时间: 2024-10-09 22:06:43

超算CST DC分布式作业Main Controller 主控节点程序连接不上问题的相关文章

超级计算 CST DC分布式作业模型已经完成,但一直没有返回数据

问题:CST DC作业主要涉及到前端节点(登陆节点),主控制器,和求解器,也即是frontend(登陆节点)---DC maincontrol(MC节点)---DC Solver Servers(计算节点),没有数据返回,可能是计算节点和MC节点失去连接,或者MC和登陆节点失去连接,或者节点失去响应和假死状态 解决办法:看CST DC作业日志,一般都会显示是哪里失去连接,如果不能发现问题,可以登陆到登陆节点或者MC节点看节点是不是无响应或者假死,然后重启节点:

超级计算 CST DC作业故障(一)

(1)故障问题:用户的CST DC(分布式计算作业)作业出现解压缩错误, 提示如下: error while decompressing: Extracted file:.................. No space left on device. 原因和解决方案:这是用户或者用户组的磁盘配额满了导致解压缩错误,根据提示没有空间了:用户作业在解压缩的路径是在自己的家目录,家目录是挂载parastor存储上的,在存储上查看用户的配额和所属用户组的配额,发现磁盘配额已完全用完,这时可以给用户

超算存储导致的作业异常问题

简介:超算的parastor存储通过NFS网络文件系统共享给用户使用,由于存储空间使用率过高,达到了90%以上,出现了一些问题 问题一:用户在用fluent软件调用存储的数据的时候,一直调用不了 问题二:用户CST软件计算完的作业在回传给mc主控节点的时候,也即是回传计算结果到存储目录的时候,一直在传输状态,传输不了到存储里去 登录到用户家目录/home(也即是存储挂载的目录),查找里面一些大文件和目录: 查找方法: 看用户目录大小:du -s 目录 看用户目录修改时间排序:ls -lt 把一些

用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控

写在前面 前文:用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试 为了方便,这篇文章里的例子均为伪分布式运行,一般来说只要集群配置得当,在伪分布式下能够运行的程序,在真实集群上也不会有什么问题. 为了更好地模拟集群环境,我们可以在mapred-site.xml中增设reducer和mapper的最大数目(默认为2,实际可用数目大约是CPU核数-1). 假设你为Hadoop安装路径添加的环境变量叫$HADOOP_HOME(如果是$HAD

搭建JEESZ分布式架构10-Redis分布式缓存安装(单节点)

Redis分布式缓存安装(单节点) Redis官网:http://redis.io独立缓存服务器:IP:xxx.xxx.xxx.xxx安装环境:CentOS 6.6Redis 版本:redis-3.0 (因为 Redis3.0 在集群和性能提升方面的特性,rc 版为正式版的候选版,请在安装时去官网选用最新版)用户:root安装目录:/usr/local/redis 下面我们针对于Redis安装做下详细的记录:编译和安装所需的包:# yum install gcc tcl 提醒:下载 3.0 版

分布式缓存Redis Centos下单节点安装

摘要: Redis官网:http://redis.io 独立缓存服务器:IP:xxx.xxx.xxx.xxx 安装环境:CentOS 6.6 Redis 版本:redis-3.0 (因为 Redis3.0 在集群和性能提升方面的特性,rc 版为正式版的候选版,请在安装时去官网选用最新版) 用户:root 安装目录:/usr/local/redis 声明: 网上关于分布式缓存Redis的学习资料很多,大家可以去网上找些资料去学习.另外 JEESZ框架面向企业的大型互联网分布式企业架构,分布式缓存是

Redis分布式缓存安装(单节点)

Redis分布式缓存安装(单节点) Redis官网:http://redis.io独立缓存服务器:IP:xxx.xxx.xxx.xxx安装环境:CentOS 6.6Redis 版本:redis-3.0(因为 Redis3.0 在集群和性能提升方面的特性,rc 版为正式版的候选版,请在安装时去官网选用最新版)用户:root安装目录:/usr/local/redis 下面我们针对于Redis安装做下详细的记录:编译和安装所需的包:# yum install gcc tcl 提醒:下载 3.0 版 R

hadoop 倒排索引-分布式作业二

import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.

第二次数据库作业--Main

import dao.CourseDao; import model.Course; import view.C2SView; import view.CourseView; import view.StudentView; import java.sql.SQLException; import java.util.List; import java.util.Scanner; /** * Created by yinus * Date:2016/4/8 * Time:16:09 */ pub