超级计算 CST DC作业故障(一)

(1)故障问题:用户的CST DC(分布式计算作业)作业出现解压缩错误,

提示如下:

error while decompressing:

Extracted file:..................

No space left on device.

原因和解决方案:这是用户或者用户组的磁盘配额满了导致解压缩错误,根据提示没有空间了;用户作业在解压缩的路径是在自己的家目录,家目录是挂载parastor存储上的,在存储上查看用户的配额和所属用户组的配额,发现磁盘配额已完全用完,这时可以给用户或者用                       户组修改增加配额;

时间: 2024-08-05 12:06:12

超级计算 CST DC作业故障(一)的相关文章

超级计算 CST DC分布式作业模型已经完成,但一直没有返回数据

问题:CST DC作业主要涉及到前端节点(登陆节点),主控制器,和求解器,也即是frontend(登陆节点)---DC maincontrol(MC节点)---DC Solver Servers(计算节点),没有数据返回,可能是计算节点和MC节点失去连接,或者MC和登陆节点失去连接,或者节点失去响应和假死状态 解决办法:看CST DC作业日志,一般都会显示是哪里失去连接,如果不能发现问题,可以登陆到登陆节点或者MC节点看节点是不是无响应或者假死,然后重启节点:

超算CST DC分布式作业Main Controller 主控节点程序连接不上问题

问题:CST的main controller 程序在大量程序仿真时会出现失去响应和崩溃 ssh到主控节点(比如节点名是mc06):ssh mc06 查看main controller进程状态:/etc/init.d/lsb-maincontroller2013 status 1提示Not running ,侧重新开启/etc/init.d/lsb-maincontroller2013 start 2提示is up and running ,则表示程序正在运行,但可能已无响应,这个时候手动结束ma

额外DC的安装、卸载方法以及注意事项。

为何我们要安装额外DC?安装额外DC需要注意什么?如何安装额外DC?想要卸载额外DC怎么办?卸载又需要注意什么?请大家随我将这些问题一一解答. 一,安装额外DC的好处: 1,提供容错功能.当一台DC出现故障,仍可以由其他DC继续提供服务,使我们的工作正常运行. 2,提供负载均衡.多台DC可同时分担用户审核工作,加快审核速度. 3,更易于用户的连接和访问.若分部需要连接总部的DC,但网络速度慢导致登录时间长的时候,可在分部安装额外DC,缩减分部登录时间,提高工作效率. 二,安装额外DC需要注意什么

额外DC的安装

为何我们要安装额外DC?安装额外DC需要注意什么?如何安装额外DC?想要卸载额外DC怎么办?卸载又需要注意什么?请大家随我将这些问题一一解答. ??? 一,安装额外DC的好处: ??? 1,提供容错功能.当一台DC出现故障,仍可以由其他DC继续提供服务,使我们的工作正常运行. ??? 2,提供负载均衡.多台DC可同时分担用户审核工作,加快审核速度. ??? 3,更易于用户的连接和访问.若分部需要连接总部的DC,但网络速度慢导致登录时间长的时候,可在分部安装额外DC,缩减分部登录时间,提高工作效率

MooseFS灾备演练实录

昨天晚上去机房为数据库服务器做磁盘扩容,顺带为目前线上的存储系统MooseFS做了一次灾难演练.故此,今天准备把昨天的灾难演练的详情总结一下,分享给大家.如果大家正在使用MooseFS,那么就可以有所参考了. MooseFS是一个分布式的文件系统,有关它的具体信息,我这里就不多做介绍了,大家可以去参考我之前写过的三篇博文: 分布式文件系统之MooseFS----介绍 分布式文件系统之MooseFS----部署 分布式文件系统之MooseFS----管理优化 这里简单先介绍一下,目前我们这套存储的

第五篇 SQL Server代理理解代理错误日志

本篇文章是SQL Server代理系列的第五篇,详细内容请参考原文. 正如这一系列的前几篇所述,SQL Server代理作业是由一系列的作业步骤组成,每个步骤由一个独立的类型去执行.在第四篇中我们看到,SQL Server代理可以通过数据库邮件发送通知.如果有什么不正确的,你必须查看数据库邮件日志.在这一篇,你将学习如何理解和查看所有相关的SQL Server代理错误日志.你将回顾最常见的错误信息,掌握哪些信息需要你采取行动,哪些信息只是单纯的信息而已.一旦你理解错误日志,在处理SQL Serv

SQL Server代理(5/12):理解SQL代理错误日志

SQL Server代理是所有实时数据库的核心.代理有很多不明显的用法,因此系统的知识,对于开发人员还是DBA都是有用的.这系列文章会通俗介绍它的很多用法. 如我们在这个系列的前几篇文章所见,SQL Server代理是由一系列的作业步骤组成,每个步骤是不同类型将要进行的工作.如果你在第4篇所见,SQL Server代理也提供使用数据库邮件发送提醒的能力.如果出现问题,不管怎样, 你必须去查看下数据库邮件错误日志.在这篇文章里,你会学到如何理解和查看SQL Server错误日志的所有相关知识.你会

Windows活动目录系列---ADDS复制的概述(1)

AD DS分区介绍: 活动目录数据存储中所包含的信息会被ADDS发布到林中的所有DC上.数据存储中包含的大部分信息会在单域中发布,但是还有部分相关信息会不受域的复制边界限制,将信息发布到整个林中. 为了提升DC之间的复制效率和扩展性,活动目录的数据被逻辑的划分成几个分区,每个分区作为一个复制单元,并且每个分区都有自身的复制拓扑,ADDS有以下默认的分区: 配置分区.配置分区是在林中第一台DC被创建的时候自动生成的,配置分区中包含了林范围的ADDS结构信息,包括林中有哪些域或站点,每个域中有哪些D

AD管理员必备技能(一)在线角色转移

AD管理员必备技能(一)在线角色转移作为一个企业管理员来说,日常服务器的备份及灾难恢复是必不可少的技能,所以对于AD的一些灾难性的问题修复对于工程师来说也不算是一个什么大事,但是对于架构的部署是非常严重的一件是,比如环境内有多台DC,如何将AD下的角色进行分开部署等:今天我们主要闲谈AD下5个角色的问题及角色在线迁移:首先说说五大角色:**1. 森林级别(一个森林只存在一台DC有这个角色): 1.1.Schema Master:架构主控1.2.Domain Naming Master:域命名主控