SLURM 安装与配置

SLURM 安装与配置

SLURM 介绍

SLURM 是一个可用于大型计算节点集群的高度可伸缩的集群管理器和作业调度系统。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。SLURM 将作业分发给一组已分配的节点来执行。

本质上,SLURM 是一个强健的集群管理器,它高度可移植、可伸缩至大型节点集群、容错好,而且更重要的是它是开源的。

关于 SLURM 的架构可以参考 http://slurm.schedmd.com/

安装 SLURM

这里安装都是以在CentOS6.5上安装为例。并且因为 SLURM 是在集群中使用,所以我们这里假定有三台相同版本的linux,机器名分别为mycentos6x,mycentos6x1和mycentos6x2,其中 mycentos6x 作为控制节点。

安装 MUNGE

首先 SLURM 需要使用 MUNGE 来认证,所以我们要先来安装 MUNGE。

从 MUNGE(https://github.com/dun/munge) 的官方网站下载安装包,这里使用 munge-0.5.11.tar.bz2 文件。使用 root 用户运行下面命令

编译并安装 munge 包

# rpmbuild -tb --clean munge-0.5.11.tar.bz2
# cd /root/rpmbuild/RPMS/x86_64
# rpm --install munge*.rpm

在编译rpm包和安装的过程中可能会提示需要一些第三方的软件包,此时可以使用 “yum install -y xxx” 来安装,我在安装的时候就是先安装了下面的软件包

# yum install -y rpm-build rpmdevtools bzip2-devel openssl-devel zlib-devel

安装完成后,需要修改下面这些文件的权限

# chmod -Rf 700 /etc/munge
# chmod -Rf 711 /var/lib/munge
# chmod -Rf 700 /var/log/munge
# chmod -Rf 0755 /var/run/munge

另外需要注意的是检查一下/etc/munge/munge.key文件,文件的 owner 和 group 必须是 munge,否则启动会失败。

安装完成后,就可以启动 munge 服务了

# /etc/init.d/munge start

最后,需要把 /etc/munge/munge.key 复制到另外两台机器上,并确保文件权限和属主都相同。

安装 SLURM

首先创建slurm用户

# useradd slurm
# passwd slurm

访问 SLURM(http://slurm.schedmd.com/)下载安装包,这里使用 slurm-14.11.8.tar.bz2 安装包。

编译并安装 slurm 包

# rpmbuild -ta --clean slurm-14.11.8.tar.bz2
# cd /root/rpmbuild/RPMS/x86_64
# rpm --install slurm*.rpm

在编译rpm包和安装的过程中提示我安装了下面的软件包

# yum install -y readline-devel pam-devel perl-DBI perl-ExtUtils-MakeMaker

安装完成后,修改下面命令的属组

# sudo chown slurm:slurm /var/spool

到这里,SLURM的安装就完成了,但是还不能启动,我们还需要做一下配置才可以启动slurm服务并提交作业。

配置 SLURM

进入/etc/slurm/目录,复制slurm.conf.example文件成slurm.conf,然后编辑/etc/slurm/slurm.conf文件

下面是我的文件中修改的部分

ControlMachine=mycentos6x
ControlAddr=192.168.145.100
SlurmUser=slurm
SelectType=select/cons_res
SelectTypeParameters=CR_Core
SlurmctldDebug=3
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=3
SlurmdLogFile=/var/log/slurmd.log
NodeName=mycentos6x,mycentos6x1,mycentos6x2 CPUs=4 RealMemory=500 Sockets=2 CoresPerSocket=2 ThreadsPerCore=1 State=IDLE
PartitionName=control Nodes=mycentos6x Default=YES MaxTime=INFINITE State=UP
PartitionName=compute Nodes=mycentos6x1,mycentos6x2 Default=NO MaxTime=INFINITE State=UP

注:这里需要将此配置文件部署到集群里的每台机器上。

保存文件,然后使用下面命令启动slurm服务

# /etc/init.d/slurm start

测试

在启动了slurm服务之后,我们可以使用下面一些命令来查看集群状态并提交作业

# sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
control*     up   infinite      1   idle mycentos6x
compute      up   infinite      2   idle mycentos6x1,mycentos6x2
# scontrol show slurm reports
Active Steps             = NONE
Actual CPUs              = 2
Actual Boards            = 1
Actual sockets           = 1
Actual cores             = 2
Actual threads per core  = 1
Actual real memory       = 1464 MB
Actual temp disk space   = 29644 MB
Boot time                = 2015-07-22T09:50:34
Hostname                 = mycentos6x
Last slurmctld msg time  = 2015-07-22T09:50:37
Slurmd PID               = 27755
Slurmd Debug             = 3
Slurmd Logfile           = /var/log/slurmd.log
Version                  = 14.11.8
# scontrol show config
# scontrol show partition
# scontrol show node
# scontrol show jobs

提交作业

# srun hostname
mycentos6x
# srun -N 3 -l hostname
0: mycentos6x
1: mycentos6x1
2: mycentos6x2
# srun sleep 60 &

查询作业

# squeue -a
             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
                77     debug    sleep   kongxx  R       0:06      1 mycentos6x

取消作业

# scancel <job_id>

参考:

SLURM:http://slurm.schedmd.com/

MUNGE: https://github.com/dun/munge

转载请以链接形式标明本文地址

本文地址:http://blog.csdn.net/kongxx/article/details/48173829

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-11-08 10:23:58

SLURM 安装与配置的相关文章

Windows下MySQL下载安装、配置与使用

用过MySQL之后,不论容量的话,发现比其他两个(sql server .oracle)好用的多,一下子就喜欢上了.下面给那些还不知道怎么弄的童鞋们写下具体的方法步骤. (我这个写得有点太详细了,甚至有些繁琐,有很多步骤在其他的教程文档里都是省略掉的,但我还是要写出来,因为我当时走了很多弯路,我希望你们能够避免我走的这些弯路.当然,知道同学的可以略过,选择你想知道的地方看) 第一大步:下载.(不需要注册也可以下载,直接点下面的no thanks) a.俗话说:“巧妇难为无米之炊”嘛!我这里用的是

Centos 7.3下 Linux For SQL Server安装及配置介绍

Centos 7.3下Linux For SQL Server安装及配置介绍 说到SQL Server服务,我们大家都知道是Microsoft公司的数据库服务,当然说到数据库,现在主要分为三大商:1:Oracle.2:Msql Server.3:Mysql:三种数据库在当下环境受到不了不同程度的关注:比如oracle主要应用到大型的商业比较多,比如银行:SQL Server主要在常见的互联网公司使用:mysql主要应用于小型的企业或者服务商使用:当然从费用上来说,Oracle是最贵的,也是最为稳

redis的单机安装与配置以及生产环境启动方案

简单介绍一下redis的单机安装与配置,方便自己记录安装步骤的同时方便他人获取知识. 首先,从官网下载最新版的(稳定版)的redis安装包.官网地址如下:https://redis.io/download 下载源码包后,redis需要编译安装.需要安装gcc和tcl,gcc用于编译tcl用于测试. 使用命令安装gcc,yum install gcc,一路选择yes,gcc就可以安装成功. 接下来安装tcl,首先获取tcl源码包(见百度云盘)或者使用命令:wget http://downloads

Tomcat安装与配置

进行Tomcat的安装与配置,得要jdk的支持,jdk的安装与配置就不说了,毕竟学Java第一步就是这个,所以以下步骤是已有jdk的情况下进行的 首先进入Tomcat的官网http://tomcat.apache.org/,会出现左侧Download一栏,选择自己需要的Tomcat版本,这里我选择的是Tomcat 7 点击进入后到达如下界面,选择自己所对应的系统下载对应的zip包(个人感觉下载zip包简介一点,当然也可以下载可执行文件) 注意下载到哪个地方,下载完成后得到压缩包 对此压缩包进行解

MongoDB 3.2 在CentOS 上的安装和配置

MongoDB 3.2 在CentOS 上的安装和配置 2016-01-06 14:41:41 发布 您的评价:       0.0   收藏     0收藏 一.安装 编辑/etc/yum.repos.d/mongodb-org-3.2.repo [mongodb-org-3.2] name=MongoDB Repository baseurl=https://repo.mongodb.org/yum/redhat/$releasever/mongodb-org/3.2/x86_64/ gpg

Keepalived安装与配置

一.简介 Keepalived是一个免费开源的,用C编写的类似于layer3, 4 & 7交换机制软件,具备我们平时说的第3层.第4层和第7层交换机的功能.主要提供loadbalancing(负载均衡)和 high-availability(高可用)功能,负载均衡实现需要依赖Linux的虚拟服务内核模块(ipvs),而高可用是通过VRRP协议实现多台机器之间的故障转移服务. 上图是Keepalived的功能体系结构,大致分两层:用户空间(user space)和内核空间(kernel space

Linux下Nagios的安装与配置[转]

一.Nagios简介 Nagios是一款开源的电脑系统和网络监视工具,能有效监控Windows.Linux和Unix的主机状态,交换机路由器等网络设置,打印机等.在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知. Nagios原名为NetSaint,由Ethan Galstad开发并维护至今.NAGIOS是一个缩写形式: "Nagios Ain't Gonna Insist On Sainthood" Sainthood 翻译为圣徒

烂泥:redis3.2.3安装与配置

本文由ilanniweb提供友情赞助,首发于烂泥行天下 想要获得更多的文章,可以关注我的微信ilanniweb 前一段时间写过一篇codis集群的文章,写那篇文章主要是因为当时的项目不支持redis自身集群的功能. 而现在最新的项目是需要redis集群的,这篇文章我们就来介绍下有关redis的安装与配置. 一.redis源码安装 截至到2016.8.11,redis最新稳定版本为3.2.3.本篇文章我们就以此版本为基础,进行相关的讲解. 下载redis源码,并进行相关操作,如下: wget ht

部署FIM 2010 R2&mdash;&mdash;6安装和配置PCNS

部署FIM 2010 R2--6安装和配置PCNS 在所有域控安装安装PCNS 1. 如果第一次安装PSNS需要扩展构架,如果之前安装过PCNS,略过此步骤,扩展构建需要在CMD进入PCNS安装目录中运行"Password Change Notification Service.msi" SCHEMAONLY=TRUE 下载PCNS安装包,首先在每台DC上扩展架构, msiexec /i "C:\Users\Administrator\Desktop\Password Cha