一、deb包安装condor方法
自己去下载condor-8.2.6-287355-ubuntu_14.04_amd64.deb。我还下载了一个libmpich2-3_1.4.1-4.2_amd64.deb包,这是condor需要的一个依赖包,apt-get解决不了,就自己安装一下。我新建了一个condor用户,并将其加入sudoers,以下的操作都是在condor下进行的
安装deb包
$sudo dpkg -i condor-8.2.6-287355-ubuntu_14.04_amd64.deb
这时一般会提示好多依赖包没安装,不着急,慢慢来解决
$sudo apt-get update
$sudo apt-get install -f
$sudo dpkg -i libmpich2-3_1.4.1-4.2_amd64.deb
$sudo apt-get sysv-rc-conf
$sudo sysv-rc-conf condor on
$sudo service condor on
二、condor cluster配置方法
这里我的manager是10.1.1.25,功能是只提交任务,不执行。
slave1是10.1.1.253,功能是只能执行任务,不能提交。slave2是10.1.1.196,功能同slave1。
数据库是10.1.1.160,slave同storage交互操作数据库。
1.首先,来看master的配置,配置文件是/etc/condor/condor_config,这里我只给出成功后的截图
要说明的是CONDOR_HOST参数,后面是manager的地址。DAEMON_LIST的问题后面解释
2.slave的配置
好,现在解释DAEMON_LIST,这是本机的condor进程,不一样角色的机器的进程也不一样
中央管理主机(可提交可执行)
DAEMON_LIST = COLLECTOR, MASTER, NEGOTIATOR, SCHEDD, STARTD
中央管理主机(只提交不执行)
DAEMON_LIST = COLLECTOR, MASTER, NEGOTIATOR, SCHEDD
作业提交主机
DAEMON_LIST = MASTER, SCHEDD
作业执行主机
DAEMON_LIST = MASTER, STARTD
DAEMON_LIST修改后用
$sudo service condor restart
重启condor,用
$pstree | grep condor
可查看本机有哪些condor进程。在manager上能看到
在slave上可看到
用condor_submit 提交job后可在log文件中看到
可以看到该job由10.1.1.25提交,由10.1.1.196执行。说明配置的是对的。