如何在Rocks HPC集群里安装PBS Pro开源版

PBS Pro可以算是torque的商业版本.功能强大.尤其是在其开源之后,成为了最强大的免费任务调度软件.

但是PBS Pro开源版本的预编译版本是针对CEntos7的,而Rocks 集群管理软件只支持到CEntos6.8.因此使用PBS Pro开源版本,必须要从源代码安装.安装过程中有很多的困难.因此再次记录一下过程,供大家参考.

首先,rocks集群安装的时候最好使用6.1.1,不要使用6.2;不要安装sge; OS roll最好不要使用自带的,而是用标准的centos6.7或者6.8安装盘装.

集群安装好以后

要手动修改 /etc/hosts ,将外网fqdn对应的ip改为内网ip

比如把

42.58.6.9  headnode.test.com

改为

10.0.0.1  headnode.test.com

切记每次运行rocks sync host network后都要手动改一下.否则的连不上pbs server.

从网上下载这4个包

pbspro-14.1.0.tar.gz

autoconf-2.69-12.2.noarch.rpm

1.13.4-3.2.noarch.rpm

libedit-devel-2.11-4.20080712cvs.1.el6.x86_64.rpm

然后放到集群共享目录,本文以/share/data/install为例

强制升级3个包

rpm -Uhv /share/data/install/autoconf-2.69-12.2.noarch.rpm

rpm -Uhv /share/data/install/automake-1.13.4-3.2.noarch.rpm

rpm -Uhv /share/data/install/libedit-devel-2.11-4.20080712cvs.1.el6.x86_64.rpm

安装所需软件

yum --enablerepo=base  install -y gcc make rpm-build libtool hwloc-devel libX11-devel libXt-devel libedit-devel libical-devel ncurses-devel perl postgresql-devel python-devel tcl-devel tk-devel swig expat-devel openssl-devel libXext libXft  expat libedit postgresql-server python sendmail sudo tcl tk libicaly glibc

yum  --enablerepo=epel   install  hwloc hwloc-devel

cd /share/data/install/

tar -xvf pbspro-14.1.0.tar.gz

cd pbspro-14.1.0

./autogen.sh

./configure --prefix=/opt/pbs

make

make install

安装完成,进行初始化,这里假设管理节点不进行计算任务.

/opt/pbs/libexec/pbs_postinstall

chmod 4755 /opt/pbs/sbin/pbs_iff /opt/pbs/sbin/pbs_rcp

echo "PBS_SERVER=kunanyi-admin.local" > /etc/pbs.conf

echo "PBS_START_SERVER=1" >> /etc/pbs.conf

echo "PBS_START_SCHED=1" >> /etc/pbs.conf

echo "PBS_START_COMM=1" >> /etc/pbs.conf

echo "PBS_START_MOM=0" >> /etc/pbs.conf

echo "PBS_EXEC=/opt/pbs" >> /etc/pbs.conf

echo "PBS_HOME=/var/spool/pbs" >> /etc/pbs.conf

echo "PBS_CORE_LIMIT=unlimited" >> /etc/pbs.conf

echo "PBS_SCP=/usr/bin/scp" >> /etc/pbs.conf

/etc/init.d/pbs start

. /etc/profile.d/pbs.sh

至此管理节点安装完毕

在计算节点执行下面的命令.核心就是让计算节点在管理节点已经编译过目录里执行make install来安装PBS pro的完全版本.可以把这些命令放在extend-compute.xml里面

rpm -ivf /share/data/install/libedit-devel-2.11-4.20080712cvs.1.el6.x86_64.rpm

yum --enablerepo=base  install -y gcc make rpm-build libtool hwloc-devel libX11-devel libXt-devel libedit-devel libical-devel ncurses-devel perl postgresql-devel python-devel tcl-devel tk-devel swig expat-devel openssl-devel libXext libXft  expat libedit postgresql-server python sendmail sudo tcl tk libicaly

cd /share/data/install/pbspro-14.1.0/

make install

/opt/pbs/libexec/pbs_postinstall

chmod 4755 /opt/pbs/sbin/pbs_iff /opt/pbs/sbin/pbs_rcp

echo "PBS_SERVER=kunanyi-admin.local" > /etc/pbs.conf

echo "PBS_START_SERVER=0" >> /etc/pbs.conf

echo "PBS_START_SCHED=0" >> /etc/pbs.conf

echo "PBS_START_COMM=0" >> /etc/pbs.conf

echo "PBS_START_MOM=1" >> /etc/pbs.conf

echo "PBS_EXEC=/opt/pbs" >> /etc/pbs.conf

echo "PBS_HOME=/var/spool/pbs" >> /etc/pbs.conf

echo "PBS_CORE_LIMIT=unlimited" >> /etc/pbs.conf

echo "PBS_SCP=/usr/bin/scp" >> /etc/pbs.conf

. /etc/profile.d/pbs.sh

/etc/init.d/pbs start

当所有节点安装了pbs之后,在管理节点添加计算机节点.这里以hc-002为例子.

qmgr -c "create node hc-002"

之后可以使用下面命令检测计算节点.

pbsnodes -a

在之后就是配置pbs,例如

qmgr

create queue workq

set queue workq queue_type = Execution

set queue workq enabled = True

set queue workq started = True

set server scheduling = True

set server default_queue = workq

set server log_events = 511

set server mail_from = adm

set server query_other_jobs = True

set server resources_default.ncpus = 1

set server scheduler_iteration = 600

set server resv_enable = True

set server node_fail_requeue = 310

set server max_array_size = 10000

set server default_chunk.ncpus=1

set server default_queue = workq

set server scheduling = True

set server acl_host_enable = True

set server acl_hosts = kunanyi-admin

set server flatuid = True

set server acl_users ="[email protected],+test"

set queue workq acl_users ="[email protected],+test"

时间: 2024-10-02 01:34:34

如何在Rocks HPC集群里安装PBS Pro开源版的相关文章

说说单节点集群里安装hive、3\5节点集群里安装hive的诡异区别

这几天,无意之间,被这件事情给迷惑,不解!先暂时贴于此,以后再解决! 详细问题如下: 在hive的安装目录下(我这里是 /home/hadoop/app/hive-1.2.1),hive的安装目录的lib下(我这里是/home/hadoop/app/hive-1.2.1/lib)存放了mysql-connector-java-5.1.21.jar. 我的mysql,是用root用户安装的,在/home/hadoop/app目录,所以,启动也得在此目录下. 对于djt002,我的mysql是roo

分布式实时日志系统(一)环境搭建之 Jstorm 集群搭建过程/Jstorm集群一键安装部署

最近公司业务数据量越来越大,以前的基于消息队列的日志系统越来越难以满足目前的业务量,表现为消息积压,日志延迟,日志存储日期过短,所以,我们开始着手要重新设计这块,业界已经有了比较成熟的流程,即基于流式处理,采用 flume 收集日志,发送到 kafka 队列做缓冲,storm 分布式实时框架进行消费处理,短期数据落地到 hbase.mongo中,长期数据进入 hadoop 中存储. 接下来打算将这其间所遇到的问题.学习到的知识记录整理下,作为备忘,作为分享,带给需要的人. 淘宝开源了许多产品组件

在集群上安装Hive

1.先决条件 要求必须已经安装完成Hadoop,Hadoop的安装在之前的博文<VMware下Hadoop 2.4.1完全分布式集群平台安装与设置>有详细介绍过. 2.下载Hive安装包 当前最新版本为0.13.1,可以到官网下载最新版,下载地址为:http://archive.apache.org/dist/hive/ 下载完之后,将安装包解压,执行命令: [email protected] :~/Installpackage$ sudo tar -zxvf apache-hive-0.13

ZooKeeper 集群的安装、配置---Dubbo 注册中心

ZooKeeper 集群的安装.配置.高可用测试 Dubbo 注册中心集群 Zookeeper-3.4.6 Dubbo 建议使用 Zookeeper 作为服务的注册中心. Zookeeper 集群中只要有过半的节点是正常的情况下,那么整个集群对外就是可用的.正是基于这个 特性,要将 ZK 集群的节点数量要为奇数(2n+1:如 3.5.7 个节点)较为合适. 服务器 1:192.168.1.11  端口:2181.2881.3881 服务器 2:192.168.1.12  端口:2182.2882

Kafka学习之:Centos 下Kafka集群的安装

kafka是LinkedIn开发并开源的一个分布式MQ系统,现在是Apache的一个孵化项目.在它的主页描述kafka为一个高吞吐量的分布式(能将消息分散到不同的节点上)MQ.在这片博文中,作者简单提到了开发kafka而不选择已有MQ系统的原因.两个原因:性能和扩展性.Kafka仅仅由7000行Scala编写,据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB). 安装准备 版本 Kafka版本:kafka_2.10-0.8.2.0 Zookeeper版本

redhat 下 oracle 10G RAC 集群 详细安装

在大家做RAC安装测试搭建环境时,没有存储环境下,我来教大家怎么采用虚拟机来安装 ORACLE 10 rac,这样可以让大家更快学习好 ORACLE 10 RAC ,我会把很详细的安装写给大家. 1.安装前的准备 准备需要软件 10201_clusterware_linux_x86_64.cpio.gz 10201_database_linux_x86_64.cpio.gz binutils-2.17.50.0.6-6.0.1.el5.x86_64.rpm oracleasm-2.6.18-16

Zookeeper 集群的安装及高可用性验证已完成!

kafka_2.12-0.10.2.0.tgz zookeeper-3.3.5.tar.gz Java 环境 Zookeeper 和 Kafka 的运行都需要 Java 环境,Kafka 默认使用 G1 垃圾回收器.如果不更改垃圾回收期,官方推荐使用 7u51 以上版本的 JRE .如果使用老版本的 JRE,需要更改 Kafka 的启动脚本,指定 G1 以外的垃圾回收器. 本文使用系统自带的 Java 环境. Zookeeper 集群搭建 简介 Kafka 依赖 Zookeeper 管理自身集群

Hadoop伪分布式集群的安装部署

一.如何为虚拟机做快照? 1.什么是快照? 快照就是对当前的虚拟机状态进行拍照,保留虚拟机当前状态的操作信息. 2.为什么要为虚拟机做快照? 第一:为克隆不同状态的虚拟机提前做准备. 第二:当对虚拟机的某些操作执行错误而且改正比较麻烦的时候,可以切换到之前正常的虚拟机状态重新进行相关的操作. 3.如何为虚拟机做快照? (1)选择要克隆的虚拟机,然后“右键”,选择“快照”,然后选择“拍摄快照”. (2)可以为快照取个名称,也可以为虚拟机当前的状态做个描述,然后点击“拍摄快照”. 4.如何转到某一特

FastDFS&#160;集群的安装、配置、使用

FastDFS 集群的安装.配置.使用 FastDFS 介绍(参考:http://www.oschina.net/p/fastdfs) FastDFS 是一个开源的分布式文件系统,它对文件进行管理,功能包括:文件存储.文件同步.文件 访问(文件上传.文件下载)等,解决了大容量存储和负载均衡的问题.特别适合以文件为载体的在线服务,如相册网站.视频网站等等. FastDFS 服务端有两个角色:跟踪器(tracker)和存储节点(storage).跟踪器主要做调度工作,在访问上起负载均衡的作用.存储节