- 在 headnode 上安装 torque
-
./configure --prefix=/usr/local/torque-2.5.12 --enable-docs --enable-syslog --enable-unixsockets make make check make install make packages
- make packages 指令会产生独立的5个包,具体作用的话等用到时完全明白了再来补充
- 另外这儿 configure 的时候如果加入了 --enable-debug ,那么在后面启动 pbs_mom 的时候它死活也是不肯到 background 的,无论你怎么搞,你敢 Ctrl+c,pbs_mom进程立马 dead,死活占着那个 ternimal。我在这儿卡了好久。。。。。。
-
- 添加环境变量:
- vi /etc/profile,添加如下内容:
-
#Add by myself export TORQUE=/usr/local/torque-2.5.12 export LD_LIBRARY_PATH=$TORQUE/lib export PATH=$TORQUE/sbin:$TORQUE/bin:$PATH
-
- vi /etc/profile,添加如下内容:
- 配置 pbs_server 和 pbs_sched ,并添加为系统服务:
- vi /usr/local/src/torque-2.5.12/contrib/init.d/pbs_server,修改 PBS_DAEMON=/usr/local/torque-2.5.12/sbin/pbs_server (改成正确的 pbs_server 可执行文件路径即可)
- vi /usr/local/src/torque-2.5.12/contrib/init.d/pbs_sched,修改 PBS_DAEMON=/usr/local/torque-2.5.12/sbin/pbs_sched (改成正确的 pbs_sched 可执行文件路径即可)
- vi /usr/local/src/torque-2.5.12/contrib/init.d/pbs_mom,修改 PBS_DAEMON=/usr/local/torque-2.5.12/sbin/pbs_mom (改成正确的 pbs_mom 可执行文件路径即可)(这个是为计算节点做的准备工作)
-
cd /usr/local/src/torque-2.5.12/contrib/init.d/ cp pbs_server pbs_sched /etc/init.d/
-
chkconfig --add pbs_server chkconfig --add pbs_sched
- 请注意服务 pbs_server 不要启动起来,否则 ./torque.setup root 无法完成
- torque server db 初始化:
-
cd /usr/local/src/torque-2.5.12 ./torque.setup root
- 我初始化的时候遇到了下错误,但是又重新来了一次就没有报错了:
- 重新启动各项服务:
-
qterm //终止pbs_server service pbs_server start service pbs_sched start
-
-
- 修订 pbs_server 的 node 文件:
- 设定 pbs_server 自动检测计算节点的 cpu 核心数目
-
qmgr -c "set server auto_node_np = True"
-
- vi nodes (这儿nodes 文件被冲掉的只好自己新建了,原权限为:644),添加如下内容:
-
sdu.01 sdu.02
-
- 设定 pbs_server 自动检测计算节点的 cpu 核心数目
- 安装结算节点上所需要的包(就是上面 make packages 指令生成的)
-
scp torque-package-clients-linux-x86_64.sh torque-package-mom-linux-x86_64.sh root@sdu.01:/tmp/ scp torque-package-clients-linux-x86_64.sh torque-package-mom-linux-x86_64.sh root@sdu.02:/tmp/ ./torque-package-clients-linux-x86_64.sh --install ./torque-package-mom-linux-x86_64.sh --install
-
- 添加环境变量:
- vi /etc/profile,添加如下内容:
-
#Add by myself export TORQUE=/usr/local/torque-2.5.12 export LD_LIBRARY_PATH=$TORQUE/lib export PATH=$TORQUE/sbin:$TORQUE/bin:$PATH
-
- vi /etc/profile,添加如下内容:
- 添加 pbs_mom 为系统服务:
-
scp pbs_mom 到所有计算节点 chkconfig --add pbs_mom
-
- 配置守护进程的信任关系
-
vi /var/spool/torque/server_name 修改为 headnode 的主机名称
-
- 添加计算节点的配置文件:
-
vi /var/spool/torque/mom_priv/config
- 添加如下内容:
-
$logevent 255 $loglevel 7 $pbsserver sdu.master
-
-
- 启动 pbs_mom
-
service pbs_mom start
-
- 用指令 pbsnodes -a 查看整个集群计算节点的状态:
- 至此配置方面应该不会有什么大的问题了,可能的问题我会在后期的测试中在 “PBS集群搭建” 这个专题中陆续给出,望有兴趣、需要的朋友多多关注,多多交流