现在的位置: 首页 > 综合 > 正文

PBS集群搭建专题(二) | torque 的安装与配置

2017年10月26日 ⁄ 综合 ⁄ 共 2231字 ⁄ 字号 评论关闭

  • headnode上的配置
    1. 在 headnode 上安装 torque

      • ./configure --prefix=/usr/local/torque-2.5.12 --enable-docs --enable-syslog --enable-unixsockets
        make
        make check
        make install
        make packages
      • make packages 指令会产生独立的5个包,具体作用的话等用到时完全明白了再来补充
      • 另外这儿 configure 的时候如果加入了 --enable-debug ,那么在后面启动 pbs_mom 的时候它死活也是不肯到 background 的,无论你怎么搞,你敢 Ctrl+c,pbs_mom进程立马 dead,死活占着那个 ternimal。我在这儿卡了好久。。。。。。
    2. 添加环境变量:
      • vi /etc/profile,添加如下内容:

        • #Add by myself
          export TORQUE=/usr/local/torque-2.5.12
          export LD_LIBRARY_PATH=$TORQUE/lib
          export PATH=$TORQUE/sbin:$TORQUE/bin:$PATH
    3. 配置 pbs_server 和 pbs_sched ,并添加为系统服务:
      • vi /usr/local/src/torque-2.5.12/contrib/init.d/pbs_server,修改 PBS_DAEMON=/usr/local/torque-2.5.12/sbin/pbs_server (改成正确的 pbs_server 可执行文件路径即可)
      • vi /usr/local/src/torque-2.5.12/contrib/init.d/pbs_sched,修改 PBS_DAEMON=/usr/local/torque-2.5.12/sbin/pbs_sched (改成正确的 pbs_sched 可执行文件路径即可)
      • vi /usr/local/src/torque-2.5.12/contrib/init.d/pbs_mom,修改 PBS_DAEMON=/usr/local/torque-2.5.12/sbin/pbs_mom (改成正确的 pbs_mom 可执行文件路径即可)(这个是为计算节点做的准备工作)
      • cd /usr/local/src/torque-2.5.12/contrib/init.d/
        cp pbs_server pbs_sched /etc/init.d/
      • chkconfig --add pbs_server
        chkconfig --add pbs_sched
      • 请注意服务 pbs_server 不要启动起来,否则 ./torque.setup root 无法完成
    4. torque server db 初始化:
      • cd /usr/local/src/torque-2.5.12
        ./torque.setup root
      • 我初始化的时候遇到了下错误,但是又重新来了一次就没有报错了:
      • 重新启动各项服务:
        • qterm //终止pbs_server
          service pbs_server start
          service pbs_sched start
    5. 修订 pbs_server 的 node 文件:
      • 设定 pbs_server 自动检测计算节点的 cpu 核心数目

        • qmgr -c "set server auto_node_np = True"
      • vi nodes (这儿nodes 文件被冲掉的只好自己新建了,原权限为:644),添加如下内容:
        • sdu.01
          sdu.02

  • 计算节点上的配置
    1. 安装结算节点上所需要的包(就是上面 make packages 指令生成的)

      • scp torque-package-clients-linux-x86_64.sh torque-package-mom-linux-x86_64.sh root@sdu.01:/tmp/
        scp torque-package-clients-linux-x86_64.sh torque-package-mom-linux-x86_64.sh root@sdu.02:/tmp/
        ./torque-package-clients-linux-x86_64.sh --install
        ./torque-package-mom-linux-x86_64.sh --install
    2. 添加环境变量:
      • vi /etc/profile,添加如下内容:

        • #Add by myself
          export TORQUE=/usr/local/torque-2.5.12
          export LD_LIBRARY_PATH=$TORQUE/lib
          export PATH=$TORQUE/sbin:$TORQUE/bin:$PATH
    3. 添加 pbs_mom 为系统服务:
      • scp pbs_mom 到所有计算节点
        chkconfig --add pbs_mom
    4. 配置守护进程的信任关系
      • vi /var/spool/torque/server_name
        修改为 headnode 的主机名称
    5. 添加计算节点的配置文件:
      • vi /var/spool/torque/mom_priv/config
      • 添加如下内容:
        • $logevent 255
          $loglevel 7
          $pbsserver sdu.master
    6. 启动 pbs_mom
      • service pbs_mom start

  • 整个集群配置的验证
    1. 用指令 pbsnodes -a 查看整个集群计算节点的状态:

    2. 至此配置方面应该不会有什么大的问题了,可能的问题我会在后期的测试中在 “PBS集群搭建” 这个专题中陆续给出,望有兴趣、需要的朋友多多关注,多多交流
  • 抱歉!评论已关闭.