做業調度系統PBS(Torque)的設置

##一、修改/var/spool/torque/server_priv/目錄下的nodes文件##node

Node1 np=16 gpus=4
Node2 np=16 gpus=4
...

其中Node1爲計算節點名字,np爲邏輯核數,gpus爲顯卡數 該文件給出了計算集羣的最大可用資源.net

##二、 從新啓動pbs##rest

\#service pbs_mon restart
\#service pbs_server restart
\#service pbs_sched restart

注意要按照順序重啓服務code

##三、 qmgr 是Torque用戶對隊列進行管理的交互界面##server

在root帳戶下進入qmgrblog

\#qmgr
Qmgr:list queue QueueName  //查看隊列屬性

Queue QueueName queue_type = Execution max_user_queuable = 100 total_jobs = 0 state_count = Transit:0 Queued:4 Held:0 Waiting:0 Running:1 Exiting:0 Complete:0 resources_max.ncpus = 12 resources_default.ncpus = 12 resources_default.nodes = 1 resources_default.walltime = 01:00:00 mtime = Tue Jan 30 16:14:38 2018 resources_assigned.ncpus = 4 resources_assigned.nodect = 1 max_user_run = 1 enabled = True started = True隊列

如要啓用隊列Qmgr:set queue QueueName enabled=True資源

相應的設置項在PBS命令相關中給出get

max_user_queuable : 隊列中一個用戶能提交的最大做業數 max_user_run : 隊列中一個用戶同時運行的做業數 resources_max.ncpus :最大可用邏輯核數 total_jobs : 當前提交的做業數it

若是要求一次執行一個任務,該任務佔用12個核,其他任務須要排隊,則設置max_user_run=1.而後在做業提交腳本.pbs中 -np 12

qmgr不須要從新啓動pbs服務

##四、如何將pbs_mom, pbs_server 和 pbs_sched ,並添加爲系統服務,設置爲開機啓動##

cd /usr/local/src/torque-2.5.12/contrib/init.d/
cp pbs_mom pbs_server pbs_sched /etc/init.d/
chkconfig --add pbs_mom
chkconfig --add pbs_server
chkconfig --add pbs_sched
相關文章
相關標籤/搜索