[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Ejecución Básica de PBS



Hola, ... tengo un cluster e intento utilizar PBS (está instalado, no he
sido yo), pero no tengo muy claro cómo va. Según el man y google, (p.e.
http://dcwww.camd.dtu.dk/pbs.html), yo entiendo lo siguiente, y ... por
favor, ... corregidme si me equivoco:

Tengo un programa.pl que habitualmente ejecuto así '$programa.pl fichero1
fichero2' y quiero que utilice los 4 nodos de 8 cpus cada uno para que en
lugar de tardarme días me tarde horas. Como PBS ya está instalado me salto
los pasos de instalación de la web anterior.

1-Lo primero que hay que hacer es generar automáticamente un listado de
sub-scripts (a partir de mi script 'programa.pl fichero1 fichero2') que
serán lanzados en paralelo (en lo que llaman jobs) a través de los diversos
nodos. Para ello, ejecuto este otro script, al que llamo
pbs_plantilla_crear_batch_scripts.sh ...


#!/bin/sh
### Job name
#PBS -N test
### Declare job non-rerunable
#PBS -r n
### Output files
#PBS -e test.err
#PBS -o test.log
### Mail to user
#PBS -m ae
### Queue name (small, medium, long, verylong)
#PBS -q long
### Number of nodes (node property ev67 wanted)
#PBS -l nodes=8:ev67

PBS_O_WORKDIR=/opt/torque/ # ESTO LO ANADO YO PORQUE SI NO LA VBLE. ESTA
VACIA
PBS_NODEFILE=/opt/torque/server_priv/nodes # ESPERO QUE SE REFIERA AL
FICHERO DE NODOS QUE HAY AHI

# This job's working directory
echo Working directory is $PBS_O_WORKDIR
cd $PBS_O_WORKDIR    

echo Running on host `hostname`
echo Time is `date`
echo Directory is `pwd`
echo This jobs runs on the following processors:
echo `cat $PBS_NODEFILE`
# Define number of processors
NPROCS=`wc -l < $PBS_NODEFILE`
echo This job has allocated $NPROCS nodes

# Run the parallel MPI executable "a.out"
mpirun -v -machinefile $PBS_NODEFILE -np $NPROCS a.out


.... pero me da este error ...


[root@maquina PBS]# ./pbs_plantilla_crear_batch_scripts.sh cal_pruebas.pl
Working directory is /opt/torque/
Running on host maquina.dominio.local
Time is Wed Jan 28 17:18:16 CET 2009
Directory is /opt/torque
This jobs runs on the following processors:
compute-0-0.local np=8 compute-0-1.local np=8 compute-0-2.local np=8
This job has allocated 3 nodes
--------------------------------------------------------------------------
Open RTE detected a parse error in the hostfile:
    /opt/torque/server_priv/nodes
It occured on line number 1 on token 5:
    np
--------------------------------------------------------------------------
[maquina.dominio.local:30591] [0,0,0] ORTE_ERROR_LOG: Error in file
rmgr_urm.c at line 358
[maquina.dominio.local:30591] mpirun: spawn failed with errno=-1


.... ¿Es que tengo mal alguna de esas dos variables?



2- Aún no he llegado a ese punto, pero sé que una vez tenga los ficheros
subscript1.sh, subscript2.sh, ... tengo que hacer un submit a PBS con el
comando qsub. ¿Para el caso más sencillo bastará con que haga '#qsub
subscript1.sh subscript2.sh ...'?







Reply to: