Ignore:
Timestamp:
Dec 14, 2010 1:33:02 PM (12 years ago)
Author:
raasch
Message:

mrun/mbuild/subjob adjustments for new Tsubama system at Tokyo Institute of Techology (lctit)

File:
1 edited

Legend:

Unmodified
Added
Removed
  • palm/trunk/SCRIPTS/subjob

    r622 r635  
    124124     #                    SGI-ICE/lcsgi
    125125     #                    adjustments for Kyushu Univ. (lcrte, ibmku)
     126     # 14/12/10 - Siggi - adjustments for new Tsubame system at Tokyo
     127     #                    institute of technology (lctit)
    126128
    127129
     
    236238     (r1*)                   local_addres=130.75.4.102;   local_host=lcsgih;;
    237239     (r2*)                   local_addres=130.73.232.102; local_host=lcsgib;;
    238      (tgg*)                  local_addres=172.17.75.161;  local_host=lctit;;
     240     (t2a*)                  local_addres=10.1.6.165;     local_host=lctit;;
    239241     (vorias)                local_addres=172.20.25.43;   local_host=lcmuk;;
    240242     (*.cc.kyushu-u.ac.jp)   local_addres=133.5.4.129;    local_host=ibmku;;
     
    367369        (lcsgih)  queue=smallq; remote_addres=130.75.4.101; submcom=/opt/moab/bin/msub;;
    368370        (lck)     remote_addres=165.132.26.61; submcom=/usr/torque/bin/qsub;;
    369         (lctit)   queue=lctit; remote_addres=172.17.75.161; submcom=/n1ge/TITECH_GRID/tools/bin/n1ge;;
     371        (lctit)   queue=S; remote_addres=10.1.6.165; submcom=/opt/pbs/tools/bin/t2sub;;
    370372        (lcxt4)   remote_addres=129.177.20.113; submcom=/opt/torque/2.4.9-snap.201005191035/bin/qsub;;
    371373        (lcxt5m)  remote_addres=193.166.211.144; submcom=/opt/pbs/10.1.0.91350/bin/qsub;;
     
    415417                 esac;;
    416418        (lctit)  case  $ndq  in
    417                      (novice|sla1|sla2|sla3|RAM64GB|RAM128GB)    error=false;;
     419                     (G|L128|L256|L512H|S|S96|V)             error=false;;
    418420                     (*)                                     error=true;;
    419421                 esac;;
     
    513515       (( Memory = memory / 1000 ))
    514516    fi
     517 elif [[ $remote_host = lctit ]]
     518 then
     519    (( Memory = memory * tasks_per_node / 1000 ))
    515520 fi
    516521
     
    10311036 then
    10321037    cat > $job_to_send << %%END%%
    1033 #!/bin/bash
    1034 #$ -S /bin/bash
    1035 cd $job_catalog
    1036 export PATH=$PALM_BIN:\$PATH
    1037 echo \$PATH
     1038#!/bin/ksh
    10381039
    10391040%%END%%
    10401041
    10411042       # OPTIONEN FUER SUBMIT-KOMMANDO ZUSAMMENSTELLEN
    1042   #  submcom="$submcom  -N $job_name  -sgeout $remote_dayfile  -q default"
    1043     submcom="$submcom -g $group_number -N $job_name -rt 4320 -sgeout $remote_dayfile  -q $node_usage "
     1043    submcom="$submcom -W group_list=$group_number -N $job_name -l walltime=$timestring -l select=$nodes:ncpus=$processes_per_node:mpiprocs=$tasks_per_node:mem=${Memory}gb -l place=scatter -o $remote_dayfile -j oe -q $queue "
    10441044
    10451045 else
     
    10661066    echo "trap '"                               >>  $job_to_send
    10671067    echo "set +vx"                              >>  $job_to_send
    1068     if [[ $(echo $remote_host | cut -c1-3) = ibm  ||  $(echo $remote_host | cut -c1-5) = lcsgi  ||  $(echo $remote_host | cut -c1-3) = nec  ||  $remote_host = lctit ]]
     1068    if [[ $(echo $remote_host | cut -c1-3) = ibm  ||  $(echo $remote_host | cut -c1-5) = lcsgi  ||  $(echo $remote_host | cut -c1-3) = nec ]]
    10691069    then
    10701070       if [[ $remote_host = ibmh ]]
     
    10831083       then
    10841084          return_queue=serialq
    1085        elif [[ $remote_host = lctit ]]
    1086        then
    1087           return_queue=sla3
    10881085       elif [[ $remote_host = necriam ]]
    10891086       then
     
    11691166          echo "[[ \"\$for_subjob_to_do\" != \"\" ]]  &&  eval \$for_subjob_to_do"  >>  $job_to_send
    11701167          echo "%%END%%"                           >>  $job_to_send
    1171 
    1172        elif [[ $remote_host = lctit ]]
    1173        then
    1174           echo "cat > scpjob.$kennung << %%END%%"          >>  $job_to_send
    1175           echo "set -x"                                    >>  $job_to_send
    1176           echo "PATH=\$PATH:$job_catalog/../pub"           >>  $job_to_send
    1177           echo "cd $job_catalog"                           >>  $job_to_send
    1178           echo "batch_scp  -d  -w 10  -u $local_user $local_addres  $remote_dayfile  \"$job_catalog\"  $local_dayfile"  >>  $job_to_send
    1179           echo "[[ \"\$for_subjob_to_do\" != \"\" ]]  &&  eval \$for_subjob_to_do"  >>  $job_to_send
    1180           echo "%%END%%"                                   >>  $job_to_send
    11811168
    11821169       else
     
    12131200          echo "chmod  u+x  scpjob.$kennung"    >>  $job_to_send
    12141201          echo "msub  scpjob.$kennung"          >>  $job_to_send
    1215        elif [[ $remote_host = lctit ]]
    1216        then
    1217           echo "chmod  u+x  scpjob.$kennung"    >>  $job_to_send
    1218           echo "rm -rf ${job_catalog}/last_job_transfer_protocol"  >>  $job_to_send
    1219           echo "n1ge  -N jobtransfer  -q $return_queue  -sgeout ${job_catalog}/last_job_transfer_protocol  scpjob.$kennung"  >>  $job_to_send
    1220           echo "sleep 10"                       >>  $job_to_send
    12211202       elif [[ $remote_host = t3eb  ||  $remote_host = t3eh  ||  $remote_host = t3ej2  ||  $remote_host = t3ej5 ]]
    12221203       then
     
    12551236    echo "exit"      >>  $job_to_send
    12561237 fi
     1238
     1239    # remove job file
    12571240 if [[ $remote_host = lctit  ||  $remote_host = ibmku ]]
    12581241 then
     
    13221305    then
    13231306       [[ $verify = true ]]  &&  printf "\n >>> submitting job using \"qsub\"...\n"
    1324        if [[ $remote_host != lctit ]]
    1325        then
    1326           if [[ $(echo $remote_host | cut -c1-5) = lcsgi  &&  $prio = true ]]
    1327           then
    1328              printf "\n >>> submit with HLRN qos-feature hiprio...\n"
    1329              ssh  $remote_addres  -l $remote_user  "cd $job_catalog; $submcom -l qos=hiprio $job_on_remhost; rm $job_on_remhost"
    1330           elif [[ $remote_host = ibmku ]]
    1331           then
    1332              ssh  $remote_addres  -l $remote_user  "cd $job_catalog; $submcom $job_on_remhost"
    1333           else
    1334              ssh  $remote_addres  -l $remote_user  "cd $job_catalog; $submcom $job_on_remhost; rm $job_on_remhost"
    1335           fi
     1307
     1308       if [[ $(echo $remote_host | cut -c1-5) = lcsgi  &&  $prio = true ]]
     1309       then
     1310          printf "\n >>> submit with HLRN qos-feature hiprio...\n"
     1311          ssh  $remote_addres  -l $remote_user  "cd $job_catalog; $submcom -l qos=hiprio $job_on_remhost; rm $job_on_remhost"
     1312       elif [[ $remote_host = ibmku ]]
     1313       then
     1314          ssh  $remote_addres  -l $remote_user  "cd $job_catalog; $submcom $job_on_remhost"
    13361315       else
    1337              # TIT ERLAUBT NUR DIE AUSFUEHRUNG GANZ BESTIMMTER KOMMANDOS
    1338              # MIT SSH, DESHALB AUFRUF PER PIPE
    1339              # UEBERGANGSWEISE CHECK, OB N1GE ENVIRONMENT WIRKLICH VERFUEGBAR
    1340           print  "cd $job_catalog; chmod u+x $job_on_remhost"  |  ssh  $remote_addres  -l $remote_user  > /dev/null  2>&1
    1341           echo "first try" > send_protocol
    1342           while [[ $(cat send_protocol | grep -c "Forwarding to N1GE") = 0 ]]
    1343           do
    1344              if [[ $(cat send_protocol | grep -c "first try") = 1 ]]
    1345              then
    1346                 printf "\n trying to submit job to TIT cluster..."
    1347              else
    1348                 printf "\n +++ failed ... trying to submit again ..."
    1349              fi
    1350              print  "cd $job_catalog; $submcom $job_on_remhost"  |  ssh  $remote_addres  -l $remote_user  >  send_protocol  2>&1
    1351              cat send_protocol
    1352           done
    1353           sleep 10
    1354           print  "cd $job_catalog;  rm $job_on_remhost"  |  ssh  $remote_addres  -l $remote_user  > /dev/null  2>&1
    1355           echo "$submcom  $job_on_remhost"
    1356           rm  send_protocol
     1316          ssh  $remote_addres  -l $remote_user  "cd $job_catalog; $submcom $job_on_remhost; rm $job_on_remhost"
    13571317       fi
    13581318
     
    13651325       elif [[  $local_host = lcfimm  ||  $local_host = lctit  ||  $localhost = lcxt4 || $localhost = lck ]]
    13661326       then
     1327          chmod  u+x  $job_on_remhost
     1328          echo "$submcom  $job_on_remhost"
    13671329          eval  $submcom  $job_on_remhost
    1368           echo "$submcom  $job_on_remhost"
    1369           chmod  u+x  $job_on_remhost
    1370 
    13711330       elif [[ $local_host = nech ]]
    13721331       then
Note: See TracChangeset for help on using the changeset viewer.