Home

Context Navigation

← Previous Change
Next Change →

transpose.f90

Timestamp:

May 15, 2008 8:46:15 AM (16 years ago)

Author:

raasch

Message:

optimization of transpositions for 2D decompositions, workaround for using -env option with mpiexec, adjustments for lcxt4

File:

: 1 edited

palm/trunk/SOURCE/transpose.f90 (modified) (44 diffs)

Legend:

: Unmodified
: Added
: Removed

palm/trunk/SOURCE/transpose.f90

-                      r4
+                      r164
  SUBROUTINE transpose_xy( f_in, work1, f_inv, work2, f_out )
+ SUBROUTINE transpose_xy( f_in, work, f_out )
 !------------------------------------------------------------------------------!
 ! Actual revisions:
 ! -----------------
+!
+! f_inv changed from subroutine argument to automatic array in order to do
+! re-ordering from f_in to f_inv in one step, one array work is needed instead
+! of work1 and work2
+!
 ! Former revisions:
 …
              f_inv(nys_x:nyn_xa,nzb_x:nzt_xa,0:nxa),                    &
              f_out(0:nya,nxl_y:nxr_ya,nzb_y:nzt_ya),                    &
              work1(nys_x:nyn_xa,nzb_x:nzt_xa,0:nxa), work2(nnx*nny*nnz)
+             work(nnx*nny*nnz)
 #if defined( __parallel )
 …
 !-- Rearrange indices of input array in order to make data to be send
 !-- by MPI contiguous
-    DO  k = nzb_x, nzt_xa
-       DO  j = nys_x, nyn_xa
-          DO  i = 0, nxa
-             work1(j,k,i) = f_in(i,j,k)
-          ENDDO
-       ENDDO
-    ENDDO
+!
-!-- Move data to different array, because memory location of work1 is
-!-- needed further below (work1 = work2)
     DO  i = 0, nxa
        DO  k = nzb_x, nzt_xa
           DO  j = nys_x, nyn_xa
              f_inv(j,k,i) = work1(j,k,i)
+             f_inv(j,k,i) = f_in(i,j,k)
           ENDDO
        ENDDO
 …
     CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
     CALL MPI_ALLTOALL( f_inv(nys_x,nzb_x,0), sendrecvcount_xy, MPI_REAL, &
                        work2(1),             sendrecvcount_xy, MPI_REAL, &
+                       work(1),              sendrecvcount_xy, MPI_REAL, &
                        comm1dy, ierr )
     CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
 …
              DO  j = ys, ys + nyn_xa - nys_x
                 m = m + 1
                 f_out(j,i,k) = work2(m)
+                f_out(j,i,k) = work(m)
              ENDDO
           ENDDO
 …
  SUBROUTINE transpose_xz( f_in, work1, f_inv, work2, f_out )
+ SUBROUTINE transpose_xz( f_in, work, f_out )
 !------------------------------------------------------------------------------!
 …
     REAL ::  f_in(0:nxa,nys_x:nyn_xa,nzb_x:nzt_xa),             &
              f_inv(nxl:nxra,nys:nyna,1:nza),                    &
+             f_inv(nys:nyna,nxl:nxra,1:nza),                    &
              f_out(1:nza,nys:nyna,nxl:nxra),                    &
              work1(1:nza,nys:nyna,nxl:nxra), work2(nnx*nny*nnz)
+             work(nnx*nny*nnz)
 #if defined( __parallel )
 …
           xs = 0 + l * nnx
           DO  k = nzb_x, nzt_xa
              DO  j = nys_x, nyn_xa
                 DO  i = xs, xs + nnx - 1
+             DO  i = xs, xs + nnx - 1
+                DO  j = nys_x, nyn_xa
                    m = m + 1
                    work2(m) = f_in(i,j,k)
+                   work(m) = f_in(i,j,k)
                 ENDDO
              ENDDO
 …
 !--    Transpose array
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
        CALL MPI_ALLTOALL( work2(1),         sendrecvcount_zx, MPI_REAL, &
                           f_inv(nxl,nys,1), sendrecvcount_zx, MPI_REAL, &
+       CALL MPI_ALLTOALL( work(1),          sendrecvcount_zx, MPI_REAL, &
+                          f_inv(nys,nxl,1), sendrecvcount_zx, MPI_REAL, &
                           comm1dx, ierr )
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
 …
+!
 !--    Reorder transposed array in a way that the z index is in first position
        DO  i = nxl, nxra
           DO  j = nys, nyna
              DO  k = 1, nza
                 work1(k,j,i) = f_inv(i,j,k)
+       DO  k = 1, nza
+          DO  i = nxl, nxra
+             DO  j = nys, nyna
+                f_out(k,j,i) = f_inv(j,i,k)
              ENDDO
           ENDDO
 …
           DO  j = nys, nyna
              DO  k = 1, nza
+                work1(k,j,i) = f_in(i,j,k)
+             ENDDO
+          ENDDO
+       ENDDO
+                f_inv(j,i,k) = f_in(i,j,k)
+             ENDDO
+          ENDDO
+       ENDDO
+       DO  k = 1, nza
+          DO  i = nxl, nxra
+             DO  j = nys, nyna
+                f_out(k,j,i) = f_inv(j,i,k)
+             ENDDO
+          ENDDO
+       ENDDO
     ENDIF
+!
-!-- Move data to output array
-    DO  i = nxl, nxra
-       DO  j = nys, nyna
-          DO  k = 1, nza
-             f_out(k,j,i) = work1(k,j,i)
-          ENDDO
-       ENDDO
-    ENDDO
 #endif
 …
  SUBROUTINE transpose_yx( f_in, work1, f_inv, work2, f_out )
+ SUBROUTINE transpose_yx( f_in, work, f_out )
 !------------------------------------------------------------------------------!
 …
              f_inv(nys_x:nyn_xa,nzb_x:nzt_xa,0:nxa),                    &
              f_out(0:nxa,nys_x:nyn_xa,nzb_x:nzt_xa),                    &
              work1(0:nxa,nys_x:nyn_xa,nzb_x:nzt_xa), work2(nnx*nny*nnz)
+             work(nnx*nny*nnz)
 #if defined( __parallel )
 …
              DO  j = ys, ys + nyn_xa - nys_x
                 m = m + 1
                 work2(m) = f_in(j,i,k)
+                work(m) = f_in(j,i,k)
              ENDDO
           ENDDO
 …
 !-- Transpose array
     CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
     CALL MPI_ALLTOALL( work2(1),             sendrecvcount_xy, MPI_REAL, &
+    CALL MPI_ALLTOALL( work(1),              sendrecvcount_xy, MPI_REAL, &
                        f_inv(nys_x,nzb_x,0), sendrecvcount_xy, MPI_REAL, &
                        comm1dy, ierr )
 …
        DO  k = nzb_x, nzt_xa
           DO  j = nys_x, nyn_xa
+             work1(i,j,k) = f_inv(j,k,i)
+          ENDDO
+       ENDDO
+    ENDDO
+!
+!-- Move data to output array
+    DO  k = nzb_x, nzt_xa
+       DO  j = nys_x, nyn_xa
+          DO  i = 0, nxa
+             f_out(i,j,k) = work1(i,j,k)
+             f_out(i,j,k) = f_inv(j,k,i)
           ENDDO
        ENDDO
 …
  SUBROUTINE transpose_yxd( f_in, work1, f_inv, work2, f_out )
+ SUBROUTINE transpose_yxd( f_in, work, f_out )
 !------------------------------------------------------------------------------!
 …
     REAL ::  f_in(1:nza,nys:nyna,nxl:nxra), f_inv(nxl:nxra,1:nza,nys:nyna), &
              f_out(0:nxa,nys_x:nyn_xa,nzb_x:nzt_xa),                        &
              work1(nxl:nxra,1:nza,nys:nyna), work2(nnx*nny*nnz)
+             work(nnx*nny*nnz)
 #if defined( __parallel )
 …
        DO  j = nys, nyna
           DO  i = nxl, nxra
+             work1(i,k,j) = f_in(k,j,i)
+          ENDDO
+       ENDDO
+    ENDDO
+!
+!-- Move data to different array, because memory location of work1 is
+!-- needed further below (work1 = work2)
+    DO  j = nys, nyna
+       DO  k = 1, nza
+          DO  i = nxl, nxra
+             f_inv(i,k,j) = work1(i,k,j)
+             f_inv(i,k,j) = f_in(k,j,i)
           ENDDO
        ENDDO
 …
     CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
     CALL MPI_ALLTOALL( f_inv(nxl,1,nys), sendrecvcount_xy, MPI_REAL, &
                        work2(1),         sendrecvcount_xy, MPI_REAL, &
+                       work(1),          sendrecvcount_xy, MPI_REAL, &
                        comm1dx, ierr )
     CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
 …
              DO  i = xs, xs + nnx - 1
                 m = m + 1
                 f_out(i,j,k) = work2(m)
+                f_out(i,j,k) = work(m)
              ENDDO
           ENDDO
 …
  SUBROUTINE transpose_yz( f_in, work1, f_inv, work2, f_out )
+ SUBROUTINE transpose_yz( f_in, work, f_out )
 !------------------------------------------------------------------------------!
 …
              f_inv(nxl_y:nxr_ya,nzb_y:nzt_ya,0:nya),                    &
              f_out(nxl_z:nxr_za,nys_z:nyn_za,1:nza),                    &
              work1(nxl_y:nxr_ya,nzb_y:nzt_ya,0:nya), work2(nnx*nny*nnz)
+             work(nnx*nny*nnz)
 #if defined( __parallel )
 …
 !-- Rearrange indices of input array in order to make data to be send
 !-- by MPI contiguous
     DO  k = nzb_y, nzt_ya
        DO  i = nxl_y, nxr_ya
           DO  j = 0, nya
              work1(i,k,j) = f_in(j,i,k)
+    DO  j = 0, nya
+       DO  k = nzb_y, nzt_ya
+          DO  i = nxl_y, nxr_ya
+             f_inv(i,k,j) = f_in(j,i,k)
           ENDDO
        ENDDO
 …
           DO  k = nzb_y, nzt_ya
              DO  i = nxl_y, nxr_ya
                 f_out(i,j,k) = work1(i,k,j)
+                f_out(i,j,k) = f_inv(i,k,j)
              ENDDO
           ENDDO
        ENDDO
        RETURN
-    ELSE
-       DO  j = 0, nya
-          DO  k = nzb_y, nzt_ya
-             DO  i = nxl_y, nxr_ya
-                f_inv(i,k,j) = work1(i,k,j)
-             ENDDO
-          ENDDO
-       ENDDO
     ENDIF
 …
     CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
     CALL MPI_ALLTOALL( f_inv(nxl_y,nzb_y,0), sendrecvcount_yz, MPI_REAL, &
                        work2(1),             sendrecvcount_yz, MPI_REAL, &
+                       work(1),              sendrecvcount_yz, MPI_REAL, &
                        comm1dx, ierr )
     CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
 …
              DO  i = nxl_z, nxr_za
                 m = m + 1
                 f_out(i,j,k) = work2(m)
+                f_out(i,j,k) = work(m)
              ENDDO
           ENDDO
 …
  SUBROUTINE transpose_zx( f_in, work1, f_inv, work2, f_out )
+ SUBROUTINE transpose_zx( f_in, work, f_out )
 !------------------------------------------------------------------------------!
 …
     INTEGER ::  i, j, k, l, m, xs
     REAL ::  f_in(1:nza,nys:nyna,nxl:nxra), f_inv(nxl:nxra,nys:nyna,1:nza), &
+    REAL ::  f_in(1:nza,nys:nyna,nxl:nxra), f_inv(nys:nyna,nxl:nxra,1:nza), &
              f_out(0:nxa,nys_x:nyn_xa,nzb_x:nzt_xa),                        &
              work1(nxl:nxra,nys:nyna,1:nza), work2(nnx*nny*nnz)
+             work(nnx*nny*nnz)
 #if defined( __parallel )
 …
 !-- Rearrange indices of input array in order to make data to be send
 !-- by MPI contiguous
     DO  i = nxl, nxra
        DO  j = nys, nyna
           DO  k = 1,nza
              work1(i,j,k) = f_in(k,j,i)
+    DO  k = 1,nza
+       DO  i = nxl, nxra
+          DO  j = nys, nyna
+             f_inv(j,i,k) = f_in(k,j,i)
           ENDDO
        ENDDO
 …
     IF ( pdims(1) == 1 )  THEN
        DO  k = 1, nza
           DO  j = nys, nyna
              DO  i = nxl, nxra
                 f_out(i,j,k) = work1(i,j,k)
+          DO  i = nxl, nxra
+             DO  j = nys, nyna
+                f_out(i,j,k) = f_inv(j,i,k)
              ENDDO
           ENDDO
        ENDDO
        RETURN
-    ELSE
-       DO  k = 1, nza
-          DO  j = nys, nyna
-             DO  i = nxl, nxra
-                f_inv(i,j,k) = work1(i,j,k)
-             ENDDO
-          ENDDO
-       ENDDO
     ENDIF
 …
 !-- Transpose array
     CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
     CALL MPI_ALLTOALL( f_inv(nxl,nys,1), sendrecvcount_zx, MPI_REAL, &
                        work2(1),         sendrecvcount_zx, MPI_REAL, &
+    CALL MPI_ALLTOALL( f_inv(nys,nxl,1), sendrecvcount_zx, MPI_REAL, &
+                       work(1),          sendrecvcount_zx, MPI_REAL, &
                        comm1dx, ierr )
     CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
 …
        xs = 0 + l * nnx
        DO  k = nzb_x, nzt_xa
           DO  j = nys_x, nyn_xa
              DO  i = xs, xs + nnx - 1
+          DO  i = xs, xs + nnx - 1
+             DO  j = nys_x, nyn_xa
                 m = m + 1
                 f_out(i,j,k) = work2(m)
+                f_out(i,j,k) = work(m)
              ENDDO
           ENDDO
 …
  SUBROUTINE transpose_zy( f_in, work1, f_inv, work2, f_out )
+ SUBROUTINE transpose_zy( f_in, work, f_out )
 !------------------------------------------------------------------------------!
 …
              f_inv(nxl_y:nxr_ya,nzb_y:nzt_ya,0:nya),                    &
              f_out(0:nya,nxl_y:nxr_ya,nzb_y:nzt_ya),                    &
              work1(0:nya,nxl_y:nxr_ya,nzb_y:nzt_ya), work2(nnx*nny*nnz)
+             work(nnx*nny*nnz)
 #if defined( __parallel )
 …
                 DO  i = nxl_z, nxr_za
                    m = m + 1
                    work2(m) = f_in(i,j,k)
+                   work(m) = f_in(i,j,k)
                 ENDDO
              ENDDO
 …
 !--    Transpose array
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
        CALL MPI_ALLTOALL( work2(1),             sendrecvcount_yz, MPI_REAL, &
+       CALL MPI_ALLTOALL( work(1),              sendrecvcount_yz, MPI_REAL, &
                           f_inv(nxl_y,nzb_y,0), sendrecvcount_yz, MPI_REAL, &
                           comm1dx, ierr )
 …
+!
 !--    Reorder transposed array in a way that the y index is in first position
+       DO  j = 0, nya
+          DO  k = nzb_y, nzt_ya
+             DO  i = nxl_y, nxr_ya
+                f_out(j,i,k) = f_inv(i,k,j)
+             ENDDO
+          ENDDO
+       ENDDO
+    ELSE
+!
+!--    Reorder the array in a way that the y index is in first position
+       DO  k = nzb_y, nzt_ya
+          DO  j = 0, nya
+             DO  i = nxl_y, nxr_ya
+                f_inv(i,k,j) = f_in(i,j,k)
+             ENDDO
+          ENDDO
+       ENDDO
+!
+!--    Move data to output array
        DO  k = nzb_y, nzt_ya
           DO  i = nxl_y, nxr_ya
              DO  j = 0, nya
+                work1(j,i,k) = f_inv(i,k,j)
+             ENDDO
+          ENDDO
+       ENDDO
+    ELSE
+!
+!--    Reorder the array in a way that the y index is in first position
+       DO  k = nzb_y, nzt_ya
+          DO  i = nxl_y, nxr_ya
+             DO  j = 0, nya
+                work1(j,i,k) = f_in(i,j,k)
+             ENDDO
+          ENDDO
+       ENDDO
+                f_out(j,i,k) = f_inv(i,k,j)
+             ENDDO
+          ENDDO
+       ENDDO
     ENDIF
+!
-!-- Move data to output array
-    DO  k = nzb_y, nzt_ya
-       DO  i = nxl_y, nxr_ya
-          DO  j = 0, nya
-             f_out(j,i,k) = work1(j,i,k)
-          ENDDO
-       ENDDO
-    ENDDO
 #endif
 …
  SUBROUTINE transpose_zyd( f_in, work1, f_inv, work2, f_out )
+ SUBROUTINE transpose_zyd( f_in, work, f_out )
 !------------------------------------------------------------------------------!
 …
     REAL ::  f_in(1:nza,nys:nyna,nxl:nxra), f_inv(nys:nyna,nxl:nxra,1:nza), &
              f_out(0:nya,nxl_yd:nxr_yda,nzb_yd:nzt_yda),                    &
              work1(nys:nyna,nxl:nxra,1:nza), work2(nnx*nny*nnz)
+             work(nnx*nny*nnz)
 #if defined( __parallel )
 …
        DO  j = nys, nyna
           DO  k = 1, nza
              work1(j,i,k) = f_in(k,j,i)
+             f_inv(j,i,k) = f_in(k,j,i)
           ENDDO
        ENDDO
 …
           DO  i = nxl, nxra
              DO  j = nys, nyna
                 f_out(j,i,k) = work1(j,i,k)
+                f_out(j,i,k) = f_inv(j,i,k)
              ENDDO
           ENDDO
        ENDDO
        RETURN
-    ELSE
-       DO  k = 1, nza
-          DO  i = nxl, nxra
-             DO  j = nys, nyna
-                f_inv(j,i,k) = work1(j,i,k)
-             ENDDO
-          ENDDO
-       ENDDO
     ENDIF
 …
     CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
     CALL MPI_ALLTOALL( f_inv(nys,nxl,1), sendrecvcount_zyd, MPI_REAL, &
                        work2(1),         sendrecvcount_zyd, MPI_REAL, &
+                       work(1),          sendrecvcount_zyd, MPI_REAL, &
                        comm1dy, ierr )
     CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
 …
              DO  j = ys, ys + nny - 1
                 m = m + 1
                 f_out(j,i,k) = work2(m)
+                f_out(j,i,k) = work(m)
              ENDDO
           ENDDO

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 164 for palm/trunk/SOURCE/transpose.f90

Legend:

palm/trunk/SOURCE/transpose.f90

Download in other formats: