Home

Context Navigation

← Previous Change
Next Change →

transpose.f90

Timestamp:

Mar 8, 2013 11:54:10 PM (11 years ago)

Author:

raasch

Message:

New:
---

GPU porting of pres, swap_timelevel. Adjustments of openACC directives.
Further porting of poisfft, which now runs completely on GPU without any
host/device data transfer for serial an parallel runs (but parallel runs
require data transfer before and after the MPI transpositions).
GPU-porting of tridiagonal solver:
tridiagonal routines split into extermal subroutines (instead using CONTAINS),
no distinction between parallel/non-parallel in poisfft and tridia any more,
tridia routines moved to end of file because of probable bug in PGI compiler
(otherwise "invalid device function" is indicated during runtime).
(cuda_fft_interfaces, fft_xy, flow_statistics, init_3d_model, palm, poisfft, pres, prognostic_equations, swap_timelevel, time_integration, transpose)
output of accelerator board information. (header)

optimization of tridia routines: constant elements and coefficients of tri are
stored in seperate arrays ddzuw and tric, last dimension of tri reduced from 5 to 2,
(init_grid, init_3d_model, modules, palm, poisfft)

poisfft_init is now called internally from poisfft,
(Makefile, Makefile_check, init_pegrid, poisfft, poisfft_hybrid)

CPU-time per grid point and timestep is output to CPU_MEASURES file
(cpu_statistics, modules, time_integration)

Changed:

resorting from/to array work changed, work now has 4 dimensions instead of 1 (transpose)
array diss allocated only if required (init_3d_model)

pressure boundary condition "Neumann+inhomo" removed from the code
(check_parameters, header, poisfft, poisfft_hybrid, pres)

Errors:

bugfix: dependency added for cuda_fft_interfaces (Makefile)
bugfix: CUDA fft plans adjusted for domain decomposition (before they always
used total domain) (fft_xy)

File:

: 1 edited

palm/trunk/SOURCE/transpose.f90 (modified) (39 diffs)

Legend:

: Unmodified
: Added
: Removed

palm/trunk/SOURCE/transpose.f90

-                      r1107
+                      r1111
 ! Current revisions:
 ! -----------------
+!
+! openACC directives added,
+! resorting data from/to work changed, work got 4 dimensions instead of 1
+!
 ! Former revisions:
 …
     IMPLICIT NONE
     INTEGER ::  i, j, k, l, m, ys
+    INTEGER ::  i, j, k, l, ys
+    REAL ::  f_in(0:nx,nys_x:nyn_x,nzb_x:nzt_x),   &
+             f_inv(nys_x:nyn_x,nzb_x:nzt_x,0:nx),  &
+             f_out(0:ny,nxl_y:nxr_y,nzb_y:nzt_y),  &
+             work(nnx*nny*nnz)
+    REAL ::  f_in(0:nx,nys_x:nyn_x,nzb_x:nzt_x), f_out(0:ny,nxl_y:nxr_y,nzb_y:nzt_y)
+    REAL, DIMENSION(nyn_x-nys_x+1,nzb_y:nzt_y,nxl_y:nxr_y,0:pdims(2)-1) ::  work
+    !$acc declare create( f_inv )
+    REAL ::  f_inv(nys_x:nyn_x,nzb_x:nzt_x,0:nx)
+!
 …
 !$OMP  PARALLEL PRIVATE ( i, j, k )
 !$OMP  DO
+    !$acc kernels present( f_in )
+    !$acc loop
     DO  i = 0, nx
        DO  k = nzb_x, nzt_x
+          !$acc loop vector( 32 )
           DO  j = nys_x, nyn_x
              f_inv(j,k,i) = f_in(i,j,k)
 …
        ENDDO
     ENDDO
+    !$acc end kernels
 !$OMP  END PARALLEL
 …
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
        IF ( collective_wait )  CALL MPI_BARRIER( comm2d, ierr )
+       CALL MPI_ALLTOALL( f_inv(nys_x,nzb_x,0), sendrecvcount_xy, MPI_REAL, &
+                          work(1),              sendrecvcount_xy, MPI_REAL, &
+       !$acc update host( f_inv )
+       CALL MPI_ALLTOALL( f_inv(nys_x,nzb_x,0),  sendrecvcount_xy, MPI_REAL, &
+                          work(1,nzb_y,nxl_y,0), sendrecvcount_xy, MPI_REAL, &
                           comm1dy, ierr )
+       !$acc update device( work )
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
+!
 !--    Reorder transposed array
 !$OMP  PARALLEL PRIVATE ( i, j, k, l, m, ys )
+!$OMP  PARALLEL PRIVATE ( i, j, k, l, ys )
 !$OMP  DO
        DO  l = 0, pdims(2) - 1
-          m  = l * ( nxr_y - nxl_y + 1 ) * ( nzt_y - nzb_y + 1 ) * &
-                   ( nyn_x - nys_x + 1 )
           ys = 0 + l * ( nyn_x - nys_x + 1 )
+          !$acc kernels present( f_out, work )
+          !$acc loop
           DO  i = nxl_y, nxr_y
              DO  k = nzb_y, nzt_y
+                !$acc loop vector( 32 )
                 DO  j = ys, ys + nyn_x - nys_x
+                   m = m + 1
+                   f_out(j,i,k) = work(m)
+                   f_out(j,i,k) = work(j-ys+1,k,i,l)
                 ENDDO
              ENDDO
           ENDDO
+          !$acc end kernels
        ENDDO
 !$OMP  END PARALLEL
 …
 !$OMP  PARALLEL PRIVATE ( i, j, k )
 !$OMP  DO
+       !$acc kernels present( f_out )
+       !$acc loop
        DO  k = nzb_y, nzt_y
           DO  i = nxl_y, nxr_y
+             !$acc loop vector( 32 )
              DO  j = 0, ny
                 f_out(j,i,k) = f_inv(j,k,i)
 …
           ENDDO
        ENDDO
+       !$acc end kernels
 !$OMP  END PARALLEL
 …
     IMPLICIT NONE
     INTEGER ::  i, j, k, l, m, xs
+    INTEGER ::  i, j, k, l, xs
+    REAL ::  f_in(0:nx,nys_x:nyn_x,nzb_x:nzt_x),  &
+             f_inv(nys:nyn,nxl:nxr,1:nz),         &
+             f_out(1:nz,nys:nyn,nxl:nxr),         &
+             work(nnx*nny*nnz)
+    REAL ::  f_in(0:nx,nys_x:nyn_x,nzb_x:nzt_x), f_out(1:nz,nys:nyn,nxl:nxr)
+    REAL, DIMENSION(nys_x:nyn_x,nnx,nzb_x:nzt_x,0:pdims(1)-1) ::  work
+    !$acc declare create( f_inv )
+    REAL ::  f_inv(nys:nyn,nxl:nxr,1:nz)
 …
+!
 !--    Reorder input array for transposition
 !$OMP  PARALLEL PRIVATE ( i, j, k, l, m, xs )
+!$OMP  PARALLEL PRIVATE ( i, j, k, l, xs )
 !$OMP  DO
        DO  l = 0, pdims(1) - 1
-          m  = l * ( nzt_x - nzb_x + 1 ) * nnx * ( nyn_x - nys_x + 1 )
           xs = 0 + l * nnx
+          !$acc kernels present( f_in, work )
+          !$acc loop
           DO  k = nzb_x, nzt_x
              DO  i = xs, xs + nnx - 1
+                !$acc loop vector( 32 )
                 DO  j = nys_x, nyn_x
+                   m = m + 1
+                   work(m) = f_in(i,j,k)
+                   work(j,i-xs+1,k,l) = f_in(i,j,k)
                 ENDDO
              ENDDO
           ENDDO
+          !$acc end kernels
        ENDDO
 !$OMP  END PARALLEL
 …
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
        IF ( collective_wait )  CALL MPI_BARRIER( comm2d, ierr )
+       CALL MPI_ALLTOALL( work(1),          sendrecvcount_zx, MPI_REAL, &
+                          f_inv(nys,nxl,1), sendrecvcount_zx, MPI_REAL, &
+       !$acc update host( work )
+       CALL MPI_ALLTOALL( work(nys_x,1,nzb_x,0), sendrecvcount_zx, MPI_REAL, &
+                          f_inv(nys,nxl,1),      sendrecvcount_zx, MPI_REAL, &
                           comm1dx, ierr )
+       !$acc update device( f_inv )
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
 …
 !$OMP  PARALLEL PRIVATE ( i, j, k )
 !$OMP  DO
+       !$acc kernels present( f_out )
+       !$acc loop
        DO  k = 1, nz
           DO  i = nxl, nxr
+             !$acc loop vector( 32 )
              DO  j = nys, nyn
                 f_out(k,j,i) = f_inv(j,i,k)
 …
           ENDDO
        ENDDO
+       !$acc end kernels
 !$OMP  END PARALLEL
 #endif
 …
 !$OMP  PARALLEL PRIVATE ( i, j, k )
 !$OMP  DO
+       !$acc kernels present( f_in )
+       !$acc loop
        DO  i = nxl, nxr
           DO  j = nys, nyn
+             !$acc loop vector( 32 )
              DO  k = 1, nz
                 f_inv(j,i,k) = f_in(i,j,k)
 …
           ENDDO
        ENDDO
+!$OMP  END PARALLEL
+!$OMP  PARALLEL PRIVATE ( i, j, k )
+!$OMP  DO
+       !$acc end kernels
+!$OMP  END PARALLEL
+!$OMP  PARALLEL PRIVATE ( i, j, k )
+!$OMP  DO
+       !$acc kernels present( f_out )
+       !$acc loop
        DO  k = 1, nz
           DO  i = nxl, nxr
+             !$acc loop vector( 32 )
              DO  j = nys, nyn
                 f_out(k,j,i) = f_inv(j,i,k)
 …
           ENDDO
        ENDDO
+       !$acc end kernels
 !$OMP  END PARALLEL
 …
     IMPLICIT NONE
     INTEGER ::  i, j, k, l, m, ys
+    INTEGER ::  i, j, k, l, ys
+    REAL ::  f_in(0:ny,nxl_y:nxr_y,nzb_y:nzt_y),  &
+             f_inv(nys_x:nyn_x,nzb_x:nzt_x,0:nx), &
+             f_out(0:nx,nys_x:nyn_x,nzb_x:nzt_x), &
+             work(nnx*nny*nnz)
+    REAL ::  f_in(0:ny,nxl_y:nxr_y,nzb_y:nzt_y), f_out(0:nx,nys_x:nyn_x,nzb_x:nzt_x)
+    REAL, DIMENSION(nyn_x-nys_x+1,nzb_y:nzt_y,nxl_y:nxr_y,0:pdims(2)-1) ::  work
+    !$acc declare create( f_inv )
+    REAL ::  f_inv(nys_x:nyn_x,nzb_x:nzt_x,0:nx)
     IF ( numprocs /= 1 )  THEN
 …
+!
 !--    Reorder input array for transposition
 !$OMP  PARALLEL PRIVATE ( i, j, k, l, m, ys )
+!$OMP  PARALLEL PRIVATE ( i, j, k, l, ys )
 !$OMP  DO
        DO  l = 0, pdims(2) - 1
-          m  = l * ( nxr_y - nxl_y + 1 ) * ( nzt_y - nzb_y + 1 ) * &
-                   ( nyn_x - nys_x + 1 )
           ys = 0 + l * ( nyn_x - nys_x + 1 )
+          !$acc kernels present( f_in, work )
+          !$acc loop
           DO  i = nxl_y, nxr_y
              DO  k = nzb_y, nzt_y
+                !$acc loop vector( 32 )
                 DO  j = ys, ys + nyn_x - nys_x
+                   m = m + 1
+                   work(m) = f_in(j,i,k)
+                   work(j-ys+1,k,i,l) = f_in(j,i,k)
                 ENDDO
              ENDDO
           ENDDO
+          !$acc end kernels
        ENDDO
 !$OMP  END PARALLEL
 …
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
        IF ( collective_wait )  CALL MPI_BARRIER( comm2d, ierr )
+       CALL MPI_ALLTOALL( work(1),              sendrecvcount_xy, MPI_REAL, &
+                          f_inv(nys_x,nzb_x,0), sendrecvcount_xy, MPI_REAL, &
+       !$acc update host( work )
+       CALL MPI_ALLTOALL( work(1,nzb_y,nxl_y,0), sendrecvcount_xy, MPI_REAL, &
+                          f_inv(nys_x,nzb_x,0),  sendrecvcount_xy, MPI_REAL, &
                           comm1dy, ierr )
+       !$acc update device( f_inv )
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
 #endif
 …
 !$OMP  PARALLEL PRIVATE ( i, j, k )
 !$OMP  DO
+       !$acc kernels present( f_in )
+       !$acc loop
        DO  i = nxl_y, nxr_y
           DO  k = nzb_y, nzt_y
+             !$acc loop vector( 32 )
              DO  j = 0, ny
                 f_inv(j,k,i) = f_in(j,i,k)
 …
           ENDDO
        ENDDO
+       !$acc end kernels
 !$OMP  END PARALLEL
 …
 !$OMP  PARALLEL PRIVATE ( i, j, k )
 !$OMP  DO
+    !$acc kernels present( f_out )
+    !$acc loop
     DO  i = 0, nx
        DO  k = nzb_x, nzt_x
+          !$acc loop vector( 32 )
           DO  j = nys_x, nyn_x
              f_out(i,j,k) = f_inv(j,k,i)
 …
        ENDDO
     ENDDO
+    !$acc end kernels
 !$OMP  END PARALLEL
 …
     IMPLICIT NONE
     INTEGER ::  i, j, k, l, m, zs
+    INTEGER ::  i, j, k, l, zs
+    REAL ::  f_in(0:ny,nxl_y:nxr_y,nzb_y:nzt_y),  &
+             f_inv(nxl_y:nxr_y,nzb_y:nzt_y,0:ny), &
+             f_out(nxl_z:nxr_z,nys_z:nyn_z,1:nz), &
+             work(nnx*nny*nnz)
+    REAL ::  f_in(0:ny,nxl_y:nxr_y,nzb_y:nzt_y), f_out(nxl_z:nxr_z,nys_z:nyn_z,1:nz)
+    REAL, DIMENSION(nxl_z:nxr_z,nzt_y-nzb_y+1,nys_z:nyn_z,0:pdims(1)-1) ::  work
+    !$acc declare create( f_inv )
+    REAL ::  f_inv(nxl_y:nxr_y,nzb_y:nzt_y,0:ny)
+!
 …
 !$OMP  PARALLEL PRIVATE ( i, j, k )
 !$OMP  DO
+    !$acc kernels present( f_in )
+    !$acc loop
     DO  j = 0, ny
        DO  k = nzb_y, nzt_y
+          !$acc loop vector( 32 )
           DO  i = nxl_y, nxr_y
              f_inv(i,k,j) = f_in(j,i,k)
 …
        ENDDO
     ENDDO
+    !$acc end kernels
 !$OMP  END PARALLEL
 …
 !$OMP  PARALLEL PRIVATE ( i, j, k )
 !$OMP  DO
+       !$acc kernels present( f_out )
+       !$acc loop
        DO  j = 0, ny
           DO  k = nzb_y, nzt_y
+             !$acc loop vector( 32 )
              DO  i = nxl_y, nxr_y
                 f_out(i,j,k) = f_inv(i,k,j)
 …
           ENDDO
        ENDDO
+       !$acc end kernels
 !$OMP  END PARALLEL
 …
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
        IF ( collective_wait )  CALL MPI_BARRIER( comm2d, ierr )
+       CALL MPI_ALLTOALL( f_inv(nxl_y,nzb_y,0), sendrecvcount_yz, MPI_REAL, &
+                          work(1),              sendrecvcount_yz, MPI_REAL, &
+       !$acc update host( f_inv )
+       CALL MPI_ALLTOALL( f_inv(nxl_y,nzb_y,0),  sendrecvcount_yz, MPI_REAL, &
+                          work(nxl_z,1,nys_z,0), sendrecvcount_yz, MPI_REAL, &
                           comm1dx, ierr )
+       !$acc update device( work )
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
+!
 !--    Reorder transposed array
 !$OMP  PARALLEL PRIVATE ( i, j, k, l, m, zs )
+!$OMP  PARALLEL PRIVATE ( i, j, k, l, zs )
 !$OMP  DO
        DO  l = 0, pdims(1) - 1
-          m  = l * ( nyn_z - nys_z + 1 ) * ( nzt_y - nzb_y + 1 ) * &
-                   ( nxr_z - nxl_z + 1 )
           zs = 1 + l * ( nzt_y - nzb_y + 1 )
+          !$acc kernels present( f_out, work )
+          !$acc loop
           DO  j = nys_z, nyn_z
              DO  k = zs, zs + nzt_y - nzb_y
+                !$acc loop vector( 32 )
                 DO  i = nxl_z, nxr_z
+                   m = m + 1
+                   f_out(i,j,k) = work(m)
+                   f_out(i,j,k) = work(i,k-zs+1,j,l)
                 ENDDO
              ENDDO
           ENDDO
+          !$acc end kernels
        ENDDO
 !$OMP  END PARALLEL
 …
     IMPLICIT NONE
     INTEGER ::  i, j, k, l, m, xs
+    INTEGER ::  i, j, k, l, xs
+    REAL ::  f_in(1:nz,nys:nyn,nxl:nxr), f_out(0:nx,nys_x:nyn_x,nzb_x:nzt_x), &
+             work(nnx*nny*nnz)
+    !$acc declare create ( f_inv )
+    REAL ::  f_in(1:nz,nys:nyn,nxl:nxr), f_out(0:nx,nys_x:nyn_x,nzb_x:nzt_x)
+    REAL, DIMENSION(nys_x:nyn_x,nnx,nzb_x:nzt_x,0:pdims(1)-1) ::  work
+    !$acc declare create( f_inv )
     REAL ::  f_inv(nys:nyn,nxl:nxr,1:nz)
 …
        ENDDO
     ENDDO
+    !$acc end kernels
 !$OMP  END PARALLEL
 …
           ENDDO
        ENDDO
+       !$acc end kernels
 !$OMP  END PARALLEL
 …
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
        IF ( collective_wait )  CALL MPI_BARRIER( comm2d, ierr )
+       CALL MPI_ALLTOALL( f_inv(nys,nxl,1), sendrecvcount_zx, MPI_REAL, &
+                          work(1),          sendrecvcount_zx, MPI_REAL, &
+       !$acc update host( f_inv )
+       CALL MPI_ALLTOALL( f_inv(nys,nxl,1),      sendrecvcount_zx, MPI_REAL, &
+                          work(nys_x,1,nzb_x,0), sendrecvcount_zx, MPI_REAL, &
                           comm1dx, ierr )
+       !$acc update device( work )
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
+!
 !--    Reorder transposed array
 !$OMP  PARALLEL PRIVATE ( i, j, k, l, m, xs )
+!$OMP  PARALLEL PRIVATE ( i, j, k, l, xs )
 !$OMP  DO
        DO  l = 0, pdims(1) - 1
-          m  = l * ( nzt_x - nzb_x + 1 ) * nnx * ( nyn_x - nys_x + 1 )
           xs = 0 + l * nnx
+          !$acc kernels present( f_out, work )
+          !$acc loop
           DO  k = nzb_x, nzt_x
              DO  i = xs, xs + nnx - 1
+                !$acc loop vector( 32 )
                 DO  j = nys_x, nyn_x
+                   m = m + 1
+                   f_out(i,j,k) = work(m)
+                   f_out(i,j,k) = work(j,i-xs+1,k,l)
                 ENDDO
              ENDDO
           ENDDO
+          !$acc end kernels
        ENDDO
 !$OMP  END PARALLEL
 …
     IMPLICIT NONE
     INTEGER ::  i, j, k, l, m, zs
+    INTEGER ::  i, j, k, l, zs
+    REAL ::  f_in(nxl_z:nxr_z,nys_z:nyn_z,1:nz),  &
+             f_inv(nxl_y:nxr_y,nzb_y:nzt_y,0:ny), &
+             f_out(0:ny,nxl_y:nxr_y,nzb_y:nzt_y), &
+             work(nnx*nny*nnz)
+    REAL ::  f_in(nxl_z:nxr_z,nys_z:nyn_z,1:nz), f_out(0:ny,nxl_y:nxr_y,nzb_y:nzt_y)
+    REAL, DIMENSION(nxl_z:nxr_z,nzt_y-nzb_y+1,nys_z:nyn_z,0:pdims(1)-1) ::  work
+    !$acc declare create( f_inv )
+    REAL ::  f_inv(nxl_y:nxr_y,nzb_y:nzt_y,0:ny)
+!
 …
+!
 !--    Reorder input array for transposition
 !$OMP  PARALLEL PRIVATE ( i, j, k, l, m, zs )
+!$OMP  PARALLEL PRIVATE ( i, j, k, l, zs )
 !$OMP  DO
        DO  l = 0, pdims(1) - 1
-          m  = l * ( nyn_z - nys_z + 1 ) * ( nzt_y - nzb_y + 1 ) * &
-                   ( nxr_z - nxl_z + 1 )
           zs = 1 + l * ( nzt_y - nzb_y + 1 )
+          !$acc kernels present( f_in, work )
+          !$acc loop
           DO  j = nys_z, nyn_z
              DO  k = zs, zs + nzt_y - nzb_y
+                !$acc loop vector( 32 )
                 DO  i = nxl_z, nxr_z
+                   m = m + 1
+                   work(m) = f_in(i,j,k)
+                   work(i,k-zs+1,j,l) = f_in(i,j,k)
                 ENDDO
              ENDDO
           ENDDO
+          !$acc end kernels
        ENDDO
 !$OMP  END PARALLEL
 …
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'start' )
        IF ( collective_wait )  CALL MPI_BARRIER( comm2d, ierr )
+       CALL MPI_ALLTOALL( work(1),              sendrecvcount_yz, MPI_REAL, &
+                          f_inv(nxl_y,nzb_y,0), sendrecvcount_yz, MPI_REAL, &
+       !$acc update host( work )
+       CALL MPI_ALLTOALL( work(nxl_z,1,nys_z,0), sendrecvcount_yz, MPI_REAL, &
+                          f_inv(nxl_y,nzb_y,0),  sendrecvcount_yz, MPI_REAL, &
                           comm1dx, ierr )
+       !$acc update device( f_inv )
        CALL cpu_log( log_point_s(32), 'mpi_alltoall', 'stop' )
 #endif
 …
 !$OMP  PARALLEL PRIVATE ( i, j, k )
 !$OMP  DO
+       !$acc kernels present( f_in )
+       !$acc loop
        DO  k = nzb_y, nzt_y
           DO  j = 0, ny
+             !$acc loop vector( 32 )
              DO  i = nxl_y, nxr_y
                 f_inv(i,k,j) = f_in(i,j,k)
 …
           ENDDO
        ENDDO
+       !$acc end kernels
 !$OMP  END PARALLEL
 …
 !$OMP  PARALLEL PRIVATE ( i, j, k )
 !$OMP  DO
+    !$acc kernels present( f_out )
+    !$acc loop
     DO  k = nzb_y, nzt_y
        DO  i = nxl_y, nxr_y
+          !$acc loop vector( 32 )
           DO  j = 0, ny
              f_out(j,i,k) = f_inv(i,k,j)
 …
        ENDDO
     ENDDO
+    !$acc end kernels
 !$OMP  END PARALLEL

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 1111 for palm/trunk/SOURCE/transpose.f90

Legend:

palm/trunk/SOURCE/transpose.f90

Download in other formats: