Home

Context Navigation

← Previous Change
Next Change →

fft_xy_mod.f90

Timestamp:

Jan 9, 2020 8:12:43 AM (4 years ago)

Author:

raasch

Message:

code vectorization for NEC Aurora: vectorized version of Temperton FFT, vectorization of Newtor iteration for calculating the Obukhov length

File:

: 1 edited

palm/trunk/SOURCE/fft_xy_mod.f90 (modified) (18 diffs)

Legend:

: Unmodified
: Added
: Removed

palm/trunk/SOURCE/fft_xy_mod.f90

-                      r4360
+                      r4366
 ! -----------------
 ! $Id$
+! Vectorized Temperton-fft added
+!
+! 4360 2020-01-07 11:25:50Z suehring
 ! Corrected "Former revisions" section
+!
 …
 !> Fast Fourier transformation along x and y for 1d domain decomposition along x.
 !> Original version: Klaus Ketelsen (May 2002)
+!> @todo openmp support for vectorized Temperton fft
 !------------------------------------------------------------------------------!
  MODULE fft_xy
 …
     USE control_parameters,                                                    &
         ONLY:  fft_method, message_string
+        ONLY:  fft_method, loop_optimization, message_string
     USE cuda_fft_interfaces
 …
     USE indices,                                                               &
         ONLY:  nx, ny, nz
 #if defined( __cuda_fft )
     USE ISO_C_BINDING
 …
     PRIVATE
     PUBLIC fft_x, fft_x_1d, fft_y, fft_y_1d, fft_init, fft_x_m, fft_y_m
+    PUBLIC fft_x, fft_x_1d, fft_y, fft_y_1d, fft_init, fft_x_m, fft_y_m, f_vec, temperton_fft_vec
     INTEGER(iwp), DIMENSION(:), ALLOCATABLE, SAVE ::  ifax_x  !<
     INTEGER(iwp), DIMENSION(:), ALLOCATABLE, SAVE ::  ifax_y  !<
+    LOGICAL, SAVE ::  init_fft = .FALSE.  !<
+    LOGICAL, SAVE ::  init_fft = .FALSE.           !<
+    LOGICAL, SAVE ::  temperton_fft_vec = .FALSE.  !<
     REAL(wp), SAVE ::  dnx      !<
 …
     REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE ::  trigs_x  !<
     REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE ::  trigs_y  !<
+    REAL(wp), DIMENSION(:,:), ALLOCATABLE, SAVE ::  f_vec
 #if defined( __ibm )
 …
        ENDIF
+!
+!--    Switch to tell the Poisson-solver that the vectorized version of Temperton-fft is to be used.
+       IF ( fft_method == 'temperton-algorithm' .AND. loop_optimization == 'vector' )  THEN
+          temperton_fft_vec = .TRUE.
+       ENDIF
 #if defined( _OPENACC ) && defined( __cuda_fft )
        fft_method = 'system-specific'
 …
           CALL set99( trigs_y, ifax_y, ny+1 )
+          IF ( temperton_fft_vec )  THEN
+             ALLOCATE( f_vec((nyn_x-nys_x+1)*(nzt_x-nzb_x+1),0:nx+2) )
+          ENDIF
        ELSEIF ( fft_method == 'fftw' )  THEN
+!
 …
 !------------------------------------------------------------------------------!
     SUBROUTINE fft_x( ar, direction, ar_2d )
+    SUBROUTINE fft_x( ar, direction, ar_2d, ar_inv )
 …
        INTEGER(iwp) ::  j          !<
        INTEGER(iwp) ::  k          !<
+       INTEGER(iwp) ::  mm         !<
        LOGICAL ::  forward_fft !<
 …
        REAL(wp), DIMENSION(nx+2)   ::  work1  !<
+       REAL(wp), DIMENSION(:,:), ALLOCATABLE           ::  work_vec  !<
+       REAL(wp), DIMENSION(0:nx,nys_x:nyn_x), OPTIONAL ::  ar_2d     !<
+       REAL(wp), DIMENSION(nys_x:nyn_x,nzb_x:nzt_x,0:nx), OPTIONAL ::  ar_inv   !<
+       REAL(wp), DIMENSION(0:nx,nys_x:nyn_x,nzb_x:nzt_x)           ::  ar       !<
 #if defined( __ibm )
        REAL(wp), DIMENSION(nau2) ::  aux2  !<
 …
        REAL(wp), DIMENSION(6*(nx+1)) ::  work2  !<
 #elif defined( __cuda_fft )
+       COMPLEX(dp), DIMENSION(0:(nx+1)/2,nys_x:nyn_x,nzb_x:nzt_x) ::           &
+          ar_tmp  !<
+       COMPLEX(dp), DIMENSION(0:(nx+1)/2,nys_x:nyn_x,nzb_x:nzt_x) ::  ar_tmp  !<
        !$ACC DECLARE CREATE(ar_tmp)
 #endif
-       REAL(wp), DIMENSION(0:nx,nys_x:nyn_x), OPTIONAL   ::                    &
-          ar_2d   !<
-       REAL(wp), DIMENSION(0:nx,nys_x:nyn_x,nzb_x:nzt_x) ::                    &
-          ar      !<
+!
 …
           IF ( forward_fft )  THEN
+             !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
+             !$OMP DO
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   work(0:nx) = ar(0:nx,j,k)
+                   CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, -1 )
+                   DO  i = 0, (nx+1)/2
+                      ar(i,j,k) = work(2*i)
+                   ENDDO
+                   DO  i = 1, (nx+1)/2 - 1
+                      ar(nx+1-i,j,k) = work(2*i+1)
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ELSE
+             !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
+             !$OMP DO
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   DO  i = 0, (nx+1)/2
+                      work(2*i) = ar(i,j,k)
+                   ENDDO
+                   DO  i = 1, (nx+1)/2 - 1
+                      work(2*i+1) = ar(nx+1-i,j,k)
+                   ENDDO
+                   work(1)    = 0.0_wp
+                   work(nx+2) = 0.0_wp
+                   CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, 1 )
+                   ar(0:nx,j,k) = work(0:nx)
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+             IF ( .NOT. temperton_fft_vec )  THEN
+                !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
+                !$OMP DO
+                DO  k = nzb_x, nzt_x
+                   DO  j = nys_x, nyn_x
+                      work(0:nx) = ar(0:nx,j,k)
+                      CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, -1 )
+                      DO  i = 0, (nx+1)/2
+                         ar(i,j,k) = work(2*i)
+                      ENDDO
+                      DO  i = 1, (nx+1)/2 - 1
+                         ar(nx+1-i,j,k) = work(2*i+1)
+                      ENDDO
+                   ENDDO
+                ENDDO
+                !$OMP END PARALLEL
+             ELSE
+!
+!--             Vector version of the Temperton-algorithm. Computes multiple 1-D FFT's.
+                ALLOCATE( work_vec( (nyn_x-nys_x+1)*(nzt_x-nzb_x+1),nx+2) )
+!
+!--             f_vec is already set in transpose_zx
+                CALL fft991cy_vec( f_vec, work_vec, trigs_x, ifax_x, nx+1, -1 )
+                DEALLOCATE( work_vec )
+                IF ( PRESENT( ar_inv ) )  THEN
+                   DO  k = nzb_x, nzt_x
+                      DO  j = nys_x, nyn_x
+                         mm = j-nys_x+1+(k-nzb_x)*(nyn_x-nys_x+1)
+                         DO  i = 0, (nx+1)/2
+                            ar_inv(j,k,i) = f_vec(mm,2*i)
+                         ENDDO
+                         DO  i = 1, (nx+1)/2-1
+                            ar_inv(j,k,nx+1-i) = f_vec(mm,2*i+1)
+                         ENDDO
+                      ENDDO
+                   ENDDO
+                ELSE
+                   DO  k = nzb_x, nzt_x
+                      DO  j = nys_x, nyn_x
+                         mm = j-nys_x+1+(k-nzb_x)*(nyn_x-nys_x+1)
+                         DO  i = 0, (nx+1)/2
+                            ar(i,j,k) = f_vec(mm,2*i)
+                         ENDDO
+                         DO  i = 1, (nx+1)/2-1
+                            ar(nx+1-i,j,k) = f_vec(mm,2*i+1)
+                         ENDDO
+                      ENDDO
+                   ENDDO
+                ENDIF
+             ENDIF
+          ELSE
+!
+!--          Backward fft
+             IF ( .NOT. temperton_fft_vec )  THEN
+                !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
+                !$OMP DO
+                DO  k = nzb_x, nzt_x
+                   DO  j = nys_x, nyn_x
+                      DO  i = 0, (nx+1)/2
+                         work(2*i) = ar(i,j,k)
+                      ENDDO
+                      DO  i = 1, (nx+1)/2 - 1
+                         work(2*i+1) = ar(nx+1-i,j,k)
+                      ENDDO
+                      work(1)    = 0.0_wp
+                      work(nx+2) = 0.0_wp
+                      CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, 1 )
+                      ar(0:nx,j,k) = work(0:nx)
+                   ENDDO
+                ENDDO
+                !$OMP END PARALLEL
+             ELSE
+                IF ( PRESENT( ar_inv ) )  THEN
+                   DO  k = nzb_x, nzt_x
+                      DO  j = nys_x, nyn_x
+                         mm = j-nys_x+1+(k-nzb_x)*(nyn_x-nys_x+1)
+                         DO  i = 0, (nx+1)/2
+                            f_vec(mm,2*i) = ar_inv(j,k,i)
+                         ENDDO
+                         DO  i = 1, (nx+1)/2-1
+                            f_vec(mm,2*i+1) = ar_inv(j,k,nx+1-i)
+                         ENDDO
+                      ENDDO
+                   ENDDO
+                ELSE
+                   DO  k = nzb_x, nzt_x
+                      DO  j = nys_x, nyn_x
+                         mm = j-nys_x+1+(k-nzb_x)*(nyn_x-nys_x+1)
+                         DO  i = 0, (nx+1)/2
+                            f_vec(mm,2*i) = ar(i,j,k)
+                         ENDDO
+                         DO  i = 1, (nx+1)/2-1
+                            f_vec(mm,2*i+1) = ar(nx+1-i,j,k)
+                         ENDDO
+                      ENDDO
+                   ENDDO
+                ENDIF
+                f_vec(:,1)    = 0.0_wp
+                f_vec(:,nx+2) = 0.0_wp
+                ALLOCATE( work_vec((nyn_x-nys_x+1)*(nzt_x-nzb_x+1),nx+2) )
+                CALL fft991cy_vec( f_vec, work_vec, trigs_x, ifax_x, nx+1, 1 )
+                DEALLOCATE( work_vec )
+             ENDIF
           ENDIF
 …
     SUBROUTINE fft_y( ar, direction, ar_tr, nxl_y_bound, nxr_y_bound, nxl_y_l, &
                       nxr_y_l )
+                      nxr_y_l, ar_inv )
 …
        INTEGER(iwp) ::  jshape(1)    !<
        INTEGER(iwp) ::  k            !<
+       INTEGER(iwp) ::  mm           !<
        INTEGER(iwp) ::  nxl_y_bound  !<
        INTEGER(iwp) ::  nxl_y_l      !<
 …
        REAL(wp), DIMENSION(ny+2)   ::  work1  !<
+       REAL(wp), DIMENSION(:,:), ALLOCATABLE ::  f_vec
+       REAL(wp), DIMENSION(:,:), ALLOCATABLE ::  work_vec
+       REAL(wp), DIMENSION(0:ny,nxl_y_l:nxr_y_l,nzb_y:nzt_y)                   ::  ar      !<
+       REAL(wp), DIMENSION(nxl_y:nxr_y,nzb_y:nzt_y,0:ny), OPTIONAL             ::  ar_inv  !<
+       REAL(wp), DIMENSION(0:ny,nxl_y_bound:nxr_y_bound,nzb_y:nzt_y), OPTIONAL ::  ar_tr   !<
        COMPLEX(wp), DIMENSION(:), ALLOCATABLE ::  cwork  !<
 …
 #endif
-       REAL(wp), DIMENSION(0:ny,nxl_y_l:nxr_y_l,nzb_y:nzt_y)         ::        &
-          ar     !<
-       REAL(wp), DIMENSION(0:ny,nxl_y_bound:nxr_y_bound,nzb_y:nzt_y) ::        &
-          ar_tr  !<
        IF ( direction == 'forward' )  THEN
 …
           IF ( forward_fft )  THEN
+             !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
+             !$OMP DO
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y_l, nxr_y_l
+                   work(0:ny) = ar(0:ny,i,k)
+                   CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, -1 )
+                   DO  j = 0, (ny+1)/2
+                      ar_tr(j,i,k) = work(2*j)
+                   ENDDO
+                   DO  j = 1, (ny+1)/2 - 1
+                      ar_tr(ny+1-j,i,k) = work(2*j+1)
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ELSE
+             !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
+             !$OMP DO
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y_l, nxr_y_l
+                   DO  j = 0, (ny+1)/2
+                      work(2*j) = ar_tr(j,i,k)
+                   ENDDO
+                   DO  j = 1, (ny+1)/2 - 1
+                      work(2*j+1) = ar_tr(ny+1-j,i,k)
+                   ENDDO
+                   work(1)    = 0.0_wp
+                   work(ny+2) = 0.0_wp
+                   CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, 1 )
+                   ar(0:ny,i,k) = work(0:ny)
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+             IF ( .NOT. temperton_fft_vec )  THEN
+                !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
+                !$OMP DO
+                DO  k = nzb_y, nzt_y
+                   DO  i = nxl_y_l, nxr_y_l
+                      work(0:ny) = ar(0:ny,i,k)
+                      CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, -1 )
+                      DO  j = 0, (ny+1)/2
+                         ar_tr(j,i,k) = work(2*j)
+                      ENDDO
+                      DO  j = 1, (ny+1)/2 - 1
+                         ar_tr(ny+1-j,i,k) = work(2*j+1)
+                      ENDDO
+                   ENDDO
+                ENDDO
+                !$OMP END PARALLEL
+             ELSE
+!
+!--             Vector version of Temperton-fft. Computes multiple 1-D FFT's.
+                ALLOCATE( f_vec((nxr_y_l-nxl_y_l+1)*(nzt_y-nzb_y+1),0:ny+2) )
+                mm = 1
+                DO  k = nzb_y, nzt_y
+                   DO  i = nxl_y_l, nxr_y_l
+                      f_vec(mm,0:nx) = ar(0:nx,i,k)
+                      mm = mm+1
+                   ENDDO
+                ENDDO
+                ALLOCATE( work_vec( (nxr_y_l-nxl_y_l+1)*(nzt_y-nzb_y+1),ny+2) )
+                CALL fft991cy_vec( f_vec, work_vec, trigs_y, ifax_y, ny+1, -1 )
+                DEALLOCATE( work_vec )
+                IF( PRESENT( ar_inv ) )  THEN
+                   DO  k = nzb_y, nzt_y
+                      DO  i = nxl_y_l, nxr_y_l
+                         mm = i-nxl_y_l+1+(k-nzb_y)*(nxr_y_l-nxl_y_l+1)
+                         DO  j = 0, (ny+1)/2
+                            ar_inv(i,k,j) = f_vec(mm,2*j)
+                         ENDDO
+                         DO  j = 1, (ny+1)/2 - 1
+                            ar_inv(i,k,ny+1-j) = f_vec(mm,2*j+1)
+                         ENDDO
+                      ENDDO
+                   ENDDO
+                ELSE
+                   DO  k = nzb_y, nzt_y
+                      DO  i = nxl_y_l, nxr_y_l
+                         mm = i-nxl_y_l+1+(k-nzb_y)*(nxr_y_l-nxl_y_l+1)
+                         DO  j = 0, (ny+1)/2
+                            ar(j,i,k) = f_vec(mm,2*j)
+                         ENDDO
+                         DO  j = 1, (ny+1)/2 - 1
+                            ar(ny+1-j,i,k) = f_vec(mm,2*j+1)
+                         ENDDO
+                      ENDDO
+                   ENDDO
+                ENDIF
+                DEALLOCATE( f_vec )
+             ENDIF
+          ELSE
+             IF ( .NOT. temperton_fft_vec )  THEN
+                !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
+                !$OMP DO
+                DO  k = nzb_y, nzt_y
+                   DO  i = nxl_y_l, nxr_y_l
+                      DO  j = 0, (ny+1)/2
+                         work(2*j) = ar_tr(j,i,k)
+                      ENDDO
+                      DO  j = 1, (ny+1)/2 - 1
+                         work(2*j+1) = ar_tr(ny+1-j,i,k)
+                      ENDDO
+                      work(1)    = 0.0_wp
+                      work(ny+2) = 0.0_wp
+                      CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, 1 )
+                      ar(0:ny,i,k) = work(0:ny)
+                   ENDDO
+                ENDDO
+                !$OMP END PARALLEL
+             ELSE
+                ALLOCATE( f_vec((nxr_y_l-nxl_y_l+1)*(nzt_y-nzb_y+1),0:ny+2) )
+                IF ( PRESENT( ar_inv ) )  THEN
+                   DO  k = nzb_y, nzt_y
+                      DO  i = nxl_y_l, nxr_y_l
+                         mm = i-nxl_y_l+1+(k-nzb_y)*(nxr_y_l-nxl_y_l+1)
+                         DO  j = 0, (ny+1)/2
+                            f_vec(mm,2*j) = ar_inv(i,k,j)
+                         ENDDO
+                         DO  j = 1, (ny+1)/2 - 1
+                            f_vec(mm,2*j+1) = ar_inv(i,k,ny+1-j)
+                         ENDDO
+                      ENDDO
+                   ENDDO
+                ELSE
+                   DO  k = nzb_y, nzt_y
+                      DO  i = nxl_y_l, nxr_y_l
+                         mm = i-nxl_y_l+1+(k-nzb_y)*(nxr_y_l-nxl_y_l+1)
+                         DO  j = 0, (ny+1)/2
+                            f_vec(mm,2*j) = ar(j,i,k)
+                         ENDDO
+                         DO  j = 1, (ny+1)/2 - 1
+                            f_vec(mm,2*j+1) = ar(ny+1-j,i,k)
+                         ENDDO
+                      ENDDO
+                   ENDDO
+                ENDIF
+                f_vec(:,1)    = 0.0_wp
+                f_vec(:,ny+2) = 0.0_wp
+                ALLOCATE( work_vec((nxr_y_l-nxl_y_l+1)*(nzt_y-nzb_y+1),ny+2) )
+                CALL fft991cy_vec( f_vec, work_vec, trigs_y, ifax_y, ny+1, 1 )
+                DEALLOCATE( work_vec )
+                mm = 1
+                DO  k = nzb_y, nzt_y
+                   DO  i = nxl_y_l, nxr_y_l
+                      ar(0:ny,i,k) = f_vec(mm,0:ny)
+                      mm = mm+1
+                   ENDDO
+                ENDDO
+                DEALLOCATE( f_vec )
+             ENDIF
           ENDIF

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 4366 for palm/trunk/SOURCE/fft_xy_mod.f90

Legend:

palm/trunk/SOURCE/fft_xy_mod.f90

Download in other formats: