Home

Context Navigation

← Previous Change
Next Change →

fft_xy.f90

Timestamp:

Mar 4, 2013 5:31:38 AM (11 years ago)

Author:

raasch

Message:

New:
---

Porting of FFT-solver for serial runs to GPU using CUDA FFT,
preprocessor lines in transpose routines rearranged, so that routines can also
be used in serial (non-parallel) mode,
transpositions also carried out in serial mode, routines fftx, fftxp replaced
by calls of fft_x, fft_x replaced by fft_x_1d in the 1D-decomposition routines
(Makefile, Makefile_check, fft_xy, poisfft, poisfft_hybrid, transpose, new: cuda_fft_interfaces)

--stdin argument for mpiexec on lckyuh, -y and -Y settings output to header (mrun)

Changed:

Module array_kind renamed precision_kind
(check_open, data_output_3d, fft_xy, modules, user_data_output_3d)

some format changes for coupled atmosphere-ocean runs (header)
small changes in code formatting (microphysics, prognostic_equations)

Errors:

bugfix: default value (0) assigned to coupling_start_time (modules)
bugfix: initial time for preruns of coupled runs is output as -coupling_start_time (data_output_profiles)

File:

: 1 edited

palm/trunk/SOURCE/fft_xy.f90 (modified) (41 diffs)

Legend:

: Unmodified
: Added
: Removed

palm/trunk/SOURCE/fft_xy.f90

-                      r1093
+                      r1106
 ! Current revisions:
 ! -----------------
+!
+! CUDA fft added
+! array_kind renamed precision_kind, 3D- instead of 1D-loops in fft_x and fft_y
+! old fft_x, fft_y become fft_x_1d, fft_y_1d and are used for 1D-decomposition
+!
 ! Former revisions:
 …
 !------------------------------------------------------------------------------!
-    USE array_kind
     USE control_parameters
     USE indices
+    USE precision_kind
     USE singleton
     USE temperton_fft
+    USE transpose_indices
     IMPLICIT NONE
     PRIVATE
     PUBLIC fft_x, fft_y, fft_init, fft_x_m, fft_y_m
+    PUBLIC fft_x, fft_x_1d, fft_y, fft_y_1d, fft_init, fft_x_m, fft_y_m
     INTEGER, DIMENSION(:), ALLOCATABLE, SAVE ::  ifax_x, ifax_y
 …
     LOGICAL, SAVE                            ::  init_fft = .FALSE.
     REAL, SAVE ::  sqr_nx, sqr_ny
+    REAL, SAVE ::  dnx, dny, sqr_dnx, sqr_dny
     REAL, DIMENSION(:), ALLOCATABLE, SAVE    ::  trigs_x, trigs_y
 …
     REAL, DIMENSION(:), ALLOCATABLE, SAVE ::  trig_xb, trig_xf, trig_yb, &
                                               trig_yf
+#elif defined( __cuda_fft )
+    INTEGER, SAVE ::  plan_xf, plan_xi, plan_yf, plan_yi, total_points_x_transpo, &
+                      total_points_y_transpo
 #endif
 …
     END INTERFACE fft_x
+    INTERFACE fft_x_1d
+       MODULE PROCEDURE fft_x_1d
+    END INTERFACE fft_x_1d
     INTERFACE fft_y
        MODULE PROCEDURE fft_y
     END INTERFACE fft_y
+    INTERFACE fft_y_1d
+       MODULE PROCEDURE fft_y_1d
+    END INTERFACE fft_y_1d
     INTERFACE fft_x_m
        MODULE PROCEDURE fft_x_m
 …
     SUBROUTINE fft_init
+       USE cuda_fft_interfaces
        IMPLICIT NONE
 …
        IF ( fft_method == 'system-specific' )  THEN
+          sqr_nx = SQRT( 1.0 / ( nx + 1.0 ) )
+          sqr_ny = SQRT( 1.0 / ( ny + 1.0 ) )
+          dnx = 1.0 / ( nx + 1.0 )
+          dny = 1.0 / ( ny + 1.0 )
+          sqr_dnx = SQRT( dnx )
+          sqr_dny = SQRT( dny )
 #if defined( __ibm )  &&  ! defined( __ibmy_special )
+!
 !--       Initialize tables for fft along x
           CALL DRCFT( 1, workx, 1, workx, 1, nx+1, 1,  1, sqr_nx, aux1, nau1, &
+          CALL DRCFT( 1, workx, 1, workx, 1, nx+1, 1,  1, sqr_dnx, aux1, nau1, &
                       aux2, nau2 )
           CALL DCRFT( 1, workx, 1, workx, 1, nx+1, 1, -1, sqr_nx, aux3, nau1, &
+          CALL DCRFT( 1, workx, 1, workx, 1, nx+1, 1, -1, sqr_dnx, aux3, nau1, &
                       aux4, nau2 )
+!
 !--       Initialize tables for fft along y
           CALL DRCFT( 1, worky, 1, worky, 1, ny+1, 1,  1, sqr_ny, auy1, nau1, &
+          CALL DRCFT( 1, worky, 1, worky, 1, ny+1, 1,  1, sqr_dny, auy1, nau1, &
                       auy2, nau2 )
           CALL DCRFT( 1, worky, 1, worky, 1, ny+1, 1, -1, sqr_ny, auy3, nau1, &
+          CALL DCRFT( 1, worky, 1, worky, 1, ny+1, 1, -1, sqr_dny, auy3, nau1, &
                       auy4, nau2 )
 #elif defined( __nec )
 …
+!
 !--       Initialize tables for fft along x (non-vector and vector case (M))
           CALL DZFFT( 0, nx+1, sqr_nx, work_x, work_x, trig_xf, workx, 0 )
           CALL ZDFFT( 0, nx+1, sqr_nx, work_x, work_x, trig_xb, workx, 0 )
           CALL DZFFTM( 0, nx+1, nz1, sqr_nx, work_x, nx+4, work_x, nx+4, &
+          CALL DZFFT( 0, nx+1, sqr_dnx, work_x, work_x, trig_xf, workx, 0 )
+          CALL ZDFFT( 0, nx+1, sqr_dnx, work_x, work_x, trig_xb, workx, 0 )
+          CALL DZFFTM( 0, nx+1, nz1, sqr_dnx, work_x, nx+4, work_x, nx+4, &
                        trig_xf, workx, 0 )
           CALL ZDFFTM( 0, nx+1, nz1, sqr_nx, work_x, nx+4, work_x, nx+4, &
+          CALL ZDFFTM( 0, nx+1, nz1, sqr_dnx, work_x, nx+4, work_x, nx+4, &
                        trig_xb, workx, 0 )
+!
 !--       Initialize tables for fft along y (non-vector and vector case (M))
           CALL DZFFT( 0, ny+1, sqr_ny, work_y, work_y, trig_yf, worky, 0 )
           CALL ZDFFT( 0, ny+1, sqr_ny, work_y, work_y, trig_yb, worky, 0 )
           CALL DZFFTM( 0, ny+1, nz1, sqr_ny, work_y, ny+4, work_y, ny+4, &
+          CALL DZFFT( 0, ny+1, sqr_dny, work_y, work_y, trig_yf, worky, 0 )
+          CALL ZDFFT( 0, ny+1, sqr_dny, work_y, work_y, trig_yb, worky, 0 )
+          CALL DZFFTM( 0, ny+1, nz1, sqr_dny, work_y, ny+4, work_y, ny+4, &
                        trig_yf, worky, 0 )
           CALL ZDFFTM( 0, ny+1, nz1, sqr_ny, work_y, ny+4, work_y, ny+4, &
+          CALL ZDFFTM( 0, ny+1, nz1, sqr_dny, work_y, ny+4, work_y, ny+4, &
                        trig_yb, worky, 0 )
+#elif defined( __cuda_fft )
+          total_points_x_transpo = (nx+1) * (nyn_x-nys_x+1) * (nzt_x-nzb_x+1)
+          total_points_y_transpo = (ny+1) * (nxr_y-nxl_y+1) * (nzt_y-nzb_y+1)
+          CALL CUFFTPLAN1D( plan_xf, nx+1, CUFFT_D2Z, (ny+1)*nz )
+          CALL CUFFTPLAN1D( plan_xi, nx+1, CUFFT_Z2D, (ny+1)*nz )
+          CALL CUFFTPLAN1D( plan_yf, ny+1, CUFFT_D2Z, (nx+1)*nz )
+          CALL CUFFTPLAN1D( plan_yi, ny+1, CUFFT_Z2D, (nx+1)*nz )
 #else
           message_string = 'no system-specific fft-call available'
 …
 !                                                                      !
 !               Fourier-transformation along x-direction               !
+!                     Version for 2D-decomposition                     !
 !                                                                      !
 !      fft_x uses internal algorithms (Singleton or Temperton) or      !
 …
 !----------------------------------------------------------------------!
+       USE cuda_fft_interfaces
+       IMPLICIT NONE
+       CHARACTER (LEN=*) ::  direction
+       INTEGER ::  i, ishape(1), j, k, m
+       LOGICAL ::  forward_fft
+       REAL, DIMENSION(0:nx+2)   ::  work
+       REAL, DIMENSION(nx+2)     ::  work1
+       COMPLEX, DIMENSION(:), ALLOCATABLE ::  cwork
+#if defined( __ibm )
+       REAL, DIMENSION(nau2)     ::  aux2, aux4
+#elif defined( __nec )
+       REAL, DIMENSION(6*(nx+1)) ::  work2
+#elif defined( __cuda_fft )
+       REAL(dpk), DEVICE, DIMENSION(:), ALLOCATABLE    ::  cuda_a_device
+       COMPLEX(dpk), DEVICE, DIMENSION(:), ALLOCATABLE ::  cuda_b_device
+       COMPLEX(dpk), DIMENSION(:), ALLOCATABLE         ::  cuda_host
+#endif
+       REAL, DIMENSION(0:nx,nys_x:nyn_x,nzb_x:nzt_x) ::  ar
+       IF ( direction == 'forward' )  THEN
+          forward_fft = .TRUE.
+       ELSE
+          forward_fft = .FALSE.
+       ENDIF
+       IF ( fft_method == 'singleton-algorithm' )  THEN
+!
+!--       Performing the fft with singleton's software works on every system,
+!--       since it is part of the model
+          ALLOCATE( cwork(0:nx) )
+          IF ( forward_fft )   then
+             !$OMP PARALLEL PRIVATE ( cwork, i, ishape, j, k )
+             !$OMP DO
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   DO  i = 0, nx
+                      cwork(i) = CMPLX( ar(i,j,k) )
+                   ENDDO
+                   ishape = SHAPE( cwork )
+                   CALL FFTN( cwork, ishape )
+                   DO  i = 0, (nx+1)/2
+                      ar(i,j,k) = REAL( cwork(i) )
+                   ENDDO
+                   DO  i = 1, (nx+1)/2 - 1
+                      ar(nx+1-i,j,k) = -AIMAG( cwork(i) )
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ELSE
+             !$OMP PARALLEL PRIVATE ( cwork, i, ishape, j, k )
+             !$OMP DO
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   cwork(0) = CMPLX( ar(0,j,k), 0.0 )
+                   DO  i = 1, (nx+1)/2 - 1
+                      cwork(i)      = CMPLX( ar(i,j,k), -ar(nx+1-i,j,k) )
+                      cwork(nx+1-i) = CMPLX( ar(i,j,k),  ar(nx+1-i,j,k) )
+                   ENDDO
+                   cwork((nx+1)/2) = CMPLX( ar((nx+1)/2,j,k), 0.0 )
+                   ishape = SHAPE( cwork )
+                   CALL FFTN( cwork, ishape, inv = .TRUE. )
+                   DO  i = 0, nx
+                      ar(i,j,k) = REAL( cwork(i) )
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ENDIF
+          DEALLOCATE( cwork )
+       ELSEIF ( fft_method == 'temperton-algorithm' )  THEN
+!
+!--       Performing the fft with Temperton's software works on every system,
+!--       since it is part of the model
+          IF ( forward_fft )  THEN
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   work(0:nx) = ar(0:nx,j,k)
+                   CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, -1 )
+                   DO  i = 0, (nx+1)/2
+                      ar(i,j,k) = work(2*i)
+                   ENDDO
+                   DO  i = 1, (nx+1)/2 - 1
+                      ar(nx+1-i,j,k) = work(2*i+1)
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ELSE
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   DO  i = 0, (nx+1)/2
+                      work(2*i) = ar(i,j,k)
+                   ENDDO
+                   DO  i = 1, (nx+1)/2 - 1
+                      work(2*i+1) = ar(nx+1-i,j,k)
+                   ENDDO
+                   work(1)    = 0.0
+                   work(nx+2) = 0.0
+                   CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, 1 )
+                   ar(0:nx,j,k) = work(0:nx)
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ENDIF
+       ELSEIF ( fft_method == 'system-specific' )  THEN
+#if defined( __ibm )  &&  ! defined( __ibmy_special )
+          IF ( forward_fft )  THEN
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   CALL DRCFT( 0, ar, 1, work, 1, nx+1, 1, 1, sqr_dnx, aux1, nau1, &
+                               aux2, nau2 )
+                   DO  i = 0, (nx+1)/2
+                      ar(i,j,k) = work(2*i)
+                   ENDDO
+                   DO  i = 1, (nx+1)/2 - 1
+                      ar(nx+1-i,j,k) = work(2*i+1)
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ELSE
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   DO  i = 0, (nx+1)/2
+                      work(2*i) = ar(i,j,k)
+                   ENDDO
+                   DO  i = 1, (nx+1)/2 - 1
+                      work(2*i+1) = ar(nx+1-i,j,k)
+                   ENDDO
+                   work(1) = 0.0
+                   work(nx+2) = 0.0
+                   CALL DCRFT( 0, work, 1, work, 1, nx+1, 1, -1, sqr_dnx, aux3, nau1, &
+                               aux4, nau2 )
+                   DO  i = 0, nx
+                      ar(i,j,k) = work(i)
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ENDIF
+#elif defined( __nec )
+          IF ( forward_fft )  THEN
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   work(0:nx) = ar(0:nx,j,k)
+                   CALL DZFFT( 1, nx+1, sqr_dnx, work, work, trig_xf, work2, 0 )
+                   DO  i = 0, (nx+1)/2
+                      ar(i,j,k) = work(2*i)
+                   ENDDO
+                   DO  i = 1, (nx+1)/2 - 1
+                      ar(nx+1-i,j,k) = work(2*i+1)
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$END OMP PARALLEL
+          ELSE
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   DO  i = 0, (nx+1)/2
+                      work(2*i) = ar(i,j,k)
+                   ENDDO
+                   DO  i = 1, (nx+1)/2 - 1
+                      work(2*i+1) = ar(nx+1-i,j,k)
+                   ENDDO
+                   work(1) = 0.0
+                   work(nx+2) = 0.0
+                   CALL ZDFFT( -1, nx+1, sqr_dnx, work, work, trig_xb, work2, 0 )
+                   ar(0:nx,j,k) = work(0:nx)
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ENDIF
+#elif defined( __cuda_fft )
+          ALLOCATE( cuda_a_device(0:total_points_x_transpo-1) )
+          ALLOCATE( cuda_b_device(0:((nx+1)/2+1) * (nyn_x-nys_x+1) * (nzt_x-nzb_x+1) - 1) )
+          ALLOCATE( cuda_host(0:((nx+1)/2+1) * (nyn_x-nys_x+1) * (nzt_x-nzb_x+1) - 1) )
+          m = 0
+          IF ( forward_fft )  THEN
+             cuda_a_device = ar(0:total_points_x_transpo-1,nys_x,nzb_x)
+             CALL CUFFTEXECD2Z( plan_xf, cuda_a_device, cuda_b_device )
+             cuda_host = cuda_b_device
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   DO  i = 0, (nx+1)/2
+                      ar(i,j,k)      = REAL( cuda_host(m+i) )  * dnx
+                   ENDDO
+                   DO  i = 1, (nx+1)/2 - 1
+                      ar(nx+1-i,j,k) = AIMAG( cuda_host(m+i) ) * dnx
+                   ENDDO
+                   m = m + (nx+1)/2 + 1
+                ENDDO
+             ENDDO
+          ELSE
+             DO  k = nzb_x, nzt_x
+                DO  j = nys_x, nyn_x
+                   cuda_host(m) = CMPLX( ar(0,j,k), 0.0 )
+                   DO  i = 1, (nx+1)/2 - 1
+                      cuda_host(m+i) = CMPLX( ar(i,j,k), ar(nx+1-i,j,k) )
+                   ENDDO
+                   cuda_host(m+(nx+1)/2) = CMPLX( ar((nx+1)/2,j,k), 0.0 )
+                   m = m + (nx+1)/2 + 1
+                ENDDO
+             ENDDO
+             cuda_b_device = cuda_host
+             CALL CUFFTEXECZ2D( plan_xi, cuda_b_device, cuda_a_device )
+             ar(0:total_points_x_transpo-1,nys_x,nzb_x) = cuda_a_device
+          ENDIF
+          DEALLOCATE( cuda_a_device, cuda_b_device, cuda_host )
+#else
+          message_string = 'no system-specific fft-call available'
+          CALL message( 'fft_x', 'PA0188', 1, 2, 0, 6, 0 )
+#endif
+       ELSE
+          message_string = 'fft method "' // TRIM( fft_method) // &
+                           '" not available'
+          CALL message( 'fft_x', 'PA0189', 1, 2, 0, 6, 0 )
+       ENDIF
+    END SUBROUTINE fft_x
+    SUBROUTINE fft_x_1d( ar, direction )
+!----------------------------------------------------------------------!
+!                               fft_x_1d                               !
+!                                                                      !
+!               Fourier-transformation along x-direction               !
+!                     Version for 1D-decomposition                     !
+!                                                                      !
+!      fft_x uses internal algorithms (Singleton or Temperton) or      !
+!           system-specific routines, if they are available            !
+!----------------------------------------------------------------------!
        IMPLICIT NONE
 …
        INTEGER ::  i, ishape(1)
+!kk    REAL, DIMENSION(:)        ::  ar !kk Does NOT work (Bug??)
+       LOGICAL ::  forward_fft
        REAL, DIMENSION(0:nx)     ::  ar
        REAL, DIMENSION(0:nx+2)   ::  work
 …
 #endif
+       IF ( direction == 'forward' )  THEN
+          forward_fft = .TRUE.
+       ELSE
+          forward_fft = .FALSE.
+       ENDIF
        IF ( fft_method == 'singleton-algorithm' )  THEN
 …
           ALLOCATE( cwork(0:nx) )
           IF ( direction == 'forward')   then
+          IF ( forward_fft )   then
              DO  i = 0, nx
 …
              ishape = SHAPE( cwork )
              CALL FFTN( cwork, ishape )
              DO  i = 0, (nx+1)/2
                 ar(i) = REAL( cwork(i) )
 …
 !--       Performing the fft with Temperton's software works on every system,
 !--       since it is part of the model
           IF ( direction == 'forward' )  THEN
+          IF ( forward_fft )  THEN
              work(0:nx) = ar
 …
 #if defined( __ibm )  &&  ! defined( __ibmy_special )
           IF ( direction == 'forward' )  THEN
              CALL DRCFT( 0, ar, 1, work, 1, nx+1, 1, 1, sqr_nx, aux1, nau1, &
+          IF ( forward_fft )  THEN
+             CALL DRCFT( 0, ar, 1, work, 1, nx+1, 1, 1, sqr_dnx, aux1, nau1, &
                          aux2, nau2 )
 …
              work(nx+2) = 0.0
              CALL DCRFT( 0, work, 1, work, 1, nx+1, 1, -1, sqr_nx, aux3, nau1, &
+             CALL DCRFT( 0, work, 1, work, 1, nx+1, 1, -1, sqr_dnx, aux3, nau1, &
                          aux4, nau2 )
 …
           ENDIF
 #elif defined( __nec )
           IF ( direction == 'forward' )  THEN
+          IF ( forward_fft )  THEN
              work(0:nx) = ar(0:nx)
              CALL DZFFT( 1, nx+1, sqr_nx, work, work, trig_xf, work2, 0 )
+             CALL DZFFT( 1, nx+1, sqr_dnx, work, work, trig_xf, work2, 0 )
              DO  i = 0, (nx+1)/2
                 ar(i) = work(2*i)
 …
              work(nx+2) = 0.0
              CALL ZDFFT( -1, nx+1, sqr_nx, work, work, trig_xb, work2, 0 )
+             CALL ZDFFT( -1, nx+1, sqr_dnx, work, work, trig_xb, work2, 0 )
              ar(0:nx) = work(0:nx)
 …
 #else
           message_string = 'no system-specific fft-call available'
           CALL message( 'fft_x', 'PA0188', 1, 2, 0, 6, 0 )
+          CALL message( 'fft_x_1d', 'PA0188', 1, 2, 0, 6, 0 )
 #endif
        ELSE
           message_string = 'fft method "' // TRIM( fft_method) // &
                            '" not available'
           CALL message( 'fft_x', 'PA0189', 1, 2, 0, 6, 0 )
+          CALL message( 'fft_x_1d', 'PA0189', 1, 2, 0, 6, 0 )
        ENDIF
     END SUBROUTINE fft_x
+    END SUBROUTINE fft_x_1d
     SUBROUTINE fft_y( ar, direction )
 …
 !                                                                      !
 !               Fourier-transformation along y-direction               !
+!                     Version for 2D-decomposition                     !
 !                                                                      !
 !      fft_y uses internal algorithms (Singleton or Temperton) or      !
 …
 !----------------------------------------------------------------------!
+       USE cuda_fft_interfaces
+       IMPLICIT NONE
+       CHARACTER (LEN=*) ::  direction
+       INTEGER ::  i, j, jshape(1), k, m
+       LOGICAL ::  forward_fft
+       REAL, DIMENSION(0:ny+2)   ::  work
+       REAL, DIMENSION(ny+2)     ::  work1
+       COMPLEX, DIMENSION(:), ALLOCATABLE ::  cwork
+#if defined( __ibm )
+       REAL, DIMENSION(nau2)     ::  auy2, auy4
+#elif defined( __nec )
+       REAL, DIMENSION(6*(ny+1)) ::  work2
+#elif defined( __cuda_fft )
+       REAL(dpk), DEVICE, DIMENSION(:), ALLOCATABLE    ::  cuda_a_device
+       COMPLEX(dpk), DEVICE, DIMENSION(:), ALLOCATABLE ::  cuda_b_device
+       COMPLEX(dpk), DIMENSION(:), ALLOCATABLE         ::  cuda_host
+#endif
+       REAL, DIMENSION(0:ny,nxl_y:nxr_y,nzb_y:nzt_y) ::  ar
+       IF ( direction == 'forward' )  THEN
+          forward_fft = .TRUE.
+       ELSE
+          forward_fft = .FALSE.
+       ENDIF
+       IF ( fft_method == 'singleton-algorithm' )  THEN
+!
+!--       Performing the fft with singleton's software works on every system,
+!--       since it is part of the model
+          ALLOCATE( cwork(0:ny) )
+          IF ( forward_fft )   then
+             !$OMP PARALLEL PRIVATE ( cwork, i, jshape, j, k )
+             !$OMP DO
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y, nxr_y
+                   DO  j = 0, ny
+                      cwork(j) = CMPLX( ar(j,i,k) )
+                   ENDDO
+                   jshape = SHAPE( cwork )
+                   CALL FFTN( cwork, jshape )
+                   DO  j = 0, (ny+1)/2
+                      ar(j,i,k) = REAL( cwork(j) )
+                   ENDDO
+                   DO  j = 1, (ny+1)/2 - 1
+                      ar(ny+1-j,i,k) = -AIMAG( cwork(j) )
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ELSE
+             !$OMP PARALLEL PRIVATE ( cwork, i, jshape, j, k )
+             !$OMP DO
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y, nxr_y
+                   cwork(0) = CMPLX( ar(0,i,k), 0.0 )
+                   DO  j = 1, (ny+1)/2 - 1
+                      cwork(j)      = CMPLX( ar(j,i,k), -ar(ny+1-j,i,k) )
+                      cwork(ny+1-j) = CMPLX( ar(j,i,k),  ar(ny+1-j,i,k) )
+                   ENDDO
+                   cwork((ny+1)/2) = CMPLX( ar((ny+1)/2,i,k), 0.0 )
+                   jshape = SHAPE( cwork )
+                   CALL FFTN( cwork, jshape, inv = .TRUE. )
+                   DO  j = 0, ny
+                      ar(j,i,k) = REAL( cwork(j) )
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ENDIF
+          DEALLOCATE( cwork )
+       ELSEIF ( fft_method == 'temperton-algorithm' )  THEN
+!
+!--       Performing the fft with Temperton's software works on every system,
+!--       since it is part of the model
+          IF ( forward_fft )  THEN
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y, nxr_y
+                   work(0:ny) = ar(0:ny,i,k)
+                   CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, -1 )
+                   DO  j = 0, (ny+1)/2
+                      ar(j,i,k) = work(2*j)
+                   ENDDO
+                   DO  j = 1, (ny+1)/2 - 1
+                      ar(ny+1-j,i,k) = work(2*j+1)
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ELSE
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y, nxr_y
+                   DO  j = 0, (ny+1)/2
+                      work(2*j) = ar(j,i,k)
+                   ENDDO
+                   DO  j = 1, (ny+1)/2 - 1
+                      work(2*j+1) = ar(ny+1-j,i,k)
+                   ENDDO
+                   work(1)    = 0.0
+                   work(ny+2) = 0.0
+                   CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, 1 )
+                   ar(0:ny,i,k) = work(0:ny)
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ENDIF
+       ELSEIF ( fft_method == 'system-specific' )  THEN
+#if defined( __ibm )  &&  ! defined( __ibmy_special )
+          IF ( forward_fft)  THEN
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y, nxr_y
+                   CALL DRCFT( 0, ar, 1, work, 1, ny+1, 1, 1, sqr_dny, auy1, nau1, &
+                               auy2, nau2 )
+                   DO  j = 0, (ny+1)/2
+                      ar(j,i,k) = work(2*j)
+                   ENDDO
+                   DO  j = 1, (ny+1)/2 - 1
+                      ar(ny+1-j,i,k) = work(2*j+1)
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ELSE
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y, nxr_y
+                   DO  j = 0, (ny+1)/2
+                      work(2*j) = ar(j,i,k)
+                   ENDDO
+                   DO  j = 1, (ny+1)/2 - 1
+                      work(2*j+1) = ar(ny+1-j,i,k)
+                   ENDDO
+                   work(1)    = 0.0
+                   work(ny+2) = 0.0
+                   CALL DCRFT( 0, work, 1, work, 1, ny+1, 1, -1, sqr_dny, auy3, nau1, &
+                               auy4, nau2 )
+                   DO  j = 0, ny
+                      ar(j,i,k) = work(j)
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ENDIF
+#elif defined( __nec )
+          IF ( forward_fft )  THEN
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y, nxr_y
+                   work(0:ny) = ar(0:ny,i,k)
+                   CALL DZFFT( 1, ny+1, sqr_dny, work, work, trig_yf, work2, 0 )
+                   DO  j = 0, (ny+1)/2
+                      ar(j,i,k) = work(2*j)
+                   ENDDO
+                   DO  j = 1, (ny+1)/2 - 1
+                      ar(ny+1-j,i,k) = work(2*j+1)
+                   ENDDO
+                ENDDO
+             ENDDO
+             !$END OMP PARALLEL
+          ELSE
+             !$OMP PARALLEL PRIVATE ( work, i, j, k )
+             !$OMP DO
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y, nxr_y
+                   DO  j = 0, (ny+1)/2
+                      work(2*j) = ar(j,i,k)
+                   ENDDO
+                   DO  j = 1, (ny+1)/2 - 1
+                      work(2*j+1) = ar(ny+1-j,i,k)
+                   ENDDO
+                   work(1) = 0.0
+                   work(ny+2) = 0.0
+                   CALL ZDFFT( -1, ny+1, sqr_dny, work, work, trig_yb, work2, 0 )
+                   ar(0:ny,i,k) = work(0:ny)
+                ENDDO
+             ENDDO
+             !$OMP END PARALLEL
+          ENDIF
+#elif defined( __cuda_fft )
+          ALLOCATE( cuda_a_device(0:total_points_y_transpo-1) )
+          ALLOCATE( cuda_b_device(0:((ny+1)/2+1) * (nxr_y-nxl_y+1) * (nzt_y-nzb_y+1) - 1) )
+          ALLOCATE( cuda_host(0:((ny+1)/2+1) * (nxr_y-nxl_y+1) * (nzt_y-nzb_y+1) - 1) )
+          m = 0
+          IF ( forward_fft )  THEN
+             cuda_a_device = ar(0:total_points_y_transpo-1,nxl_y,nzb_y)
+             CALL CUFFTEXECD2Z( plan_yf, cuda_a_device, cuda_b_device )
+             cuda_host = cuda_b_device
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y, nxr_y
+                   DO  j = 0, (ny+1)/2
+                      ar(j,i,k)      = REAL( cuda_host(m+j) )  * dny
+                   ENDDO
+                   DO  j = 1, (ny+1)/2 - 1
+                      ar(ny+1-j,i,k) = AIMAG( cuda_host(m+j) ) * dny
+                   ENDDO
+                   m = m + (ny+1)/2 + 1
+                ENDDO
+             ENDDO
+          ELSE
+             DO  k = nzb_y, nzt_y
+                DO  i = nxl_y, nxr_y
+                   cuda_host(m) = CMPLX( ar(0,i,k), 0.0 )
+                   DO  j = 1, (ny+1)/2 - 1
+                      cuda_host(m+j) = CMPLX( ar(j,i,k), ar(ny+1-j,i,k) )
+                   ENDDO
+                   cuda_host(m+(ny+1)/2) = CMPLX( ar((ny+1)/2,i,k), 0.0 )
+                   m = m + (ny+1)/2 + 1
+                ENDDO
+             ENDDO
+             cuda_b_device = cuda_host
+             CALL CUFFTEXECZ2D( plan_yi, cuda_b_device, cuda_a_device )
+             ar(0:total_points_y_transpo-1,nxl_y,nzb_y) = cuda_a_device
+          ENDIF
+          DEALLOCATE( cuda_a_device, cuda_b_device, cuda_host )
+#else
+          message_string = 'no system-specific fft-call available'
+          CALL message( 'fft_y', 'PA0188', 1, 2, 0, 6, 0 )
+#endif
+       ELSE
+          message_string = 'fft method "' // TRIM( fft_method) // &
+                           '" not available'
+          CALL message( 'fft_y', 'PA0189', 1, 2, 0, 6, 0 )
+       ENDIF
+    END SUBROUTINE fft_y
+    SUBROUTINE fft_y_1d( ar, direction )
+!----------------------------------------------------------------------!
+!                               fft_y_1d                               !
+!                                                                      !
+!               Fourier-transformation along y-direction               !
+!                     Version for 1D-decomposition                     !
+!                                                                      !
+!      fft_y uses internal algorithms (Singleton or Temperton) or      !
+!           system-specific routines, if they are available            !
+!----------------------------------------------------------------------!
        IMPLICIT NONE
 …
        INTEGER ::  j, jshape(1)
+!kk    REAL, DIMENSION(:)        ::  ar !kk Does NOT work (Bug??)
+       LOGICAL ::  forward_fft
        REAL, DIMENSION(0:ny)     ::  ar
        REAL, DIMENSION(0:ny+2)   ::  work
 …
 #endif
+       IF ( direction == 'forward' )  THEN
+          forward_fft = .TRUE.
+       ELSE
+          forward_fft = .FALSE.
+       ENDIF
        IF ( fft_method == 'singleton-algorithm' )  THEN
 …
           ALLOCATE( cwork(0:ny) )
           IF ( direction == 'forward')  THEN
+          IF ( forward_fft )  THEN
              DO  j = 0, ny
 …
 !--       Performing the fft with Temperton's software works on every system,
 !--       since it is part of the model
           IF ( direction == 'forward' )  THEN
+          IF ( forward_fft )  THEN
              work(0:ny) = ar
 …
 #if defined( __ibm )  &&  ! defined( __ibmy_special )
           IF ( direction == 'forward')  THEN
              CALL DRCFT( 0, ar, 1, work, 1, ny+1, 1, 1, sqr_ny, auy1, nau1, &
+          IF ( forward_fft )  THEN
+             CALL DRCFT( 0, ar, 1, work, 1, ny+1, 1, 1, sqr_dny, auy1, nau1, &
                          auy2, nau2 )
 …
              work(ny+2) = 0.0
              CALL DCRFT( 0, work, 1, work, 1, ny+1, 1, -1, sqr_ny, auy3, nau1, &
+             CALL DCRFT( 0, work, 1, work, 1, ny+1, 1, -1, sqr_dny, auy3, nau1, &
                          auy4, nau2 )
 …
           ENDIF
 #elif defined( __nec )
           IF ( direction == 'forward' )  THEN
+          IF ( forward_fft )  THEN
              work(0:ny) = ar(0:ny)
              CALL DZFFT( 1, ny+1, sqr_ny, work, work, trig_yf, work2, 0 )
+             CALL DZFFT( 1, ny+1, sqr_dny, work, work, trig_yf, work2, 0 )
              DO  j = 0, (ny+1)/2
 …
              work(ny+2) = 0.0
              CALL ZDFFT( -1, ny+1, sqr_ny, work, work, trig_yb, work2, 0 )
+             CALL ZDFFT( -1, ny+1, sqr_dny, work, work, trig_yb, work2, 0 )
              ar(0:ny) = work(0:ny)
 …
 #else
           message_string = 'no system-specific fft-call available'
           CALL message( 'fft_y', 'PA0188', 1, 2, 0, 6, 0 )
+          CALL message( 'fft_y_1d', 'PA0188', 1, 2, 0, 6, 0 )
 #endif
 …
           message_string = 'fft method "' // TRIM( fft_method) // &
                            '" not available'
           CALL message( 'fft_y', 'PA0189', 1, 2, 0, 6, 0 )
+          CALL message( 'fft_y_1d', 'PA0189', 1, 2, 0, 6, 0 )
        ENDIF
     END SUBROUTINE fft_y
+    END SUBROUTINE fft_y_1d
     SUBROUTINE fft_x_m( ar, direction )
 …
 !--          Tables are initialized once more. This call should not be
 !--          necessary, but otherwise program aborts in asymmetric case
              CALL DZFFTM( 0, nx+1, nz1, sqr_nx, work, nx+4, work, nx+4, &
+             CALL DZFFTM( 0, nx+1, nz1, sqr_dnx, work, nx+4, work, nx+4, &
                           trig_xf, work1, 0 )
 …
              ENDIF
              CALL DZFFTM( 1, nx+1, nz1, sqr_nx, ai, siza, work, sizw, &
+             CALL DZFFTM( 1, nx+1, nz1, sqr_dnx, ai, siza, work, sizw, &
                           trig_xf, work1, 0 )
 …
 !--          Tables are initialized once more. This call should not be
 !--          necessary, but otherwise program aborts in asymmetric case
              CALL ZDFFTM( 0, nx+1, nz1, sqr_nx, work, nx+4, work, nx+4, &
+             CALL ZDFFTM( 0, nx+1, nz1, sqr_dnx, work, nx+4, work, nx+4, &
                           trig_xb, work1, 0 )
 …
              ENDDO
              CALL ZDFFTM( -1, nx+1, nz1, sqr_nx, work, sizw, ai, siza, &
+             CALL ZDFFTM( -1, nx+1, nz1, sqr_dnx, work, sizw, ai, siza, &
                           trig_xb, work1, 0 )
 …
 !--          Tables are initialized once more. This call should not be
 !--          necessary, but otherwise program aborts in asymmetric case
              CALL DZFFTM( 0, ny+1, nz1, sqr_ny, work, ny+4, work, ny+4, &
+             CALL DZFFTM( 0, ny+1, nz1, sqr_dny, work, ny+4, work, ny+4, &
                           trig_yf, work1, 0 )
 …
              ENDIF
              CALL DZFFTM( 1, ny+1, nz1, sqr_ny, ai, siza, work, sizw, &
+             CALL DZFFTM( 1, ny+1, nz1, sqr_dny, ai, siza, work, sizw, &
                           trig_yf, work1, 0 )
 …
 !--          Tables are initialized once more. This call should not be
 !--          necessary, but otherwise program aborts in asymmetric case
              CALL ZDFFTM( 0, ny+1, nz1, sqr_ny, work, ny+4, work, ny+4, &
+             CALL ZDFFTM( 0, ny+1, nz1, sqr_dny, work, ny+4, work, ny+4, &
                           trig_yb, work1, 0 )
 …
              ENDDO
              CALL ZDFFTM( -1, ny+1, nz1, sqr_ny, work, sizw, ai, siza, &
+             CALL ZDFFTM( -1, ny+1, nz1, sqr_dny, work, sizw, ai, siza, &
                           trig_yb, work1, 0 )
 …
     END SUBROUTINE fft_y_m
  END MODULE fft_xy

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 1106 for palm/trunk/SOURCE/fft_xy.f90

Legend:

palm/trunk/SOURCE/fft_xy.f90

Download in other formats: