source: palm/trunk/SOURCE/fft_xy_mod.f90 @ 4277

Last change on this file since 4277 was 4182, checked in by scharf, 5 years ago
  • corrected "Former revisions" section
  • minor formatting in "Former revisions" section
  • added "Author" section
  • Property svn:keywords set to Id
File size: 52.5 KB
Line 
1!> @file fft_xy_mod.f90
2!------------------------------------------------------------------------------!
3! This file is part of the PALM model system.
4!
5! PALM is free software: you can redistribute it and/or modify it under the
6! terms of the GNU General Public License as published by the Free Software
7! Foundation, either version 3 of the License, or (at your option) any later
8! version.
9!
10! PALM is distributed in the hope that it will be useful, but WITHOUT ANY
11! WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR
12! A PARTICULAR PURPOSE.  See the GNU General Public License for more details.
13!
14! You should have received a copy of the GNU General Public License along with
15! PALM. If not, see <http://www.gnu.org/licenses/>.
16!
17! Copyright 1997-2019 Leibniz Universitaet Hannover
18!------------------------------------------------------------------------------!
19!
20! Current revisions:
21! -----------------
22!
23!
24! Former revisions:
25! -----------------
26! $Id: fft_xy_mod.f90 4182 2019-08-22 15:20:23Z schwenkel $
27! Corrected "Former revisions" section
28!
29! 4069 2019-07-01 14:05:51Z Giersch
30! Code added to avoid compiler warnings
31!
32! 3655 2019-01-07 16:51:22Z knoop
33! OpenACC port for SPEC
34!
35! Revision 1.1  2002/06/11 13:00:49  raasch
36! Initial revision
37!
38!
39! Description:
40! ------------
41!> Fast Fourier transformation along x and y for 1d domain decomposition along x.
42!> Original version: Klaus Ketelsen (May 2002)
43!------------------------------------------------------------------------------!
44 MODULE fft_xy
45 
46
47    USE control_parameters,                                                    &
48        ONLY:  fft_method, message_string
49       
50    USE cuda_fft_interfaces
51       
52    USE indices,                                                               &
53        ONLY:  nx, ny, nz
54       
55#if defined( __cuda_fft )
56    USE ISO_C_BINDING
57#elif defined( __fftw )
58    USE, INTRINSIC ::  ISO_C_BINDING
59#endif
60
61    USE kinds
62   
63    USE singleton,                                                             &
64        ONLY: fftn
65   
66    USE temperton_fft
67   
68    USE transpose_indices,                                                     &
69        ONLY:  nxl_y, nxr_y, nyn_x, nys_x, nzb_x, nzb_y, nzt_x, nzt_y
70
71    IMPLICIT NONE
72
73    PRIVATE
74    PUBLIC fft_x, fft_x_1d, fft_y, fft_y_1d, fft_init, fft_x_m, fft_y_m
75
76    INTEGER(iwp), DIMENSION(:), ALLOCATABLE, SAVE ::  ifax_x  !<
77    INTEGER(iwp), DIMENSION(:), ALLOCATABLE, SAVE ::  ifax_y  !<
78
79    LOGICAL, SAVE ::  init_fft = .FALSE.  !<
80
81    REAL(wp), SAVE ::  dnx      !<
82    REAL(wp), SAVE ::  dny      !<
83    REAL(wp), SAVE ::  sqr_dnx  !<
84    REAL(wp), SAVE ::  sqr_dny  !<
85   
86    REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE ::  trigs_x  !<
87    REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE ::  trigs_y  !<
88
89#if defined( __ibm )
90    INTEGER(iwp), PARAMETER ::  nau1 = 20000  !<
91    INTEGER(iwp), PARAMETER ::  nau2 = 22000  !<
92!
93!-- The following working arrays contain tables and have to be "save" and
94!-- shared in OpenMP sense
95    REAL(wp), DIMENSION(nau1), SAVE ::  aux1  !<
96    REAL(wp), DIMENSION(nau1), SAVE ::  auy1  !<
97    REAL(wp), DIMENSION(nau1), SAVE ::  aux3  !<
98    REAL(wp), DIMENSION(nau1), SAVE ::  auy3  !<
99   
100#elif defined( __nec )
101    INTEGER(iwp), SAVE ::  nz1  !<
102   
103    REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE ::  trig_xb  !<
104    REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE ::  trig_xf  !<
105    REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE ::  trig_yb  !<
106    REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE ::  trig_yf  !<
107   
108#elif defined( __cuda_fft )
109    INTEGER(C_INT), SAVE ::  plan_xf  !<
110    INTEGER(C_INT), SAVE ::  plan_xi  !<
111    INTEGER(C_INT), SAVE ::  plan_yf  !<
112    INTEGER(C_INT), SAVE ::  plan_yi  !<
113
114#endif
115
116#if defined( __fftw )
117    INCLUDE  'fftw3.f03'
118    INTEGER(KIND=C_INT) ::  nx_c  !<
119    INTEGER(KIND=C_INT) ::  ny_c  !<
120   
121    COMPLEX(KIND=C_DOUBLE_COMPLEX), DIMENSION(:), ALLOCATABLE, SAVE ::  x_out  !<
122    COMPLEX(KIND=C_DOUBLE_COMPLEX), DIMENSION(:), ALLOCATABLE, SAVE ::         &
123       y_out  !<
124   
125    REAL(KIND=C_DOUBLE), DIMENSION(:), ALLOCATABLE, SAVE ::                    &
126       x_in   !<
127    REAL(KIND=C_DOUBLE), DIMENSION(:), ALLOCATABLE, SAVE ::                    &
128       y_in   !<
129    !$OMP THREADPRIVATE( x_out, y_out, x_in, y_in )
130   
131   
132    TYPE(C_PTR), SAVE ::  plan_xf, plan_xi, plan_yf, plan_yi
133#endif
134
135!
136!-- Public interfaces
137    INTERFACE fft_init
138       MODULE PROCEDURE fft_init
139    END INTERFACE fft_init
140
141    INTERFACE fft_x
142       MODULE PROCEDURE fft_x
143    END INTERFACE fft_x
144
145    INTERFACE fft_x_1d
146       MODULE PROCEDURE fft_x_1d
147    END INTERFACE fft_x_1d
148
149    INTERFACE fft_y
150       MODULE PROCEDURE fft_y
151    END INTERFACE fft_y
152
153    INTERFACE fft_y_1d
154       MODULE PROCEDURE fft_y_1d
155    END INTERFACE fft_y_1d
156
157    INTERFACE fft_x_m
158       MODULE PROCEDURE fft_x_m
159    END INTERFACE fft_x_m
160
161    INTERFACE fft_y_m
162       MODULE PROCEDURE fft_y_m
163    END INTERFACE fft_y_m
164
165 CONTAINS
166
167
168!------------------------------------------------------------------------------!
169! Description:
170! ------------
171!> @todo Missing subroutine description.
172!------------------------------------------------------------------------------!
173    SUBROUTINE fft_init
174
175       IMPLICIT NONE
176
177!
178!--    The following temporary working arrays have to be on stack or private
179!--    in OpenMP sense
180#if defined( __ibm )
181       REAL(wp), DIMENSION(0:nx+2) ::  workx  !<
182       REAL(wp), DIMENSION(0:ny+2) ::  worky  !<
183       REAL(wp), DIMENSION(nau2)   ::  aux2   !<
184       REAL(wp), DIMENSION(nau2)   ::  auy2   !<
185       REAL(wp), DIMENSION(nau2)   ::  aux4   !<
186       REAL(wp), DIMENSION(nau2)   ::  auy4   !<
187#elif defined( __nec )
188       REAL(wp), DIMENSION(0:nx+3,nz+1)   ::  work_x  !<
189       REAL(wp), DIMENSION(0:ny+3,nz+1)   ::  work_y  !<
190       REAL(wp), DIMENSION(6*(nx+3),nz+1) ::  workx   !<
191       REAL(wp), DIMENSION(6*(ny+3),nz+1) ::  worky   !<
192#endif 
193
194!
195!--    Return, if already called
196       IF ( init_fft )  THEN
197          RETURN
198       ELSE
199          init_fft = .TRUE.
200       ENDIF
201
202#if defined( _OPENACC ) && defined( __cuda_fft )
203       fft_method = 'system-specific'
204#endif
205
206       IF ( fft_method == 'system-specific' )  THEN
207
208          dnx = 1.0_wp / ( nx + 1.0_wp )
209          dny = 1.0_wp / ( ny + 1.0_wp )
210          sqr_dnx = SQRT( dnx )
211          sqr_dny = SQRT( dny )
212#if defined( __ibm )
213!
214!--       Initialize tables for fft along x
215          CALL DRCFT( 1, workx, 1, workx, 1, nx+1, 1,  1, sqr_dnx, aux1, nau1, &
216                      aux2, nau2 )
217          CALL DCRFT( 1, workx, 1, workx, 1, nx+1, 1, -1, sqr_dnx, aux3, nau1, &
218                      aux4, nau2 )
219!
220!--       Initialize tables for fft along y
221          CALL DRCFT( 1, worky, 1, worky, 1, ny+1, 1,  1, sqr_dny, auy1, nau1, &
222                      auy2, nau2 )
223          CALL DCRFT( 1, worky, 1, worky, 1, ny+1, 1, -1, sqr_dny, auy3, nau1, &
224                      auy4, nau2 )
225#elif defined( __nec )
226          message_string = 'fft method "' // TRIM( fft_method) // &
227                           '" currently does not work on NEC'
228          CALL message( 'fft_init', 'PA0187', 1, 2, 0, 6, 0 )
229
230          ALLOCATE( trig_xb(2*(nx+1)), trig_xf(2*(nx+1)),                      &
231                    trig_yb(2*(ny+1)), trig_yf(2*(ny+1)) )
232
233          work_x = 0.0_wp
234          work_y = 0.0_wp
235          nz1  = nz + MOD( nz+1, 2 )  ! odd nz slows down fft significantly
236                                      ! when using the NEC ffts
237
238!
239!--       Initialize tables for fft along x (non-vector and vector case (M))
240          CALL DZFFT( 0, nx+1, sqr_dnx, work_x, work_x, trig_xf, workx, 0 )
241          CALL ZDFFT( 0, nx+1, sqr_dnx, work_x, work_x, trig_xb, workx, 0 )
242          CALL DZFFTM( 0, nx+1, nz1, sqr_dnx, work_x, nx+4, work_x, nx+4,      &
243                       trig_xf, workx, 0 )
244          CALL ZDFFTM( 0, nx+1, nz1, sqr_dnx, work_x, nx+4, work_x, nx+4,      &
245                       trig_xb, workx, 0 )
246!
247!--       Initialize tables for fft along y (non-vector and vector case (M))
248          CALL DZFFT( 0, ny+1, sqr_dny, work_y, work_y, trig_yf, worky, 0 )
249          CALL ZDFFT( 0, ny+1, sqr_dny, work_y, work_y, trig_yb, worky, 0 )
250          CALL DZFFTM( 0, ny+1, nz1, sqr_dny, work_y, ny+4, work_y, ny+4,      &
251                       trig_yf, worky, 0 )
252          CALL ZDFFTM( 0, ny+1, nz1, sqr_dny, work_y, ny+4, work_y, ny+4,      &
253                       trig_yb, worky, 0 )
254#elif defined( __cuda_fft )
255          CALL CUFFTPLAN1D( plan_xf, nx+1, CUFFT_D2Z, (nyn_x-nys_x+1) * (nzt_x-nzb_x+1) )
256          CALL CUFFTPLAN1D( plan_xi, nx+1, CUFFT_Z2D, (nyn_x-nys_x+1) * (nzt_x-nzb_x+1) )
257          CALL CUFFTPLAN1D( plan_yf, ny+1, CUFFT_D2Z, (nxr_y-nxl_y+1) * (nzt_y-nzb_y+1) )
258          CALL CUFFTPLAN1D( plan_yi, ny+1, CUFFT_Z2D, (nxr_y-nxl_y+1) * (nzt_y-nzb_y+1) )
259#else
260          message_string = 'no system-specific fft-call available'
261          CALL message( 'fft_init', 'PA0188', 1, 2, 0, 6, 0 )
262#endif
263       ELSEIF ( fft_method == 'temperton-algorithm' )  THEN
264!
265!--       Temperton-algorithm
266!--       Initialize tables for fft along x and y
267          ALLOCATE( ifax_x(nx+1), ifax_y(ny+1), trigs_x(nx+1), trigs_y(ny+1) )
268
269          CALL set99( trigs_x, ifax_x, nx+1 )
270          CALL set99( trigs_y, ifax_y, ny+1 )
271
272       ELSEIF ( fft_method == 'fftw' )  THEN
273!
274!--       FFTW
275#if defined( __fftw )
276          nx_c = nx+1
277          ny_c = ny+1
278          !$OMP PARALLEL
279          ALLOCATE( x_in(0:nx+2), y_in(0:ny+2), x_out(0:(nx+1)/2),             &
280                    y_out(0:(ny+1)/2) )
281          !$OMP END PARALLEL
282          plan_xf = FFTW_PLAN_DFT_R2C_1D( nx_c, x_in, x_out, FFTW_ESTIMATE )
283          plan_xi = FFTW_PLAN_DFT_C2R_1D( nx_c, x_out, x_in, FFTW_ESTIMATE )
284          plan_yf = FFTW_PLAN_DFT_R2C_1D( ny_c, y_in, y_out, FFTW_ESTIMATE )
285          plan_yi = FFTW_PLAN_DFT_C2R_1D( ny_c, y_out, y_in, FFTW_ESTIMATE )
286#else
287          message_string = 'preprocessor switch for fftw is missing'
288          CALL message( 'fft_init', 'PA0080', 1, 2, 0, 6, 0 )
289#endif
290
291       ELSEIF ( fft_method == 'singleton-algorithm' )  THEN
292
293          CONTINUE
294
295       ELSE
296
297          message_string = 'fft method "' // TRIM( fft_method) // &
298                           '" not available'
299          CALL message( 'fft_init', 'PA0189', 1, 2, 0, 6, 0 )
300       ENDIF
301
302    END SUBROUTINE fft_init
303
304
305!------------------------------------------------------------------------------!
306! Description:
307! ------------
308!> Fourier-transformation along x-direction.                 
309!> Version for 2D-decomposition.
310!> It uses internal algorithms (Singleton or Temperton) or     
311!> system-specific routines, if they are available           
312!------------------------------------------------------------------------------!
313 
314    SUBROUTINE fft_x( ar, direction, ar_2d )
315
316
317       IMPLICIT NONE
318
319       CHARACTER (LEN=*) ::  direction  !<
320       
321       COMPLEX(wp), DIMENSION(:), ALLOCATABLE ::  cwork  !<
322
323       INTEGER(iwp) ::  i          !<
324       INTEGER(iwp) ::  ishape(1)  !<
325       INTEGER(iwp) ::  j          !<
326       INTEGER(iwp) ::  k          !<
327
328       LOGICAL ::  forward_fft !<
329       
330       REAL(wp), DIMENSION(0:nx+2) ::  work   !<
331       REAL(wp), DIMENSION(nx+2)   ::  work1  !<
332       
333#if defined( __ibm )
334       REAL(wp), DIMENSION(nau2) ::  aux2  !<
335       REAL(wp), DIMENSION(nau2) ::  aux4  !<
336#elif defined( __nec )
337       REAL(wp), DIMENSION(6*(nx+1)) ::  work2  !<
338#elif defined( __cuda_fft )
339       COMPLEX(dp), DIMENSION(0:(nx+1)/2,nys_x:nyn_x,nzb_x:nzt_x) ::           &
340          ar_tmp  !<
341       !$ACC DECLARE CREATE(ar_tmp)
342#endif
343
344       REAL(wp), DIMENSION(0:nx,nys_x:nyn_x), OPTIONAL   ::                    &
345          ar_2d   !<
346       REAL(wp), DIMENSION(0:nx,nys_x:nyn_x,nzb_x:nzt_x) ::                    &
347          ar      !<
348
349!
350!--    To avoid compiler warning: Unused dummy argument ‘ar_2d’
351       IF ( PRESENT( ar_2d ) )  CONTINUE
352
353       IF ( direction == 'forward' )  THEN
354          forward_fft = .TRUE.
355       ELSE
356          forward_fft = .FALSE.
357       ENDIF
358
359       IF ( fft_method == 'singleton-algorithm' )  THEN
360
361!
362!--       Performing the fft with singleton's software works on every system,
363!--       since it is part of the model
364          ALLOCATE( cwork(0:nx) )
365     
366          IF ( forward_fft )   then
367
368             !$OMP PARALLEL PRIVATE ( cwork, i, ishape, j, k )
369             !$OMP DO
370             DO  k = nzb_x, nzt_x
371                DO  j = nys_x, nyn_x
372
373                   DO  i = 0, nx
374                      cwork(i) = CMPLX( ar(i,j,k), KIND=wp )
375                   ENDDO
376
377                   ishape = SHAPE( cwork )
378                   CALL FFTN( cwork, ishape )
379
380                   DO  i = 0, (nx+1)/2
381                      ar(i,j,k) = REAL( cwork(i), KIND=wp )
382                   ENDDO
383                   DO  i = 1, (nx+1)/2 - 1
384                      ar(nx+1-i,j,k) = -AIMAG( cwork(i) )
385                   ENDDO
386
387                ENDDO
388             ENDDO
389             !$OMP END PARALLEL
390
391          ELSE
392
393             !$OMP PARALLEL PRIVATE ( cwork, i, ishape, j, k )
394             !$OMP DO
395             DO  k = nzb_x, nzt_x
396                DO  j = nys_x, nyn_x
397
398                   cwork(0) = CMPLX( ar(0,j,k), 0.0_wp, KIND=wp )
399                   DO  i = 1, (nx+1)/2 - 1
400                      cwork(i)      = CMPLX( ar(i,j,k), -ar(nx+1-i,j,k),       &
401                                             KIND=wp )
402                      cwork(nx+1-i) = CMPLX( ar(i,j,k),  ar(nx+1-i,j,k),       &
403                                             KIND=wp )
404                   ENDDO
405                   cwork((nx+1)/2) = CMPLX( ar((nx+1)/2,j,k), 0.0_wp, KIND=wp )
406
407                   ishape = SHAPE( cwork )
408                   CALL FFTN( cwork, ishape, inv = .TRUE. )
409
410                   DO  i = 0, nx
411                      ar(i,j,k) = REAL( cwork(i), KIND=wp )
412                   ENDDO
413
414                ENDDO
415             ENDDO
416             !$OMP END PARALLEL
417
418          ENDIF
419
420          DEALLOCATE( cwork )
421
422       ELSEIF ( fft_method == 'temperton-algorithm' )  THEN
423
424!
425!--       Performing the fft with Temperton's software works on every system,
426!--       since it is part of the model
427          IF ( forward_fft )  THEN
428
429             !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
430             !$OMP DO
431             DO  k = nzb_x, nzt_x
432                DO  j = nys_x, nyn_x
433
434                   work(0:nx) = ar(0:nx,j,k)
435                   CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, -1 )
436
437                   DO  i = 0, (nx+1)/2
438                      ar(i,j,k) = work(2*i)
439                   ENDDO
440                   DO  i = 1, (nx+1)/2 - 1
441                      ar(nx+1-i,j,k) = work(2*i+1)
442                   ENDDO
443
444                ENDDO
445             ENDDO
446             !$OMP END PARALLEL
447
448          ELSE
449
450             !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
451             !$OMP DO
452             DO  k = nzb_x, nzt_x
453                DO  j = nys_x, nyn_x
454
455                   DO  i = 0, (nx+1)/2
456                      work(2*i) = ar(i,j,k)
457                   ENDDO
458                   DO  i = 1, (nx+1)/2 - 1
459                      work(2*i+1) = ar(nx+1-i,j,k)
460                   ENDDO
461                   work(1)    = 0.0_wp
462                   work(nx+2) = 0.0_wp
463
464                   CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, 1 )
465                   ar(0:nx,j,k) = work(0:nx)
466
467                ENDDO
468             ENDDO
469             !$OMP END PARALLEL
470
471          ENDIF
472
473       ELSEIF ( fft_method == 'fftw' )  THEN
474
475#if defined( __fftw )
476          IF ( forward_fft )  THEN
477
478             !$OMP PARALLEL PRIVATE ( work, i, j, k )
479             !$OMP DO
480             DO  k = nzb_x, nzt_x
481                DO  j = nys_x, nyn_x
482
483                   x_in(0:nx) = ar(0:nx,j,k)
484                   CALL FFTW_EXECUTE_DFT_R2C( plan_xf, x_in, x_out )
485
486                   IF ( PRESENT( ar_2d ) )  THEN
487
488                      DO  i = 0, (nx+1)/2
489                         ar_2d(i,j) = REAL( x_out(i), KIND=wp ) / ( nx+1 )
490                      ENDDO
491                      DO  i = 1, (nx+1)/2 - 1
492                         ar_2d(nx+1-i,j) = AIMAG( x_out(i) ) / ( nx+1 )
493                      ENDDO
494
495                   ELSE
496
497                      DO  i = 0, (nx+1)/2
498                         ar(i,j,k) = REAL( x_out(i), KIND=wp ) / ( nx+1 )
499                      ENDDO
500                      DO  i = 1, (nx+1)/2 - 1
501                         ar(nx+1-i,j,k) = AIMAG( x_out(i) ) / ( nx+1 )
502                      ENDDO
503
504                   ENDIF
505
506                ENDDO
507             ENDDO
508             !$OMP END PARALLEL
509
510          ELSE
511             !$OMP PARALLEL PRIVATE ( work, i, j, k )
512             !$OMP DO
513             DO  k = nzb_x, nzt_x
514                DO  j = nys_x, nyn_x
515
516                   IF ( PRESENT( ar_2d ) )  THEN
517
518                      x_out(0) = CMPLX( ar_2d(0,j), 0.0_wp, KIND=wp )
519                      DO  i = 1, (nx+1)/2 - 1
520                         x_out(i) = CMPLX( ar_2d(i,j), ar_2d(nx+1-i,j),        &
521                                           KIND=wp )
522                      ENDDO
523                      x_out((nx+1)/2) = CMPLX( ar_2d((nx+1)/2,j), 0.0_wp,      &
524                                               KIND=wp )
525
526                   ELSE
527
528                      x_out(0) = CMPLX( ar(0,j,k), 0.0_wp, KIND=wp )
529                      DO  i = 1, (nx+1)/2 - 1
530                         x_out(i) = CMPLX( ar(i,j,k), ar(nx+1-i,j,k), KIND=wp )
531                      ENDDO
532                      x_out((nx+1)/2) = CMPLX( ar((nx+1)/2,j,k), 0.0_wp,       &
533                                               KIND=wp )
534
535                   ENDIF
536
537                   CALL FFTW_EXECUTE_DFT_C2R( plan_xi, x_out, x_in)
538                   ar(0:nx,j,k) = x_in(0:nx)
539
540                ENDDO
541             ENDDO
542             !$OMP END PARALLEL
543
544          ENDIF
545#endif
546
547       ELSEIF ( fft_method == 'system-specific' )  THEN
548
549#if defined( __ibm )
550          IF ( forward_fft )  THEN
551
552             !$OMP PARALLEL PRIVATE ( work, i, j, k )
553             !$OMP DO
554             DO  k = nzb_x, nzt_x
555                DO  j = nys_x, nyn_x
556
557                   CALL DRCFT( 0, ar, 1, work, 1, nx+1, 1, 1, sqr_dnx, aux1,   &
558                               nau1, aux2, nau2 )
559
560                   DO  i = 0, (nx+1)/2
561                      ar(i,j,k) = work(2*i)
562                   ENDDO
563                   DO  i = 1, (nx+1)/2 - 1
564                      ar(nx+1-i,j,k) = work(2*i+1)
565                   ENDDO
566
567                ENDDO
568             ENDDO
569             !$OMP END PARALLEL
570
571          ELSE
572
573             !$OMP PARALLEL PRIVATE ( work, i, j, k )
574             !$OMP DO
575             DO  k = nzb_x, nzt_x
576                DO  j = nys_x, nyn_x
577
578                   DO  i = 0, (nx+1)/2
579                      work(2*i) = ar(i,j,k)
580                   ENDDO
581                   DO  i = 1, (nx+1)/2 - 1
582                      work(2*i+1) = ar(nx+1-i,j,k)
583                   ENDDO
584                   work(1) = 0.0_wp
585                   work(nx+2) = 0.0_wp
586
587                   CALL DCRFT( 0, work, 1, work, 1, nx+1, 1, -1, sqr_dnx,      & 
588                               aux3, nau1, aux4, nau2 )
589
590                   DO  i = 0, nx
591                      ar(i,j,k) = work(i)
592                   ENDDO
593
594                ENDDO
595             ENDDO
596             !$OMP END PARALLEL
597
598          ENDIF
599
600#elif defined( __nec )
601
602          IF ( forward_fft )  THEN
603
604             !$OMP PARALLEL PRIVATE ( work, i, j, k )
605             !$OMP DO
606             DO  k = nzb_x, nzt_x
607                DO  j = nys_x, nyn_x
608
609                   work(0:nx) = ar(0:nx,j,k)
610
611                   CALL DZFFT( 1, nx+1, sqr_dnx, work, work, trig_xf, work2, 0 )
612     
613                   DO  i = 0, (nx+1)/2
614                      ar(i,j,k) = work(2*i)
615                   ENDDO
616                   DO  i = 1, (nx+1)/2 - 1
617                      ar(nx+1-i,j,k) = work(2*i+1)
618                   ENDDO
619
620                ENDDO
621             ENDDO
622             !$END OMP PARALLEL
623
624          ELSE
625
626             !$OMP PARALLEL PRIVATE ( work, i, j, k )
627             !$OMP DO
628             DO  k = nzb_x, nzt_x
629                DO  j = nys_x, nyn_x
630
631                   DO  i = 0, (nx+1)/2
632                      work(2*i) = ar(i,j,k)
633                   ENDDO
634                   DO  i = 1, (nx+1)/2 - 1
635                      work(2*i+1) = ar(nx+1-i,j,k)
636                   ENDDO
637                   work(1) = 0.0_wp
638                   work(nx+2) = 0.0_wp
639
640                   CALL ZDFFT( -1, nx+1, sqr_dnx, work, work, trig_xb, work2, 0 )
641
642                   ar(0:nx,j,k) = work(0:nx)
643
644                ENDDO
645             ENDDO
646             !$OMP END PARALLEL
647
648          ENDIF
649
650#elif defined( __cuda_fft )
651
652          IF ( forward_fft )  THEN
653
654             !$ACC HOST_DATA USE_DEVICE(ar, ar_tmp)
655             CALL CUFFTEXECD2Z( plan_xf, ar, ar_tmp )
656             !$ACC END HOST_DATA
657
658             !$ACC PARALLEL LOOP COLLAPSE(2) PRIVATE(i,j,k) &
659             !$ACC PRESENT(ar, ar_tmp)
660             DO  k = nzb_x, nzt_x
661                DO  j = nys_x, nyn_x
662
663                   DO  i = 0, (nx+1)/2
664                      ar(i,j,k)      = REAL( ar_tmp(i,j,k), KIND=wp )  * dnx
665                   ENDDO
666
667                   DO  i = 1, (nx+1)/2 - 1
668                      ar(nx+1-i,j,k) = AIMAG( ar_tmp(i,j,k) ) * dnx
669                   ENDDO
670
671                ENDDO
672             ENDDO
673
674          ELSE
675
676             !$ACC PARALLEL LOOP COLLAPSE(2) PRIVATE(i,j,k) &
677             !$ACC PRESENT(ar, ar_tmp)
678             DO  k = nzb_x, nzt_x
679                DO  j = nys_x, nyn_x
680
681                   ar_tmp(0,j,k) = CMPLX( ar(0,j,k), 0.0_wp, KIND=wp )
682
683                   DO  i = 1, (nx+1)/2 - 1
684                      ar_tmp(i,j,k) = CMPLX( ar(i,j,k), ar(nx+1-i,j,k),        &
685                                             KIND=wp )
686                   ENDDO
687                   ar_tmp((nx+1)/2,j,k) = CMPLX( ar((nx+1)/2,j,k), 0.0_wp,     &
688                                                 KIND=wp )
689
690                ENDDO
691             ENDDO
692
693             !$ACC HOST_DATA USE_DEVICE(ar, ar_tmp)
694             CALL CUFFTEXECZ2D( plan_xi, ar_tmp, ar )
695             !$ACC END HOST_DATA
696
697          ENDIF
698
699#endif
700
701       ENDIF
702
703    END SUBROUTINE fft_x
704
705!------------------------------------------------------------------------------!
706! Description:
707! ------------
708!> Fourier-transformation along x-direction.
709!> Version for 1D-decomposition.
710!> It uses internal algorithms (Singleton or Temperton) or
711!> system-specific routines, if they are available
712!------------------------------------------------------------------------------!
713 
714    SUBROUTINE fft_x_1d( ar, direction )
715
716
717       IMPLICIT NONE
718
719       CHARACTER (LEN=*) ::  direction  !<
720       
721       INTEGER(iwp) ::  i               !<
722       INTEGER(iwp) ::  ishape(1)       !<
723
724       LOGICAL ::  forward_fft          !<
725
726       REAL(wp), DIMENSION(0:nx)   ::  ar     !<
727       REAL(wp), DIMENSION(0:nx+2) ::  work   !<
728       REAL(wp), DIMENSION(nx+2)   ::  work1  !<
729       
730       COMPLEX(wp), DIMENSION(:), ALLOCATABLE ::  cwork  !<
731       
732#if defined( __ibm )
733       REAL(wp), DIMENSION(nau2) ::  aux2       !<
734       REAL(wp), DIMENSION(nau2) ::  aux4       !<
735#elif defined( __nec )
736       REAL(wp), DIMENSION(6*(nx+1)) ::  work2  !<
737#endif
738
739       IF ( direction == 'forward' )  THEN
740          forward_fft = .TRUE.
741       ELSE
742          forward_fft = .FALSE.
743       ENDIF
744
745       IF ( fft_method == 'singleton-algorithm' )  THEN
746
747!
748!--       Performing the fft with singleton's software works on every system,
749!--       since it is part of the model
750          ALLOCATE( cwork(0:nx) )
751     
752          IF ( forward_fft )   then
753
754             DO  i = 0, nx
755                cwork(i) = CMPLX( ar(i), KIND=wp )
756             ENDDO
757             ishape = SHAPE( cwork )
758             CALL FFTN( cwork, ishape )
759             DO  i = 0, (nx+1)/2
760                ar(i) = REAL( cwork(i), KIND=wp )
761             ENDDO
762             DO  i = 1, (nx+1)/2 - 1
763                ar(nx+1-i) = -AIMAG( cwork(i) )
764             ENDDO
765
766          ELSE
767
768             cwork(0) = CMPLX( ar(0), 0.0_wp, KIND=wp )
769             DO  i = 1, (nx+1)/2 - 1
770                cwork(i)      = CMPLX( ar(i), -ar(nx+1-i), KIND=wp )
771                cwork(nx+1-i) = CMPLX( ar(i),  ar(nx+1-i), KIND=wp )
772             ENDDO
773             cwork((nx+1)/2) = CMPLX( ar((nx+1)/2), 0.0_wp, KIND=wp )
774
775             ishape = SHAPE( cwork )
776             CALL FFTN( cwork, ishape, inv = .TRUE. )
777
778             DO  i = 0, nx
779                ar(i) = REAL( cwork(i), KIND=wp )
780             ENDDO
781
782          ENDIF
783
784          DEALLOCATE( cwork )
785
786       ELSEIF ( fft_method == 'temperton-algorithm' )  THEN
787
788!
789!--       Performing the fft with Temperton's software works on every system,
790!--       since it is part of the model
791          IF ( forward_fft )  THEN
792
793             work(0:nx) = ar
794             CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, -1 )
795
796             DO  i = 0, (nx+1)/2
797                ar(i) = work(2*i)
798             ENDDO
799             DO  i = 1, (nx+1)/2 - 1
800                ar(nx+1-i) = work(2*i+1)
801             ENDDO
802
803          ELSE
804
805             DO  i = 0, (nx+1)/2
806                work(2*i) = ar(i)
807             ENDDO
808             DO  i = 1, (nx+1)/2 - 1
809                work(2*i+1) = ar(nx+1-i)
810             ENDDO
811             work(1)    = 0.0_wp
812             work(nx+2) = 0.0_wp
813
814             CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, 1 )
815             ar = work(0:nx)
816
817          ENDIF
818
819       ELSEIF ( fft_method == 'fftw' )  THEN
820
821#if defined( __fftw )
822          IF ( forward_fft )  THEN
823
824             x_in(0:nx) = ar(0:nx)
825             CALL FFTW_EXECUTE_DFT_R2C( plan_xf, x_in, x_out )
826
827             DO  i = 0, (nx+1)/2
828                ar(i) = REAL( x_out(i), KIND=wp ) / ( nx+1 )
829             ENDDO
830             DO  i = 1, (nx+1)/2 - 1
831                ar(nx+1-i) = AIMAG( x_out(i) ) / ( nx+1 )
832             ENDDO
833
834         ELSE
835
836             x_out(0) = CMPLX( ar(0), 0.0_wp, KIND=wp )
837             DO  i = 1, (nx+1)/2 - 1
838                x_out(i) = CMPLX( ar(i), ar(nx+1-i), KIND=wp )
839             ENDDO
840             x_out((nx+1)/2) = CMPLX( ar((nx+1)/2), 0.0_wp, KIND=wp )
841
842             CALL FFTW_EXECUTE_DFT_C2R( plan_xi, x_out, x_in)
843             ar(0:nx) = x_in(0:nx)
844
845         ENDIF
846#endif
847
848       ELSEIF ( fft_method == 'system-specific' )  THEN
849
850#if defined( __ibm )
851          IF ( forward_fft )  THEN
852
853             CALL DRCFT( 0, ar, 1, work, 1, nx+1, 1, 1, sqr_dnx, aux1, nau1,   &
854                         aux2, nau2 )
855
856             DO  i = 0, (nx+1)/2
857                ar(i) = work(2*i)
858             ENDDO
859             DO  i = 1, (nx+1)/2 - 1
860                ar(nx+1-i) = work(2*i+1)
861             ENDDO
862
863          ELSE
864
865             DO  i = 0, (nx+1)/2
866                work(2*i) = ar(i)
867             ENDDO
868             DO  i = 1, (nx+1)/2 - 1
869                work(2*i+1) = ar(nx+1-i)
870             ENDDO
871             work(1) = 0.0_wp
872             work(nx+2) = 0.0_wp
873
874             CALL DCRFT( 0, work, 1, work, 1, nx+1, 1, -1, sqr_dnx, aux3, nau1, &
875                         aux4, nau2 )
876
877             DO  i = 0, nx
878                ar(i) = work(i)
879             ENDDO
880
881          ENDIF
882#elif defined( __nec )
883          IF ( forward_fft )  THEN
884
885             work(0:nx) = ar(0:nx)
886
887             CALL DZFFT( 1, nx+1, sqr_dnx, work, work, trig_xf, work2, 0 )
888     
889             DO  i = 0, (nx+1)/2
890                ar(i) = work(2*i)
891             ENDDO
892             DO  i = 1, (nx+1)/2 - 1
893                ar(nx+1-i) = work(2*i+1)
894             ENDDO
895
896          ELSE
897
898             DO  i = 0, (nx+1)/2
899                work(2*i) = ar(i)
900             ENDDO
901             DO  i = 1, (nx+1)/2 - 1
902                work(2*i+1) = ar(nx+1-i)
903             ENDDO
904             work(1) = 0.0_wp
905             work(nx+2) = 0.0_wp
906
907             CALL ZDFFT( -1, nx+1, sqr_dnx, work, work, trig_xb, work2, 0 )
908
909             ar(0:nx) = work(0:nx)
910
911          ENDIF
912#endif
913
914       ENDIF
915
916    END SUBROUTINE fft_x_1d
917
918!------------------------------------------------------------------------------!
919! Description:
920! ------------
921!> Fourier-transformation along y-direction.
922!> Version for 2D-decomposition.
923!> It uses internal algorithms (Singleton or Temperton) or
924!> system-specific routines, if they are available.
925!>
926!> direction:  'forward' or 'backward'
927!> ar, ar_tr:  3D data arrays
928!>             forward:   ar: before  ar_tr: after transformation
929!>             backward:  ar_tr: before  ar: after transfosition
930!>
931!> In case of non-overlapping transposition/transformation:
932!> nxl_y_bound = nxl_y_l = nxl_y
933!> nxr_y_bound = nxr_y_l = nxr_y
934!>
935!> In case of overlapping transposition/transformation
936!> - nxl_y_bound  and  nxr_y_bound have the original values of
937!>   nxl_y, nxr_y.  ar_tr is dimensioned using these values.
938!> - nxl_y_l = nxr_y_r.  ar is dimensioned with these values, so that
939!>   transformation is carried out for a 2D-plane only.
940!------------------------------------------------------------------------------!
941 
942    SUBROUTINE fft_y( ar, direction, ar_tr, nxl_y_bound, nxr_y_bound, nxl_y_l, &
943                      nxr_y_l )
944
945
946       IMPLICIT NONE
947
948       CHARACTER (LEN=*) ::  direction  !<
949       
950       INTEGER(iwp) ::  i            !<
951       INTEGER(iwp) ::  j            !<
952       INTEGER(iwp) ::  jshape(1)    !<
953       INTEGER(iwp) ::  k            !<
954       INTEGER(iwp) ::  nxl_y_bound  !<
955       INTEGER(iwp) ::  nxl_y_l      !<
956       INTEGER(iwp) ::  nxr_y_bound  !<
957       INTEGER(iwp) ::  nxr_y_l      !<
958
959       LOGICAL ::  forward_fft  !<
960
961       REAL(wp), DIMENSION(0:ny+2) ::  work   !<
962       REAL(wp), DIMENSION(ny+2)   ::  work1  !<
963       
964       COMPLEX(wp), DIMENSION(:), ALLOCATABLE ::  cwork  !<
965       
966#if defined( __ibm )
967       REAL(wp), DIMENSION(nau2) ::  auy2  !<
968       REAL(wp), DIMENSION(nau2) ::  auy4  !<
969#elif defined( __nec )
970       REAL(wp), DIMENSION(6*(ny+1)) ::  work2  !<
971#elif defined( __cuda_fft )
972       COMPLEX(dp), DIMENSION(0:(ny+1)/2,nxl_y:nxr_y,nzb_y:nzt_y) ::           &
973          ar_tmp  !<
974       !$ACC DECLARE CREATE(ar_tmp)
975#endif
976
977       REAL(wp), DIMENSION(0:ny,nxl_y_l:nxr_y_l,nzb_y:nzt_y)         ::        &
978          ar     !<
979       REAL(wp), DIMENSION(0:ny,nxl_y_bound:nxr_y_bound,nzb_y:nzt_y) ::        &
980          ar_tr  !<
981
982       IF ( direction == 'forward' )  THEN
983          forward_fft = .TRUE.
984       ELSE
985          forward_fft = .FALSE.
986       ENDIF
987
988       IF ( fft_method == 'singleton-algorithm' )  THEN
989
990!
991!--       Performing the fft with singleton's software works on every system,
992!--       since it is part of the model
993          ALLOCATE( cwork(0:ny) )
994
995          IF ( forward_fft )   then
996
997             !$OMP PARALLEL PRIVATE ( cwork, i, jshape, j, k )
998             !$OMP DO
999             DO  k = nzb_y, nzt_y
1000                DO  i = nxl_y_l, nxr_y_l
1001
1002                   DO  j = 0, ny
1003                      cwork(j) = CMPLX( ar(j,i,k), KIND=wp )
1004                   ENDDO
1005
1006                   jshape = SHAPE( cwork )
1007                   CALL FFTN( cwork, jshape )
1008
1009                   DO  j = 0, (ny+1)/2
1010                      ar_tr(j,i,k) = REAL( cwork(j), KIND=wp )
1011                   ENDDO
1012                   DO  j = 1, (ny+1)/2 - 1
1013                      ar_tr(ny+1-j,i,k) = -AIMAG( cwork(j) )
1014                   ENDDO
1015
1016                ENDDO
1017             ENDDO
1018             !$OMP END PARALLEL
1019
1020          ELSE
1021
1022             !$OMP PARALLEL PRIVATE ( cwork, i, jshape, j, k )
1023             !$OMP DO
1024             DO  k = nzb_y, nzt_y
1025                DO  i = nxl_y_l, nxr_y_l
1026
1027                   cwork(0) = CMPLX( ar_tr(0,i,k), 0.0_wp, KIND=wp )
1028                   DO  j = 1, (ny+1)/2 - 1
1029                      cwork(j)      = CMPLX( ar_tr(j,i,k), -ar_tr(ny+1-j,i,k), &
1030                                             KIND=wp )
1031                      cwork(ny+1-j) = CMPLX( ar_tr(j,i,k),  ar_tr(ny+1-j,i,k), &
1032                                             KIND=wp )
1033                   ENDDO
1034                   cwork((ny+1)/2) = CMPLX( ar_tr((ny+1)/2,i,k), 0.0_wp,       &
1035                                            KIND=wp )
1036
1037                   jshape = SHAPE( cwork )
1038                   CALL FFTN( cwork, jshape, inv = .TRUE. )
1039
1040                   DO  j = 0, ny
1041                      ar(j,i,k) = REAL( cwork(j), KIND=wp )
1042                   ENDDO
1043
1044                ENDDO
1045             ENDDO
1046             !$OMP END PARALLEL
1047
1048          ENDIF
1049
1050          DEALLOCATE( cwork )
1051
1052       ELSEIF ( fft_method == 'temperton-algorithm' )  THEN
1053
1054!
1055!--       Performing the fft with Temperton's software works on every system,
1056!--       since it is part of the model
1057          IF ( forward_fft )  THEN
1058
1059             !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
1060             !$OMP DO
1061             DO  k = nzb_y, nzt_y
1062                DO  i = nxl_y_l, nxr_y_l
1063
1064                   work(0:ny) = ar(0:ny,i,k)
1065                   CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, -1 )
1066
1067                   DO  j = 0, (ny+1)/2
1068                      ar_tr(j,i,k) = work(2*j)
1069                   ENDDO
1070                   DO  j = 1, (ny+1)/2 - 1
1071                      ar_tr(ny+1-j,i,k) = work(2*j+1)
1072                   ENDDO
1073
1074                ENDDO
1075             ENDDO
1076             !$OMP END PARALLEL
1077
1078          ELSE
1079
1080             !$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
1081             !$OMP DO
1082             DO  k = nzb_y, nzt_y
1083                DO  i = nxl_y_l, nxr_y_l
1084
1085                   DO  j = 0, (ny+1)/2
1086                      work(2*j) = ar_tr(j,i,k)
1087                   ENDDO
1088                   DO  j = 1, (ny+1)/2 - 1
1089                      work(2*j+1) = ar_tr(ny+1-j,i,k)
1090                   ENDDO
1091                   work(1)    = 0.0_wp
1092                   work(ny+2) = 0.0_wp
1093
1094                   CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, 1 )
1095                   ar(0:ny,i,k) = work(0:ny)
1096
1097                ENDDO
1098             ENDDO
1099             !$OMP END PARALLEL
1100
1101          ENDIF
1102
1103       ELSEIF ( fft_method == 'fftw' )  THEN
1104
1105#if defined( __fftw )
1106          IF ( forward_fft )  THEN
1107
1108             !$OMP PARALLEL PRIVATE ( work, i, j, k )
1109             !$OMP DO
1110             DO  k = nzb_y, nzt_y
1111                DO  i = nxl_y_l, nxr_y_l
1112
1113                   y_in(0:ny) = ar(0:ny,i,k)
1114                   CALL FFTW_EXECUTE_DFT_R2C( plan_yf, y_in, y_out )
1115
1116                   DO  j = 0, (ny+1)/2
1117                      ar_tr(j,i,k) = REAL( y_out(j), KIND=wp ) / (ny+1)
1118                   ENDDO
1119                   DO  j = 1, (ny+1)/2 - 1
1120                      ar_tr(ny+1-j,i,k) = AIMAG( y_out(j) ) / (ny+1)
1121                   ENDDO
1122
1123                ENDDO
1124             ENDDO
1125             !$OMP END PARALLEL
1126
1127          ELSE
1128
1129             !$OMP PARALLEL PRIVATE ( work, i, j, k )
1130             !$OMP DO
1131             DO  k = nzb_y, nzt_y
1132                DO  i = nxl_y_l, nxr_y_l
1133
1134                   y_out(0) = CMPLX( ar_tr(0,i,k), 0.0_wp, KIND=wp )
1135                   DO  j = 1, (ny+1)/2 - 1
1136                      y_out(j) = CMPLX( ar_tr(j,i,k), ar_tr(ny+1-j,i,k),       &
1137                                        KIND=wp )
1138                   ENDDO
1139                   y_out((ny+1)/2) = CMPLX( ar_tr((ny+1)/2,i,k), 0.0_wp,       &
1140                                            KIND=wp )
1141
1142                   CALL FFTW_EXECUTE_DFT_C2R( plan_yi, y_out, y_in )
1143                   ar(0:ny,i,k) = y_in(0:ny)
1144
1145                ENDDO
1146             ENDDO
1147             !$OMP END PARALLEL
1148
1149          ENDIF
1150#endif
1151
1152       ELSEIF ( fft_method == 'system-specific' )  THEN
1153
1154#if defined( __ibm )
1155          IF ( forward_fft)  THEN
1156
1157             !$OMP PARALLEL PRIVATE ( work, i, j, k )
1158             !$OMP DO
1159             DO  k = nzb_y, nzt_y
1160                DO  i = nxl_y_l, nxr_y_l
1161
1162                   CALL DRCFT( 0, ar, 1, work, 1, ny+1, 1, 1, sqr_dny, auy1,   & 
1163                               nau1, auy2, nau2 )
1164
1165                   DO  j = 0, (ny+1)/2
1166                      ar_tr(j,i,k) = work(2*j)
1167                   ENDDO
1168                   DO  j = 1, (ny+1)/2 - 1
1169                      ar_tr(ny+1-j,i,k) = work(2*j+1)
1170                   ENDDO
1171
1172                ENDDO
1173             ENDDO
1174             !$OMP END PARALLEL
1175
1176          ELSE
1177
1178             !$OMP PARALLEL PRIVATE ( work, i, j, k )
1179             !$OMP DO
1180             DO  k = nzb_y, nzt_y
1181                DO  i = nxl_y_l, nxr_y_l
1182
1183                   DO  j = 0, (ny+1)/2
1184                      work(2*j) = ar_tr(j,i,k)
1185                   ENDDO
1186                   DO  j = 1, (ny+1)/2 - 1
1187                      work(2*j+1) = ar_tr(ny+1-j,i,k)
1188                   ENDDO
1189                   work(1)    = 0.0_wp
1190                   work(ny+2) = 0.0_wp
1191
1192                   CALL DCRFT( 0, work, 1, work, 1, ny+1, 1, -1, sqr_dny,      &
1193                               auy3, nau1, auy4, nau2 )
1194
1195                   DO  j = 0, ny
1196                      ar(j,i,k) = work(j)
1197                   ENDDO
1198
1199                ENDDO
1200             ENDDO
1201             !$OMP END PARALLEL
1202
1203          ENDIF
1204#elif defined( __nec )
1205          IF ( forward_fft )  THEN
1206
1207             !$OMP PARALLEL PRIVATE ( work, i, j, k )
1208             !$OMP DO
1209             DO  k = nzb_y, nzt_y
1210                DO  i = nxl_y_l, nxr_y_l
1211
1212                   work(0:ny) = ar(0:ny,i,k)
1213
1214                   CALL DZFFT( 1, ny+1, sqr_dny, work, work, trig_yf, work2, 0 )
1215
1216                   DO  j = 0, (ny+1)/2
1217                      ar_tr(j,i,k) = work(2*j)
1218                   ENDDO
1219                   DO  j = 1, (ny+1)/2 - 1
1220                      ar_tr(ny+1-j,i,k) = work(2*j+1)
1221                   ENDDO
1222
1223                ENDDO
1224             ENDDO
1225             !$END OMP PARALLEL
1226
1227          ELSE
1228
1229             !$OMP PARALLEL PRIVATE ( work, i, j, k )
1230             !$OMP DO
1231             DO  k = nzb_y, nzt_y
1232                DO  i = nxl_y_l, nxr_y_l
1233
1234                   DO  j = 0, (ny+1)/2
1235                      work(2*j) = ar_tr(j,i,k)
1236                   ENDDO
1237                   DO  j = 1, (ny+1)/2 - 1
1238                      work(2*j+1) = ar_tr(ny+1-j,i,k)
1239                   ENDDO
1240                   work(1) = 0.0_wp
1241                   work(ny+2) = 0.0_wp
1242
1243                   CALL ZDFFT( -1, ny+1, sqr_dny, work, work, trig_yb, work2, 0 )
1244
1245                   ar(0:ny,i,k) = work(0:ny)
1246
1247                ENDDO
1248             ENDDO
1249             !$OMP END PARALLEL
1250
1251          ENDIF
1252#elif defined( __cuda_fft )
1253
1254          IF ( forward_fft )  THEN
1255
1256             !$ACC HOST_DATA USE_DEVICE(ar, ar_tmp)
1257             CALL CUFFTEXECD2Z( plan_yf, ar, ar_tmp )
1258             !$ACC END HOST_DATA
1259
1260             !$ACC PARALLEL LOOP COLLAPSE(2) PRIVATE(i,j,k) &
1261             !$ACC PRESENT(ar, ar_tmp)
1262             DO  k = nzb_y, nzt_y
1263                DO  i = nxl_y, nxr_y
1264
1265                   DO  j = 0, (ny+1)/2
1266                      ar(j,i,k)      = REAL( ar_tmp(j,i,k), KIND=wp )  * dny
1267                   ENDDO
1268
1269                   DO  j = 1, (ny+1)/2 - 1
1270                      ar(ny+1-j,i,k) = AIMAG( ar_tmp(j,i,k) ) * dny
1271                   ENDDO
1272
1273                ENDDO
1274             ENDDO
1275
1276          ELSE
1277
1278             !$ACC PARALLEL LOOP COLLAPSE(2) PRIVATE(i,j,k) &
1279             !$ACC PRESENT(ar, ar_tmp)
1280             DO  k = nzb_y, nzt_y
1281                DO  i = nxl_y, nxr_y
1282
1283                   ar_tmp(0,i,k) = CMPLX( ar(0,i,k), 0.0_wp, KIND=wp )
1284
1285                   DO  j = 1, (ny+1)/2 - 1
1286                      ar_tmp(j,i,k) = CMPLX( ar(j,i,k), ar(ny+1-j,i,k),        &
1287                                             KIND=wp )
1288                   ENDDO
1289                   ar_tmp((ny+1)/2,i,k) = CMPLX( ar((ny+1)/2,i,k), 0.0_wp,     &
1290                                                 KIND=wp )
1291
1292                ENDDO
1293             ENDDO
1294
1295             !$ACC HOST_DATA USE_DEVICE(ar, ar_tmp)
1296             CALL CUFFTEXECZ2D( plan_yi, ar_tmp, ar )
1297             !$ACC END HOST_DATA
1298
1299          ENDIF
1300
1301#endif
1302
1303       ENDIF
1304
1305    END SUBROUTINE fft_y
1306
1307!------------------------------------------------------------------------------!
1308! Description:
1309! ------------
1310!> Fourier-transformation along y-direction.
1311!> Version for 1D-decomposition.
1312!> It uses internal algorithms (Singleton or Temperton) or
1313!> system-specific routines, if they are available.
1314!------------------------------------------------------------------------------!
1315 
1316    SUBROUTINE fft_y_1d( ar, direction )
1317
1318
1319       IMPLICIT NONE
1320
1321       CHARACTER (LEN=*) ::  direction
1322       
1323       INTEGER(iwp) ::  j          !<
1324       INTEGER(iwp) ::  jshape(1)  !<
1325
1326       LOGICAL ::  forward_fft  !<
1327
1328       REAL(wp), DIMENSION(0:ny)    ::  ar     !<
1329       REAL(wp), DIMENSION(0:ny+2)  ::  work   !<
1330       REAL(wp), DIMENSION(ny+2)    ::  work1  !<
1331       
1332       COMPLEX(wp), DIMENSION(:), ALLOCATABLE ::  cwork  !<
1333       
1334#if defined( __ibm )
1335       REAL(wp), DIMENSION(nau2) ::  auy2  !<
1336       REAL(wp), DIMENSION(nau2) ::  auy4  !<
1337#elif defined( __nec )
1338       REAL(wp), DIMENSION(6*(ny+1)) ::  work2  !<
1339#endif
1340
1341       IF ( direction == 'forward' )  THEN
1342          forward_fft = .TRUE.
1343       ELSE
1344          forward_fft = .FALSE.
1345       ENDIF
1346
1347       IF ( fft_method == 'singleton-algorithm' )  THEN
1348
1349!
1350!--       Performing the fft with singleton's software works on every system,
1351!--       since it is part of the model
1352          ALLOCATE( cwork(0:ny) )
1353
1354          IF ( forward_fft )  THEN
1355
1356             DO  j = 0, ny
1357                cwork(j) = CMPLX( ar(j), KIND=wp )
1358             ENDDO
1359
1360             jshape = SHAPE( cwork )
1361             CALL FFTN( cwork, jshape )
1362
1363             DO  j = 0, (ny+1)/2
1364                ar(j) = REAL( cwork(j), KIND=wp )
1365             ENDDO
1366             DO  j = 1, (ny+1)/2 - 1
1367                ar(ny+1-j) = -AIMAG( cwork(j) )
1368             ENDDO
1369
1370          ELSE
1371
1372             cwork(0) = CMPLX( ar(0), 0.0_wp, KIND=wp )
1373             DO  j = 1, (ny+1)/2 - 1
1374                cwork(j)      = CMPLX( ar(j), -ar(ny+1-j), KIND=wp )
1375                cwork(ny+1-j) = CMPLX( ar(j),  ar(ny+1-j), KIND=wp )
1376             ENDDO
1377             cwork((ny+1)/2) = CMPLX( ar((ny+1)/2), 0.0_wp, KIND=wp )
1378
1379             jshape = SHAPE( cwork )
1380             CALL FFTN( cwork, jshape, inv = .TRUE. )
1381
1382             DO  j = 0, ny
1383                ar(j) = REAL( cwork(j), KIND=wp )
1384             ENDDO
1385
1386          ENDIF
1387
1388          DEALLOCATE( cwork )
1389
1390       ELSEIF ( fft_method == 'temperton-algorithm' )  THEN
1391
1392!
1393!--       Performing the fft with Temperton's software works on every system,
1394!--       since it is part of the model
1395          IF ( forward_fft )  THEN
1396
1397             work(0:ny) = ar
1398             CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, -1 )
1399
1400             DO  j = 0, (ny+1)/2
1401                ar(j) = work(2*j)
1402             ENDDO
1403             DO  j = 1, (ny+1)/2 - 1
1404                ar(ny+1-j) = work(2*j+1)
1405             ENDDO
1406
1407          ELSE
1408
1409             DO  j = 0, (ny+1)/2
1410                work(2*j) = ar(j)
1411             ENDDO
1412             DO  j = 1, (ny+1)/2 - 1
1413                work(2*j+1) = ar(ny+1-j)
1414             ENDDO
1415             work(1)    = 0.0_wp
1416             work(ny+2) = 0.0_wp
1417
1418             CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, 1 )
1419             ar = work(0:ny)
1420
1421          ENDIF
1422
1423       ELSEIF ( fft_method == 'fftw' )  THEN
1424
1425#if defined( __fftw )
1426          IF ( forward_fft )  THEN
1427
1428             y_in(0:ny) = ar(0:ny)
1429             CALL FFTW_EXECUTE_DFT_R2C( plan_yf, y_in, y_out )
1430
1431             DO  j = 0, (ny+1)/2
1432                ar(j) = REAL( y_out(j), KIND=wp ) / (ny+1)
1433             ENDDO
1434             DO  j = 1, (ny+1)/2 - 1
1435                ar(ny+1-j) = AIMAG( y_out(j) ) / (ny+1)
1436             ENDDO
1437
1438          ELSE
1439
1440             y_out(0) = CMPLX( ar(0), 0.0_wp, KIND=wp )
1441             DO  j = 1, (ny+1)/2 - 1
1442                y_out(j) = CMPLX( ar(j), ar(ny+1-j), KIND=wp )
1443             ENDDO
1444             y_out((ny+1)/2) = CMPLX( ar((ny+1)/2), 0.0_wp, KIND=wp )
1445
1446             CALL FFTW_EXECUTE_DFT_C2R( plan_yi, y_out, y_in )
1447             ar(0:ny) = y_in(0:ny)
1448
1449          ENDIF
1450#endif
1451
1452       ELSEIF ( fft_method == 'system-specific' )  THEN
1453
1454#if defined( __ibm )
1455          IF ( forward_fft )  THEN
1456
1457             CALL DRCFT( 0, ar, 1, work, 1, ny+1, 1, 1, sqr_dny, auy1, nau1,   &
1458                         auy2, nau2 )
1459
1460             DO  j = 0, (ny+1)/2
1461                ar(j) = work(2*j)
1462             ENDDO
1463             DO  j = 1, (ny+1)/2 - 1
1464                ar(ny+1-j) = work(2*j+1)
1465             ENDDO
1466
1467          ELSE
1468
1469             DO  j = 0, (ny+1)/2
1470                work(2*j) = ar(j)
1471             ENDDO
1472             DO  j = 1, (ny+1)/2 - 1
1473                work(2*j+1) = ar(ny+1-j)
1474             ENDDO
1475             work(1)    = 0.0_wp
1476             work(ny+2) = 0.0_wp
1477
1478             CALL DCRFT( 0, work, 1, work, 1, ny+1, 1, -1, sqr_dny, auy3,      &
1479                         nau1, auy4, nau2 )
1480
1481             DO  j = 0, ny
1482                ar(j) = work(j)
1483             ENDDO
1484
1485          ENDIF
1486#elif defined( __nec )
1487          IF ( forward_fft )  THEN
1488
1489             work(0:ny) = ar(0:ny)
1490
1491             CALL DZFFT( 1, ny+1, sqr_dny, work, work, trig_yf, work2, 0 )
1492
1493             DO  j = 0, (ny+1)/2
1494                ar(j) = work(2*j)
1495             ENDDO
1496             DO  j = 1, (ny+1)/2 - 1
1497                ar(ny+1-j) = work(2*j+1)
1498             ENDDO
1499
1500          ELSE
1501
1502             DO  j = 0, (ny+1)/2
1503                work(2*j) = ar(j)
1504             ENDDO
1505             DO  j = 1, (ny+1)/2 - 1
1506                work(2*j+1) = ar(ny+1-j)
1507             ENDDO
1508             work(1) = 0.0_wp
1509             work(ny+2) = 0.0_wp
1510
1511             CALL ZDFFT( -1, ny+1, sqr_dny, work, work, trig_yb, work2, 0 )
1512
1513             ar(0:ny) = work(0:ny)
1514
1515          ENDIF
1516#endif
1517
1518       ENDIF
1519
1520    END SUBROUTINE fft_y_1d
1521
1522!------------------------------------------------------------------------------!
1523! Description:
1524! ------------
1525!> Fourier-transformation along x-direction.
1526!> Version for 1d domain decomposition
1527!> using multiple 1D FFT from Math Keisan on NEC or Temperton-algorithm
1528!> (no singleton-algorithm on NEC because it does not vectorize)
1529!------------------------------------------------------------------------------!
1530 
1531    SUBROUTINE fft_x_m( ar, direction )
1532
1533
1534       IMPLICIT NONE
1535
1536       CHARACTER (LEN=*) ::  direction  !<
1537       
1538       INTEGER(iwp) ::  i     !<
1539       INTEGER(iwp) ::  k     !<
1540       INTEGER(iwp) ::  siza  !<
1541#if defined( __nec )
1542       INTEGER(iwp) ::  sizw
1543#endif
1544
1545       REAL(wp), DIMENSION(0:nx,nz)       ::  ar     !<
1546       REAL(wp), DIMENSION(0:nx+3,nz+1)   ::  ai     !<
1547       REAL(wp), DIMENSION(6*(nx+4),nz+1) ::  work1  !<
1548       
1549#if defined( __nec )
1550       COMPLEX(wp), DIMENSION(:,:), ALLOCATABLE ::  work
1551#endif
1552
1553       IF ( fft_method == 'temperton-algorithm' )  THEN
1554
1555          siza = SIZE( ai, 1 )
1556
1557          IF ( direction == 'forward')  THEN
1558
1559             ai(0:nx,1:nz) = ar(0:nx,1:nz)
1560             ai(nx+1:,:)   = 0.0_wp
1561
1562             CALL fft991cy( ai, work1, trigs_x, ifax_x, 1, siza, nx+1, nz, -1 )
1563
1564             DO  k = 1, nz
1565                DO  i = 0, (nx+1)/2
1566                   ar(i,k) = ai(2*i,k)
1567                ENDDO
1568                DO  i = 1, (nx+1)/2 - 1
1569                   ar(nx+1-i,k) = ai(2*i+1,k)
1570                ENDDO
1571             ENDDO
1572
1573          ELSE
1574
1575             DO  k = 1, nz
1576                DO  i = 0, (nx+1)/2
1577                   ai(2*i,k) = ar(i,k)
1578                ENDDO
1579                DO  i = 1, (nx+1)/2 - 1
1580                   ai(2*i+1,k) = ar(nx+1-i,k)
1581                ENDDO
1582                ai(1,k) = 0.0_wp
1583                ai(nx+2,k) = 0.0_wp
1584             ENDDO
1585
1586             CALL fft991cy( ai, work1, trigs_x, ifax_x, 1, siza, nx+1, nz, 1 )
1587
1588             ar(0:nx,1:nz) = ai(0:nx,1:nz)
1589
1590          ENDIF
1591
1592       ELSEIF ( fft_method == 'system-specific' )  THEN
1593
1594#if defined( __nec )
1595          ALLOCATE( work((nx+4)/2+1,nz+1) )
1596          siza = SIZE( ai, 1 )
1597          sizw = SIZE( work, 1 )
1598
1599          IF ( direction == 'forward')  THEN
1600
1601!
1602!--          Tables are initialized once more. This call should not be
1603!--          necessary, but otherwise program aborts in asymmetric case
1604             CALL DZFFTM( 0, nx+1, nz1, sqr_dnx, work, nx+4, work, nx+4,       &
1605                          trig_xf, work1, 0 )
1606
1607             ai(0:nx,1:nz) = ar(0:nx,1:nz)
1608             IF ( nz1 > nz )  THEN
1609                ai(:,nz1) = 0.0_wp
1610             ENDIF
1611
1612             CALL DZFFTM( 1, nx+1, nz1, sqr_dnx, ai, siza, work, sizw,         &
1613                          trig_xf, work1, 0 )
1614
1615             DO  k = 1, nz
1616                DO  i = 0, (nx+1)/2
1617                   ar(i,k) = REAL( work(i+1,k), KIND=wp )
1618                ENDDO
1619                DO  i = 1, (nx+1)/2 - 1
1620                   ar(nx+1-i,k) = AIMAG( work(i+1,k) )
1621                ENDDO
1622             ENDDO
1623
1624          ELSE
1625
1626!
1627!--          Tables are initialized once more. This call should not be
1628!--          necessary, but otherwise program aborts in asymmetric case
1629             CALL ZDFFTM( 0, nx+1, nz1, sqr_dnx, work, nx+4, work, nx+4,       &
1630                          trig_xb, work1, 0 )
1631
1632             IF ( nz1 > nz )  THEN
1633                work(:,nz1) = 0.0_wp
1634             ENDIF
1635             DO  k = 1, nz
1636                work(1,k) = CMPLX( ar(0,k), 0.0_wp, KIND=wp )
1637                DO  i = 1, (nx+1)/2 - 1
1638                   work(i+1,k) = CMPLX( ar(i,k), ar(nx+1-i,k), KIND=wp )
1639                ENDDO
1640                work(((nx+1)/2)+1,k) = CMPLX( ar((nx+1)/2,k), 0.0_wp, KIND=wp )
1641             ENDDO
1642
1643             CALL ZDFFTM( -1, nx+1, nz1, sqr_dnx, work, sizw, ai, siza, &
1644                          trig_xb, work1, 0 )
1645
1646             ar(0:nx,1:nz) = ai(0:nx,1:nz)
1647
1648          ENDIF
1649
1650          DEALLOCATE( work )
1651#endif
1652
1653       ENDIF
1654
1655    END SUBROUTINE fft_x_m
1656
1657!------------------------------------------------------------------------------!
1658! Description:
1659! ------------
1660!> Fourier-transformation along y-direction.
1661!> Version for 1d domain decomposition
1662!> using multiple 1D FFT from Math Keisan on NEC or Temperton-algorithm
1663!> (no singleton-algorithm on NEC because it does not vectorize)
1664!------------------------------------------------------------------------------!
1665 
1666    SUBROUTINE fft_y_m( ar, ny1, direction )
1667
1668
1669       IMPLICIT NONE
1670
1671       CHARACTER (LEN=*) ::  direction  !<
1672       
1673       INTEGER(iwp) ::  j     !<
1674       INTEGER(iwp) ::  k     !<
1675       INTEGER(iwp) ::  ny1   !<
1676       INTEGER(iwp) ::  siza  !<
1677#if defined( __nec )
1678       INTEGER(iwp) ::  sizw
1679#endif
1680
1681       REAL(wp), DIMENSION(0:ny1,nz)      ::  ar     !<
1682       REAL(wp), DIMENSION(0:ny+3,nz+1)   ::  ai     !<
1683       REAL(wp), DIMENSION(6*(ny+4),nz+1) ::  work1  !<
1684
1685#if defined( __nec )
1686       COMPLEX(wp), DIMENSION(:,:), ALLOCATABLE ::  work
1687#endif
1688
1689
1690       IF ( fft_method == 'temperton-algorithm' )  THEN
1691
1692          siza = SIZE( ai, 1 )
1693
1694          IF ( direction == 'forward')  THEN
1695
1696             ai(0:ny,1:nz) = ar(0:ny,1:nz)
1697             ai(ny+1:,:)   = 0.0_wp
1698
1699             CALL fft991cy( ai, work1, trigs_y, ifax_y, 1, siza, ny+1, nz, -1 )
1700
1701             DO  k = 1, nz
1702                DO  j = 0, (ny+1)/2
1703                   ar(j,k) = ai(2*j,k)
1704                ENDDO
1705                DO  j = 1, (ny+1)/2 - 1
1706                   ar(ny+1-j,k) = ai(2*j+1,k)
1707                ENDDO
1708             ENDDO
1709
1710          ELSE
1711
1712             DO  k = 1, nz
1713                DO  j = 0, (ny+1)/2
1714                   ai(2*j,k) = ar(j,k)
1715                ENDDO
1716                DO  j = 1, (ny+1)/2 - 1
1717                   ai(2*j+1,k) = ar(ny+1-j,k)
1718                ENDDO
1719                ai(1,k) = 0.0_wp
1720                ai(ny+2,k) = 0.0_wp
1721             ENDDO
1722
1723             CALL fft991cy( ai, work1, trigs_y, ifax_y, 1, siza, ny+1, nz, 1 )
1724
1725             ar(0:ny,1:nz) = ai(0:ny,1:nz)
1726
1727          ENDIF
1728
1729       ELSEIF ( fft_method == 'system-specific' )  THEN
1730
1731#if defined( __nec )
1732          ALLOCATE( work((ny+4)/2+1,nz+1) )
1733          siza = SIZE( ai, 1 )
1734          sizw = SIZE( work, 1 )
1735
1736          IF ( direction == 'forward')  THEN
1737
1738!
1739!--          Tables are initialized once more. This call should not be
1740!--          necessary, but otherwise program aborts in asymmetric case
1741             CALL DZFFTM( 0, ny+1, nz1, sqr_dny, work, ny+4, work, ny+4, &
1742                          trig_yf, work1, 0 )
1743
1744             ai(0:ny,1:nz) = ar(0:ny,1:nz)
1745             IF ( nz1 > nz )  THEN
1746                ai(:,nz1) = 0.0_wp
1747             ENDIF
1748
1749             CALL DZFFTM( 1, ny+1, nz1, sqr_dny, ai, siza, work, sizw, &
1750                          trig_yf, work1, 0 )
1751
1752             DO  k = 1, nz
1753                DO  j = 0, (ny+1)/2
1754                   ar(j,k) = REAL( work(j+1,k), KIND=wp )
1755                ENDDO
1756                DO  j = 1, (ny+1)/2 - 1
1757                   ar(ny+1-j,k) = AIMAG( work(j+1,k) )
1758                ENDDO
1759             ENDDO
1760
1761          ELSE
1762
1763!
1764!--          Tables are initialized once more. This call should not be
1765!--          necessary, but otherwise program aborts in asymmetric case
1766             CALL ZDFFTM( 0, ny+1, nz1, sqr_dny, work, ny+4, work, ny+4, &
1767                          trig_yb, work1, 0 )
1768
1769             IF ( nz1 > nz )  THEN
1770                work(:,nz1) = 0.0_wp
1771             ENDIF
1772             DO  k = 1, nz
1773                work(1,k) = CMPLX( ar(0,k), 0.0_wp, KIND=wp )
1774                DO  j = 1, (ny+1)/2 - 1
1775                   work(j+1,k) = CMPLX( ar(j,k), ar(ny+1-j,k), KIND=wp )
1776                ENDDO
1777                work(((ny+1)/2)+1,k) = CMPLX( ar((ny+1)/2,k), 0.0_wp, KIND=wp )
1778             ENDDO
1779
1780             CALL ZDFFTM( -1, ny+1, nz1, sqr_dny, work, sizw, ai, siza, &
1781                          trig_yb, work1, 0 )
1782
1783             ar(0:ny,1:nz) = ai(0:ny,1:nz)
1784
1785          ENDIF
1786
1787          DEALLOCATE( work )
1788#endif
1789
1790       ENDIF
1791
1792    END SUBROUTINE fft_y_m
1793
1794
1795 END MODULE fft_xy
Note: See TracBrowser for help on using the repository browser.