Home

Context Navigation

source: palm/trunk/SOURCE/fft_xy_mod.f90 @ 2053

Last change on this file since 2053 was 2001, checked in by knoop, 8 years ago
last commit documented
Property svn:keywords set to `Id`
File size: 57.2 KB

Rev	Line
[1850]	1	!> @file fft_xy_mod.f90
[2000]	2	!------------------------------------------------------------------------------!
[1036]	3	! This file is part of PALM.
	4	!
[2000]	5	! PALM is free software: you can redistribute it and/or modify it under the
	6	! terms of the GNU General Public License as published by the Free Software
	7	! Foundation, either version 3 of the License, or (at your option) any later
	8	! version.
[1036]	9	!
	10	! PALM is distributed in the hope that it will be useful, but WITHOUT ANY
	11	! WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR
	12	! A PARTICULAR PURPOSE. See the GNU General Public License for more details.
	13	!
	14	! You should have received a copy of the GNU General Public License along with
	15	! PALM. If not, see <http://www.gnu.org/licenses/>.
	16	!
[1818]	17	! Copyright 1997-2016 Leibniz Universitaet Hannover
[1322]	18	!------------------------------------------------------------------------------!
[1036]	19	!
[254]	20	! Current revisions:
[1]	21	! -----------------
[1683]	22	!
[2001]	23	!
[1321]	24	! Former revisions:
	25	! -----------------
	26	! $Id: fft_xy_mod.f90 2001 2016-08-20 18:41:22Z gronemeier $
	27	!
[2001]	28	! 2000 2016-08-20 18:09:15Z knoop
	29	! Forced header and separation lines into 80 columns
	30	!
[1851]	31	! 1850 2016-04-08 13:29:27Z maronga
	32	! Module renamed
	33	!
	34	!
[1816]	35	! 1815 2016-04-06 13:49:59Z raasch
	36	! cpp-directives for ibmy removed
	37	!
[1750]	38	! 1749 2016-02-09 12:19:56Z raasch
	39	! small OpenACC bugfix
	40	!
[1683]	41	! 1682 2015-10-07 23:56:08Z knoop
	42	! Code annotations made doxygen readable
	43	!
[1601]	44	! 1600 2015-06-11 15:50:12Z raasch
	45	! bugfix: openMP threadprivate statement moved after variable declaration
	46	!
[1483]	47	! 1482 2014-10-18 12:34:45Z raasch
	48	! cudafft workaround for data declaration of ar_tmp because of PGI 14.1 bug
	49	!
[1403]	50	! 1402 2014-05-09 14:25:13Z raasch
	51	! fortran bugfix for r1392
	52	!
[1399]	53	! 1398 2014-05-07 11:15:00Z heinze
	54	! bugfix: typo removed for KIND in CMPLX function
	55	!
[1393]	56	! 1392 2014-05-06 09:10:05Z raasch
	57	! bugfix: KIND attribute added to CMPLX functions
	58	!
[1375]	59	! 1374 2014-04-25 12:55:07Z raasch
	60	! bugfixes: missing variables added to ONLY list, dpk renamed dp
	61	!
[1373]	62	! 1372 2014-04-24 06:29:32Z raasch
	63	! openMP-bugfix for fftw: some arrays defined as threadprivate
	64	!
[1354]	65	! 1353 2014-04-08 15:21:23Z heinze
	66	! REAL constants provided with KIND-attribute
	67	!
[1343]	68	! 1342 2014-03-26 17:04:47Z kanani
	69	! REAL constants defined as wp-kind
	70	!
[1323]	71	! 1322 2014-03-20 16:38:49Z raasch
	72	! REAL functions provided with KIND-attribute
	73	!
[1321]	74	! 1320 2014-03-20 08:40:49Z raasch
[1320]	75	! ONLY-attribute added to USE-statements,
	76	! kind-parameters added to all INTEGER and REAL declaration statements,
	77	! kinds are defined in new module kinds,
	78	! old module precision_kind is removed,
	79	! revision history before 2012 removed,
	80	! comment fields (!:) to be used for variable explanations added to
	81	! all variable declaration statements
[1]	82	!
[1305]	83	! 1304 2014-03-12 10:29:42Z raasch
	84	! openmp bugfix: work1 used in Temperton algorithm must be private
	85	!
[1258]	86	! 1257 2013-11-08 15:18:40Z raasch
	87	! openacc loop and loop vector clauses removed, declare create moved after
	88	! the FORTRAN declaration statement
	89	!
[1220]	90	! 1219 2013-08-30 09:33:18Z heinze
	91	! bugfix: use own branch for fftw
	92	!
[1217]	93	! 1216 2013-08-26 09:31:42Z raasch
	94	! fft_x and fft_y modified for parallel / ovverlapping execution of fft and
	95	! transpositions,
	96	! fftw implemented for 1d-decomposition (fft_x_1d, fft_y_1d)
	97	!
[1211]	98	! 1210 2013-08-14 10:58:20Z raasch
	99	! fftw added
	100	!
[1167]	101	! 1166 2013-05-24 13:55:44Z raasch
	102	! C_DOUBLE/COMPLEX reset to dpk
	103	!
[1154]	104	! 1153 2013-05-10 14:33:08Z raasch
	105	! code adjustment of data types for CUDA fft required by PGI 12.3 / CUDA 5.0
	106	!
[1112]	107	! 1111 2013-03-08 23:54:10Z raasch
	108	! further openACC statements added, CUDA branch completely runs on GPU
	109	! bugfix: CUDA fft plans adjusted for domain decomposition (before they always
	110	! used total domain)
	111	!
[1107]	112	! 1106 2013-03-04 05:31:38Z raasch
	113	! CUDA fft added
	114	! array_kind renamed precision_kind, 3D- instead of 1D-loops in fft_x and fft_y
	115	! old fft_x, fft_y become fft_x_1d, fft_y_1d and are used for 1D-decomposition
	116	!
[1093]	117	! 1092 2013-02-02 11:24:22Z raasch
	118	! variable sizw declared for NEC case only
	119	!
[1037]	120	! 1036 2012-10-22 13:43:42Z raasch
	121	! code put under GPL (PALM 3.9)
	122	!
[1]	123	! Revision 1.1 2002/06/11 13:00:49 raasch
	124	! Initial revision
	125	!
	126	!
	127	! Description:
	128	! ------------
[1682]	129	!> Fast Fourier transformation along x and y for 1d domain decomposition along x.
	130	!> Original version: Klaus Ketelsen (May 2002)
[1]	131	!------------------------------------------------------------------------------!
[1682]	132	MODULE fft_xy
	133
[1]	134
[1320]	135	USE control_parameters, &
	136	ONLY: fft_method, message_string
	137
	138	USE indices, &
	139	ONLY: nx, ny, nz
	140
[1153]	141	#if defined( __cuda_fft )
	142	USE ISO_C_BINDING
[1210]	143	#elif defined( __fftw )
	144	USE, INTRINSIC :: ISO_C_BINDING
[1153]	145	#endif
[1320]	146
	147	USE kinds
	148
	149	USE singleton, &
	150	ONLY: fftn
	151
[1]	152	USE temperton_fft
[1320]	153
	154	USE transpose_indices, &
[1374]	155	ONLY: nxl_y, nxr_y, nyn_x, nys_x, nzb_x, nzb_y, nzt_x, nzt_y
[1]	156
	157	IMPLICIT NONE
	158
	159	PRIVATE
[1106]	160	PUBLIC fft_x, fft_x_1d, fft_y, fft_y_1d, fft_init, fft_x_m, fft_y_m
[1]	161
[1682]	162	INTEGER(iwp), DIMENSION(:), ALLOCATABLE, SAVE :: ifax_x !<
	163	INTEGER(iwp), DIMENSION(:), ALLOCATABLE, SAVE :: ifax_y !<
[1]	164
[1682]	165	LOGICAL, SAVE :: init_fft = .FALSE. !<
[1]	166
[1682]	167	REAL(wp), SAVE :: dnx !<
	168	REAL(wp), SAVE :: dny !<
	169	REAL(wp), SAVE :: sqr_dnx !<
	170	REAL(wp), SAVE :: sqr_dny !<
[1320]	171
[1682]	172	REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE :: trigs_x !<
	173	REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE :: trigs_y !<
[1]	174
	175	#if defined( __ibm )
[1682]	176	INTEGER(iwp), PARAMETER :: nau1 = 20000 !<
	177	INTEGER(iwp), PARAMETER :: nau2 = 22000 !<
[1]	178	!
	179	!-- The following working arrays contain tables and have to be "save" and
	180	!-- shared in OpenMP sense
[1682]	181	REAL(wp), DIMENSION(nau1), SAVE :: aux1 !<
	182	REAL(wp), DIMENSION(nau1), SAVE :: auy1 !<
	183	REAL(wp), DIMENSION(nau1), SAVE :: aux3 !<
	184	REAL(wp), DIMENSION(nau1), SAVE :: auy3 !<
[1320]	185
[1]	186	#elif defined( __nec )
[1682]	187	INTEGER(iwp), SAVE :: nz1 !<
[1320]	188
[1682]	189	REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE :: trig_xb !<
	190	REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE :: trig_xf !<
	191	REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE :: trig_yb !<
	192	REAL(wp), DIMENSION(:), ALLOCATABLE, SAVE :: trig_yf !<
[1320]	193
[1106]	194	#elif defined( __cuda_fft )
[1682]	195	INTEGER(C_INT), SAVE :: plan_xf !<
	196	INTEGER(C_INT), SAVE :: plan_xi !<
	197	INTEGER(C_INT), SAVE :: plan_yf !<
	198	INTEGER(C_INT), SAVE :: plan_yi !<
[1320]	199
[1682]	200	INTEGER(iwp), SAVE :: total_points_x_transpo !<
	201	INTEGER(iwp), SAVE :: total_points_y_transpo !<
[1219]	202	#endif
	203
	204	#if defined( __fftw )
[1210]	205	INCLUDE 'fftw3.f03'
[1682]	206	INTEGER(KIND=C_INT) :: nx_c !<
	207	INTEGER(KIND=C_INT) :: ny_c !<
[1320]	208
[1682]	209	COMPLEX(KIND=C_DOUBLE_COMPLEX), DIMENSION(:), ALLOCATABLE, SAVE :: x_out !<
[1320]	210	COMPLEX(KIND=C_DOUBLE_COMPLEX), DIMENSION(:), ALLOCATABLE, SAVE :: &
[1682]	211	y_out !<
[1320]	212
	213	REAL(KIND=C_DOUBLE), DIMENSION(:), ALLOCATABLE, SAVE :: &
[1682]	214	x_in !<
[1320]	215	REAL(KIND=C_DOUBLE), DIMENSION(:), ALLOCATABLE, SAVE :: &
[1682]	216	y_in !<
[1600]	217	!$OMP THREADPRIVATE( x_out, y_out, x_in, y_in )
[1320]	218
	219
[1210]	220	TYPE(C_PTR), SAVE :: plan_xf, plan_xi, plan_yf, plan_yi
[1]	221	#endif
	222
	223	!
	224	!-- Public interfaces
	225	INTERFACE fft_init
	226	MODULE PROCEDURE fft_init
	227	END INTERFACE fft_init
	228
	229	INTERFACE fft_x
	230	MODULE PROCEDURE fft_x
	231	END INTERFACE fft_x
	232
[1106]	233	INTERFACE fft_x_1d
	234	MODULE PROCEDURE fft_x_1d
	235	END INTERFACE fft_x_1d
	236
[1]	237	INTERFACE fft_y
	238	MODULE PROCEDURE fft_y
	239	END INTERFACE fft_y
	240
[1106]	241	INTERFACE fft_y_1d
	242	MODULE PROCEDURE fft_y_1d
	243	END INTERFACE fft_y_1d
	244
[1]	245	INTERFACE fft_x_m
	246	MODULE PROCEDURE fft_x_m
	247	END INTERFACE fft_x_m
	248
	249	INTERFACE fft_y_m
	250	MODULE PROCEDURE fft_y_m
	251	END INTERFACE fft_y_m
	252
	253	CONTAINS
	254
	255
[1682]	256	!------------------------------------------------------------------------------!
	257	! Description:
	258	! ------------
	259	!> @todo Missing subroutine description.
	260	!------------------------------------------------------------------------------!
[1]	261	SUBROUTINE fft_init
	262
[1106]	263	USE cuda_fft_interfaces
	264
[1]	265	IMPLICIT NONE
	266
	267	!
	268	!-- The following temporary working arrays have to be on stack or private
	269	!-- in OpenMP sense
	270	#if defined( __ibm )
[1682]	271	REAL(wp), DIMENSION(0:nx+2) :: workx !<
	272	REAL(wp), DIMENSION(0:ny+2) :: worky !<
	273	REAL(wp), DIMENSION(nau2) :: aux2 !<
	274	REAL(wp), DIMENSION(nau2) :: auy2 !<
	275	REAL(wp), DIMENSION(nau2) :: aux4 !<
	276	REAL(wp), DIMENSION(nau2) :: auy4 !<
[1]	277	#elif defined( __nec )
[1682]	278	REAL(wp), DIMENSION(0:nx+3,nz+1) :: work_x !<
	279	REAL(wp), DIMENSION(0:ny+3,nz+1) :: work_y !<
	280	REAL(wp), DIMENSION(6*(nx+3),nz+1) :: workx !<
	281	REAL(wp), DIMENSION(6*(ny+3),nz+1) :: worky !<
[1]	282	#endif
	283
	284	!
	285	!-- Return, if already called
	286	IF ( init_fft ) THEN
	287	RETURN
	288	ELSE
	289	init_fft = .TRUE.
	290	ENDIF
	291
	292	IF ( fft_method == 'system-specific' ) THEN
	293
[1342]	294	dnx = 1.0_wp / ( nx + 1.0_wp )
	295	dny = 1.0_wp / ( ny + 1.0_wp )
[1106]	296	sqr_dnx = SQRT( dnx )
	297	sqr_dny = SQRT( dny )
[1815]	298	#if defined( __ibm )
[1]	299	!
	300	!-- Initialize tables for fft along x
[1106]	301	CALL DRCFT( 1, workx, 1, workx, 1, nx+1, 1, 1, sqr_dnx, aux1, nau1, &
[1]	302	aux2, nau2 )
[1106]	303	CALL DCRFT( 1, workx, 1, workx, 1, nx+1, 1, -1, sqr_dnx, aux3, nau1, &
[1]	304	aux4, nau2 )
	305	!
	306	!-- Initialize tables for fft along y
[1106]	307	CALL DRCFT( 1, worky, 1, worky, 1, ny+1, 1, 1, sqr_dny, auy1, nau1, &
[1]	308	auy2, nau2 )
[1106]	309	CALL DCRFT( 1, worky, 1, worky, 1, ny+1, 1, -1, sqr_dny, auy3, nau1, &
[1]	310	auy4, nau2 )
	311	#elif defined( __nec )
[254]	312	message_string = 'fft method "' // TRIM( fft_method) // &
	313	'" currently does not work on NEC'
	314	CALL message( 'fft_init', 'PA0187', 1, 2, 0, 6, 0 )
[1]	315
[1320]	316	ALLOCATE( trig_xb(2(nx+1)), trig_xf(2(nx+1)), &
[1]	317	trig_yb(2(ny+1)), trig_yf(2(ny+1)) )
	318
[1342]	319	work_x = 0.0_wp
	320	work_y = 0.0_wp
[1]	321	nz1 = nz + MOD( nz+1, 2 ) ! odd nz slows down fft significantly
	322	! when using the NEC ffts
	323
	324	!
	325	!-- Initialize tables for fft along x (non-vector and vector case (M))
[1106]	326	CALL DZFFT( 0, nx+1, sqr_dnx, work_x, work_x, trig_xf, workx, 0 )
	327	CALL ZDFFT( 0, nx+1, sqr_dnx, work_x, work_x, trig_xb, workx, 0 )
[1320]	328	CALL DZFFTM( 0, nx+1, nz1, sqr_dnx, work_x, nx+4, work_x, nx+4, &
[1]	329	trig_xf, workx, 0 )
[1320]	330	CALL ZDFFTM( 0, nx+1, nz1, sqr_dnx, work_x, nx+4, work_x, nx+4, &
[1]	331	trig_xb, workx, 0 )
	332	!
	333	!-- Initialize tables for fft along y (non-vector and vector case (M))
[1106]	334	CALL DZFFT( 0, ny+1, sqr_dny, work_y, work_y, trig_yf, worky, 0 )
	335	CALL ZDFFT( 0, ny+1, sqr_dny, work_y, work_y, trig_yb, worky, 0 )
[1320]	336	CALL DZFFTM( 0, ny+1, nz1, sqr_dny, work_y, ny+4, work_y, ny+4, &
[1]	337	trig_yf, worky, 0 )
[1320]	338	CALL ZDFFTM( 0, ny+1, nz1, sqr_dny, work_y, ny+4, work_y, ny+4, &
[1]	339	trig_yb, worky, 0 )
[1106]	340	#elif defined( __cuda_fft )
	341	total_points_x_transpo = (nx+1) * (nyn_x-nys_x+1) * (nzt_x-nzb_x+1)
	342	total_points_y_transpo = (ny+1) * (nxr_y-nxl_y+1) * (nzt_y-nzb_y+1)
[1111]	343	CALL CUFFTPLAN1D( plan_xf, nx+1, CUFFT_D2Z, (nyn_x-nys_x+1) * (nzt_x-nzb_x+1) )
	344	CALL CUFFTPLAN1D( plan_xi, nx+1, CUFFT_Z2D, (nyn_x-nys_x+1) * (nzt_x-nzb_x+1) )
	345	CALL CUFFTPLAN1D( plan_yf, ny+1, CUFFT_D2Z, (nxr_y-nxl_y+1) * (nzt_y-nzb_y+1) )
	346	CALL CUFFTPLAN1D( plan_yi, ny+1, CUFFT_Z2D, (nxr_y-nxl_y+1) * (nzt_y-nzb_y+1) )
[1]	347	#else
[254]	348	message_string = 'no system-specific fft-call available'
	349	CALL message( 'fft_init', 'PA0188', 1, 2, 0, 6, 0 )
[1]	350	#endif
	351	ELSEIF ( fft_method == 'temperton-algorithm' ) THEN
	352	!
	353	!-- Temperton-algorithm
	354	!-- Initialize tables for fft along x and y
	355	ALLOCATE( ifax_x(nx+1), ifax_y(ny+1), trigs_x(nx+1), trigs_y(ny+1) )
	356
	357	CALL set99( trigs_x, ifax_x, nx+1 )
	358	CALL set99( trigs_y, ifax_y, ny+1 )
	359
[1210]	360	ELSEIF ( fft_method == 'fftw' ) THEN
	361	!
	362	!-- FFTW
	363	#if defined( __fftw )
	364	nx_c = nx+1
	365	ny_c = ny+1
[1372]	366	!$OMP PARALLEL
[1320]	367	ALLOCATE( x_in(0:nx+2), y_in(0:ny+2), x_out(0:(nx+1)/2), &
[1210]	368	y_out(0:(ny+1)/2) )
[1372]	369	!$OMP END PARALLEL
[1210]	370	plan_xf = FFTW_PLAN_DFT_R2C_1D( nx_c, x_in, x_out, FFTW_ESTIMATE )
	371	plan_xi = FFTW_PLAN_DFT_C2R_1D( nx_c, x_out, x_in, FFTW_ESTIMATE )
	372	plan_yf = FFTW_PLAN_DFT_R2C_1D( ny_c, y_in, y_out, FFTW_ESTIMATE )
	373	plan_yi = FFTW_PLAN_DFT_C2R_1D( ny_c, y_out, y_in, FFTW_ESTIMATE )
	374	#else
	375	message_string = 'preprocessor switch for fftw is missing'
	376	CALL message( 'fft_init', 'PA0080', 1, 2, 0, 6, 0 )
	377	#endif
	378
[1]	379	ELSEIF ( fft_method == 'singleton-algorithm' ) THEN
	380
	381	CONTINUE
	382
	383	ELSE
	384
[254]	385	message_string = 'fft method "' // TRIM( fft_method) // &
	386	'" not available'
	387	CALL message( 'fft_init', 'PA0189', 1, 2, 0, 6, 0 )
[1]	388	ENDIF
	389
	390	END SUBROUTINE fft_init
	391
	392
[1682]	393	!------------------------------------------------------------------------------!
	394	! Description:
	395	! ------------
	396	!> Fourier-transformation along x-direction.
	397	!> Version for 2D-decomposition.
	398	!> It uses internal algorithms (Singleton or Temperton) or
	399	!> system-specific routines, if they are available
	400	!------------------------------------------------------------------------------!
	401
[1216]	402	SUBROUTINE fft_x( ar, direction, ar_2d )
[1]	403
	404
[1106]	405	USE cuda_fft_interfaces
[1153]	406	#if defined( __cuda_fft )
	407	USE ISO_C_BINDING
	408	#endif
[1106]	409
[1]	410	IMPLICIT NONE
	411
[1682]	412	CHARACTER (LEN=*) :: direction !<
[1320]	413
[1682]	414	COMPLEX(wp), DIMENSION(:), ALLOCATABLE :: cwork !<
[1106]	415
[1682]	416	INTEGER(iwp) :: i !<
	417	INTEGER(iwp) :: ishape(1) !<
	418	INTEGER(iwp) :: j !<
	419	INTEGER(iwp) :: k !<
[1106]	420
[1682]	421	LOGICAL :: forward_fft !<
[1320]	422
[1682]	423	REAL(wp), DIMENSION(0:nx+2) :: work !<
	424	REAL(wp), DIMENSION(nx+2) :: work1 !<
[1320]	425
[1106]	426	#if defined( __ibm )
[1682]	427	REAL(wp), DIMENSION(nau2) :: aux2 !<
	428	REAL(wp), DIMENSION(nau2) :: aux4 !<
[1106]	429	#elif defined( __nec )
[1682]	430	REAL(wp), DIMENSION(6*(nx+1)) :: work2 !<
[1106]	431	#elif defined( __cuda_fft )
[1374]	432	COMPLEX(dp), DIMENSION(0:(nx+1)/2,nys_x:nyn_x,nzb_x:nzt_x) :: &
[1682]	433	ar_tmp !<
[1482]	434	! following does not work for PGI 14.1 -> to be removed later
	435	! !$acc declare create( ar_tmp )
[1106]	436	#endif
	437
[1320]	438	REAL(wp), DIMENSION(0:nx,nys_x:nyn_x), OPTIONAL :: &
[1682]	439	ar_2d !<
[1320]	440	REAL(wp), DIMENSION(0:nx,nys_x:nyn_x,nzb_x:nzt_x) :: &
[1682]	441	ar !<
[1320]	442
[1106]	443	IF ( direction == 'forward' ) THEN
	444	forward_fft = .TRUE.
	445	ELSE
	446	forward_fft = .FALSE.
	447	ENDIF
	448
	449	IF ( fft_method == 'singleton-algorithm' ) THEN
	450
	451	!
	452	!-- Performing the fft with singleton's software works on every system,
	453	!-- since it is part of the model
	454	ALLOCATE( cwork(0:nx) )
	455
	456	IF ( forward_fft ) then
	457
	458	!$OMP PARALLEL PRIVATE ( cwork, i, ishape, j, k )
	459	!$OMP DO
	460	DO k = nzb_x, nzt_x
	461	DO j = nys_x, nyn_x
	462
	463	DO i = 0, nx
[1392]	464	cwork(i) = CMPLX( ar(i,j,k), KIND=wp )
[1106]	465	ENDDO
	466
	467	ishape = SHAPE( cwork )
	468	CALL FFTN( cwork, ishape )
	469
	470	DO i = 0, (nx+1)/2
[1322]	471	ar(i,j,k) = REAL( cwork(i), KIND=wp )
[1106]	472	ENDDO
	473	DO i = 1, (nx+1)/2 - 1
	474	ar(nx+1-i,j,k) = -AIMAG( cwork(i) )
	475	ENDDO
	476
	477	ENDDO
	478	ENDDO
	479	!$OMP END PARALLEL
	480
	481	ELSE
	482
	483	!$OMP PARALLEL PRIVATE ( cwork, i, ishape, j, k )
	484	!$OMP DO
	485	DO k = nzb_x, nzt_x
	486	DO j = nys_x, nyn_x
	487
[1392]	488	cwork(0) = CMPLX( ar(0,j,k), 0.0_wp, KIND=wp )
[1106]	489	DO i = 1, (nx+1)/2 - 1
[1392]	490	cwork(i) = CMPLX( ar(i,j,k), -ar(nx+1-i,j,k), &
	491	KIND=wp )
	492	cwork(nx+1-i) = CMPLX( ar(i,j,k), ar(nx+1-i,j,k), &
	493	KIND=wp )
[1106]	494	ENDDO
[1392]	495	cwork((nx+1)/2) = CMPLX( ar((nx+1)/2,j,k), 0.0_wp, KIND=wp )
[1106]	496
	497	ishape = SHAPE( cwork )
	498	CALL FFTN( cwork, ishape, inv = .TRUE. )
	499
	500	DO i = 0, nx
[1322]	501	ar(i,j,k) = REAL( cwork(i), KIND=wp )
[1106]	502	ENDDO
	503
	504	ENDDO
	505	ENDDO
	506	!$OMP END PARALLEL
	507
	508	ENDIF
	509
	510	DEALLOCATE( cwork )
	511
	512	ELSEIF ( fft_method == 'temperton-algorithm' ) THEN
	513
	514	!
	515	!-- Performing the fft with Temperton's software works on every system,
	516	!-- since it is part of the model
	517	IF ( forward_fft ) THEN
	518
[1304]	519	!$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
[1106]	520	!$OMP DO
	521	DO k = nzb_x, nzt_x
	522	DO j = nys_x, nyn_x
	523
	524	work(0:nx) = ar(0:nx,j,k)
	525	CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, -1 )
	526
	527	DO i = 0, (nx+1)/2
	528	ar(i,j,k) = work(2*i)
	529	ENDDO
	530	DO i = 1, (nx+1)/2 - 1
	531	ar(nx+1-i,j,k) = work(2*i+1)
	532	ENDDO
	533
	534	ENDDO
	535	ENDDO
	536	!$OMP END PARALLEL
	537
	538	ELSE
	539
[1304]	540	!$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
[1106]	541	!$OMP DO
	542	DO k = nzb_x, nzt_x
	543	DO j = nys_x, nyn_x
	544
	545	DO i = 0, (nx+1)/2
	546	work(2*i) = ar(i,j,k)
	547	ENDDO
	548	DO i = 1, (nx+1)/2 - 1
	549	work(2*i+1) = ar(nx+1-i,j,k)
	550	ENDDO
[1342]	551	work(1) = 0.0_wp
	552	work(nx+2) = 0.0_wp
[1106]	553
	554	CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, 1 )
	555	ar(0:nx,j,k) = work(0:nx)
	556
	557	ENDDO
	558	ENDDO
	559	!$OMP END PARALLEL
	560
	561	ENDIF
	562
[1210]	563	ELSEIF ( fft_method == 'fftw' ) THEN
	564
	565	#if defined( __fftw )
	566	IF ( forward_fft ) THEN
	567
	568	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	569	!$OMP DO
	570	DO k = nzb_x, nzt_x
	571	DO j = nys_x, nyn_x
	572
	573	x_in(0:nx) = ar(0:nx,j,k)
	574	CALL FFTW_EXECUTE_DFT_R2C( plan_xf, x_in, x_out )
	575
[1216]	576	IF ( PRESENT( ar_2d ) ) THEN
[1210]	577
[1216]	578	DO i = 0, (nx+1)/2
[1322]	579	ar_2d(i,j) = REAL( x_out(i), KIND=wp ) / ( nx+1 )
[1216]	580	ENDDO
	581	DO i = 1, (nx+1)/2 - 1
	582	ar_2d(nx+1-i,j) = AIMAG( x_out(i) ) / ( nx+1 )
	583	ENDDO
	584
	585	ELSE
	586
	587	DO i = 0, (nx+1)/2
[1322]	588	ar(i,j,k) = REAL( x_out(i), KIND=wp ) / ( nx+1 )
[1216]	589	ENDDO
	590	DO i = 1, (nx+1)/2 - 1
	591	ar(nx+1-i,j,k) = AIMAG( x_out(i) ) / ( nx+1 )
	592	ENDDO
	593
	594	ENDIF
	595
[1210]	596	ENDDO
	597	ENDDO
	598	!$OMP END PARALLEL
	599
[1216]	600	ELSE
[1210]	601	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	602	!$OMP DO
	603	DO k = nzb_x, nzt_x
	604	DO j = nys_x, nyn_x
	605
[1216]	606	IF ( PRESENT( ar_2d ) ) THEN
[1210]	607
[1392]	608	x_out(0) = CMPLX( ar_2d(0,j), 0.0_wp, KIND=wp )
[1216]	609	DO i = 1, (nx+1)/2 - 1
[1392]	610	x_out(i) = CMPLX( ar_2d(i,j), ar_2d(nx+1-i,j), &
	611	KIND=wp )
[1216]	612	ENDDO
[1392]	613	x_out((nx+1)/2) = CMPLX( ar_2d((nx+1)/2,j), 0.0_wp, &
	614	KIND=wp )
[1216]	615
	616	ELSE
	617
[1392]	618	x_out(0) = CMPLX( ar(0,j,k), 0.0_wp, KIND=wp )
[1216]	619	DO i = 1, (nx+1)/2 - 1
[1392]	620	x_out(i) = CMPLX( ar(i,j,k), ar(nx+1-i,j,k), KIND=wp )
[1216]	621	ENDDO
[1392]	622	x_out((nx+1)/2) = CMPLX( ar((nx+1)/2,j,k), 0.0_wp, &
	623	KIND=wp )
[1216]	624
	625	ENDIF
	626
[1210]	627	CALL FFTW_EXECUTE_DFT_C2R( plan_xi, x_out, x_in)
	628	ar(0:nx,j,k) = x_in(0:nx)
	629
	630	ENDDO
	631	ENDDO
	632	!$OMP END PARALLEL
	633
[1216]	634	ENDIF
[1210]	635	#endif
	636
[1106]	637	ELSEIF ( fft_method == 'system-specific' ) THEN
	638
[1815]	639	#if defined( __ibm )
[1106]	640	IF ( forward_fft ) THEN
	641
	642	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	643	!$OMP DO
	644	DO k = nzb_x, nzt_x
	645	DO j = nys_x, nyn_x
	646
[1320]	647	CALL DRCFT( 0, ar, 1, work, 1, nx+1, 1, 1, sqr_dnx, aux1, &
	648	nau1, aux2, nau2 )
[1106]	649
	650	DO i = 0, (nx+1)/2
	651	ar(i,j,k) = work(2*i)
	652	ENDDO
	653	DO i = 1, (nx+1)/2 - 1
	654	ar(nx+1-i,j,k) = work(2*i+1)
	655	ENDDO
	656
	657	ENDDO
	658	ENDDO
	659	!$OMP END PARALLEL
	660
	661	ELSE
	662
	663	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	664	!$OMP DO
	665	DO k = nzb_x, nzt_x
	666	DO j = nys_x, nyn_x
	667
	668	DO i = 0, (nx+1)/2
	669	work(2*i) = ar(i,j,k)
	670	ENDDO
	671	DO i = 1, (nx+1)/2 - 1
	672	work(2*i+1) = ar(nx+1-i,j,k)
	673	ENDDO
[1342]	674	work(1) = 0.0_wp
	675	work(nx+2) = 0.0_wp
[1106]	676
[1320]	677	CALL DCRFT( 0, work, 1, work, 1, nx+1, 1, -1, sqr_dnx, &
	678	aux3, nau1, aux4, nau2 )
[1106]	679
	680	DO i = 0, nx
	681	ar(i,j,k) = work(i)
	682	ENDDO
	683
	684	ENDDO
	685	ENDDO
	686	!$OMP END PARALLEL
	687
	688	ENDIF
	689
	690	#elif defined( __nec )
	691
	692	IF ( forward_fft ) THEN
	693
	694	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	695	!$OMP DO
	696	DO k = nzb_x, nzt_x
	697	DO j = nys_x, nyn_x
	698
	699	work(0:nx) = ar(0:nx,j,k)
	700
	701	CALL DZFFT( 1, nx+1, sqr_dnx, work, work, trig_xf, work2, 0 )
	702
	703	DO i = 0, (nx+1)/2
	704	ar(i,j,k) = work(2*i)
	705	ENDDO
	706	DO i = 1, (nx+1)/2 - 1
	707	ar(nx+1-i,j,k) = work(2*i+1)
	708	ENDDO
	709
	710	ENDDO
	711	ENDDO
	712	!$END OMP PARALLEL
	713
	714	ELSE
	715
	716	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	717	!$OMP DO
	718	DO k = nzb_x, nzt_x
	719	DO j = nys_x, nyn_x
	720
	721	DO i = 0, (nx+1)/2
	722	work(2*i) = ar(i,j,k)
	723	ENDDO
	724	DO i = 1, (nx+1)/2 - 1
	725	work(2*i+1) = ar(nx+1-i,j,k)
	726	ENDDO
[1342]	727	work(1) = 0.0_wp
	728	work(nx+2) = 0.0_wp
[1106]	729
	730	CALL ZDFFT( -1, nx+1, sqr_dnx, work, work, trig_xb, work2, 0 )
	731
	732	ar(0:nx,j,k) = work(0:nx)
	733
	734	ENDDO
	735	ENDDO
	736	!$OMP END PARALLEL
	737
	738	ENDIF
	739
	740	#elif defined( __cuda_fft )
	741
[1482]	742	!$acc data create( ar_tmp )
[1106]	743	IF ( forward_fft ) THEN
	744
[1111]	745	!$acc data present( ar )
	746	CALL CUFFTEXECD2Z( plan_xf, ar, ar_tmp )
[1106]	747
[1111]	748	!$acc kernels
[1106]	749	DO k = nzb_x, nzt_x
	750	DO j = nys_x, nyn_x
	751
	752	DO i = 0, (nx+1)/2
[1322]	753	ar(i,j,k) = REAL( ar_tmp(i,j,k), KIND=wp ) * dnx
[1106]	754	ENDDO
	755
	756	DO i = 1, (nx+1)/2 - 1
[1111]	757	ar(nx+1-i,j,k) = AIMAG( ar_tmp(i,j,k) ) * dnx
[1106]	758	ENDDO
	759
	760	ENDDO
	761	ENDDO
[1111]	762	!$acc end kernels
	763	!$acc end data
[1106]	764
	765	ELSE
	766
[1111]	767	!$acc data present( ar )
	768	!$acc kernels
[1106]	769	DO k = nzb_x, nzt_x
	770	DO j = nys_x, nyn_x
	771
[1392]	772	ar_tmp(0,j,k) = CMPLX( ar(0,j,k), 0.0_wp, KIND=wp )
[1106]	773
	774	DO i = 1, (nx+1)/2 - 1
[1392]	775	ar_tmp(i,j,k) = CMPLX( ar(i,j,k), ar(nx+1-i,j,k), &
	776	KIND=wp )
[1106]	777	ENDDO
[1392]	778	ar_tmp((nx+1)/2,j,k) = CMPLX( ar((nx+1)/2,j,k), 0.0_wp, &
	779	KIND=wp )
[1106]	780
	781	ENDDO
	782	ENDDO
[1111]	783	!$acc end kernels
[1106]	784
[1111]	785	CALL CUFFTEXECZ2D( plan_xi, ar_tmp, ar )
	786	!$acc end data
[1106]	787
	788	ENDIF
[1482]	789	!$acc end data
[1106]	790
	791	#else
	792	message_string = 'no system-specific fft-call available'
	793	CALL message( 'fft_x', 'PA0188', 1, 2, 0, 6, 0 )
	794	#endif
	795
	796	ELSE
	797
	798	message_string = 'fft method "' // TRIM( fft_method) // &
	799	'" not available'
	800	CALL message( 'fft_x', 'PA0189', 1, 2, 0, 6, 0 )
	801
	802	ENDIF
	803
	804	END SUBROUTINE fft_x
	805
[1682]	806	!------------------------------------------------------------------------------!
	807	! Description:
	808	! ------------
	809	!> Fourier-transformation along x-direction.
	810	!> Version for 1D-decomposition.
	811	!> It uses internal algorithms (Singleton or Temperton) or
	812	!> system-specific routines, if they are available
	813	!------------------------------------------------------------------------------!
	814
[1106]	815	SUBROUTINE fft_x_1d( ar, direction )
	816
	817
	818	IMPLICIT NONE
	819
[1682]	820	CHARACTER (LEN=*) :: direction !<
[1320]	821
[1682]	822	INTEGER(iwp) :: i !<
	823	INTEGER(iwp) :: ishape(1) !<
[1]	824
[1682]	825	LOGICAL :: forward_fft !<
[1106]	826
[1682]	827	REAL(wp), DIMENSION(0:nx) :: ar !<
	828	REAL(wp), DIMENSION(0:nx+2) :: work !<
	829	REAL(wp), DIMENSION(nx+2) :: work1 !<
[1320]	830
[1682]	831	COMPLEX(wp), DIMENSION(:), ALLOCATABLE :: cwork !<
[1320]	832
[1]	833	#if defined( __ibm )
[1682]	834	REAL(wp), DIMENSION(nau2) :: aux2 !<
	835	REAL(wp), DIMENSION(nau2) :: aux4 !<
[1]	836	#elif defined( __nec )
[1682]	837	REAL(wp), DIMENSION(6*(nx+1)) :: work2 !<
[1]	838	#endif
	839
[1106]	840	IF ( direction == 'forward' ) THEN
	841	forward_fft = .TRUE.
	842	ELSE
	843	forward_fft = .FALSE.
	844	ENDIF
	845
[1]	846	IF ( fft_method == 'singleton-algorithm' ) THEN
	847
	848	!
	849	!-- Performing the fft with singleton's software works on every system,
	850	!-- since it is part of the model
	851	ALLOCATE( cwork(0:nx) )
	852
[1106]	853	IF ( forward_fft ) then
[1]	854
	855	DO i = 0, nx
[1392]	856	cwork(i) = CMPLX( ar(i), KIND=wp )
[1]	857	ENDDO
	858	ishape = SHAPE( cwork )
	859	CALL FFTN( cwork, ishape )
	860	DO i = 0, (nx+1)/2
[1322]	861	ar(i) = REAL( cwork(i), KIND=wp )
[1]	862	ENDDO
	863	DO i = 1, (nx+1)/2 - 1
	864	ar(nx+1-i) = -AIMAG( cwork(i) )
	865	ENDDO
	866
	867	ELSE
	868
[1392]	869	cwork(0) = CMPLX( ar(0), 0.0_wp, KIND=wp )
[1]	870	DO i = 1, (nx+1)/2 - 1
[1392]	871	cwork(i) = CMPLX( ar(i), -ar(nx+1-i), KIND=wp )
	872	cwork(nx+1-i) = CMPLX( ar(i), ar(nx+1-i), KIND=wp )
[1]	873	ENDDO
[1392]	874	cwork((nx+1)/2) = CMPLX( ar((nx+1)/2), 0.0_wp, KIND=wp )
[1]	875
	876	ishape = SHAPE( cwork )
	877	CALL FFTN( cwork, ishape, inv = .TRUE. )
	878
	879	DO i = 0, nx
[1322]	880	ar(i) = REAL( cwork(i), KIND=wp )
[1]	881	ENDDO
	882
	883	ENDIF
	884
	885	DEALLOCATE( cwork )
	886
	887	ELSEIF ( fft_method == 'temperton-algorithm' ) THEN
	888
	889	!
	890	!-- Performing the fft with Temperton's software works on every system,
	891	!-- since it is part of the model
[1106]	892	IF ( forward_fft ) THEN
[1]	893
	894	work(0:nx) = ar
	895	CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, -1 )
	896
	897	DO i = 0, (nx+1)/2
	898	ar(i) = work(2*i)
	899	ENDDO
	900	DO i = 1, (nx+1)/2 - 1
	901	ar(nx+1-i) = work(2*i+1)
	902	ENDDO
	903
	904	ELSE
	905
	906	DO i = 0, (nx+1)/2
	907	work(2*i) = ar(i)
	908	ENDDO
	909	DO i = 1, (nx+1)/2 - 1
	910	work(2*i+1) = ar(nx+1-i)
	911	ENDDO
[1342]	912	work(1) = 0.0_wp
	913	work(nx+2) = 0.0_wp
[1]	914
	915	CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, 1 )
	916	ar = work(0:nx)
	917
	918	ENDIF
	919
[1216]	920	ELSEIF ( fft_method == 'fftw' ) THEN
	921
	922	#if defined( __fftw )
	923	IF ( forward_fft ) THEN
	924
	925	x_in(0:nx) = ar(0:nx)
	926	CALL FFTW_EXECUTE_DFT_R2C( plan_xf, x_in, x_out )
	927
	928	DO i = 0, (nx+1)/2
[1322]	929	ar(i) = REAL( x_out(i), KIND=wp ) / ( nx+1 )
[1216]	930	ENDDO
	931	DO i = 1, (nx+1)/2 - 1
	932	ar(nx+1-i) = AIMAG( x_out(i) ) / ( nx+1 )
	933	ENDDO
	934
	935	ELSE
	936
[1392]	937	x_out(0) = CMPLX( ar(0), 0.0_wp, KIND=wp )
[1216]	938	DO i = 1, (nx+1)/2 - 1
[1392]	939	x_out(i) = CMPLX( ar(i), ar(nx+1-i), KIND=wp )
[1216]	940	ENDDO
[1392]	941	x_out((nx+1)/2) = CMPLX( ar((nx+1)/2), 0.0_wp, KIND=wp )
[1216]	942
	943	CALL FFTW_EXECUTE_DFT_C2R( plan_xi, x_out, x_in)
	944	ar(0:nx) = x_in(0:nx)
	945
	946	ENDIF
	947	#endif
	948
[1]	949	ELSEIF ( fft_method == 'system-specific' ) THEN
	950
[1815]	951	#if defined( __ibm )
[1106]	952	IF ( forward_fft ) THEN
[1]	953
[1320]	954	CALL DRCFT( 0, ar, 1, work, 1, nx+1, 1, 1, sqr_dnx, aux1, nau1, &
[1]	955	aux2, nau2 )
	956
	957	DO i = 0, (nx+1)/2
	958	ar(i) = work(2*i)
	959	ENDDO
	960	DO i = 1, (nx+1)/2 - 1
	961	ar(nx+1-i) = work(2*i+1)
	962	ENDDO
	963
	964	ELSE
	965
	966	DO i = 0, (nx+1)/2
	967	work(2*i) = ar(i)
	968	ENDDO
	969	DO i = 1, (nx+1)/2 - 1
	970	work(2*i+1) = ar(nx+1-i)
	971	ENDDO
[1342]	972	work(1) = 0.0_wp
	973	work(nx+2) = 0.0_wp
[1]	974
[1106]	975	CALL DCRFT( 0, work, 1, work, 1, nx+1, 1, -1, sqr_dnx, aux3, nau1, &
[1]	976	aux4, nau2 )
	977
	978	DO i = 0, nx
	979	ar(i) = work(i)
	980	ENDDO
	981
	982	ENDIF
	983	#elif defined( __nec )
[1106]	984	IF ( forward_fft ) THEN
[1]	985
	986	work(0:nx) = ar(0:nx)
	987
[1106]	988	CALL DZFFT( 1, nx+1, sqr_dnx, work, work, trig_xf, work2, 0 )
	989
[1]	990	DO i = 0, (nx+1)/2
	991	ar(i) = work(2*i)
	992	ENDDO
	993	DO i = 1, (nx+1)/2 - 1
	994	ar(nx+1-i) = work(2*i+1)
	995	ENDDO
	996
	997	ELSE
	998
	999	DO i = 0, (nx+1)/2
	1000	work(2*i) = ar(i)
	1001	ENDDO
	1002	DO i = 1, (nx+1)/2 - 1
	1003	work(2*i+1) = ar(nx+1-i)
	1004	ENDDO
[1342]	1005	work(1) = 0.0_wp
	1006	work(nx+2) = 0.0_wp
[1]	1007
[1106]	1008	CALL ZDFFT( -1, nx+1, sqr_dnx, work, work, trig_xb, work2, 0 )
[1]	1009
	1010	ar(0:nx) = work(0:nx)
	1011
	1012	ENDIF
	1013	#else
[254]	1014	message_string = 'no system-specific fft-call available'
[1106]	1015	CALL message( 'fft_x_1d', 'PA0188', 1, 2, 0, 6, 0 )
[1]	1016	#endif
	1017	ELSE
[274]	1018	message_string = 'fft method "' // TRIM( fft_method) // &
	1019	'" not available'
[1106]	1020	CALL message( 'fft_x_1d', 'PA0189', 1, 2, 0, 6, 0 )
[1]	1021
	1022	ENDIF
	1023
[1106]	1024	END SUBROUTINE fft_x_1d
[1]	1025
[1682]	1026	!------------------------------------------------------------------------------!
	1027	! Description:
	1028	! ------------
	1029	!> Fourier-transformation along y-direction.
	1030	!> Version for 2D-decomposition.
	1031	!> It uses internal algorithms (Singleton or Temperton) or
	1032	!> system-specific routines, if they are available.
	1033	!>
	1034	!> direction: 'forward' or 'backward'
	1035	!> ar, ar_tr: 3D data arrays
	1036	!> forward: ar: before ar_tr: after transformation
	1037	!> backward: ar_tr: before ar: after transfosition
	1038	!>
	1039	!> In case of non-overlapping transposition/transformation:
	1040	!> nxl_y_bound = nxl_y_l = nxl_y
	1041	!> nxr_y_bound = nxr_y_l = nxr_y
	1042	!>
	1043	!> In case of overlapping transposition/transformation
	1044	!> - nxl_y_bound and nxr_y_bound have the original values of
	1045	!> nxl_y, nxr_y. ar_tr is dimensioned using these values.
	1046	!> - nxl_y_l = nxr_y_r. ar is dimensioned with these values, so that
	1047	!> transformation is carried out for a 2D-plane only.
	1048	!------------------------------------------------------------------------------!
	1049
[1216]	1050	SUBROUTINE fft_y( ar, direction, ar_tr, nxl_y_bound, nxr_y_bound, nxl_y_l, &
	1051	nxr_y_l )
[1]	1052
	1053
[1106]	1054	USE cuda_fft_interfaces
[1153]	1055	#if defined( __cuda_fft )
	1056	USE ISO_C_BINDING
	1057	#endif
[1106]	1058
[1]	1059	IMPLICIT NONE
	1060
[1682]	1061	CHARACTER (LEN=*) :: direction !<
[1320]	1062
[1682]	1063	INTEGER(iwp) :: i !<
	1064	INTEGER(iwp) :: j !<
	1065	INTEGER(iwp) :: jshape(1) !<
	1066	INTEGER(iwp) :: k !<
	1067	INTEGER(iwp) :: nxl_y_bound !<
	1068	INTEGER(iwp) :: nxl_y_l !<
	1069	INTEGER(iwp) :: nxr_y_bound !<
	1070	INTEGER(iwp) :: nxr_y_l !<
[1106]	1071
[1682]	1072	LOGICAL :: forward_fft !<
[1106]	1073
[1682]	1074	REAL(wp), DIMENSION(0:ny+2) :: work !<
	1075	REAL(wp), DIMENSION(ny+2) :: work1 !<
[1320]	1076
[1682]	1077	COMPLEX(wp), DIMENSION(:), ALLOCATABLE :: cwork !<
[1320]	1078
[1106]	1079	#if defined( __ibm )
[1682]	1080	REAL(wp), DIMENSION(nau2) :: auy2 !<
	1081	REAL(wp), DIMENSION(nau2) :: auy4 !<
[1106]	1082	#elif defined( __nec )
[1682]	1083	REAL(wp), DIMENSION(6*(ny+1)) :: work2 !<
[1106]	1084	#elif defined( __cuda_fft )
[1374]	1085	COMPLEX(dp), DIMENSION(0:(ny+1)/2,nxl_y:nxr_y,nzb_y:nzt_y) :: &
[1682]	1086	ar_tmp !<
[1482]	1087	! following does not work for PGI 14.1 -> to be removed later
[1749]	1088	! !$acc declare create( ar_tmp )
[1106]	1089	#endif
	1090
[1320]	1091	REAL(wp), DIMENSION(0:ny,nxl_y_l:nxr_y_l,nzb_y:nzt_y) :: &
[1682]	1092	ar !<
[1320]	1093	REAL(wp), DIMENSION(0:ny,nxl_y_bound:nxr_y_bound,nzb_y:nzt_y) :: &
[1682]	1094	ar_tr !<
[1320]	1095
[1106]	1096	IF ( direction == 'forward' ) THEN
	1097	forward_fft = .TRUE.
	1098	ELSE
	1099	forward_fft = .FALSE.
	1100	ENDIF
	1101
	1102	IF ( fft_method == 'singleton-algorithm' ) THEN
	1103
	1104	!
	1105	!-- Performing the fft with singleton's software works on every system,
	1106	!-- since it is part of the model
	1107	ALLOCATE( cwork(0:ny) )
	1108
	1109	IF ( forward_fft ) then
	1110
	1111	!$OMP PARALLEL PRIVATE ( cwork, i, jshape, j, k )
	1112	!$OMP DO
	1113	DO k = nzb_y, nzt_y
[1216]	1114	DO i = nxl_y_l, nxr_y_l
[1106]	1115
	1116	DO j = 0, ny
[1392]	1117	cwork(j) = CMPLX( ar(j,i,k), KIND=wp )
[1106]	1118	ENDDO
	1119
	1120	jshape = SHAPE( cwork )
	1121	CALL FFTN( cwork, jshape )
	1122
	1123	DO j = 0, (ny+1)/2
[1322]	1124	ar_tr(j,i,k) = REAL( cwork(j), KIND=wp )
[1106]	1125	ENDDO
	1126	DO j = 1, (ny+1)/2 - 1
[1216]	1127	ar_tr(ny+1-j,i,k) = -AIMAG( cwork(j) )
[1106]	1128	ENDDO
	1129
	1130	ENDDO
	1131	ENDDO
	1132	!$OMP END PARALLEL
	1133
	1134	ELSE
	1135
	1136	!$OMP PARALLEL PRIVATE ( cwork, i, jshape, j, k )
	1137	!$OMP DO
	1138	DO k = nzb_y, nzt_y
[1216]	1139	DO i = nxl_y_l, nxr_y_l
[1106]	1140
[1392]	1141	cwork(0) = CMPLX( ar_tr(0,i,k), 0.0_wp, KIND=wp )
[1106]	1142	DO j = 1, (ny+1)/2 - 1
[1392]	1143	cwork(j) = CMPLX( ar_tr(j,i,k), -ar_tr(ny+1-j,i,k), &
	1144	KIND=wp )
	1145	cwork(ny+1-j) = CMPLX( ar_tr(j,i,k), ar_tr(ny+1-j,i,k), &
	1146	KIND=wp )
[1106]	1147	ENDDO
[1392]	1148	cwork((ny+1)/2) = CMPLX( ar_tr((ny+1)/2,i,k), 0.0_wp, &
	1149	KIND=wp )
[1106]	1150
	1151	jshape = SHAPE( cwork )
	1152	CALL FFTN( cwork, jshape, inv = .TRUE. )
	1153
	1154	DO j = 0, ny
[1322]	1155	ar(j,i,k) = REAL( cwork(j), KIND=wp )
[1106]	1156	ENDDO
	1157
	1158	ENDDO
	1159	ENDDO
	1160	!$OMP END PARALLEL
	1161
	1162	ENDIF
	1163
	1164	DEALLOCATE( cwork )
	1165
	1166	ELSEIF ( fft_method == 'temperton-algorithm' ) THEN
	1167
	1168	!
	1169	!-- Performing the fft with Temperton's software works on every system,
	1170	!-- since it is part of the model
	1171	IF ( forward_fft ) THEN
	1172
[1304]	1173	!$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
[1106]	1174	!$OMP DO
	1175	DO k = nzb_y, nzt_y
[1216]	1176	DO i = nxl_y_l, nxr_y_l
[1106]	1177
	1178	work(0:ny) = ar(0:ny,i,k)
	1179	CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, -1 )
	1180
	1181	DO j = 0, (ny+1)/2
[1216]	1182	ar_tr(j,i,k) = work(2*j)
[1106]	1183	ENDDO
	1184	DO j = 1, (ny+1)/2 - 1
[1216]	1185	ar_tr(ny+1-j,i,k) = work(2*j+1)
[1106]	1186	ENDDO
	1187
	1188	ENDDO
	1189	ENDDO
	1190	!$OMP END PARALLEL
	1191
	1192	ELSE
	1193
[1304]	1194	!$OMP PARALLEL PRIVATE ( work, work1, i, j, k )
[1106]	1195	!$OMP DO
	1196	DO k = nzb_y, nzt_y
[1216]	1197	DO i = nxl_y_l, nxr_y_l
[1106]	1198
	1199	DO j = 0, (ny+1)/2
[1216]	1200	work(2*j) = ar_tr(j,i,k)
[1106]	1201	ENDDO
	1202	DO j = 1, (ny+1)/2 - 1
[1216]	1203	work(2*j+1) = ar_tr(ny+1-j,i,k)
[1106]	1204	ENDDO
[1342]	1205	work(1) = 0.0_wp
	1206	work(ny+2) = 0.0_wp
[1106]	1207
	1208	CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, 1 )
	1209	ar(0:ny,i,k) = work(0:ny)
	1210
	1211	ENDDO
	1212	ENDDO
	1213	!$OMP END PARALLEL
	1214
	1215	ENDIF
	1216
[1210]	1217	ELSEIF ( fft_method == 'fftw' ) THEN
	1218
	1219	#if defined( __fftw )
	1220	IF ( forward_fft ) THEN
	1221
	1222	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	1223	!$OMP DO
	1224	DO k = nzb_y, nzt_y
[1216]	1225	DO i = nxl_y_l, nxr_y_l
[1210]	1226
	1227	y_in(0:ny) = ar(0:ny,i,k)
	1228	CALL FFTW_EXECUTE_DFT_R2C( plan_yf, y_in, y_out )
	1229
	1230	DO j = 0, (ny+1)/2
[1322]	1231	ar_tr(j,i,k) = REAL( y_out(j), KIND=wp ) / (ny+1)
[1210]	1232	ENDDO
	1233	DO j = 1, (ny+1)/2 - 1
[1216]	1234	ar_tr(ny+1-j,i,k) = AIMAG( y_out(j) ) / (ny+1)
[1210]	1235	ENDDO
	1236
	1237	ENDDO
	1238	ENDDO
	1239	!$OMP END PARALLEL
	1240
	1241	ELSE
	1242
	1243	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	1244	!$OMP DO
	1245	DO k = nzb_y, nzt_y
[1216]	1246	DO i = nxl_y_l, nxr_y_l
[1210]	1247
[1392]	1248	y_out(0) = CMPLX( ar_tr(0,i,k), 0.0_wp, KIND=wp )
[1210]	1249	DO j = 1, (ny+1)/2 - 1
[1398]	1250	y_out(j) = CMPLX( ar_tr(j,i,k), ar_tr(ny+1-j,i,k), &
	1251	KIND=wp )
[1210]	1252	ENDDO
[1392]	1253	y_out((ny+1)/2) = CMPLX( ar_tr((ny+1)/2,i,k), 0.0_wp, &
	1254	KIND=wp )
[1210]	1255
	1256	CALL FFTW_EXECUTE_DFT_C2R( plan_yi, y_out, y_in )
	1257	ar(0:ny,i,k) = y_in(0:ny)
	1258
	1259	ENDDO
	1260	ENDDO
	1261	!$OMP END PARALLEL
	1262
	1263	ENDIF
	1264	#endif
	1265
[1106]	1266	ELSEIF ( fft_method == 'system-specific' ) THEN
	1267
[1815]	1268	#if defined( __ibm )
[1106]	1269	IF ( forward_fft) THEN
	1270
	1271	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	1272	!$OMP DO
	1273	DO k = nzb_y, nzt_y
[1216]	1274	DO i = nxl_y_l, nxr_y_l
[1106]	1275
[1320]	1276	CALL DRCFT( 0, ar, 1, work, 1, ny+1, 1, 1, sqr_dny, auy1, &
	1277	nau1, auy2, nau2 )
[1106]	1278
	1279	DO j = 0, (ny+1)/2
[1216]	1280	ar_tr(j,i,k) = work(2*j)
[1106]	1281	ENDDO
	1282	DO j = 1, (ny+1)/2 - 1
[1216]	1283	ar_tr(ny+1-j,i,k) = work(2*j+1)
[1106]	1284	ENDDO
	1285
	1286	ENDDO
	1287	ENDDO
	1288	!$OMP END PARALLEL
	1289
	1290	ELSE
	1291
	1292	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	1293	!$OMP DO
	1294	DO k = nzb_y, nzt_y
[1216]	1295	DO i = nxl_y_l, nxr_y_l
[1106]	1296
	1297	DO j = 0, (ny+1)/2
[1216]	1298	work(2*j) = ar_tr(j,i,k)
[1106]	1299	ENDDO
	1300	DO j = 1, (ny+1)/2 - 1
[1216]	1301	work(2*j+1) = ar_tr(ny+1-j,i,k)
[1106]	1302	ENDDO
[1342]	1303	work(1) = 0.0_wp
	1304	work(ny+2) = 0.0_wp
[1106]	1305
[1320]	1306	CALL DCRFT( 0, work, 1, work, 1, ny+1, 1, -1, sqr_dny, &
	1307	auy3, nau1, auy4, nau2 )
[1106]	1308
	1309	DO j = 0, ny
	1310	ar(j,i,k) = work(j)
	1311	ENDDO
	1312
	1313	ENDDO
	1314	ENDDO
	1315	!$OMP END PARALLEL
	1316
	1317	ENDIF
	1318	#elif defined( __nec )
	1319	IF ( forward_fft ) THEN
	1320
	1321	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	1322	!$OMP DO
	1323	DO k = nzb_y, nzt_y
[1216]	1324	DO i = nxl_y_l, nxr_y_l
[1106]	1325
	1326	work(0:ny) = ar(0:ny,i,k)
	1327
	1328	CALL DZFFT( 1, ny+1, sqr_dny, work, work, trig_yf, work2, 0 )
	1329
	1330	DO j = 0, (ny+1)/2
[1216]	1331	ar_tr(j,i,k) = work(2*j)
[1106]	1332	ENDDO
	1333	DO j = 1, (ny+1)/2 - 1
[1216]	1334	ar_tr(ny+1-j,i,k) = work(2*j+1)
[1106]	1335	ENDDO
	1336
	1337	ENDDO
	1338	ENDDO
	1339	!$END OMP PARALLEL
	1340
	1341	ELSE
	1342
	1343	!$OMP PARALLEL PRIVATE ( work, i, j, k )
	1344	!$OMP DO
	1345	DO k = nzb_y, nzt_y
[1216]	1346	DO i = nxl_y_l, nxr_y_l
[1106]	1347
	1348	DO j = 0, (ny+1)/2
[1216]	1349	work(2*j) = ar_tr(j,i,k)
[1106]	1350	ENDDO
	1351	DO j = 1, (ny+1)/2 - 1
[1216]	1352	work(2*j+1) = ar_tr(ny+1-j,i,k)
[1106]	1353	ENDDO
[1342]	1354	work(1) = 0.0_wp
	1355	work(ny+2) = 0.0_wp
[1106]	1356
	1357	CALL ZDFFT( -1, ny+1, sqr_dny, work, work, trig_yb, work2, 0 )
	1358
	1359	ar(0:ny,i,k) = work(0:ny)
	1360
	1361	ENDDO
	1362	ENDDO
	1363	!$OMP END PARALLEL
	1364
	1365	ENDIF
	1366	#elif defined( __cuda_fft )
	1367
[1482]	1368	!$acc data create( ar_tmp )
[1106]	1369	IF ( forward_fft ) THEN
	1370
[1111]	1371	!$acc data present( ar )
	1372	CALL CUFFTEXECD2Z( plan_yf, ar, ar_tmp )
[1106]	1373
[1111]	1374	!$acc kernels
[1106]	1375	DO k = nzb_y, nzt_y
	1376	DO i = nxl_y, nxr_y
	1377
	1378	DO j = 0, (ny+1)/2
[1322]	1379	ar(j,i,k) = REAL( ar_tmp(j,i,k), KIND=wp ) * dny
[1106]	1380	ENDDO
	1381
	1382	DO j = 1, (ny+1)/2 - 1
[1111]	1383	ar(ny+1-j,i,k) = AIMAG( ar_tmp(j,i,k) ) * dny
[1106]	1384	ENDDO
	1385
	1386	ENDDO
	1387	ENDDO
[1111]	1388	!$acc end kernels
	1389	!$acc end data
[1106]	1390
	1391	ELSE
	1392
[1111]	1393	!$acc data present( ar )
	1394	!$acc kernels
[1106]	1395	DO k = nzb_y, nzt_y
	1396	DO i = nxl_y, nxr_y
	1397
[1392]	1398	ar_tmp(0,i,k) = CMPLX( ar(0,i,k), 0.0_wp, KIND=wp )
[1106]	1399
	1400	DO j = 1, (ny+1)/2 - 1
[1392]	1401	ar_tmp(j,i,k) = CMPLX( ar(j,i,k), ar(ny+1-j,i,k), &
	1402	KIND=wp )
[1106]	1403	ENDDO
[1392]	1404	ar_tmp((ny+1)/2,i,k) = CMPLX( ar((ny+1)/2,i,k), 0.0_wp, &
	1405	KIND=wp )
[1106]	1406
	1407	ENDDO
	1408	ENDDO
[1111]	1409	!$acc end kernels
[1106]	1410
[1111]	1411	CALL CUFFTEXECZ2D( plan_yi, ar_tmp, ar )
	1412	!$acc end data
[1106]	1413
	1414	ENDIF
[1482]	1415	!$acc end data
[1106]	1416
	1417	#else
	1418	message_string = 'no system-specific fft-call available'
	1419	CALL message( 'fft_y', 'PA0188', 1, 2, 0, 6, 0 )
	1420	#endif
	1421
	1422	ELSE
	1423
	1424	message_string = 'fft method "' // TRIM( fft_method) // &
	1425	'" not available'
	1426	CALL message( 'fft_y', 'PA0189', 1, 2, 0, 6, 0 )
	1427
	1428	ENDIF
	1429
	1430	END SUBROUTINE fft_y
	1431
[1682]	1432	!------------------------------------------------------------------------------!
	1433	! Description:
	1434	! ------------
	1435	!> Fourier-transformation along y-direction.
	1436	!> Version for 1D-decomposition.
	1437	!> It uses internal algorithms (Singleton or Temperton) or
	1438	!> system-specific routines, if they are available.
	1439	!------------------------------------------------------------------------------!
	1440
[1106]	1441	SUBROUTINE fft_y_1d( ar, direction )
	1442
	1443
	1444	IMPLICIT NONE
	1445
	1446	CHARACTER (LEN=*) :: direction
[1320]	1447
[1682]	1448	INTEGER(iwp) :: j !<
	1449	INTEGER(iwp) :: jshape(1) !<
[1]	1450
[1682]	1451	LOGICAL :: forward_fft !<
[1106]	1452
[1682]	1453	REAL(wp), DIMENSION(0:ny) :: ar !<
	1454	REAL(wp), DIMENSION(0:ny+2) :: work !<
	1455	REAL(wp), DIMENSION(ny+2) :: work1 !<
[1320]	1456
[1682]	1457	COMPLEX(wp), DIMENSION(:), ALLOCATABLE :: cwork !<
[1320]	1458
[1]	1459	#if defined( __ibm )
[1682]	1460	REAL(wp), DIMENSION(nau2) :: auy2 !<
	1461	REAL(wp), DIMENSION(nau2) :: auy4 !<
[1]	1462	#elif defined( __nec )
[1682]	1463	REAL(wp), DIMENSION(6*(ny+1)) :: work2 !<
[1]	1464	#endif
	1465
[1106]	1466	IF ( direction == 'forward' ) THEN
	1467	forward_fft = .TRUE.
	1468	ELSE
	1469	forward_fft = .FALSE.
	1470	ENDIF
	1471
[1]	1472	IF ( fft_method == 'singleton-algorithm' ) THEN
	1473
	1474	!
	1475	!-- Performing the fft with singleton's software works on every system,
	1476	!-- since it is part of the model
	1477	ALLOCATE( cwork(0:ny) )
	1478
[1106]	1479	IF ( forward_fft ) THEN
[1]	1480
	1481	DO j = 0, ny
[1392]	1482	cwork(j) = CMPLX( ar(j), KIND=wp )
[1]	1483	ENDDO
	1484
	1485	jshape = SHAPE( cwork )
	1486	CALL FFTN( cwork, jshape )
	1487
	1488	DO j = 0, (ny+1)/2
[1322]	1489	ar(j) = REAL( cwork(j), KIND=wp )
[1]	1490	ENDDO
	1491	DO j = 1, (ny+1)/2 - 1
	1492	ar(ny+1-j) = -AIMAG( cwork(j) )
	1493	ENDDO
	1494
	1495	ELSE
	1496
[1392]	1497	cwork(0) = CMPLX( ar(0), 0.0_wp, KIND=wp )
[1]	1498	DO j = 1, (ny+1)/2 - 1
[1392]	1499	cwork(j) = CMPLX( ar(j), -ar(ny+1-j), KIND=wp )
	1500	cwork(ny+1-j) = CMPLX( ar(j), ar(ny+1-j), KIND=wp )
[1]	1501	ENDDO
[1392]	1502	cwork((ny+1)/2) = CMPLX( ar((ny+1)/2), 0.0_wp, KIND=wp )
[1]	1503
	1504	jshape = SHAPE( cwork )
	1505	CALL FFTN( cwork, jshape, inv = .TRUE. )
	1506
	1507	DO j = 0, ny
[1322]	1508	ar(j) = REAL( cwork(j), KIND=wp )
[1]	1509	ENDDO
	1510
	1511	ENDIF
	1512
	1513	DEALLOCATE( cwork )
	1514
	1515	ELSEIF ( fft_method == 'temperton-algorithm' ) THEN
	1516
	1517	!
	1518	!-- Performing the fft with Temperton's software works on every system,
	1519	!-- since it is part of the model
[1106]	1520	IF ( forward_fft ) THEN
[1]	1521
	1522	work(0:ny) = ar
	1523	CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, -1 )
	1524
	1525	DO j = 0, (ny+1)/2
	1526	ar(j) = work(2*j)
	1527	ENDDO
	1528	DO j = 1, (ny+1)/2 - 1
	1529	ar(ny+1-j) = work(2*j+1)
	1530	ENDDO
	1531
	1532	ELSE
	1533
	1534	DO j = 0, (ny+1)/2
	1535	work(2*j) = ar(j)
	1536	ENDDO
	1537	DO j = 1, (ny+1)/2 - 1
	1538	work(2*j+1) = ar(ny+1-j)
	1539	ENDDO
[1342]	1540	work(1) = 0.0_wp
	1541	work(ny+2) = 0.0_wp
[1]	1542
	1543	CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, 1 )
	1544	ar = work(0:ny)
	1545
	1546	ENDIF
	1547
[1216]	1548	ELSEIF ( fft_method == 'fftw' ) THEN
	1549
	1550	#if defined( __fftw )
	1551	IF ( forward_fft ) THEN
	1552
	1553	y_in(0:ny) = ar(0:ny)
	1554	CALL FFTW_EXECUTE_DFT_R2C( plan_yf, y_in, y_out )
	1555
	1556	DO j = 0, (ny+1)/2
[1322]	1557	ar(j) = REAL( y_out(j), KIND=wp ) / (ny+1)
[1216]	1558	ENDDO
	1559	DO j = 1, (ny+1)/2 - 1
	1560	ar(ny+1-j) = AIMAG( y_out(j) ) / (ny+1)
	1561	ENDDO
	1562
	1563	ELSE
	1564
[1392]	1565	y_out(0) = CMPLX( ar(0), 0.0_wp, KIND=wp )
[1216]	1566	DO j = 1, (ny+1)/2 - 1
[1392]	1567	y_out(j) = CMPLX( ar(j), ar(ny+1-j), KIND=wp )
[1216]	1568	ENDDO
[1392]	1569	y_out((ny+1)/2) = CMPLX( ar((ny+1)/2), 0.0_wp, KIND=wp )
[1216]	1570
	1571	CALL FFTW_EXECUTE_DFT_C2R( plan_yi, y_out, y_in )
	1572	ar(0:ny) = y_in(0:ny)
	1573
	1574	ENDIF
	1575	#endif
	1576
[1]	1577	ELSEIF ( fft_method == 'system-specific' ) THEN
	1578
[1815]	1579	#if defined( __ibm )
[1106]	1580	IF ( forward_fft ) THEN
[1]	1581
[1320]	1582	CALL DRCFT( 0, ar, 1, work, 1, ny+1, 1, 1, sqr_dny, auy1, nau1, &
[1]	1583	auy2, nau2 )
	1584
	1585	DO j = 0, (ny+1)/2
	1586	ar(j) = work(2*j)
	1587	ENDDO
	1588	DO j = 1, (ny+1)/2 - 1
	1589	ar(ny+1-j) = work(2*j+1)
	1590	ENDDO
	1591
	1592	ELSE
	1593
	1594	DO j = 0, (ny+1)/2
	1595	work(2*j) = ar(j)
	1596	ENDDO
	1597	DO j = 1, (ny+1)/2 - 1
	1598	work(2*j+1) = ar(ny+1-j)
	1599	ENDDO
[1342]	1600	work(1) = 0.0_wp
	1601	work(ny+2) = 0.0_wp
[1]	1602
[1320]	1603	CALL DCRFT( 0, work, 1, work, 1, ny+1, 1, -1, sqr_dny, auy3, &
	1604	nau1, auy4, nau2 )
[1]	1605
	1606	DO j = 0, ny
	1607	ar(j) = work(j)
	1608	ENDDO
	1609
	1610	ENDIF
	1611	#elif defined( __nec )
[1106]	1612	IF ( forward_fft ) THEN
[1]	1613
	1614	work(0:ny) = ar(0:ny)
	1615
[1106]	1616	CALL DZFFT( 1, ny+1, sqr_dny, work, work, trig_yf, work2, 0 )
[1]	1617
	1618	DO j = 0, (ny+1)/2
	1619	ar(j) = work(2*j)
	1620	ENDDO
	1621	DO j = 1, (ny+1)/2 - 1
	1622	ar(ny+1-j) = work(2*j+1)
	1623	ENDDO
	1624
	1625	ELSE
	1626
	1627	DO j = 0, (ny+1)/2
	1628	work(2*j) = ar(j)
	1629	ENDDO
	1630	DO j = 1, (ny+1)/2 - 1
	1631	work(2*j+1) = ar(ny+1-j)
	1632	ENDDO
[1342]	1633	work(1) = 0.0_wp
	1634	work(ny+2) = 0.0_wp
[1]	1635
[1106]	1636	CALL ZDFFT( -1, ny+1, sqr_dny, work, work, trig_yb, work2, 0 )
[1]	1637
	1638	ar(0:ny) = work(0:ny)
	1639
	1640	ENDIF
	1641	#else
[254]	1642	message_string = 'no system-specific fft-call available'
[1106]	1643	CALL message( 'fft_y_1d', 'PA0188', 1, 2, 0, 6, 0 )
[254]	1644
[1]	1645	#endif
	1646
	1647	ELSE
	1648
[274]	1649	message_string = 'fft method "' // TRIM( fft_method) // &
	1650	'" not available'
[1106]	1651	CALL message( 'fft_y_1d', 'PA0189', 1, 2, 0, 6, 0 )
[1]	1652
	1653	ENDIF
	1654
[1106]	1655	END SUBROUTINE fft_y_1d
[1]	1656
[1682]	1657	!------------------------------------------------------------------------------!
	1658	! Description:
	1659	! ------------
	1660	!> Fourier-transformation along x-direction.
	1661	!> Version for 1d domain decomposition
	1662	!> using multiple 1D FFT from Math Keisan on NEC or Temperton-algorithm
	1663	!> (no singleton-algorithm on NEC because it does not vectorize)
	1664	!------------------------------------------------------------------------------!
	1665
[1]	1666	SUBROUTINE fft_x_m( ar, direction )
	1667
	1668
	1669	IMPLICIT NONE
	1670
[1682]	1671	CHARACTER (LEN=*) :: direction !<
[1320]	1672
[1682]	1673	INTEGER(iwp) :: i !<
	1674	INTEGER(iwp) :: k !<
	1675	INTEGER(iwp) :: siza !<
[1]	1676
[1682]	1677	REAL(wp), DIMENSION(0:nx,nz) :: ar !<
	1678	REAL(wp), DIMENSION(0:nx+3,nz+1) :: ai !<
	1679	REAL(wp), DIMENSION(6*(nx+4),nz+1) :: work1 !<
[1320]	1680
[1]	1681	#if defined( __nec )
[1682]	1682	INTEGER(iwp) :: sizw !<
[1320]	1683
[1682]	1684	COMPLEX(wp), DIMENSION((nx+4)/2+1,nz+1) :: work !<
[1]	1685	#endif
	1686
	1687	IF ( fft_method == 'temperton-algorithm' ) THEN
	1688
	1689	siza = SIZE( ai, 1 )
	1690
	1691	IF ( direction == 'forward') THEN
	1692
	1693	ai(0:nx,1:nz) = ar(0:nx,1:nz)
[1342]	1694	ai(nx+1:,:) = 0.0_wp
[1]	1695
	1696	CALL fft991cy( ai, work1, trigs_x, ifax_x, 1, siza, nx+1, nz, -1 )
	1697
	1698	DO k = 1, nz
	1699	DO i = 0, (nx+1)/2
	1700	ar(i,k) = ai(2*i,k)
	1701	ENDDO
	1702	DO i = 1, (nx+1)/2 - 1
	1703	ar(nx+1-i,k) = ai(2*i+1,k)
	1704	ENDDO
	1705	ENDDO
	1706
	1707	ELSE
	1708
	1709	DO k = 1, nz
	1710	DO i = 0, (nx+1)/2
	1711	ai(2*i,k) = ar(i,k)
	1712	ENDDO
	1713	DO i = 1, (nx+1)/2 - 1
	1714	ai(2*i+1,k) = ar(nx+1-i,k)
	1715	ENDDO
[1342]	1716	ai(1,k) = 0.0_wp
	1717	ai(nx+2,k) = 0.0_wp
[1]	1718	ENDDO
	1719
	1720	CALL fft991cy( ai, work1, trigs_x, ifax_x, 1, siza, nx+1, nz, 1 )
	1721
	1722	ar(0:nx,1:nz) = ai(0:nx,1:nz)
	1723
	1724	ENDIF
	1725
	1726	ELSEIF ( fft_method == 'system-specific' ) THEN
	1727
	1728	#if defined( __nec )
	1729	siza = SIZE( ai, 1 )
	1730	sizw = SIZE( work, 1 )
	1731
	1732	IF ( direction == 'forward') THEN
	1733
	1734	!
	1735	!-- Tables are initialized once more. This call should not be
	1736	!-- necessary, but otherwise program aborts in asymmetric case
[1320]	1737	CALL DZFFTM( 0, nx+1, nz1, sqr_dnx, work, nx+4, work, nx+4, &
[1]	1738	trig_xf, work1, 0 )
	1739
	1740	ai(0:nx,1:nz) = ar(0:nx,1:nz)
	1741	IF ( nz1 > nz ) THEN
[1342]	1742	ai(:,nz1) = 0.0_wp
[1]	1743	ENDIF
	1744
[1320]	1745	CALL DZFFTM( 1, nx+1, nz1, sqr_dnx, ai, siza, work, sizw, &
[1]	1746	trig_xf, work1, 0 )
	1747
	1748	DO k = 1, nz
	1749	DO i = 0, (nx+1)/2
[1322]	1750	ar(i,k) = REAL( work(i+1,k), KIND=wp )
[1]	1751	ENDDO
	1752	DO i = 1, (nx+1)/2 - 1
	1753	ar(nx+1-i,k) = AIMAG( work(i+1,k) )
	1754	ENDDO
	1755	ENDDO
	1756
	1757	ELSE
	1758
	1759	!
	1760	!-- Tables are initialized once more. This call should not be
	1761	!-- necessary, but otherwise program aborts in asymmetric case
[1320]	1762	CALL ZDFFTM( 0, nx+1, nz1, sqr_dnx, work, nx+4, work, nx+4, &
[1]	1763	trig_xb, work1, 0 )
	1764
	1765	IF ( nz1 > nz ) THEN
[1342]	1766	work(:,nz1) = 0.0_wp
[1]	1767	ENDIF
	1768	DO k = 1, nz
[1392]	1769	work(1,k) = CMPLX( ar(0,k), 0.0_wp, KIND=wp )
[1]	1770	DO i = 1, (nx+1)/2 - 1
[1392]	1771	work(i+1,k) = CMPLX( ar(i,k), ar(nx+1-i,k), KIND=wp )
[1]	1772	ENDDO
[1392]	1773	work(((nx+1)/2)+1,k) = CMPLX( ar((nx+1)/2,k), 0.0_wp, KIND=wp )
[1]	1774	ENDDO
	1775
[1106]	1776	CALL ZDFFTM( -1, nx+1, nz1, sqr_dnx, work, sizw, ai, siza, &
[1]	1777	trig_xb, work1, 0 )
	1778
	1779	ar(0:nx,1:nz) = ai(0:nx,1:nz)
	1780
	1781	ENDIF
	1782
	1783	#else
[254]	1784	message_string = 'no system-specific fft-call available'
	1785	CALL message( 'fft_x_m', 'PA0188', 1, 2, 0, 6, 0 )
[1]	1786	#endif
	1787
	1788	ELSE
	1789
[274]	1790	message_string = 'fft method "' // TRIM( fft_method) // &
	1791	'" not available'
[254]	1792	CALL message( 'fft_x_m', 'PA0189', 1, 2, 0, 6, 0 )
[1]	1793
	1794	ENDIF
	1795
	1796	END SUBROUTINE fft_x_m
	1797
[1682]	1798	!------------------------------------------------------------------------------!
	1799	! Description:
	1800	! ------------
	1801	!> Fourier-transformation along y-direction.
	1802	!> Version for 1d domain decomposition
	1803	!> using multiple 1D FFT from Math Keisan on NEC or Temperton-algorithm
	1804	!> (no singleton-algorithm on NEC because it does not vectorize)
	1805	!------------------------------------------------------------------------------!
	1806
[1]	1807	SUBROUTINE fft_y_m( ar, ny1, direction )
	1808
	1809
	1810	IMPLICIT NONE
	1811
[1682]	1812	CHARACTER (LEN=*) :: direction !<
[1320]	1813
[1682]	1814	INTEGER(iwp) :: j !<
	1815	INTEGER(iwp) :: k !<
	1816	INTEGER(iwp) :: ny1 !<
	1817	INTEGER(iwp) :: siza !<
[1]	1818
[1682]	1819	REAL(wp), DIMENSION(0:ny1,nz) :: ar !<
	1820	REAL(wp), DIMENSION(0:ny+3,nz+1) :: ai !<
	1821	REAL(wp), DIMENSION(6*(ny+4),nz+1) :: work1 !<
[1320]	1822
[1]	1823	#if defined( __nec )
[1682]	1824	INTEGER(iwp) :: sizw !<
[1320]	1825
[1682]	1826	COMPLEX(wp), DIMENSION((ny+4)/2+1,nz+1) :: work !<
[1]	1827	#endif
	1828
	1829	IF ( fft_method == 'temperton-algorithm' ) THEN
	1830
	1831	siza = SIZE( ai, 1 )
	1832
	1833	IF ( direction == 'forward') THEN
	1834
	1835	ai(0:ny,1:nz) = ar(0:ny,1:nz)
[1342]	1836	ai(ny+1:,:) = 0.0_wp
[1]	1837
	1838	CALL fft991cy( ai, work1, trigs_y, ifax_y, 1, siza, ny+1, nz, -1 )
	1839
	1840	DO k = 1, nz
	1841	DO j = 0, (ny+1)/2
	1842	ar(j,k) = ai(2*j,k)
	1843	ENDDO
	1844	DO j = 1, (ny+1)/2 - 1
	1845	ar(ny+1-j,k) = ai(2*j+1,k)
	1846	ENDDO
	1847	ENDDO
	1848
	1849	ELSE
	1850
	1851	DO k = 1, nz
	1852	DO j = 0, (ny+1)/2
	1853	ai(2*j,k) = ar(j,k)
	1854	ENDDO
	1855	DO j = 1, (ny+1)/2 - 1
	1856	ai(2*j+1,k) = ar(ny+1-j,k)
	1857	ENDDO
[1342]	1858	ai(1,k) = 0.0_wp
	1859	ai(ny+2,k) = 0.0_wp
[1]	1860	ENDDO
	1861
	1862	CALL fft991cy( ai, work1, trigs_y, ifax_y, 1, siza, ny+1, nz, 1 )
	1863
	1864	ar(0:ny,1:nz) = ai(0:ny,1:nz)
	1865
	1866	ENDIF
	1867
	1868	ELSEIF ( fft_method == 'system-specific' ) THEN
	1869
	1870	#if defined( __nec )
	1871	siza = SIZE( ai, 1 )
	1872	sizw = SIZE( work, 1 )
	1873
	1874	IF ( direction == 'forward') THEN
	1875
	1876	!
	1877	!-- Tables are initialized once more. This call should not be
	1878	!-- necessary, but otherwise program aborts in asymmetric case
[1106]	1879	CALL DZFFTM( 0, ny+1, nz1, sqr_dny, work, ny+4, work, ny+4, &
[1]	1880	trig_yf, work1, 0 )
	1881
	1882	ai(0:ny,1:nz) = ar(0:ny,1:nz)
	1883	IF ( nz1 > nz ) THEN
[1342]	1884	ai(:,nz1) = 0.0_wp
[1]	1885	ENDIF
	1886
[1106]	1887	CALL DZFFTM( 1, ny+1, nz1, sqr_dny, ai, siza, work, sizw, &
[1]	1888	trig_yf, work1, 0 )
	1889
	1890	DO k = 1, nz
	1891	DO j = 0, (ny+1)/2
[1322]	1892	ar(j,k) = REAL( work(j+1,k), KIND=wp )
[1]	1893	ENDDO
	1894	DO j = 1, (ny+1)/2 - 1
	1895	ar(ny+1-j,k) = AIMAG( work(j+1,k) )
	1896	ENDDO
	1897	ENDDO
	1898
	1899	ELSE
	1900
	1901	!
	1902	!-- Tables are initialized once more. This call should not be
	1903	!-- necessary, but otherwise program aborts in asymmetric case
[1106]	1904	CALL ZDFFTM( 0, ny+1, nz1, sqr_dny, work, ny+4, work, ny+4, &
[1]	1905	trig_yb, work1, 0 )
	1906
	1907	IF ( nz1 > nz ) THEN
[1342]	1908	work(:,nz1) = 0.0_wp
[1]	1909	ENDIF
	1910	DO k = 1, nz
[1392]	1911	work(1,k) = CMPLX( ar(0,k), 0.0_wp, KIND=wp )
[1]	1912	DO j = 1, (ny+1)/2 - 1
[1392]	1913	work(j+1,k) = CMPLX( ar(j,k), ar(ny+1-j,k), KIND=wp )
[1]	1914	ENDDO
[1392]	1915	work(((ny+1)/2)+1,k) = CMPLX( ar((ny+1)/2,k), 0.0_wp, KIND=wp )
[1]	1916	ENDDO
	1917
[1106]	1918	CALL ZDFFTM( -1, ny+1, nz1, sqr_dny, work, sizw, ai, siza, &
[1]	1919	trig_yb, work1, 0 )
	1920
	1921	ar(0:ny,1:nz) = ai(0:ny,1:nz)
	1922
	1923	ENDIF
	1924
	1925	#else
[254]	1926	message_string = 'no system-specific fft-call available'
	1927	CALL message( 'fft_y_m', 'PA0188', 1, 2, 0, 6, 0 )
[1]	1928	#endif
	1929
	1930	ELSE
[254]	1931
[274]	1932	message_string = 'fft method "' // TRIM( fft_method) // &
	1933	'" not available'
[254]	1934	CALL message( 'fft_x_m', 'PA0189', 1, 2, 0, 6, 0 )
[1]	1935
	1936	ENDIF
	1937
	1938	END SUBROUTINE fft_y_m
	1939
[1106]	1940
[1]	1941	END MODULE fft_xy

Note: See TracBrowser for help on using the repository browser.

Download in other formats:

| Impressum | ©Leibniz Universität Hannover |