Home

Context Navigation

source: palm/trunk/SOURCE/fft_xy.f90 @ 1188

Last change on this file since 1188 was 1167, checked in by raasch, 11 years ago
last commit documented
Property svn:keywords set to `Id`
File size: 46.0 KB

Line
1	MODULE fft_xy
2
3	!--------------------------------------------------------------------------------!
4	! This file is part of PALM.
5	!
6	! PALM is free software: you can redistribute it and/or modify it under the terms
7	! of the GNU General Public License as published by the Free Software Foundation,
8	! either version 3 of the License, or (at your option) any later version.
9	!
10	! PALM is distributed in the hope that it will be useful, but WITHOUT ANY
11	! WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR
12	! A PARTICULAR PURPOSE. See the GNU General Public License for more details.
13	!
14	! You should have received a copy of the GNU General Public License along with
15	! PALM. If not, see <http://www.gnu.org/licenses/>.
16	!
17	! Copyright 1997-2012 Leibniz University Hannover
18	!--------------------------------------------------------------------------------!
19	!
20	! Current revisions:
21	! -----------------
22	!
23	!
24	! Former revisions:
25	! -----------------
26	! $Id: fft_xy.f90 1167 2013-05-24 14:03:34Z heinze $
27	!
28	! 1166 2013-05-24 13:55:44Z raasch
29	! C_DOUBLE/COMPLEX reset to dpk
30	!
31	! 1153 2013-05-10 14:33:08Z raasch
32	! code adjustment of data types for CUDA fft required by PGI 12.3 / CUDA 5.0
33	!
34	! 1111 2013-03-08 23:54:10Z raasch
35	! further openACC statements added, CUDA branch completely runs on GPU
36	! bugfix: CUDA fft plans adjusted for domain decomposition (before they always
37	! used total domain)
38	!
39	! 1106 2013-03-04 05:31:38Z raasch
40	! CUDA fft added
41	! array_kind renamed precision_kind, 3D- instead of 1D-loops in fft_x and fft_y
42	! old fft_x, fft_y become fft_x_1d, fft_y_1d and are used for 1D-decomposition
43	!
44	! 1092 2013-02-02 11:24:22Z raasch
45	! variable sizw declared for NEC case only
46	!
47	! 1036 2012-10-22 13:43:42Z raasch
48	! code put under GPL (PALM 3.9)
49	!
50	! 274 2009-03-26 15:11:21Z heinze
51	! Output of messages replaced by message handling routine.
52	!
53	! Feb. 2007
54	! RCS Log replace by Id keyword, revision history cleaned up
55	!
56	! Revision 1.4 2006/03/28 12:27:09 raasch
57	! Stop when system-specific fft is selected on NEC. For unknown reasons this
58	! causes a program abort during first allocation in init_grid.
59	!
60	! Revision 1.2 2004/04/30 11:44:27 raasch
61	! Module renamed from fft_for_1d_decomp to fft_xy, 1d-routines renamed to
62	! fft_x and fft_y,
63	! function FFT replaced by subroutine FFTN due to problems with 64-bit
64	! mode on ibm,
65	! shape of array cwork is explicitly stored in ishape/jshape and handled
66	! to routine FFTN instead of shape-function (due to compiler error on
67	! decalpha),
68	! non vectorized FFT for nec included
69	!
70	! Revision 1.1 2002/06/11 13:00:49 raasch
71	! Initial revision
72	!
73	!
74	! Description:
75	! ------------
76	! Fast Fourier transformation along x and y for 1d domain decomposition along x.
77	! Original version: Klaus Ketelsen (May 2002)
78	!------------------------------------------------------------------------------!
79
80	USE control_parameters
81	USE indices
82	#if defined( __cuda_fft )
83	USE ISO_C_BINDING
84	#endif
85	USE precision_kind
86	USE singleton
87	USE temperton_fft
88	USE transpose_indices
89
90	IMPLICIT NONE
91
92	PRIVATE
93	PUBLIC fft_x, fft_x_1d, fft_y, fft_y_1d, fft_init, fft_x_m, fft_y_m
94
95	INTEGER, DIMENSION(:), ALLOCATABLE, SAVE :: ifax_x, ifax_y
96
97	LOGICAL, SAVE :: init_fft = .FALSE.
98
99	REAL, SAVE :: dnx, dny, sqr_dnx, sqr_dny
100	REAL, DIMENSION(:), ALLOCATABLE, SAVE :: trigs_x, trigs_y
101
102	#if defined( __ibm )
103	INTEGER, PARAMETER :: nau1 = 20000, nau2 = 22000
104	!
105	!-- The following working arrays contain tables and have to be "save" and
106	!-- shared in OpenMP sense
107	REAL, DIMENSION(nau1), SAVE :: aux1, auy1, aux3, auy3
108	#elif defined( __nec )
109	INTEGER, SAVE :: nz1
110	REAL, DIMENSION(:), ALLOCATABLE, SAVE :: trig_xb, trig_xf, trig_yb, &
111	trig_yf
112	#elif defined( __cuda_fft )
113	INTEGER(C_INT), SAVE :: plan_xf, plan_xi, plan_yf, plan_yi
114	INTEGER, SAVE :: total_points_x_transpo, total_points_y_transpo
115	#endif
116
117	!
118	!-- Public interfaces
119	INTERFACE fft_init
120	MODULE PROCEDURE fft_init
121	END INTERFACE fft_init
122
123	INTERFACE fft_x
124	MODULE PROCEDURE fft_x
125	END INTERFACE fft_x
126
127	INTERFACE fft_x_1d
128	MODULE PROCEDURE fft_x_1d
129	END INTERFACE fft_x_1d
130
131	INTERFACE fft_y
132	MODULE PROCEDURE fft_y
133	END INTERFACE fft_y
134
135	INTERFACE fft_y_1d
136	MODULE PROCEDURE fft_y_1d
137	END INTERFACE fft_y_1d
138
139	INTERFACE fft_x_m
140	MODULE PROCEDURE fft_x_m
141	END INTERFACE fft_x_m
142
143	INTERFACE fft_y_m
144	MODULE PROCEDURE fft_y_m
145	END INTERFACE fft_y_m
146
147	CONTAINS
148
149
150	SUBROUTINE fft_init
151
152	USE cuda_fft_interfaces
153
154	IMPLICIT NONE
155
156	!
157	!-- The following temporary working arrays have to be on stack or private
158	!-- in OpenMP sense
159	#if defined( __ibm )
160	REAL, DIMENSION(0:nx+2) :: workx
161	REAL, DIMENSION(0:ny+2) :: worky
162	REAL, DIMENSION(nau2) :: aux2, auy2, aux4, auy4
163	#elif defined( __nec )
164	REAL, DIMENSION(0:nx+3,nz+1) :: work_x
165	REAL, DIMENSION(0:ny+3,nz+1) :: work_y
166	REAL, DIMENSION(6*(nx+3),nz+1) :: workx
167	REAL, DIMENSION(6*(ny+3),nz+1) :: worky
168	#endif
169
170	!
171	!-- Return, if already called
172	IF ( init_fft ) THEN
173	RETURN
174	ELSE
175	init_fft = .TRUE.
176	ENDIF
177
178	IF ( fft_method == 'system-specific' ) THEN
179
180	dnx = 1.0 / ( nx + 1.0 )
181	dny = 1.0 / ( ny + 1.0 )
182	sqr_dnx = SQRT( dnx )
183	sqr_dny = SQRT( dny )
184	#if defined( __ibm ) && ! defined( __ibmy_special )
185	!
186	!-- Initialize tables for fft along x
187	CALL DRCFT( 1, workx, 1, workx, 1, nx+1, 1, 1, sqr_dnx, aux1, nau1, &
188	aux2, nau2 )
189	CALL DCRFT( 1, workx, 1, workx, 1, nx+1, 1, -1, sqr_dnx, aux3, nau1, &
190	aux4, nau2 )
191	!
192	!-- Initialize tables for fft along y
193	CALL DRCFT( 1, worky, 1, worky, 1, ny+1, 1, 1, sqr_dny, auy1, nau1, &
194	auy2, nau2 )
195	CALL DCRFT( 1, worky, 1, worky, 1, ny+1, 1, -1, sqr_dny, auy3, nau1, &
196	auy4, nau2 )
197	#elif defined( __nec )
198	message_string = 'fft method "' // TRIM( fft_method) // &
199	'" currently does not work on NEC'
200	CALL message( 'fft_init', 'PA0187', 1, 2, 0, 6, 0 )
201
202	ALLOCATE( trig_xb(2(nx+1)), trig_xf(2(nx+1)), &
203	trig_yb(2(ny+1)), trig_yf(2(ny+1)) )
204
205	work_x = 0.0
206	work_y = 0.0
207	nz1 = nz + MOD( nz+1, 2 ) ! odd nz slows down fft significantly
208	! when using the NEC ffts
209
210	!
211	!-- Initialize tables for fft along x (non-vector and vector case (M))
212	CALL DZFFT( 0, nx+1, sqr_dnx, work_x, work_x, trig_xf, workx, 0 )
213	CALL ZDFFT( 0, nx+1, sqr_dnx, work_x, work_x, trig_xb, workx, 0 )
214	CALL DZFFTM( 0, nx+1, nz1, sqr_dnx, work_x, nx+4, work_x, nx+4, &
215	trig_xf, workx, 0 )
216	CALL ZDFFTM( 0, nx+1, nz1, sqr_dnx, work_x, nx+4, work_x, nx+4, &
217	trig_xb, workx, 0 )
218	!
219	!-- Initialize tables for fft along y (non-vector and vector case (M))
220	CALL DZFFT( 0, ny+1, sqr_dny, work_y, work_y, trig_yf, worky, 0 )
221	CALL ZDFFT( 0, ny+1, sqr_dny, work_y, work_y, trig_yb, worky, 0 )
222	CALL DZFFTM( 0, ny+1, nz1, sqr_dny, work_y, ny+4, work_y, ny+4, &
223	trig_yf, worky, 0 )
224	CALL ZDFFTM( 0, ny+1, nz1, sqr_dny, work_y, ny+4, work_y, ny+4, &
225	trig_yb, worky, 0 )
226	#elif defined( __cuda_fft )
227	total_points_x_transpo = (nx+1) * (nyn_x-nys_x+1) * (nzt_x-nzb_x+1)
228	total_points_y_transpo = (ny+1) * (nxr_y-nxl_y+1) * (nzt_y-nzb_y+1)
229	CALL CUFFTPLAN1D( plan_xf, nx+1, CUFFT_D2Z, (nyn_x-nys_x+1) * (nzt_x-nzb_x+1) )
230	CALL CUFFTPLAN1D( plan_xi, nx+1, CUFFT_Z2D, (nyn_x-nys_x+1) * (nzt_x-nzb_x+1) )
231	CALL CUFFTPLAN1D( plan_yf, ny+1, CUFFT_D2Z, (nxr_y-nxl_y+1) * (nzt_y-nzb_y+1) )
232	CALL CUFFTPLAN1D( plan_yi, ny+1, CUFFT_Z2D, (nxr_y-nxl_y+1) * (nzt_y-nzb_y+1) )
233	#else
234	message_string = 'no system-specific fft-call available'
235	CALL message( 'fft_init', 'PA0188', 1, 2, 0, 6, 0 )
236	#endif
237	ELSEIF ( fft_method == 'temperton-algorithm' ) THEN
238	!
239	!-- Temperton-algorithm
240	!-- Initialize tables for fft along x and y
241	ALLOCATE( ifax_x(nx+1), ifax_y(ny+1), trigs_x(nx+1), trigs_y(ny+1) )
242
243	CALL set99( trigs_x, ifax_x, nx+1 )
244	CALL set99( trigs_y, ifax_y, ny+1 )
245
246	ELSEIF ( fft_method == 'singleton-algorithm' ) THEN
247
248	CONTINUE
249
250	ELSE
251
252	message_string = 'fft method "' // TRIM( fft_method) // &
253	'" not available'
254	CALL message( 'fft_init', 'PA0189', 1, 2, 0, 6, 0 )
255	ENDIF
256
257	END SUBROUTINE fft_init
258
259
260	SUBROUTINE fft_x( ar, direction )
261
262	!----------------------------------------------------------------------!
263	! fft_x !
264	! !
265	! Fourier-transformation along x-direction !
266	! Version for 2D-decomposition !
267	! !
268	! fft_x uses internal algorithms (Singleton or Temperton) or !
269	! system-specific routines, if they are available !
270	!----------------------------------------------------------------------!
271
272	USE cuda_fft_interfaces
273	#if defined( __cuda_fft )
274	USE ISO_C_BINDING
275	#endif
276
277	IMPLICIT NONE
278
279	CHARACTER (LEN=*) :: direction
280	INTEGER :: i, ishape(1), j, k
281
282	LOGICAL :: forward_fft
283
284	REAL, DIMENSION(0:nx+2) :: work
285	REAL, DIMENSION(nx+2) :: work1
286	COMPLEX, DIMENSION(:), ALLOCATABLE :: cwork
287	#if defined( __ibm )
288	REAL, DIMENSION(nau2) :: aux2, aux4
289	#elif defined( __nec )
290	REAL, DIMENSION(6*(nx+1)) :: work2
291	#elif defined( __cuda_fft )
292	!$acc declare create( ar_tmp )
293	COMPLEX(dpk), DIMENSION(0:(nx+1)/2,nys_x:nyn_x,nzb_x:nzt_x) :: ar_tmp
294	#endif
295	REAL, DIMENSION(0:nx,nys_x:nyn_x,nzb_x:nzt_x) :: ar
296
297	IF ( direction == 'forward' ) THEN
298	forward_fft = .TRUE.
299	ELSE
300	forward_fft = .FALSE.
301	ENDIF
302
303	IF ( fft_method == 'singleton-algorithm' ) THEN
304
305	!
306	!-- Performing the fft with singleton's software works on every system,
307	!-- since it is part of the model
308	ALLOCATE( cwork(0:nx) )
309
310	IF ( forward_fft ) then
311
312	!$OMP PARALLEL PRIVATE ( cwork, i, ishape, j, k )
313	!$OMP DO
314	DO k = nzb_x, nzt_x
315	DO j = nys_x, nyn_x
316
317	DO i = 0, nx
318	cwork(i) = CMPLX( ar(i,j,k) )
319	ENDDO
320
321	ishape = SHAPE( cwork )
322	CALL FFTN( cwork, ishape )
323
324	DO i = 0, (nx+1)/2
325	ar(i,j,k) = REAL( cwork(i) )
326	ENDDO
327	DO i = 1, (nx+1)/2 - 1
328	ar(nx+1-i,j,k) = -AIMAG( cwork(i) )
329	ENDDO
330
331	ENDDO
332	ENDDO
333	!$OMP END PARALLEL
334
335	ELSE
336
337	!$OMP PARALLEL PRIVATE ( cwork, i, ishape, j, k )
338	!$OMP DO
339	DO k = nzb_x, nzt_x
340	DO j = nys_x, nyn_x
341
342	cwork(0) = CMPLX( ar(0,j,k), 0.0 )
343	DO i = 1, (nx+1)/2 - 1
344	cwork(i) = CMPLX( ar(i,j,k), -ar(nx+1-i,j,k) )
345	cwork(nx+1-i) = CMPLX( ar(i,j,k), ar(nx+1-i,j,k) )
346	ENDDO
347	cwork((nx+1)/2) = CMPLX( ar((nx+1)/2,j,k), 0.0 )
348
349	ishape = SHAPE( cwork )
350	CALL FFTN( cwork, ishape, inv = .TRUE. )
351
352	DO i = 0, nx
353	ar(i,j,k) = REAL( cwork(i) )
354	ENDDO
355
356	ENDDO
357	ENDDO
358	!$OMP END PARALLEL
359
360	ENDIF
361
362	DEALLOCATE( cwork )
363
364	ELSEIF ( fft_method == 'temperton-algorithm' ) THEN
365
366	!
367	!-- Performing the fft with Temperton's software works on every system,
368	!-- since it is part of the model
369	IF ( forward_fft ) THEN
370
371	!$OMP PARALLEL PRIVATE ( work, i, j, k )
372	!$OMP DO
373	DO k = nzb_x, nzt_x
374	DO j = nys_x, nyn_x
375
376	work(0:nx) = ar(0:nx,j,k)
377	CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, -1 )
378
379	DO i = 0, (nx+1)/2
380	ar(i,j,k) = work(2*i)
381	ENDDO
382	DO i = 1, (nx+1)/2 - 1
383	ar(nx+1-i,j,k) = work(2*i+1)
384	ENDDO
385
386	ENDDO
387	ENDDO
388	!$OMP END PARALLEL
389
390	ELSE
391
392	!$OMP PARALLEL PRIVATE ( work, i, j, k )
393	!$OMP DO
394	DO k = nzb_x, nzt_x
395	DO j = nys_x, nyn_x
396
397	DO i = 0, (nx+1)/2
398	work(2*i) = ar(i,j,k)
399	ENDDO
400	DO i = 1, (nx+1)/2 - 1
401	work(2*i+1) = ar(nx+1-i,j,k)
402	ENDDO
403	work(1) = 0.0
404	work(nx+2) = 0.0
405
406	CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, 1 )
407	ar(0:nx,j,k) = work(0:nx)
408
409	ENDDO
410	ENDDO
411	!$OMP END PARALLEL
412
413	ENDIF
414
415	ELSEIF ( fft_method == 'system-specific' ) THEN
416
417	#if defined( __ibm ) && ! defined( __ibmy_special )
418	IF ( forward_fft ) THEN
419
420	!$OMP PARALLEL PRIVATE ( work, i, j, k )
421	!$OMP DO
422	DO k = nzb_x, nzt_x
423	DO j = nys_x, nyn_x
424
425	CALL DRCFT( 0, ar, 1, work, 1, nx+1, 1, 1, sqr_dnx, aux1, nau1, &
426	aux2, nau2 )
427
428	DO i = 0, (nx+1)/2
429	ar(i,j,k) = work(2*i)
430	ENDDO
431	DO i = 1, (nx+1)/2 - 1
432	ar(nx+1-i,j,k) = work(2*i+1)
433	ENDDO
434
435	ENDDO
436	ENDDO
437	!$OMP END PARALLEL
438
439	ELSE
440
441	!$OMP PARALLEL PRIVATE ( work, i, j, k )
442	!$OMP DO
443	DO k = nzb_x, nzt_x
444	DO j = nys_x, nyn_x
445
446	DO i = 0, (nx+1)/2
447	work(2*i) = ar(i,j,k)
448	ENDDO
449	DO i = 1, (nx+1)/2 - 1
450	work(2*i+1) = ar(nx+1-i,j,k)
451	ENDDO
452	work(1) = 0.0
453	work(nx+2) = 0.0
454
455	CALL DCRFT( 0, work, 1, work, 1, nx+1, 1, -1, sqr_dnx, aux3, nau1, &
456	aux4, nau2 )
457
458	DO i = 0, nx
459	ar(i,j,k) = work(i)
460	ENDDO
461
462	ENDDO
463	ENDDO
464	!$OMP END PARALLEL
465
466	ENDIF
467
468	#elif defined( __nec )
469
470	IF ( forward_fft ) THEN
471
472	!$OMP PARALLEL PRIVATE ( work, i, j, k )
473	!$OMP DO
474	DO k = nzb_x, nzt_x
475	DO j = nys_x, nyn_x
476
477	work(0:nx) = ar(0:nx,j,k)
478
479	CALL DZFFT( 1, nx+1, sqr_dnx, work, work, trig_xf, work2, 0 )
480
481	DO i = 0, (nx+1)/2
482	ar(i,j,k) = work(2*i)
483	ENDDO
484	DO i = 1, (nx+1)/2 - 1
485	ar(nx+1-i,j,k) = work(2*i+1)
486	ENDDO
487
488	ENDDO
489	ENDDO
490	!$END OMP PARALLEL
491
492	ELSE
493
494	!$OMP PARALLEL PRIVATE ( work, i, j, k )
495	!$OMP DO
496	DO k = nzb_x, nzt_x
497	DO j = nys_x, nyn_x
498
499	DO i = 0, (nx+1)/2
500	work(2*i) = ar(i,j,k)
501	ENDDO
502	DO i = 1, (nx+1)/2 - 1
503	work(2*i+1) = ar(nx+1-i,j,k)
504	ENDDO
505	work(1) = 0.0
506	work(nx+2) = 0.0
507
508	CALL ZDFFT( -1, nx+1, sqr_dnx, work, work, trig_xb, work2, 0 )
509
510	ar(0:nx,j,k) = work(0:nx)
511
512	ENDDO
513	ENDDO
514	!$OMP END PARALLEL
515
516	ENDIF
517
518	#elif defined( __cuda_fft )
519
520	IF ( forward_fft ) THEN
521
522	!$acc data present( ar )
523	CALL CUFFTEXECD2Z( plan_xf, ar, ar_tmp )
524
525	!$acc kernels
526	!$acc loop
527	DO k = nzb_x, nzt_x
528	DO j = nys_x, nyn_x
529
530	!$acc loop vector( 32 )
531	DO i = 0, (nx+1)/2
532	ar(i,j,k) = REAL( ar_tmp(i,j,k) ) * dnx
533	ENDDO
534
535	!$acc loop vector( 32 )
536	DO i = 1, (nx+1)/2 - 1
537	ar(nx+1-i,j,k) = AIMAG( ar_tmp(i,j,k) ) * dnx
538	ENDDO
539
540	ENDDO
541	ENDDO
542	!$acc end kernels
543	!$acc end data
544
545	ELSE
546
547	!$acc data present( ar )
548	!$acc kernels
549	!$acc loop
550	DO k = nzb_x, nzt_x
551	DO j = nys_x, nyn_x
552
553	ar_tmp(0,j,k) = CMPLX( ar(0,j,k), 0.0 )
554
555	!$acc loop vector( 32 )
556	DO i = 1, (nx+1)/2 - 1
557	ar_tmp(i,j,k) = CMPLX( ar(i,j,k), ar(nx+1-i,j,k) )
558	ENDDO
559	ar_tmp((nx+1)/2,j,k) = CMPLX( ar((nx+1)/2,j,k), 0.0 )
560
561	ENDDO
562	ENDDO
563	!$acc end kernels
564
565	CALL CUFFTEXECZ2D( plan_xi, ar_tmp, ar )
566	!$acc end data
567
568	ENDIF
569
570	#else
571	message_string = 'no system-specific fft-call available'
572	CALL message( 'fft_x', 'PA0188', 1, 2, 0, 6, 0 )
573	#endif
574
575	ELSE
576
577	message_string = 'fft method "' // TRIM( fft_method) // &
578	'" not available'
579	CALL message( 'fft_x', 'PA0189', 1, 2, 0, 6, 0 )
580
581	ENDIF
582
583	END SUBROUTINE fft_x
584
585	SUBROUTINE fft_x_1d( ar, direction )
586
587	!----------------------------------------------------------------------!
588	! fft_x_1d !
589	! !
590	! Fourier-transformation along x-direction !
591	! Version for 1D-decomposition !
592	! !
593	! fft_x uses internal algorithms (Singleton or Temperton) or !
594	! system-specific routines, if they are available !
595	!----------------------------------------------------------------------!
596
597	IMPLICIT NONE
598
599	CHARACTER (LEN=*) :: direction
600	INTEGER :: i, ishape(1)
601
602	LOGICAL :: forward_fft
603
604	REAL, DIMENSION(0:nx) :: ar
605	REAL, DIMENSION(0:nx+2) :: work
606	REAL, DIMENSION(nx+2) :: work1
607	COMPLEX, DIMENSION(:), ALLOCATABLE :: cwork
608	#if defined( __ibm )
609	REAL, DIMENSION(nau2) :: aux2, aux4
610	#elif defined( __nec )
611	REAL, DIMENSION(6*(nx+1)) :: work2
612	#endif
613
614	IF ( direction == 'forward' ) THEN
615	forward_fft = .TRUE.
616	ELSE
617	forward_fft = .FALSE.
618	ENDIF
619
620	IF ( fft_method == 'singleton-algorithm' ) THEN
621
622	!
623	!-- Performing the fft with singleton's software works on every system,
624	!-- since it is part of the model
625	ALLOCATE( cwork(0:nx) )
626
627	IF ( forward_fft ) then
628
629	DO i = 0, nx
630	cwork(i) = CMPLX( ar(i) )
631	ENDDO
632	ishape = SHAPE( cwork )
633	CALL FFTN( cwork, ishape )
634	DO i = 0, (nx+1)/2
635	ar(i) = REAL( cwork(i) )
636	ENDDO
637	DO i = 1, (nx+1)/2 - 1
638	ar(nx+1-i) = -AIMAG( cwork(i) )
639	ENDDO
640
641	ELSE
642
643	cwork(0) = CMPLX( ar(0), 0.0 )
644	DO i = 1, (nx+1)/2 - 1
645	cwork(i) = CMPLX( ar(i), -ar(nx+1-i) )
646	cwork(nx+1-i) = CMPLX( ar(i), ar(nx+1-i) )
647	ENDDO
648	cwork((nx+1)/2) = CMPLX( ar((nx+1)/2), 0.0 )
649
650	ishape = SHAPE( cwork )
651	CALL FFTN( cwork, ishape, inv = .TRUE. )
652
653	DO i = 0, nx
654	ar(i) = REAL( cwork(i) )
655	ENDDO
656
657	ENDIF
658
659	DEALLOCATE( cwork )
660
661	ELSEIF ( fft_method == 'temperton-algorithm' ) THEN
662
663	!
664	!-- Performing the fft with Temperton's software works on every system,
665	!-- since it is part of the model
666	IF ( forward_fft ) THEN
667
668	work(0:nx) = ar
669	CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, -1 )
670
671	DO i = 0, (nx+1)/2
672	ar(i) = work(2*i)
673	ENDDO
674	DO i = 1, (nx+1)/2 - 1
675	ar(nx+1-i) = work(2*i+1)
676	ENDDO
677
678	ELSE
679
680	DO i = 0, (nx+1)/2
681	work(2*i) = ar(i)
682	ENDDO
683	DO i = 1, (nx+1)/2 - 1
684	work(2*i+1) = ar(nx+1-i)
685	ENDDO
686	work(1) = 0.0
687	work(nx+2) = 0.0
688
689	CALL fft991cy( work, work1, trigs_x, ifax_x, 1, nx+1, nx+1, 1, 1 )
690	ar = work(0:nx)
691
692	ENDIF
693
694	ELSEIF ( fft_method == 'system-specific' ) THEN
695
696	#if defined( __ibm ) && ! defined( __ibmy_special )
697	IF ( forward_fft ) THEN
698
699	CALL DRCFT( 0, ar, 1, work, 1, nx+1, 1, 1, sqr_dnx, aux1, nau1, &
700	aux2, nau2 )
701
702	DO i = 0, (nx+1)/2
703	ar(i) = work(2*i)
704	ENDDO
705	DO i = 1, (nx+1)/2 - 1
706	ar(nx+1-i) = work(2*i+1)
707	ENDDO
708
709	ELSE
710
711	DO i = 0, (nx+1)/2
712	work(2*i) = ar(i)
713	ENDDO
714	DO i = 1, (nx+1)/2 - 1
715	work(2*i+1) = ar(nx+1-i)
716	ENDDO
717	work(1) = 0.0
718	work(nx+2) = 0.0
719
720	CALL DCRFT( 0, work, 1, work, 1, nx+1, 1, -1, sqr_dnx, aux3, nau1, &
721	aux4, nau2 )
722
723	DO i = 0, nx
724	ar(i) = work(i)
725	ENDDO
726
727	ENDIF
728	#elif defined( __nec )
729	IF ( forward_fft ) THEN
730
731	work(0:nx) = ar(0:nx)
732
733	CALL DZFFT( 1, nx+1, sqr_dnx, work, work, trig_xf, work2, 0 )
734
735	DO i = 0, (nx+1)/2
736	ar(i) = work(2*i)
737	ENDDO
738	DO i = 1, (nx+1)/2 - 1
739	ar(nx+1-i) = work(2*i+1)
740	ENDDO
741
742	ELSE
743
744	DO i = 0, (nx+1)/2
745	work(2*i) = ar(i)
746	ENDDO
747	DO i = 1, (nx+1)/2 - 1
748	work(2*i+1) = ar(nx+1-i)
749	ENDDO
750	work(1) = 0.0
751	work(nx+2) = 0.0
752
753	CALL ZDFFT( -1, nx+1, sqr_dnx, work, work, trig_xb, work2, 0 )
754
755	ar(0:nx) = work(0:nx)
756
757	ENDIF
758	#else
759	message_string = 'no system-specific fft-call available'
760	CALL message( 'fft_x_1d', 'PA0188', 1, 2, 0, 6, 0 )
761	#endif
762	ELSE
763	message_string = 'fft method "' // TRIM( fft_method) // &
764	'" not available'
765	CALL message( 'fft_x_1d', 'PA0189', 1, 2, 0, 6, 0 )
766
767	ENDIF
768
769	END SUBROUTINE fft_x_1d
770
771	SUBROUTINE fft_y( ar, direction )
772
773	!----------------------------------------------------------------------!
774	! fft_y !
775	! !
776	! Fourier-transformation along y-direction !
777	! Version for 2D-decomposition !
778	! !
779	! fft_y uses internal algorithms (Singleton or Temperton) or !
780	! system-specific routines, if they are available !
781	!----------------------------------------------------------------------!
782
783	USE cuda_fft_interfaces
784	#if defined( __cuda_fft )
785	USE ISO_C_BINDING
786	#endif
787
788	IMPLICIT NONE
789
790	CHARACTER (LEN=*) :: direction
791	INTEGER :: i, j, jshape(1), k
792
793	LOGICAL :: forward_fft
794
795	REAL, DIMENSION(0:ny+2) :: work
796	REAL, DIMENSION(ny+2) :: work1
797	COMPLEX, DIMENSION(:), ALLOCATABLE :: cwork
798	#if defined( __ibm )
799	REAL, DIMENSION(nau2) :: auy2, auy4
800	#elif defined( __nec )
801	REAL, DIMENSION(6*(ny+1)) :: work2
802	#elif defined( __cuda_fft )
803	!$acc declare create( ar_tmp )
804	COMPLEX(dpk), DIMENSION(0:(ny+1)/2,nxl_y:nxr_y,nzb_y:nzt_y) :: ar_tmp
805	#endif
806	REAL, DIMENSION(0:ny,nxl_y:nxr_y,nzb_y:nzt_y) :: ar
807
808	IF ( direction == 'forward' ) THEN
809	forward_fft = .TRUE.
810	ELSE
811	forward_fft = .FALSE.
812	ENDIF
813
814	IF ( fft_method == 'singleton-algorithm' ) THEN
815
816	!
817	!-- Performing the fft with singleton's software works on every system,
818	!-- since it is part of the model
819	ALLOCATE( cwork(0:ny) )
820
821	IF ( forward_fft ) then
822
823	!$OMP PARALLEL PRIVATE ( cwork, i, jshape, j, k )
824	!$OMP DO
825	DO k = nzb_y, nzt_y
826	DO i = nxl_y, nxr_y
827
828	DO j = 0, ny
829	cwork(j) = CMPLX( ar(j,i,k) )
830	ENDDO
831
832	jshape = SHAPE( cwork )
833	CALL FFTN( cwork, jshape )
834
835	DO j = 0, (ny+1)/2
836	ar(j,i,k) = REAL( cwork(j) )
837	ENDDO
838	DO j = 1, (ny+1)/2 - 1
839	ar(ny+1-j,i,k) = -AIMAG( cwork(j) )
840	ENDDO
841
842	ENDDO
843	ENDDO
844	!$OMP END PARALLEL
845
846	ELSE
847
848	!$OMP PARALLEL PRIVATE ( cwork, i, jshape, j, k )
849	!$OMP DO
850	DO k = nzb_y, nzt_y
851	DO i = nxl_y, nxr_y
852
853	cwork(0) = CMPLX( ar(0,i,k), 0.0 )
854	DO j = 1, (ny+1)/2 - 1
855	cwork(j) = CMPLX( ar(j,i,k), -ar(ny+1-j,i,k) )
856	cwork(ny+1-j) = CMPLX( ar(j,i,k), ar(ny+1-j,i,k) )
857	ENDDO
858	cwork((ny+1)/2) = CMPLX( ar((ny+1)/2,i,k), 0.0 )
859
860	jshape = SHAPE( cwork )
861	CALL FFTN( cwork, jshape, inv = .TRUE. )
862
863	DO j = 0, ny
864	ar(j,i,k) = REAL( cwork(j) )
865	ENDDO
866
867	ENDDO
868	ENDDO
869	!$OMP END PARALLEL
870
871	ENDIF
872
873	DEALLOCATE( cwork )
874
875	ELSEIF ( fft_method == 'temperton-algorithm' ) THEN
876
877	!
878	!-- Performing the fft with Temperton's software works on every system,
879	!-- since it is part of the model
880	IF ( forward_fft ) THEN
881
882	!$OMP PARALLEL PRIVATE ( work, i, j, k )
883	!$OMP DO
884	DO k = nzb_y, nzt_y
885	DO i = nxl_y, nxr_y
886
887	work(0:ny) = ar(0:ny,i,k)
888	CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, -1 )
889
890	DO j = 0, (ny+1)/2
891	ar(j,i,k) = work(2*j)
892	ENDDO
893	DO j = 1, (ny+1)/2 - 1
894	ar(ny+1-j,i,k) = work(2*j+1)
895	ENDDO
896
897	ENDDO
898	ENDDO
899	!$OMP END PARALLEL
900
901	ELSE
902
903	!$OMP PARALLEL PRIVATE ( work, i, j, k )
904	!$OMP DO
905	DO k = nzb_y, nzt_y
906	DO i = nxl_y, nxr_y
907
908	DO j = 0, (ny+1)/2
909	work(2*j) = ar(j,i,k)
910	ENDDO
911	DO j = 1, (ny+1)/2 - 1
912	work(2*j+1) = ar(ny+1-j,i,k)
913	ENDDO
914	work(1) = 0.0
915	work(ny+2) = 0.0
916
917	CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, 1 )
918	ar(0:ny,i,k) = work(0:ny)
919
920	ENDDO
921	ENDDO
922	!$OMP END PARALLEL
923
924	ENDIF
925
926	ELSEIF ( fft_method == 'system-specific' ) THEN
927
928	#if defined( __ibm ) && ! defined( __ibmy_special )
929	IF ( forward_fft) THEN
930
931	!$OMP PARALLEL PRIVATE ( work, i, j, k )
932	!$OMP DO
933	DO k = nzb_y, nzt_y
934	DO i = nxl_y, nxr_y
935
936	CALL DRCFT( 0, ar, 1, work, 1, ny+1, 1, 1, sqr_dny, auy1, nau1, &
937	auy2, nau2 )
938
939	DO j = 0, (ny+1)/2
940	ar(j,i,k) = work(2*j)
941	ENDDO
942	DO j = 1, (ny+1)/2 - 1
943	ar(ny+1-j,i,k) = work(2*j+1)
944	ENDDO
945
946	ENDDO
947	ENDDO
948	!$OMP END PARALLEL
949
950	ELSE
951
952	!$OMP PARALLEL PRIVATE ( work, i, j, k )
953	!$OMP DO
954	DO k = nzb_y, nzt_y
955	DO i = nxl_y, nxr_y
956
957	DO j = 0, (ny+1)/2
958	work(2*j) = ar(j,i,k)
959	ENDDO
960	DO j = 1, (ny+1)/2 - 1
961	work(2*j+1) = ar(ny+1-j,i,k)
962	ENDDO
963	work(1) = 0.0
964	work(ny+2) = 0.0
965
966	CALL DCRFT( 0, work, 1, work, 1, ny+1, 1, -1, sqr_dny, auy3, nau1, &
967	auy4, nau2 )
968
969	DO j = 0, ny
970	ar(j,i,k) = work(j)
971	ENDDO
972
973	ENDDO
974	ENDDO
975	!$OMP END PARALLEL
976
977	ENDIF
978	#elif defined( __nec )
979	IF ( forward_fft ) THEN
980
981	!$OMP PARALLEL PRIVATE ( work, i, j, k )
982	!$OMP DO
983	DO k = nzb_y, nzt_y
984	DO i = nxl_y, nxr_y
985
986	work(0:ny) = ar(0:ny,i,k)
987
988	CALL DZFFT( 1, ny+1, sqr_dny, work, work, trig_yf, work2, 0 )
989
990	DO j = 0, (ny+1)/2
991	ar(j,i,k) = work(2*j)
992	ENDDO
993	DO j = 1, (ny+1)/2 - 1
994	ar(ny+1-j,i,k) = work(2*j+1)
995	ENDDO
996
997	ENDDO
998	ENDDO
999	!$END OMP PARALLEL
1000
1001	ELSE
1002
1003	!$OMP PARALLEL PRIVATE ( work, i, j, k )
1004	!$OMP DO
1005	DO k = nzb_y, nzt_y
1006	DO i = nxl_y, nxr_y
1007
1008	DO j = 0, (ny+1)/2
1009	work(2*j) = ar(j,i,k)
1010	ENDDO
1011	DO j = 1, (ny+1)/2 - 1
1012	work(2*j+1) = ar(ny+1-j,i,k)
1013	ENDDO
1014	work(1) = 0.0
1015	work(ny+2) = 0.0
1016
1017	CALL ZDFFT( -1, ny+1, sqr_dny, work, work, trig_yb, work2, 0 )
1018
1019	ar(0:ny,i,k) = work(0:ny)
1020
1021	ENDDO
1022	ENDDO
1023	!$OMP END PARALLEL
1024
1025	ENDIF
1026	#elif defined( __cuda_fft )
1027
1028	IF ( forward_fft ) THEN
1029
1030	!$acc data present( ar )
1031	CALL CUFFTEXECD2Z( plan_yf, ar, ar_tmp )
1032
1033	!$acc kernels
1034	!$acc loop
1035	DO k = nzb_y, nzt_y
1036	DO i = nxl_y, nxr_y
1037
1038	!$acc loop vector( 32 )
1039	DO j = 0, (ny+1)/2
1040	ar(j,i,k) = REAL( ar_tmp(j,i,k) ) * dny
1041	ENDDO
1042
1043	!$acc loop vector( 32 )
1044	DO j = 1, (ny+1)/2 - 1
1045	ar(ny+1-j,i,k) = AIMAG( ar_tmp(j,i,k) ) * dny
1046	ENDDO
1047
1048	ENDDO
1049	ENDDO
1050	!$acc end kernels
1051	!$acc end data
1052
1053	ELSE
1054
1055	!$acc data present( ar )
1056	!$acc kernels
1057	!$acc loop
1058	DO k = nzb_y, nzt_y
1059	DO i = nxl_y, nxr_y
1060
1061	ar_tmp(0,i,k) = CMPLX( ar(0,i,k), 0.0 )
1062
1063	!$acc loop vector( 32 )
1064	DO j = 1, (ny+1)/2 - 1
1065	ar_tmp(j,i,k) = CMPLX( ar(j,i,k), ar(ny+1-j,i,k) )
1066	ENDDO
1067	ar_tmp((ny+1)/2,i,k) = CMPLX( ar((ny+1)/2,i,k), 0.0 )
1068
1069	ENDDO
1070	ENDDO
1071	!$acc end kernels
1072
1073	CALL CUFFTEXECZ2D( plan_yi, ar_tmp, ar )
1074	!$acc end data
1075
1076	ENDIF
1077
1078	#else
1079	message_string = 'no system-specific fft-call available'
1080	CALL message( 'fft_y', 'PA0188', 1, 2, 0, 6, 0 )
1081	#endif
1082
1083	ELSE
1084
1085	message_string = 'fft method "' // TRIM( fft_method) // &
1086	'" not available'
1087	CALL message( 'fft_y', 'PA0189', 1, 2, 0, 6, 0 )
1088
1089	ENDIF
1090
1091	END SUBROUTINE fft_y
1092
1093	SUBROUTINE fft_y_1d( ar, direction )
1094
1095	!----------------------------------------------------------------------!
1096	! fft_y_1d !
1097	! !
1098	! Fourier-transformation along y-direction !
1099	! Version for 1D-decomposition !
1100	! !
1101	! fft_y uses internal algorithms (Singleton or Temperton) or !
1102	! system-specific routines, if they are available !
1103	!----------------------------------------------------------------------!
1104
1105	IMPLICIT NONE
1106
1107	CHARACTER (LEN=*) :: direction
1108	INTEGER :: j, jshape(1)
1109
1110	LOGICAL :: forward_fft
1111
1112	REAL, DIMENSION(0:ny) :: ar
1113	REAL, DIMENSION(0:ny+2) :: work
1114	REAL, DIMENSION(ny+2) :: work1
1115	COMPLEX, DIMENSION(:), ALLOCATABLE :: cwork
1116	#if defined( __ibm )
1117	REAL, DIMENSION(nau2) :: auy2, auy4
1118	#elif defined( __nec )
1119	REAL, DIMENSION(6*(ny+1)) :: work2
1120	#endif
1121
1122	IF ( direction == 'forward' ) THEN
1123	forward_fft = .TRUE.
1124	ELSE
1125	forward_fft = .FALSE.
1126	ENDIF
1127
1128	IF ( fft_method == 'singleton-algorithm' ) THEN
1129
1130	!
1131	!-- Performing the fft with singleton's software works on every system,
1132	!-- since it is part of the model
1133	ALLOCATE( cwork(0:ny) )
1134
1135	IF ( forward_fft ) THEN
1136
1137	DO j = 0, ny
1138	cwork(j) = CMPLX( ar(j) )
1139	ENDDO
1140
1141	jshape = SHAPE( cwork )
1142	CALL FFTN( cwork, jshape )
1143
1144	DO j = 0, (ny+1)/2
1145	ar(j) = REAL( cwork(j) )
1146	ENDDO
1147	DO j = 1, (ny+1)/2 - 1
1148	ar(ny+1-j) = -AIMAG( cwork(j) )
1149	ENDDO
1150
1151	ELSE
1152
1153	cwork(0) = CMPLX( ar(0), 0.0 )
1154	DO j = 1, (ny+1)/2 - 1
1155	cwork(j) = CMPLX( ar(j), -ar(ny+1-j) )
1156	cwork(ny+1-j) = CMPLX( ar(j), ar(ny+1-j) )
1157	ENDDO
1158	cwork((ny+1)/2) = CMPLX( ar((ny+1)/2), 0.0 )
1159
1160	jshape = SHAPE( cwork )
1161	CALL FFTN( cwork, jshape, inv = .TRUE. )
1162
1163	DO j = 0, ny
1164	ar(j) = REAL( cwork(j) )
1165	ENDDO
1166
1167	ENDIF
1168
1169	DEALLOCATE( cwork )
1170
1171	ELSEIF ( fft_method == 'temperton-algorithm' ) THEN
1172
1173	!
1174	!-- Performing the fft with Temperton's software works on every system,
1175	!-- since it is part of the model
1176	IF ( forward_fft ) THEN
1177
1178	work(0:ny) = ar
1179	CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, -1 )
1180
1181	DO j = 0, (ny+1)/2
1182	ar(j) = work(2*j)
1183	ENDDO
1184	DO j = 1, (ny+1)/2 - 1
1185	ar(ny+1-j) = work(2*j+1)
1186	ENDDO
1187
1188	ELSE
1189
1190	DO j = 0, (ny+1)/2
1191	work(2*j) = ar(j)
1192	ENDDO
1193	DO j = 1, (ny+1)/2 - 1
1194	work(2*j+1) = ar(ny+1-j)
1195	ENDDO
1196	work(1) = 0.0
1197	work(ny+2) = 0.0
1198
1199	CALL fft991cy( work, work1, trigs_y, ifax_y, 1, ny+1, ny+1, 1, 1 )
1200	ar = work(0:ny)
1201
1202	ENDIF
1203
1204	ELSEIF ( fft_method == 'system-specific' ) THEN
1205
1206	#if defined( __ibm ) && ! defined( __ibmy_special )
1207	IF ( forward_fft ) THEN
1208
1209	CALL DRCFT( 0, ar, 1, work, 1, ny+1, 1, 1, sqr_dny, auy1, nau1, &
1210	auy2, nau2 )
1211
1212	DO j = 0, (ny+1)/2
1213	ar(j) = work(2*j)
1214	ENDDO
1215	DO j = 1, (ny+1)/2 - 1
1216	ar(ny+1-j) = work(2*j+1)
1217	ENDDO
1218
1219	ELSE
1220
1221	DO j = 0, (ny+1)/2
1222	work(2*j) = ar(j)
1223	ENDDO
1224	DO j = 1, (ny+1)/2 - 1
1225	work(2*j+1) = ar(ny+1-j)
1226	ENDDO
1227	work(1) = 0.0
1228	work(ny+2) = 0.0
1229
1230	CALL DCRFT( 0, work, 1, work, 1, ny+1, 1, -1, sqr_dny, auy3, nau1, &
1231	auy4, nau2 )
1232
1233	DO j = 0, ny
1234	ar(j) = work(j)
1235	ENDDO
1236
1237	ENDIF
1238	#elif defined( __nec )
1239	IF ( forward_fft ) THEN
1240
1241	work(0:ny) = ar(0:ny)
1242
1243	CALL DZFFT( 1, ny+1, sqr_dny, work, work, trig_yf, work2, 0 )
1244
1245	DO j = 0, (ny+1)/2
1246	ar(j) = work(2*j)
1247	ENDDO
1248	DO j = 1, (ny+1)/2 - 1
1249	ar(ny+1-j) = work(2*j+1)
1250	ENDDO
1251
1252	ELSE
1253
1254	DO j = 0, (ny+1)/2
1255	work(2*j) = ar(j)
1256	ENDDO
1257	DO j = 1, (ny+1)/2 - 1
1258	work(2*j+1) = ar(ny+1-j)
1259	ENDDO
1260	work(1) = 0.0
1261	work(ny+2) = 0.0
1262
1263	CALL ZDFFT( -1, ny+1, sqr_dny, work, work, trig_yb, work2, 0 )
1264
1265	ar(0:ny) = work(0:ny)
1266
1267	ENDIF
1268	#else
1269	message_string = 'no system-specific fft-call available'
1270	CALL message( 'fft_y_1d', 'PA0188', 1, 2, 0, 6, 0 )
1271
1272	#endif
1273
1274	ELSE
1275
1276	message_string = 'fft method "' // TRIM( fft_method) // &
1277	'" not available'
1278	CALL message( 'fft_y_1d', 'PA0189', 1, 2, 0, 6, 0 )
1279
1280	ENDIF
1281
1282	END SUBROUTINE fft_y_1d
1283
1284	SUBROUTINE fft_x_m( ar, direction )
1285
1286	!----------------------------------------------------------------------!
1287	! fft_x_m !
1288	! !
1289	! Fourier-transformation along x-direction !
1290	! Version for 1d domain decomposition !
1291	! using multiple 1D FFT from Math Keisan on NEC !
1292	! or Temperton-algorithm !
1293	! (no singleton-algorithm on NEC because it does not vectorize) !
1294	! !
1295	!----------------------------------------------------------------------!
1296
1297	IMPLICIT NONE
1298
1299	CHARACTER (LEN=*) :: direction
1300	INTEGER :: i, k, siza
1301
1302	REAL, DIMENSION(0:nx,nz) :: ar
1303	REAL, DIMENSION(0:nx+3,nz+1) :: ai
1304	REAL, DIMENSION(6*(nx+4),nz+1) :: work1
1305	#if defined( __nec )
1306	INTEGER :: sizw
1307	COMPLEX, DIMENSION((nx+4)/2+1,nz+1) :: work
1308	#endif
1309
1310	IF ( fft_method == 'temperton-algorithm' ) THEN
1311
1312	siza = SIZE( ai, 1 )
1313
1314	IF ( direction == 'forward') THEN
1315
1316	ai(0:nx,1:nz) = ar(0:nx,1:nz)
1317	ai(nx+1:,:) = 0.0
1318
1319	CALL fft991cy( ai, work1, trigs_x, ifax_x, 1, siza, nx+1, nz, -1 )
1320
1321	DO k = 1, nz
1322	DO i = 0, (nx+1)/2
1323	ar(i,k) = ai(2*i,k)
1324	ENDDO
1325	DO i = 1, (nx+1)/2 - 1
1326	ar(nx+1-i,k) = ai(2*i+1,k)
1327	ENDDO
1328	ENDDO
1329
1330	ELSE
1331
1332	DO k = 1, nz
1333	DO i = 0, (nx+1)/2
1334	ai(2*i,k) = ar(i,k)
1335	ENDDO
1336	DO i = 1, (nx+1)/2 - 1
1337	ai(2*i+1,k) = ar(nx+1-i,k)
1338	ENDDO
1339	ai(1,k) = 0.0
1340	ai(nx+2,k) = 0.0
1341	ENDDO
1342
1343	CALL fft991cy( ai, work1, trigs_x, ifax_x, 1, siza, nx+1, nz, 1 )
1344
1345	ar(0:nx,1:nz) = ai(0:nx,1:nz)
1346
1347	ENDIF
1348
1349	ELSEIF ( fft_method == 'system-specific' ) THEN
1350
1351	#if defined( __nec )
1352	siza = SIZE( ai, 1 )
1353	sizw = SIZE( work, 1 )
1354
1355	IF ( direction == 'forward') THEN
1356
1357	!
1358	!-- Tables are initialized once more. This call should not be
1359	!-- necessary, but otherwise program aborts in asymmetric case
1360	CALL DZFFTM( 0, nx+1, nz1, sqr_dnx, work, nx+4, work, nx+4, &
1361	trig_xf, work1, 0 )
1362
1363	ai(0:nx,1:nz) = ar(0:nx,1:nz)
1364	IF ( nz1 > nz ) THEN
1365	ai(:,nz1) = 0.0
1366	ENDIF
1367
1368	CALL DZFFTM( 1, nx+1, nz1, sqr_dnx, ai, siza, work, sizw, &
1369	trig_xf, work1, 0 )
1370
1371	DO k = 1, nz
1372	DO i = 0, (nx+1)/2
1373	ar(i,k) = REAL( work(i+1,k) )
1374	ENDDO
1375	DO i = 1, (nx+1)/2 - 1
1376	ar(nx+1-i,k) = AIMAG( work(i+1,k) )
1377	ENDDO
1378	ENDDO
1379
1380	ELSE
1381
1382	!
1383	!-- Tables are initialized once more. This call should not be
1384	!-- necessary, but otherwise program aborts in asymmetric case
1385	CALL ZDFFTM( 0, nx+1, nz1, sqr_dnx, work, nx+4, work, nx+4, &
1386	trig_xb, work1, 0 )
1387
1388	IF ( nz1 > nz ) THEN
1389	work(:,nz1) = 0.0
1390	ENDIF
1391	DO k = 1, nz
1392	work(1,k) = CMPLX( ar(0,k), 0.0 )
1393	DO i = 1, (nx+1)/2 - 1
1394	work(i+1,k) = CMPLX( ar(i,k), ar(nx+1-i,k) )
1395	ENDDO
1396	work(((nx+1)/2)+1,k) = CMPLX( ar((nx+1)/2,k), 0.0 )
1397	ENDDO
1398
1399	CALL ZDFFTM( -1, nx+1, nz1, sqr_dnx, work, sizw, ai, siza, &
1400	trig_xb, work1, 0 )
1401
1402	ar(0:nx,1:nz) = ai(0:nx,1:nz)
1403
1404	ENDIF
1405
1406	#else
1407	message_string = 'no system-specific fft-call available'
1408	CALL message( 'fft_x_m', 'PA0188', 1, 2, 0, 6, 0 )
1409	#endif
1410
1411	ELSE
1412
1413	message_string = 'fft method "' // TRIM( fft_method) // &
1414	'" not available'
1415	CALL message( 'fft_x_m', 'PA0189', 1, 2, 0, 6, 0 )
1416
1417	ENDIF
1418
1419	END SUBROUTINE fft_x_m
1420
1421	SUBROUTINE fft_y_m( ar, ny1, direction )
1422
1423	!----------------------------------------------------------------------!
1424	! fft_y_m !
1425	! !
1426	! Fourier-transformation along y-direction !
1427	! Version for 1d domain decomposition !
1428	! using multiple 1D FFT from Math Keisan on NEC !
1429	! or Temperton-algorithm !
1430	! (no singleton-algorithm on NEC because it does not vectorize) !
1431	! !
1432	!----------------------------------------------------------------------!
1433
1434	IMPLICIT NONE
1435
1436	CHARACTER (LEN=*) :: direction
1437	INTEGER :: j, k, ny1, siza
1438
1439	REAL, DIMENSION(0:ny1,nz) :: ar
1440	REAL, DIMENSION(0:ny+3,nz+1) :: ai
1441	REAL, DIMENSION(6*(ny+4),nz+1) :: work1
1442	#if defined( __nec )
1443	INTEGER :: sizw
1444	COMPLEX, DIMENSION((ny+4)/2+1,nz+1) :: work
1445	#endif
1446
1447	IF ( fft_method == 'temperton-algorithm' ) THEN
1448
1449	siza = SIZE( ai, 1 )
1450
1451	IF ( direction == 'forward') THEN
1452
1453	ai(0:ny,1:nz) = ar(0:ny,1:nz)
1454	ai(ny+1:,:) = 0.0
1455
1456	CALL fft991cy( ai, work1, trigs_y, ifax_y, 1, siza, ny+1, nz, -1 )
1457
1458	DO k = 1, nz
1459	DO j = 0, (ny+1)/2
1460	ar(j,k) = ai(2*j,k)
1461	ENDDO
1462	DO j = 1, (ny+1)/2 - 1
1463	ar(ny+1-j,k) = ai(2*j+1,k)
1464	ENDDO
1465	ENDDO
1466
1467	ELSE
1468
1469	DO k = 1, nz
1470	DO j = 0, (ny+1)/2
1471	ai(2*j,k) = ar(j,k)
1472	ENDDO
1473	DO j = 1, (ny+1)/2 - 1
1474	ai(2*j+1,k) = ar(ny+1-j,k)
1475	ENDDO
1476	ai(1,k) = 0.0
1477	ai(ny+2,k) = 0.0
1478	ENDDO
1479
1480	CALL fft991cy( ai, work1, trigs_y, ifax_y, 1, siza, ny+1, nz, 1 )
1481
1482	ar(0:ny,1:nz) = ai(0:ny,1:nz)
1483
1484	ENDIF
1485
1486	ELSEIF ( fft_method == 'system-specific' ) THEN
1487
1488	#if defined( __nec )
1489	siza = SIZE( ai, 1 )
1490	sizw = SIZE( work, 1 )
1491
1492	IF ( direction == 'forward') THEN
1493
1494	!
1495	!-- Tables are initialized once more. This call should not be
1496	!-- necessary, but otherwise program aborts in asymmetric case
1497	CALL DZFFTM( 0, ny+1, nz1, sqr_dny, work, ny+4, work, ny+4, &
1498	trig_yf, work1, 0 )
1499
1500	ai(0:ny,1:nz) = ar(0:ny,1:nz)
1501	IF ( nz1 > nz ) THEN
1502	ai(:,nz1) = 0.0
1503	ENDIF
1504
1505	CALL DZFFTM( 1, ny+1, nz1, sqr_dny, ai, siza, work, sizw, &
1506	trig_yf, work1, 0 )
1507
1508	DO k = 1, nz
1509	DO j = 0, (ny+1)/2
1510	ar(j,k) = REAL( work(j+1,k) )
1511	ENDDO
1512	DO j = 1, (ny+1)/2 - 1
1513	ar(ny+1-j,k) = AIMAG( work(j+1,k) )
1514	ENDDO
1515	ENDDO
1516
1517	ELSE
1518
1519	!
1520	!-- Tables are initialized once more. This call should not be
1521	!-- necessary, but otherwise program aborts in asymmetric case
1522	CALL ZDFFTM( 0, ny+1, nz1, sqr_dny, work, ny+4, work, ny+4, &
1523	trig_yb, work1, 0 )
1524
1525	IF ( nz1 > nz ) THEN
1526	work(:,nz1) = 0.0
1527	ENDIF
1528	DO k = 1, nz
1529	work(1,k) = CMPLX( ar(0,k), 0.0 )
1530	DO j = 1, (ny+1)/2 - 1
1531	work(j+1,k) = CMPLX( ar(j,k), ar(ny+1-j,k) )
1532	ENDDO
1533	work(((ny+1)/2)+1,k) = CMPLX( ar((ny+1)/2,k), 0.0 )
1534	ENDDO
1535
1536	CALL ZDFFTM( -1, ny+1, nz1, sqr_dny, work, sizw, ai, siza, &
1537	trig_yb, work1, 0 )
1538
1539	ar(0:ny,1:nz) = ai(0:ny,1:nz)
1540
1541	ENDIF
1542
1543	#else
1544	message_string = 'no system-specific fft-call available'
1545	CALL message( 'fft_y_m', 'PA0188', 1, 2, 0, 6, 0 )
1546	#endif
1547
1548	ELSE
1549
1550	message_string = 'fft method "' // TRIM( fft_method) // &
1551	'" not available'
1552	CALL message( 'fft_x_m', 'PA0189', 1, 2, 0, 6, 0 )
1553
1554	ENDIF
1555
1556	END SUBROUTINE fft_y_m
1557
1558
1559	END MODULE fft_xy

Note: See TracBrowser for help on using the repository browser.

Download in other formats:

| Impressum | ©Leibniz Universität Hannover |