Home

Context Navigation

← Previous Change
Next Change →

advec_ws.f90

Timestamp:

Dec 18, 2018 12:31:28 PM (6 years ago)

Author:

knoop

Message:

OpenACC port for SPEC

File:

: 1 edited

palm/trunk/SOURCE/advec_ws.f90 (modified) (80 diffs)

Legend:

: Unmodified
: Added
: Removed

palm/trunk/SOURCE/advec_ws.f90

-                      r3589
+                      r3634
 ! -----------------
 ! $Id$
+! OpenACC port for SPEC
+!
+! 3589 2018-11-30 15:09:51Z suehring
 ! Move the control parameter "salsa" from salsa_mod to control_parameters
 ! (M. Kurppa)
 …
 !--    beginning of prognostic_equations.
        IF ( ws_scheme_mom )  THEN
+          !$ACC KERNELS PRESENT(sums_wsus_ws_l, sums_wsvs_ws_l) &
+          !$ACC PRESENT(sums_us2_ws_l, sums_vs2_ws_l, sums_ws2_ws_l)
           sums_wsus_ws_l = 0.0_wp
           sums_wsvs_ws_l = 0.0_wp
 …
           sums_vs2_ws_l  = 0.0_wp
           sums_ws2_ws_l  = 0.0_wp
+          !$ACC END KERNELS
        ENDIF
        IF ( ws_scheme_sca )  THEN
+          !$ACC KERNELS PRESENT(sums_wspts_ws_l)
           sums_wspts_ws_l = 0.0_wp
+          !$ACC END KERNELS
           IF ( humidity       )  sums_wsqs_ws_l = 0.0_wp
           IF ( passive_scalar )  sums_wsss_ws_l = 0.0_wp
 …
        CHARACTER (LEN = *), INTENT(IN)    ::  sk_char !< string identifier, used for assign fluxes to the correct dimension in the analysis array
+       INTEGER(iwp) ::  sk_num !< integer identifier, used for assign fluxes to the correct dimension in the analysis array
        INTEGER(iwp) ::  i      !< grid index along x-direction
 …
        REAL(wp) ::  ibit1  !< flag indicating 3rd-order scheme along x-direction
        REAL(wp) ::  ibit2  !< flag indicating 5th-order scheme along x-direction
+#ifdef _OPENACC
+       REAL(wp) ::  ibit0_l  !< flag indicating 1st-order scheme along x-direction
+       REAL(wp) ::  ibit1_l  !< flag indicating 3rd-order scheme along x-direction
+       REAL(wp) ::  ibit2_l  !< flag indicating 5th-order scheme along x-direction
+#endif
        REAL(wp) ::  ibit3  !< flag indicating 1st-order scheme along y-direction
        REAL(wp) ::  ibit4  !< flag indicating 3rd-order scheme along y-direction
        REAL(wp) ::  ibit5  !< flag indicating 5th-order scheme along y-direction
+#ifdef _OPENACC
+       REAL(wp) ::  ibit3_s  !< flag indicating 1st-order scheme along y-direction
+       REAL(wp) ::  ibit4_s  !< flag indicating 3rd-order scheme along y-direction
+       REAL(wp) ::  ibit5_s  !< flag indicating 5th-order scheme along y-direction
+#endif
        REAL(wp) ::  ibit6  !< flag indicating 1st-order scheme along z-direction
        REAL(wp) ::  ibit7  !< flag indicating 3rd-order scheme along z-direction
 …
        REAL(wp) ::  flux_d !< 6th-order flux at grid box bottom
        REAL(wp) ::  u_comp !< advection velocity along x-direction
+#ifdef _OPENACC
+       REAL(wp) ::  u_comp_l !< advection velocity along x-direction
+#endif
        REAL(wp) ::  v_comp !< advection velocity along y-direction
+#ifdef _OPENACC
+       REAL(wp) ::  v_comp_s !< advection velocity along y-direction
+#endif
        REAL(wp), DIMENSION(nzb:nzt)   ::  diss_n !< discretized artificial dissipation at northward-side of the grid box
        REAL(wp), DIMENSION(nzb:nzt)   ::  diss_r !< discretized artificial dissipation at rightward-side of the grid box
        REAL(wp), DIMENSION(nzb:nzt)   ::  diss_t !< discretized artificial dissipation at rightward-side of the grid box
        REAL(wp), DIMENSION(nzb:nzt)   ::  flux_n !< discretized 6th-order flux at northward-side of the grid box
        REAL(wp), DIMENSION(nzb:nzt)   ::  flux_r !< discretized 6th-order flux at rightward-side of the grid box
        REAL(wp), DIMENSION(nzb:nzt)   ::  flux_t !< discretized 6th-order flux at rightward-side of the grid box
+       REAL(wp) ::  diss_n !< discretized artificial dissipation at northward-side of the grid box
+       REAL(wp) ::  diss_r !< discretized artificial dissipation at rightward-side of the grid box
+       REAL(wp) ::  diss_t !< discretized artificial dissipation at rightward-side of the grid box
+       REAL(wp) ::  flux_n !< discretized 6th-order flux at northward-side of the grid box
+       REAL(wp) ::  flux_r !< discretized 6th-order flux at rightward-side of the grid box
+       REAL(wp) ::  flux_t !< discretized 6th-order flux at rightward-side of the grid box
+       REAL(wp) ::  diss_s !< discretized artificial dissipation term at southward-side of the grid box
+       REAL(wp) ::  flux_s !< discretized 6th-order flux at northward-side of the grid box
+#ifndef _OPENACC
        REAL(wp), DIMENSION(nzb+1:nzt) ::  swap_diss_y_local !< discretized artificial dissipation term at southward-side of the grid box
        REAL(wp), DIMENSION(nzb+1:nzt) ::  swap_flux_y_local !< discretized 6th-order flux at northward-side of the grid box
+#endif
+       REAL(wp) ::  diss_l !< discretized artificial dissipation term at leftward-side of the grid box
+       REAL(wp) ::  flux_l !< discretized 6th-order flux at leftward-side of the grid box
+#ifndef _OPENACC
        REAL(wp), DIMENSION(nzb+1:nzt,nys:nyn) ::  swap_diss_x_local !< discretized artificial dissipation term at leftward-side of the grid box
        REAL(wp), DIMENSION(nzb+1:nzt,nys:nyn) ::  swap_flux_x_local !< discretized 6th-order flux at leftward-side of the grid box
+#endif
+       SELECT CASE ( sk_char )
+           CASE ( 'pt' )
+              sk_num = 1
+           CASE ( 'sa' )
+              sk_num = 2
+           CASE ( 'q' )
+              sk_num = 3
+           CASE ( 'qc' )
+              sk_num = 4
+           CASE ( 'qr' )
+              sk_num = 5
+           CASE ( 'nc' )
+              sk_num = 6
+           CASE ( 'nr' )
+              sk_num = 7
+           CASE ( 's' )
+              sk_num = 8
+           CASE ( 'aerosol_mass', 'aerosol_number', 'salsa_gas' )
+              sk_num = 9
+       END SELECT
+#ifndef _OPENACC
+!
 !--    Compute the fluxes for the whole left boundary of the processor domain.
 …
        ENDDO
+#endif
+       !$ACC PARALLEL LOOP COLLAPSE(2) FIRSTPRIVATE(tn, sk_num) &
+       !$ACC PRIVATE(i, j, k, k_mm, k_pp, k_ppp) &
+       !$ACC PRIVATE(ibit0, ibit1, ibit2, ibit3, ibit4, ibit5) &
+       !$ACC PRIVATE(ibit0_l, ibit1_l, ibit2_l) &
+       !$ACC PRIVATE(ibit3_s, ibit4_s, ibit5_s) &
+       !$ACC PRIVATE(ibit6, ibit7, ibit8) &
+       !$ACC PRIVATE(flux_r, diss_r, flux_l, diss_l) &
+       !$ACC PRIVATE(flux_n, diss_n, flux_s, diss_s) &
+       !$ACC PRIVATE(flux_t, diss_t, flux_d, diss_d) &
+       !$ACC PRIVATE(div, u_comp, u_comp_l, v_comp, v_comp_s) &
+       !$ACC PRESENT(advc_flags_1) &
+       !$ACC PRESENT(sk, u, v, w, u_stokes_zu, v_stokes_zu) &
+       !$ACC PRESENT(drho_air, rho_air_zw, ddzw) &
+       !$ACC PRESENT(tend) &
+       !$ACC PRESENT(hom(nzb+1:nzb_max,1,1:3,0)) &
+       !$ACC PRESENT(weight_substep(intermediate_timestep_count)) &
+       !$ACC PRESENT(sums_wspts_ws_l, sums_wssas_ws_l) &
+       !$ACC PRESENT(sums_wsqs_ws_l, sums_wsqcs_ws_l) &
+       !$ACC PRESENT(sums_wsqrs_ws_l, sums_wsncs_ws_l) &
+       !$ACC PRESENT(sums_wsnrs_ws_l, sums_wsss_ws_l) &
+       !$ACC PRESENT(sums_salsa_ws_l)
        DO  i = nxl, nxr
+#ifndef _OPENACC
           j = nys
           DO  k = nzb+1, nzb_max
 …
           ENDDO
+#endif
           DO  j = nys, nyn
-             flux_t(0) = 0.0_wp
-             diss_t(0) = 0.0_wp
              flux_d    = 0.0_wp
              diss_d    = 0.0_wp
 …
                 ibit0 = REAL( IBITS(advc_flags_1(k,j,i),0,1), KIND = wp )
                 u_comp    = u(k,j,i+1) - u_gtrans + u_stokes_zu(k)
                 flux_r(k) = u_comp * (                                        &
+                u_comp = u(k,j,i+1) - u_gtrans + u_stokes_zu(k)
+                flux_r = u_comp * (                                           &
                           ( 37.0_wp * ibit2 * adv_sca_5                       &
                       +      7.0_wp * ibit1 * adv_sca_3                       &
 …
+                                     )
                 diss_r(k) = -ABS( u_comp ) * (                                &
+                diss_r = -ABS( u_comp ) * (                                   &
                           ( 10.0_wp * ibit2 * adv_sca_5                       &
                        +     3.0_wp * ibit1 * adv_sca_3                       &
 …
+                                             )
+#ifdef _OPENACC
+!
+!--             Recompute the left fluxes.
+                ibit2_l = REAL( IBITS(advc_flags_1(k,j,i-1),2,1), KIND = wp )
+                ibit1_l = REAL( IBITS(advc_flags_1(k,j,i-1),1,1), KIND = wp )
+                ibit0_l = REAL( IBITS(advc_flags_1(k,j,i-1),0,1), KIND = wp )
+                u_comp_l = u(k,j,i) - u_gtrans + u_stokes_zu(k)
+                flux_l = u_comp_l * (                                         &
+                                             ( 37.0_wp * ibit2_l * adv_sca_5  &
+                                          +     7.0_wp * ibit1_l * adv_sca_3  &
+                                          +              ibit0_l * adv_sca_1  &
+                                             ) *                              &
+                                          ( sk(k,j,i)   + sk(k,j,i-1)    )    &
+                                      -      (  8.0_wp * ibit2_l * adv_sca_5  &
+                                          +              ibit1_l * adv_sca_3  &
+                                             ) *                              &
+                                          ( sk(k,j,i+1) + sk(k,j,i-2)    )    &
+                                      +      (           ibit2_l * adv_sca_5  &
+                                             ) *                              &
+                                          ( sk(k,j,i+2) + sk(k,j,i-3)    )    &
+                                               )
+                 diss_l = -ABS( u_comp_l ) * (                                &
+                                             ( 10.0_wp * ibit2_l * adv_sca_5  &
+                                          +     3.0_wp * ibit1_l * adv_sca_3  &
+                                          +              ibit0_l * adv_sca_1  &
+                                             ) *                              &
+                                          ( sk(k,j,i)   - sk(k,j,i-1) )       &
+                                      -      (  5.0_wp * ibit2_l * adv_sca_5  &
+                                          +              ibit1_l * adv_sca_3  &
+                                             ) *                              &
+                                         ( sk(k,j,i+1) - sk(k,j,i-2)  )       &
+                                      +      (           ibit2_l * adv_sca_5  &
+                                             ) *                              &
+                                          ( sk(k,j,i+2) - sk(k,j,i-3) )       &
+                                                        )
+#else
+                flux_l = swap_flux_x_local(k,j)
+                diss_l = swap_diss_x_local(k,j)
+#endif
                 ibit5 = REAL( IBITS(advc_flags_1(k,j,i),5,1), KIND = wp )
                 ibit4 = REAL( IBITS(advc_flags_1(k,j,i),4,1), KIND = wp )
                 ibit3 = REAL( IBITS(advc_flags_1(k,j,i),3,1), KIND = wp )
                 v_comp    = v(k,j+1,i) - v_gtrans + v_stokes_zu(k)
                 flux_n(k) = v_comp * (                                        &
+                v_comp = v(k,j+1,i) - v_gtrans + v_stokes_zu(k)
+                flux_n = v_comp * (                                           &
                           ( 37.0_wp * ibit5 * adv_sca_5                       &
                        +     7.0_wp * ibit4 * adv_sca_3                       &
 …
+                                     )
                 diss_n(k) = -ABS( v_comp ) * (                                &
+                diss_n = -ABS( v_comp ) * (                                   &
                           ( 10.0_wp * ibit5 * adv_sca_5                       &
                        +     3.0_wp * ibit4 * adv_sca_3                       &
 …
                              ( sk(k,j+3,i) - sk(k,j-2,i) )                    &
+                                             )
+#ifdef _OPENACC
+!
+!--             Recompute the south fluxes.
+                ibit5_s = REAL( IBITS(advc_flags_1(k,j-1,i),5,1), KIND = wp )
+                ibit4_s = REAL( IBITS(advc_flags_1(k,j-1,i),4,1), KIND = wp )
+                ibit3_s = REAL( IBITS(advc_flags_1(k,j-1,i),3,1), KIND = wp )
+                v_comp_s = v(k,j,i) - v_gtrans + v_stokes_zu(k)
+                flux_s = v_comp_s * (                                         &
+                                             ( 37.0_wp * ibit5_s * adv_sca_5  &
+                                          +     7.0_wp * ibit4_s * adv_sca_3  &
+                                          +              ibit3_s * adv_sca_1  &
+                                             ) *                              &
+                                         ( sk(k,j,i)  + sk(k,j-1,i)     )     &
+                                       -     (  8.0_wp * ibit5_s * adv_sca_5  &
+                                          +              ibit4_s * adv_sca_3  &
+                                              ) *                             &
+                                         ( sk(k,j+1,i) + sk(k,j-2,i)    )     &
+                                      +      (           ibit5_s * adv_sca_5  &
+                                             ) *                              &
+                                        ( sk(k,j+2,i) + sk(k,j-3,i)     )     &
+                                             )
+                diss_s = -ABS( v_comp_s ) * (                                 &
+                                             ( 10.0_wp * ibit5_s * adv_sca_5  &
+                                          +     3.0_wp * ibit4_s * adv_sca_3  &
+                                          +              ibit3_s * adv_sca_1  &
+                                             ) *                              &
+                                          ( sk(k,j,i)   - sk(k,j-1,i)    )    &
+                                      -      (  5.0_wp * ibit5_s * adv_sca_5  &
+                                          +              ibit4_s * adv_sca_3  &
+                                             ) *                              &
+                                          ( sk(k,j+1,i) - sk(k,j-2,i)    )    &
+                                      +      (           ibit5_s * adv_sca_5  &
+                                             ) *                              &
+                                          ( sk(k,j+2,i) - sk(k,j-3,i)    )    &
+                                                     )
+#else
+                flux_s = swap_flux_y_local(k)
+                diss_s = swap_diss_y_local(k)
+#endif
+!
 !--             k index has to be modified near bottom and top, else array
 …
                 flux_t(k) = w(k,j,i) * rho_air_zw(k) * (                      &
+                flux_t = w(k,j,i) * rho_air_zw(k) * (                         &
                            ( 37.0_wp * ibit8 * adv_sca_5                      &
                         +     7.0_wp * ibit7 * adv_sca_3                      &
 …
+                                       )
                 diss_t(k) = -ABS( w(k,j,i) ) * rho_air_zw(k) * (              &
+                diss_t = -ABS( w(k,j,i) ) * rho_air_zw(k) * (                 &
                            ( 10.0_wp * ibit8 * adv_sca_5                      &
                         +     3.0_wp * ibit7 * adv_sca_3                      &
 …
                 tend(k,j,i) = tend(k,j,i) - (                                 &
+                        ( flux_r(k) + diss_r(k) - swap_flux_x_local(k,j) -    &
+                          swap_diss_x_local(k,j)            ) * ddx           &
+                      + ( flux_n(k) + diss_n(k) - swap_flux_y_local(k)   -    &
+                          swap_diss_y_local(k)              ) * ddy           &
+                      + ( ( flux_t(k) + diss_t(k) ) -                         &
+                          ( flux_d    + diss_d    )                           &
+                                                    ) * drho_air(k) * ddzw(k) &
+                        ( ( flux_r + diss_r )                                 &
+                      -   ( flux_l + diss_l ) ) * ddx                         &
+                      + ( ( flux_n + diss_n )                                 &
+                      -   ( flux_s + diss_s ) ) * ddy                         &
+                      + ( ( flux_t + diss_t )                                 &
+                      -   ( flux_d + diss_d ) ) * drho_air(k) * ddzw(k)       &
                                             ) + sk(k,j,i) * div
+                swap_flux_y_local(k)   = flux_n(k)
+                swap_diss_y_local(k)   = diss_n(k)
+                swap_flux_x_local(k,j) = flux_r(k)
+                swap_diss_x_local(k,j) = diss_r(k)
+                flux_d                 = flux_t(k)
+                diss_d                 = diss_t(k)
+#ifndef _OPENACC
+                swap_flux_y_local(k)   = flux_n
+                swap_diss_y_local(k)   = diss_n
+                swap_flux_x_local(k,j) = flux_r
+                swap_diss_x_local(k,j) = diss_r
+#endif
+                flux_d                 = flux_t
+                diss_d                 = diss_t
+!
+!--             Evaluation of statistics.
+                SELECT CASE ( sk_num )
+                    CASE ( 1 )
+                       !$ACC ATOMIC
+                       sums_wspts_ws_l(k,tn) = sums_wspts_ws_l(k,tn)           &
+                          + ( flux_t                                           &
+                                / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
+                                * ( w(k,j,i) - hom(k,1,3,0)                 )  &
+                            + diss_t                                           &
+                                / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
+                                *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
+                            ) * weight_substep(intermediate_timestep_count)
+                    CASE ( 2 )
+                       !$ACC ATOMIC
+                       sums_wssas_ws_l(k,tn) = sums_wssas_ws_l(k,tn)           &
+                          + ( flux_t                                           &
+                                / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
+                                * ( w(k,j,i) - hom(k,1,3,0)                 )  &
+                            + diss_t                                           &
+                                / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
+                                *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
+                            ) * weight_substep(intermediate_timestep_count)
+                    CASE ( 3 )
+                       !$ACC ATOMIC
+                       sums_wsqs_ws_l(k,tn)  = sums_wsqs_ws_l(k,tn)            &
+                          + ( flux_t                                           &
+                                / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
+                                * ( w(k,j,i) - hom(k,1,3,0)                 )  &
+                            + diss_t                                           &
+                                / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
+                                *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
+                            ) * weight_substep(intermediate_timestep_count)
+                    CASE ( 4 )
+                       !$ACC ATOMIC
+                       sums_wsqcs_ws_l(k,tn)  = sums_wsqcs_ws_l(k,tn)          &
+                          + ( flux_t                                           &
+                                / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
+                                * ( w(k,j,i) - hom(k,1,3,0)                 )  &
+                            + diss_t                                           &
+                                / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
+                                *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
+                            ) * weight_substep(intermediate_timestep_count)
+                    CASE ( 5 )
+                       !$ACC ATOMIC
+                       sums_wsqrs_ws_l(k,tn)  = sums_wsqrs_ws_l(k,tn)          &
+                          + ( flux_t                                           &
+                                / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
+                                * ( w(k,j,i) - hom(k,1,3,0)                 )  &
+                            + diss_t                                           &
+                                / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
+                                *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
+                            ) * weight_substep(intermediate_timestep_count)
+                    CASE ( 6 )
+                       !$ACC ATOMIC
+                       sums_wsncs_ws_l(k,tn)  = sums_wsncs_ws_l(k,tn)          &
+                          + ( flux_t                                           &
+                                / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
+                                * ( w(k,j,i) - hom(k,1,3,0)                 )  &
+                            + diss_t                                           &
+                                / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
+                                *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
+                            ) * weight_substep(intermediate_timestep_count)
+                    CASE ( 7 )
+                       !$ACC ATOMIC
+                       sums_wsnrs_ws_l(k,tn)  = sums_wsnrs_ws_l(k,tn)          &
+                          + ( flux_t                                           &
+                                / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
+                                * ( w(k,j,i) - hom(k,1,3,0)                 )  &
+                            + diss_t                                           &
+                                / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
+                                *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
+                            ) * weight_substep(intermediate_timestep_count)
+                    CASE ( 8 )
+                       !$ACC ATOMIC
+                       sums_wsss_ws_l(k,tn)  = sums_wsss_ws_l(k,tn)            &
+                          + ( flux_t                                           &
+                                / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
+                                * ( w(k,j,i) - hom(k,1,3,0)                 )  &
+                            + diss_t                                           &
+                                / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
+                                *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
+                            ) * weight_substep(intermediate_timestep_count)
+                    CASE ( 9 )
+                        !$ACC ATOMIC
+                        sums_salsa_ws_l(k,tn)  = sums_salsa_ws_l(k,tn)         &
+                          + ( flux_t                                           &
+                                / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
+                                * ( w(k,j,i) - hom(k,1,3,0)                 )  &
+                            + diss_t                                           &
+                                / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
+                                *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
+                            ) * weight_substep(intermediate_timestep_count)
+                END SELECT
              ENDDO
 …
              DO  k = nzb_max+1, nzt
                 u_comp    = u(k,j,i+1) - u_gtrans + u_stokes_zu(k)
                 flux_r(k) = u_comp * (                                        &
+                u_comp = u(k,j,i+1) - u_gtrans + u_stokes_zu(k)
+                flux_r = u_comp * (                                           &
 .0_wp * ( sk(k,j,i+1) + sk(k,j,i)   )                 &
                     -  8.0_wp * ( sk(k,j,i+2) + sk(k,j,i-1) )                 &
                     +           ( sk(k,j,i+3) + sk(k,j,i-2) ) ) * adv_sca_5
                 diss_r(k) = -ABS( u_comp ) * (                                &
+                diss_r = -ABS( u_comp ) * (                                   &
 .0_wp * ( sk(k,j,i+1) - sk(k,j,i)   )                 &
                     -  5.0_wp * ( sk(k,j,i+2) - sk(k,j,i-1) )                 &
                     +           ( sk(k,j,i+3) - sk(k,j,i-2) ) ) * adv_sca_5
+                v_comp    = v(k,j+1,i) - v_gtrans + v_stokes_zu(k)
+                flux_n(k) = v_comp * (                                        &
+#ifdef _OPENACC
+!
+!--             Recompute the left fluxes.
+                u_comp_l = u(k,j,i) - u_gtrans + u_stokes_zu(k)
+                flux_l = u_comp_l * (                                         &
+.0_wp * ( sk(k,j,i)   + sk(k,j,i-1) ) &
+                                    -  8.0_wp * ( sk(k,j,i+1) + sk(k,j,i-2) ) &
+                                    +           ( sk(k,j,i+2) + sk(k,j,i-3) ) &
+                                               ) * adv_sca_5
+                diss_l = -ABS( u_comp_l ) * (                                 &
+.0_wp * ( sk(k,j,i)   - sk(k,j,i-1) ) &
+                                    -  5.0_wp * ( sk(k,j,i+1) - sk(k,j,i-2) ) &
+                                    +           ( sk(k,j,i+2) - sk(k,j,i-3) ) &
+                                                       ) * adv_sca_5
+#else
+                flux_l = swap_flux_x_local(k,j)
+                diss_l = swap_diss_x_local(k,j)
+#endif
+                v_comp = v(k,j+1,i) - v_gtrans + v_stokes_zu(k)
+                flux_n = v_comp * (                                           &
 .0_wp * ( sk(k,j+1,i) + sk(k,j,i)   )                 &
                     -  8.0_wp * ( sk(k,j+2,i) + sk(k,j-1,i) )                 &
                     +           ( sk(k,j+3,i) + sk(k,j-2,i) ) ) * adv_sca_5
                 diss_n(k) = -ABS( v_comp ) * (                                &
+                diss_n = -ABS( v_comp ) * (                                   &
 .0_wp * ( sk(k,j+1,i) - sk(k,j,i)   )                 &
                     -  5.0_wp * ( sk(k,j+2,i) - sk(k,j-1,i) )                 &
                     +           ( sk(k,j+3,i) - sk(k,j-2,i) ) ) * adv_sca_5
+#ifdef _OPENACC
+!
+!--             Recompute the south fluxes.
+                v_comp_s = v(k,j,i) - v_gtrans + v_stokes_zu(k)
+                flux_s = v_comp_s * (                                        &
+.0_wp * ( sk(k,j,i)   + sk(k,j-1,i) )  &
+                                  -  8.0_wp * ( sk(k,j+1,i) + sk(k,j-2,i) )  &
+                                  +           ( sk(k,j+2,i) + sk(k,j-3,i) )  &
+                                             ) * adv_sca_5
+                diss_s = -ABS( v_comp_s ) * (                                &
+.0_wp * ( sk(k,j,i)   - sk(k,j-1,i) )  &
+                                  -  5.0_wp * ( sk(k,j+1,i) - sk(k,j-2,i) )  &
+                                  +             sk(k,j+2,i) - sk(k,j-3,i)    &
+                                                      ) * adv_sca_5
+#else
+                flux_s = swap_flux_y_local(k)
+                diss_s = swap_diss_y_local(k)
+#endif
+!
 !--             k index has to be modified near bottom and top, else array
 …
                 flux_t(k) = w(k,j,i) * rho_air_zw(k) * (                      &
+                flux_t = w(k,j,i) * rho_air_zw(k) * (                      &
                            ( 37.0_wp * ibit8 * adv_sca_5                      &
                         +     7.0_wp * ibit7 * adv_sca_3                      &
 …
+                                       )
                 diss_t(k) = -ABS( w(k,j,i) ) * rho_air_zw(k) * (              &
+                diss_t = -ABS( w(k,j,i) ) * rho_air_zw(k) * (              &
                            ( 10.0_wp * ibit8 * adv_sca_5                      &
                         +     3.0_wp * ibit7 * adv_sca_3                      &
 …
                 tend(k,j,i) = tend(k,j,i) - (                                 &
+                        ( flux_r(k) + diss_r(k) - swap_flux_x_local(k,j) -    &
+                          swap_diss_x_local(k,j)            ) * ddx           &
+                      + ( flux_n(k) + diss_n(k) - swap_flux_y_local(k)   -    &
+                          swap_diss_y_local(k)              ) * ddy           &
+                      + ( ( flux_t(k) + diss_t(k) ) -                         &
+                          ( flux_d    + diss_d    )                           &
+                                                    ) * drho_air(k) * ddzw(k) &
+                        ( ( flux_r + diss_r )                                 &
+                      -   ( flux_l + diss_l ) ) * ddx                         &
+                      + ( ( flux_n + diss_n )                                 &
+                      -   ( flux_s + diss_s ) ) * ddy                         &
+                      + ( ( flux_t + diss_t )                                 &
+                      -   ( flux_d + diss_d ) ) * drho_air(k) * ddzw(k)       &
                                             ) + sk(k,j,i) * div
+                swap_flux_y_local(k)   = flux_n(k)
+                swap_diss_y_local(k)   = diss_n(k)
+                swap_flux_x_local(k,j) = flux_r(k)
+                swap_diss_x_local(k,j) = diss_r(k)
+                flux_d                 = flux_t(k)
+                diss_d                 = diss_t(k)
+             ENDDO
+!
+!--          Evaluation of statistics.
+             SELECT CASE ( sk_char )
+                 CASE ( 'pt' )
+                    DO  k = nzb, nzt
+#ifndef _OPENACC
+                swap_flux_y_local(k)   = flux_n
+                swap_diss_y_local(k)   = diss_n
+                swap_flux_x_local(k,j) = flux_r
+                swap_diss_x_local(k,j) = diss_r
+#endif
+                flux_d                 = flux_t
+                diss_d                 = diss_t
+!
+!--             Evaluation of statistics.
+                SELECT CASE ( sk_num )
+                    CASE ( 1 )
+                       !$ACC ATOMIC
                        sums_wspts_ws_l(k,tn) = sums_wspts_ws_l(k,tn)           &
                           + ( flux_t(k)                                        &
+                          + ( flux_t                                           &
                                 / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
                                 * ( w(k,j,i) - hom(k,1,3,0)                 )  &
                             + diss_t(k)                                        &
+                            + diss_t                                           &
                                 / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
                                 *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
                             ) * weight_substep(intermediate_timestep_count)
+                    ENDDO
+                 CASE ( 'sa' )
+                    DO  k = nzb, nzt
+                    CASE ( 2 )
+                       !$ACC ATOMIC
                        sums_wssas_ws_l(k,tn) = sums_wssas_ws_l(k,tn)           &
                           + ( flux_t(k)                                        &
+                          + ( flux_t                                           &
                                 / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
                                 * ( w(k,j,i) - hom(k,1,3,0)                 )  &
                             + diss_t(k)                                        &
+                            + diss_t                                           &
                                 / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
                                 *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
                             ) * weight_substep(intermediate_timestep_count)
+                    ENDDO
+                 CASE ( 'q' )
+                    DO  k = nzb, nzt
+                    CASE ( 3 )
+                       !$ACC ATOMIC
                        sums_wsqs_ws_l(k,tn)  = sums_wsqs_ws_l(k,tn)            &
                           + ( flux_t(k)                                        &
+                          + ( flux_t                                           &
                                 / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
                                 * ( w(k,j,i) - hom(k,1,3,0)                 )  &
                             + diss_t(k)                                        &
+                            + diss_t                                           &
                                 / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
                                 *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
                             ) * weight_substep(intermediate_timestep_count)
+                    ENDDO
+                 CASE ( 'qc' )
+                    DO  k = nzb, nzt
+                    CASE ( 4 )
+                       !$ACC ATOMIC
                        sums_wsqcs_ws_l(k,tn)  = sums_wsqcs_ws_l(k,tn)          &
                           + ( flux_t(k)                                        &
+                          + ( flux_t                                           &
                                 / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
                                 * ( w(k,j,i) - hom(k,1,3,0)                 )  &
                             + diss_t(k)                                        &
+                            + diss_t                                           &
                                 / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
                                 *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
                             ) * weight_substep(intermediate_timestep_count)
+                    ENDDO
+                 CASE ( 'qr' )
+                    DO  k = nzb, nzt
+                    CASE ( 5 )
+                       !$ACC ATOMIC
                        sums_wsqrs_ws_l(k,tn)  = sums_wsqrs_ws_l(k,tn)          &
                           + ( flux_t(k)                                        &
+                          + ( flux_t                                           &
                                 / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
                                 * ( w(k,j,i) - hom(k,1,3,0)                 )  &
                             + diss_t(k)                                        &
+                            + diss_t                                           &
                                 / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
                                 *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
                             ) * weight_substep(intermediate_timestep_count)
+                    ENDDO
+                 CASE ( 'nc' )
+                    DO  k = nzb, nzt
+                    CASE ( 6 )
+                       !$ACC ATOMIC
                        sums_wsncs_ws_l(k,tn)  = sums_wsncs_ws_l(k,tn)          &
                           + ( flux_t(k)                                        &
+                          + ( flux_t                                           &
                                 / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
                                 * ( w(k,j,i) - hom(k,1,3,0)                 )  &
                             + diss_t(k)                                        &
+                            + diss_t                                           &
                                 / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
                                 *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
                             ) * weight_substep(intermediate_timestep_count)
+                    ENDDO
+                 CASE ( 'nr' )
+                    DO  k = nzb, nzt
+                    CASE ( 7 )
+                       !$ACC ATOMIC
                        sums_wsnrs_ws_l(k,tn)  = sums_wsnrs_ws_l(k,tn)          &
                           + ( flux_t(k)                                        &
+                          + ( flux_t                                           &
                                 / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
                                 * ( w(k,j,i) - hom(k,1,3,0)                 )  &
                             + diss_t(k)                                        &
+                            + diss_t                                           &
                                 / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
                                 *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
                             ) * weight_substep(intermediate_timestep_count)
+                    ENDDO
+                 CASE ( 's' )
+                    DO  k = nzb, nzt
+                    CASE ( 8 )
+                       !$ACC ATOMIC
                        sums_wsss_ws_l(k,tn)  = sums_wsss_ws_l(k,tn)            &
                           + ( flux_t(k)                                        &
+                          + ( flux_t                                           &
                                 / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
                                 * ( w(k,j,i) - hom(k,1,3,0)                 )  &
                             + diss_t(k)                                        &
+                            + diss_t                                           &
                                 / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
                                 *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
                             ) * weight_substep(intermediate_timestep_count)
+                    ENDDO
+                 CASE ( 'aerosol_mass', 'aerosol_number', 'salsa_gas' )
+                     DO  k = nzb, nzt
+                    CASE ( 9 )
+                        !$ACC ATOMIC
                         sums_salsa_ws_l(k,tn)  = sums_salsa_ws_l(k,tn)         &
                           + ( flux_t(k)                                        &
+                          + ( flux_t                                           &
                                 / ( w(k,j,i) + SIGN( 1.0E-20_wp, w(k,j,i) ) )  &
                                 * ( w(k,j,i) - hom(k,1,3,0)                 )  &
                             + diss_t(k)                                        &
+                            + diss_t                                           &
                                 / ( ABS(w(k,j,i)) + 1.0E-20_wp              )  &
                                 *   ABS(w(k,j,i) - hom(k,1,3,0)             )  &
                             ) * weight_substep(intermediate_timestep_count)
+                     ENDDO
               END SELECT
+                END SELECT
+             ENDDO
          ENDDO
 …
        REAL(wp)    ::  ibit10 !< flag indicating 3rd-order scheme along x-direction
        REAL(wp)    ::  ibit11 !< flag indicating 5th-order scheme along x-direction
+#ifdef _OPENACC
+       REAL(wp)    ::  ibit9_l  !< flag indicating 1st-order scheme along x-direction
+       REAL(wp)    ::  ibit10_l !< flag indicating 3rd-order scheme along x-direction
+       REAL(wp)    ::  ibit11_l !< flag indicating 5th-order scheme along x-direction
+#endif
        REAL(wp)    ::  ibit12 !< flag indicating 1st-order scheme along y-direction
        REAL(wp)    ::  ibit13 !< flag indicating 3rd-order scheme along y-direction
        REAL(wp)    ::  ibit14 !< flag indicating 5th-order scheme along y-direction
+#ifdef _OPENACC
+       REAL(wp)    ::  ibit12_s !< flag indicating 1st-order scheme along y-direction
+       REAL(wp)    ::  ibit13_s !< flag indicating 3rd-order scheme along y-direction
+       REAL(wp)    ::  ibit14_s !< flag indicating 5th-order scheme along y-direction
+#endif
        REAL(wp)    ::  ibit15 !< flag indicating 1st-order scheme along z-direction
        REAL(wp)    ::  ibit16 !< flag indicating 3rd-order scheme along z-direction
 …
        REAL(wp)    ::  gv     !< Galilei-transformation velocity along y
        REAL(wp)    ::  v_comp !< advection velocity along y
+#ifdef _OPENACC
+       REAL(wp)    ::  v_comp_s !< advection velocity along y
+#endif
        REAL(wp)    ::  w_comp !< advection velocity along z
+       REAL(wp)    :: diss_s  !< discretized artificial dissipation at southward-side of the grid box
+       REAL(wp)    :: flux_s  !< discretized 6th-order flux at southward-side of the grid box
+#ifndef _OPENACC
        REAL(wp), DIMENSION(nzb+1:nzt) ::  swap_diss_y_local_u !< discretized artificial dissipation at southward-side of the grid box
        REAL(wp), DIMENSION(nzb+1:nzt) ::  swap_flux_y_local_u !< discretized 6th-order flux at southward-side of the grid box
+#endif
+       REAL(wp)    :: diss_l  !< discretized artificial dissipation at leftward-side of the grid box
+       REAL(wp)    :: flux_l  !< discretized 6th-order flux at leftward-side of the grid box
+#ifndef _OPENACC
        REAL(wp), DIMENSION(nzb+1:nzt,nys:nyn) ::  swap_diss_x_local_u !< discretized artificial dissipation at leftward-side of the grid box
        REAL(wp), DIMENSION(nzb+1:nzt,nys:nyn) ::  swap_flux_x_local_u !< discretized 6th-order flux at leftward-side of the grid box
+#endif
+       REAL(wp), DIMENSION(nzb:nzt) ::  diss_n !< discretized artificial dissipation at northward-side of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  diss_r !< discretized artificial dissipation at leftward-side of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  diss_t !< discretized artificial dissipation at top of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  flux_n !< discretized 6th-order flux at northward-side of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  flux_r !< discretized 6th-order flux at rightward-side of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  flux_t !< discretized 6th-order flux at top of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  u_comp !< advection velocity along x
+       REAL(wp) ::  diss_n !< discretized artificial dissipation at northward-side of the grid box
+       REAL(wp) ::  diss_r !< discretized artificial dissipation at leftward-side of the grid box
+       REAL(wp) ::  diss_t !< discretized artificial dissipation at top of the grid box
+       REAL(wp) ::  flux_n !< discretized 6th-order flux at northward-side of the grid box
+       REAL(wp) ::  flux_r !< discretized 6th-order flux at rightward-side of the grid box
+       REAL(wp) ::  flux_t !< discretized 6th-order flux at top of the grid box
+       REAL(wp) ::  u_comp !< advection velocity along x
+#ifdef _OPENACC
+       REAL(wp)    ::  u_comp_l !<
+#endif
        gu = 2.0_wp * u_gtrans
        gv = 2.0_wp * v_gtrans
+#ifndef _OPENACC
+!
 !--    Compute the fluxes for the whole left boundary of the processor domain.
 …
              ibit9  = REAL( IBITS(advc_flags_1(k,j,i-1),9,1),  KIND = wp )
              u_comp(k)                = u(k,j,i) + u(k,j,i-1) - gu
              swap_flux_x_local_u(k,j) = u_comp(k) * (                          &
+             u_comp                   = u(k,j,i) + u(k,j,i-1) - gu
+             swap_flux_x_local_u(k,j) = u_comp * (                             &
                                        ( 37.0_wp * ibit11 * adv_mom_5          &
                                     +     7.0_wp * ibit10 * adv_mom_3          &
 …
+                                                   )
               swap_diss_x_local_u(k,j) = - ABS( u_comp(k) ) * (                &
+              swap_diss_x_local_u(k,j) = - ABS( u_comp ) * (                   &
                                        ( 10.0_wp * ibit11 * adv_mom_5          &
                                     +     3.0_wp * ibit10 * adv_mom_3          &
 …
           DO  k = nzb_max+1, nzt
              u_comp(k)         = u(k,j,i) + u(k,j,i-1) - gu
              swap_flux_x_local_u(k,j) = u_comp(k) * (                          &
+             u_comp            = u(k,j,i) + u(k,j,i-1) - gu
+             swap_flux_x_local_u(k,j) = u_comp * (                             &
 .0_wp * ( u(k,j,i) + u(k,j,i-1)   )             &
                            -  8.0_wp * ( u(k,j,i+1) + u(k,j,i-2) )             &
                            +           ( u(k,j,i+2) + u(k,j,i-3) ) ) * adv_mom_5
              swap_diss_x_local_u(k,j) = - ABS(u_comp(k)) * (                   &
+             swap_diss_x_local_u(k,j) = - ABS(u_comp) * (                      &
 .0_wp * ( u(k,j,i) - u(k,j,i-1)   )             &
                            -  5.0_wp * ( u(k,j,i+1) - u(k,j,i-2) )             &
 …
           ENDDO
        ENDDO
+#endif
+       !$ACC PARALLEL LOOP COLLAPSE(2) FIRSTPRIVATE(tn, gu, gv) &
+       !$ACC PRIVATE(i, j, k, k_mm, k_pp, k_ppp) &
+       !$ACC PRIVATE(ibit9, ibit10, ibit11, ibit12, ibit13, ibit14) &
+       !$ACC PRIVATE(ibit9_l, ibit10_l, ibit11_l) &
+       !$ACC PRIVATE(ibit12_s, ibit13_s, ibit14_s) &
+       !$ACC PRIVATE(ibit15, ibit16, ibit17) &
+       !$ACC PRIVATE(flux_r, diss_r, flux_l, diss_l) &
+       !$ACC PRIVATE(flux_n, diss_n, flux_s, diss_s) &
+       !$ACC PRIVATE(flux_t, diss_t, flux_d, diss_d) &
+       !$ACC PRIVATE(div, u_comp, u_comp_l, v_comp, v_comp_s, w_comp) &
+       !$ACC PRESENT(advc_flags_1) &
+       !$ACC PRESENT(u, v, w) &
+       !$ACC PRESENT(drho_air, rho_air_zw, ddzw) &
+       !$ACC PRESENT(tend) &
+       !$ACC PRESENT(hom(nzb+1:nzb_max,1,1:3,0)) &
+       !$ACC PRESENT(weight_substep(intermediate_timestep_count)) &
+       !$ACC PRESENT(sums_us2_ws_l, sums_wsus_ws_l)
        DO i = nxlu, nxr
+#ifndef _OPENACC
+!
 !--       The following loop computes the fluxes for the south boundary points
 …
           ENDDO
+#endif
+!
 !--       Computation of interior fluxes and tendency terms
           DO  j = nys, nyn
-             flux_t(0) = 0.0_wp
-             diss_t(0) = 0.0_wp
              flux_d    = 0.0_wp
              diss_d    = 0.0_wp
 …
                 ibit9  = REAL( IBITS(advc_flags_1(k,j,i),9,1),  KIND = wp )
                 u_comp(k) = u(k,j,i+1) + u(k,j,i)
                 flux_r(k) = ( u_comp(k) - gu ) * (                           &
+                u_comp = u(k,j,i+1) + u(k,j,i)
+                flux_r = ( u_comp - gu ) * (                                 &
                           ( 37.0_wp * ibit11 * adv_mom_5                     &
                        +     7.0_wp * ibit10 * adv_mom_3                     &
 …
+                                                 )
                 diss_r(k) = - ABS( u_comp(k) - gu ) * (                      &
+                diss_r = - ABS( u_comp - gu ) * (                            &
                           ( 10.0_wp * ibit11 * adv_mom_5                     &
                        +     3.0_wp * ibit10 * adv_mom_3                     &
 …
+                                                     )
+#ifdef _OPENACC
+!
+!--             Recompute the left fluxes.
+                ibit11_l = REAL( IBITS(advc_flags_1(k,j,i-1),11,1), KIND = wp )
+                ibit10_l = REAL( IBITS(advc_flags_1(k,j,i-1),10,1), KIND = wp )
+                ibit9_l  = REAL( IBITS(advc_flags_1(k,j,i-1),9,1),  KIND = wp )
+                u_comp_l = u(k,j,i) + u(k,j,i-1) - gu
+                flux_l   = u_comp_l * (                                        &
+                                       ( 37.0_wp * ibit11_l * adv_mom_5           &
+                                    +     7.0_wp * ibit10_l * adv_mom_3           &
+                                    +              ibit9_l  * adv_mom_1           &
+                                       ) *                                     &
+                                     ( u(k,j,i)   + u(k,j,i-1) )               &
+                                -      (  8.0_wp * ibit11_l * adv_mom_5           &
+                                    +              ibit10_l * adv_mom_3           &
+                                       ) *                                     &
+                                     ( u(k,j,i+1) + u(k,j,i-2) )               &
+                                +      (           ibit11_l * adv_mom_5           &
+                                       ) *                                     &
+                                     ( u(k,j,i+2) + u(k,j,i-3) )               &
+                                                   )
+                diss_l   = - ABS( u_comp_l ) * (                               &
+                                       ( 10.0_wp * ibit11_l * adv_mom_5           &
+                                    +     3.0_wp * ibit10_l * adv_mom_3           &
+                                    +              ibit9_l  * adv_mom_1           &
+                                       ) *                                     &
+                                     ( u(k,j,i)   - u(k,j,i-1) )               &
+                                -      (  5.0_wp * ibit11_l * adv_mom_5           &
+                                    +              ibit10_l * adv_mom_3           &
+                                       ) *                                     &
+                                     ( u(k,j,i+1) - u(k,j,i-2) )               &
+                                +      (           ibit11_l * adv_mom_5           &
+                                       ) *                                     &
+                                     ( u(k,j,i+2) - u(k,j,i-3) )               &
+                                                             )
+#else
+                flux_l = swap_flux_x_local_u(k,j)
+                diss_l = swap_diss_x_local_u(k,j)
+#endif
                 ibit14 = REAL( IBITS(advc_flags_1(k,j,i),14,1), KIND = wp )
                 ibit13 = REAL( IBITS(advc_flags_1(k,j,i),13,1), KIND = wp )
                 ibit12 = REAL( IBITS(advc_flags_1(k,j,i),12,1), KIND = wp )
                 v_comp    = v(k,j+1,i) + v(k,j+1,i-1) - gv
                 flux_n(k) = v_comp * (                                       &
+                v_comp = v(k,j+1,i) + v(k,j+1,i-1) - gv
+                flux_n = v_comp * (                                          &
                           ( 37.0_wp * ibit14 * adv_mom_5                     &
                        +     7.0_wp * ibit13 * adv_mom_3                     &
 …
+                                                 )
                 diss_n(k) = - ABS ( v_comp ) * (                             &
+                diss_n = - ABS ( v_comp ) * (                                &
                           ( 10.0_wp * ibit14 * adv_mom_5                     &
                        +     3.0_wp * ibit13 * adv_mom_3                     &
 …
                                  ( u(k,j+3,i) - u(k,j-2,i) )                 &
+                                                      )
+#ifdef _OPENACC
+!
+!--             Recompute the south fluxes.
+                ibit14_s = REAL( IBITS(advc_flags_1(k,j-1,i),14,1), KIND = wp )
+                ibit13_s = REAL( IBITS(advc_flags_1(k,j-1,i),13,1), KIND = wp )
+                ibit12_s = REAL( IBITS(advc_flags_1(k,j-1,i),12,1), KIND = wp )
+                v_comp_s = v(k,j,i) + v(k,j,i-1) - gv
+                flux_s   = v_comp_s * (                                      &
+                                   ( 37.0_wp * ibit14_s * adv_mom_5             &
+                                +     7.0_wp * ibit13_s * adv_mom_3             &
+                                +              ibit12_s * adv_mom_1             &
+                                   ) *                                       &
+                                     ( u(k,j,i)   + u(k,j-1,i) )             &
+                            -      (  8.0_wp * ibit14_s * adv_mom_5             &
+                            +                  ibit13_s * adv_mom_3             &
+                                   ) *                                       &
+                                     ( u(k,j+1,i) + u(k,j-2,i) )             &
+                        +      (               ibit14_s * adv_mom_5             &
+                               ) *                                           &
+                                     ( u(k,j+2,i) + u(k,j-3,i) )             &
+                                               )
+                diss_s   = - ABS ( v_comp_s ) * (                            &
+                                   ( 10.0_wp * ibit14_s * adv_mom_5              &
+                                +     3.0_wp * ibit13_s * adv_mom_3              &
+                                +              ibit12_s * adv_mom_1              &
+                                   ) *                                        &
+                                     ( u(k,j,i)   - u(k,j-1,i) )              &
+                            -      (  5.0_wp * ibit14_s * adv_mom_5              &
+                                +              ibit13_s * adv_mom_3              &
+                                   ) *                                        &
+                                     ( u(k,j+1,i) - u(k,j-2,i) )              &
+                            +      (           ibit14_s * adv_mom_5              &
+                                   ) *                                        &
+                                     ( u(k,j+2,i) - u(k,j-3,i) )              &
+                                                         )
+#else
+                flux_s = swap_flux_y_local_u(k)
+                diss_s = swap_diss_y_local_u(k)
+#endif
+!
 !--             k index has to be modified near bottom and top, else array
 …
                 k_mm  = k - 2 * ibit17
                 w_comp    = w(k,j,i) + w(k,j,i-1)
                 flux_t(k) = w_comp * rho_air_zw(k) * (                       &
+                w_comp = w(k,j,i) + w(k,j,i-1)
+                flux_t = w_comp * rho_air_zw(k) * (                          &
                           ( 37.0_wp * ibit17 * adv_mom_5                     &
                        +     7.0_wp * ibit16 * adv_mom_3                     &
 …
+                                      )
                 diss_t(k) = - ABS( w_comp ) * rho_air_zw(k) * (              &
+                diss_t = - ABS( w_comp ) * rho_air_zw(k) * (                 &
                           ( 10.0_wp * ibit17 * adv_mom_5                     &
                        +     3.0_wp * ibit16 * adv_mom_3                     &
 …
 !--             correction is needed to overcome numerical instabilities caused
 !--             by a not sufficient reduction of divergences near topography.
                 div = ( ( u_comp(k) * ( ibit9 + ibit10 + ibit11 )             &
+                div = ( ( u_comp * ( ibit9 + ibit10 + ibit11 )                &
                 - ( u(k,j,i)   + u(k,j,i-1)   )                               &
                                     * (                                       &
 …
                 tend(k,j,i) = tend(k,j,i) - (                                  &
+                 ( flux_r(k) + diss_r(k)                                       &
+               -   swap_flux_x_local_u(k,j) - swap_diss_x_local_u(k,j) ) * ddx &
+               + ( flux_n(k) + diss_n(k)                                       &
+               -   swap_flux_y_local_u(k)   - swap_diss_y_local_u(k)   ) * ddy &
+               + ( ( flux_t(k) + diss_t(k) )                                   &
+               -   ( flux_d    + diss_d    )                                   &
+                                                    ) * drho_air(k) * ddzw(k)  &
+                 ( ( flux_r + diss_r )                                         &
+               -   ( flux_l + diss_l ) ) * ddx                                 &
+               + ( ( flux_n + diss_n )                                         &
+               -   ( flux_s + diss_s ) ) * ddy                                 &
+               + ( ( flux_t + diss_t )                                         &
+               -   ( flux_d + diss_d ) ) * drho_air(k) * ddzw(k)               &
                                            ) + div * u(k,j,i)
+                swap_flux_x_local_u(k,j) = flux_r(k)
+                swap_diss_x_local_u(k,j) = diss_r(k)
+                swap_flux_y_local_u(k)   = flux_n(k)
+                swap_diss_y_local_u(k)   = diss_n(k)
+                flux_d                   = flux_t(k)
+                diss_d                   = diss_t(k)
+#ifndef _OPENACC
+                swap_flux_x_local_u(k,j) = flux_r
+                swap_diss_x_local_u(k,j) = diss_r
+                swap_flux_y_local_u(k)   = flux_n
+                swap_diss_y_local_u(k)   = diss_n
+#endif
+                flux_d                   = flux_t
+                diss_d                   = diss_t
+!
 !--             Statistical Evaluation of u'u'. The factor has to be applied
 !--             for right evaluation when gallilei_trans = .T. .
+                !$ACC ATOMIC
                 sums_us2_ws_l(k,tn) = sums_us2_ws_l(k,tn)                      &
                 + ( flux_r(k)                                                  &
                     * ( u_comp(k) - 2.0_wp * hom(k,1,1,0)                   )  &
                     / ( u_comp(k) - gu + SIGN( 1.0E-20_wp, u_comp(k) - gu ) )  &
                   + diss_r(k)                                                  &
                     *   ABS( u_comp(k) - 2.0_wp * hom(k,1,1,0)              )  &
                     / ( ABS( u_comp(k) - gu ) + 1.0E-20_wp                  )  &
+                + ( flux_r                                                     &
+                    * ( u_comp - 2.0_wp * hom(k,1,1,0)                   )     &
+                    / ( u_comp - gu + SIGN( 1.0E-20_wp, u_comp - gu )    )     &
+                  + diss_r                                                     &
+                    *   ABS( u_comp - 2.0_wp * hom(k,1,1,0)              )     &
+                    / ( ABS( u_comp - gu ) + 1.0E-20_wp                  )     &
                   ) *   weight_substep(intermediate_timestep_count)
+!
 !--             Statistical Evaluation of w'u'.
+                !$ACC ATOMIC
                 sums_wsus_ws_l(k,tn) = sums_wsus_ws_l(k,tn)                    &
                 + ( flux_t(k)                                                  &
+                + ( flux_t                                                     &
                     * ( w_comp - 2.0_wp * hom(k,1,3,0)                   )     &
                     / ( w_comp + SIGN( 1.0E-20_wp, w_comp )              )     &
                   + diss_t(k)                                                  &
+                  + diss_t                                                     &
                     *   ABS( w_comp - 2.0_wp * hom(k,1,3,0)              )     &
                     / ( ABS( w_comp ) + 1.0E-20_wp                       )     &
 …
              DO  k = nzb_max+1, nzt
                 u_comp(k) = u(k,j,i+1) + u(k,j,i)
                 flux_r(k) = ( u_comp(k) - gu ) * (                            &
+                u_comp = u(k,j,i+1) + u(k,j,i)
+                flux_r = ( u_comp - gu ) * (                                  &
 .0_wp * ( u(k,j,i+1) + u(k,j,i)   )                   &
                        -  8.0_wp * ( u(k,j,i+2) + u(k,j,i-1) )                   &
                        +           ( u(k,j,i+3) + u(k,j,i-2) ) ) * adv_mom_5
                 diss_r(k) = - ABS( u_comp(k) - gu ) * (                       &
+                diss_r = - ABS( u_comp - gu ) * (                             &
 .0_wp * ( u(k,j,i+1) - u(k,j,i)   )                   &
                        -  5.0_wp * ( u(k,j,i+2) - u(k,j,i-1) )                   &
                        +           ( u(k,j,i+3) - u(k,j,i-2) ) ) * adv_mom_5
+                v_comp    = v(k,j+1,i) + v(k,j+1,i-1) - gv
+                flux_n(k) = v_comp * (                                        &
+#ifdef _OPENACC
+!
+!--             Recompute the left fluxes.
+                u_comp_l = u(k,j,i) + u(k,j,i-1) - gu
+                flux_l   = u_comp_l * (                                       &
+.0_wp * ( u(k,j,i) + u(k,j,i-1)   )                &
+                           -  8.0_wp * ( u(k,j,i+1) + u(k,j,i-2) )                &
+                           +           ( u(k,j,i+2) + u(k,j,i-3) ) ) * adv_mom_5
+                diss_l   = - ABS(u_comp_l) * (                                &
+.0_wp * ( u(k,j,i) - u(k,j,i-1)   )                &
+                           -  5.0_wp * ( u(k,j,i+1) - u(k,j,i-2) )                &
+                           +           ( u(k,j,i+2) - u(k,j,i-3) ) ) * adv_mom_5
+#else
+                flux_l = swap_flux_x_local_u(k,j)
+                diss_l = swap_diss_x_local_u(k,j)
+#endif
+                v_comp = v(k,j+1,i) + v(k,j+1,i-1) - gv
+                flux_n = v_comp * (                                           &
 .0_wp * ( u(k,j+1,i) + u(k,j,i)   )                   &
                        -  8.0_wp * ( u(k,j+2,i) + u(k,j-1,i) )                   &
                        +           ( u(k,j+3,i) + u(k,j-2,i) ) ) * adv_mom_5
                 diss_n(k) = - ABS( v_comp ) * (                               &
+                diss_n = - ABS( v_comp ) * (                                  &
 .0_wp * ( u(k,j+1,i) - u(k,j,i)   )                   &
                        -  5.0_wp * ( u(k,j+2,i) - u(k,j-1,i) )                   &
                        +           ( u(k,j+3,i) - u(k,j-2,i) ) ) * adv_mom_5
+#ifdef _OPENACC
+!
+!--             Recompute the south fluxes.
+                v_comp_s = v(k,j,i) + v(k,j,i-1) - gv
+                flux_s   = v_comp_s * (                                       &
+.0_wp * ( u(k,j,i) + u(k,j-1,i)   )                 &
+                         -  8.0_wp * ( u(k,j+1,i) + u(k,j-2,i) )                 &
+                         +           ( u(k,j+2,i) + u(k,j-3,i) ) ) * adv_mom_5
+                diss_s   = - ABS( v_comp_s ) * (                              &
+.0_wp * ( u(k,j,i) - u(k,j-1,i)   )                 &
+                         -  5.0_wp * ( u(k,j+1,i) - u(k,j-2,i) )                 &
+                         +           ( u(k,j+2,i) - u(k,j-3,i) ) ) * adv_mom_5
+#else
+                flux_s = swap_flux_y_local_u(k)
+                diss_s = swap_diss_y_local_u(k)
+#endif
+!
 !--             k index has to be modified near bottom and top, else array
 …
                 k_mm  = k - 2 * ibit17
                 w_comp    = w(k,j,i) + w(k,j,i-1)
                 flux_t(k) = w_comp * rho_air_zw(k) * (                       &
+                w_comp = w(k,j,i) + w(k,j,i-1)
+                flux_t = w_comp * rho_air_zw(k) * (                          &
                           ( 37.0_wp * ibit17 * adv_mom_5                        &
                        +     7.0_wp * ibit16 * adv_mom_3                        &
 …
+                                      )
                 diss_t(k) = - ABS( w_comp ) * rho_air_zw(k) * (              &
+                diss_t = - ABS( w_comp ) * rho_air_zw(k) * (                 &
                           ( 10.0_wp * ibit17 * adv_mom_5                        &
                        +     3.0_wp * ibit16 * adv_mom_3                        &
 …
 !--             correction is needed to overcome numerical instabilities caused
 !--             by a not sufficient reduction of divergences near topography.
                 div = ( ( u_comp(k)   - ( u(k,j,i)   + u(k,j,i-1)   ) ) * ddx &
+                div = ( ( u_comp      - ( u(k,j,i)   + u(k,j,i-1)   ) ) * ddx &
                      +  ( v_comp + gv - ( v(k,j,i)   + v(k,j,i-1 )  ) ) * ddy &
                      +  (   w_comp                      * rho_air_zw(k) -     &
 …
                 tend(k,j,i) = tend(k,j,i) - (                                  &
+                 ( flux_r(k) + diss_r(k)                                       &
+               -   swap_flux_x_local_u(k,j) - swap_diss_x_local_u(k,j) ) * ddx &
+               + ( flux_n(k) + diss_n(k)                                       &
+               -   swap_flux_y_local_u(k)   - swap_diss_y_local_u(k)   ) * ddy &
+               + ( ( flux_t(k) + diss_t(k) )                                   &
+               -   ( flux_d    + diss_d    )                                   &
+                                                    ) * drho_air(k) * ddzw(k)  &
+                 ( ( flux_r + diss_r )                                         &
+               -   ( flux_l + diss_l ) ) * ddx                                 &
+               + ( ( flux_n + diss_n )                                         &
+               -   ( flux_s + diss_s ) ) * ddy                                 &
+               + ( ( flux_t + diss_t )                                         &
+               -   ( flux_d + diss_d ) ) * drho_air(k) * ddzw(k)               &
                                            ) + div * u(k,j,i)
+                swap_flux_x_local_u(k,j) = flux_r(k)
+                swap_diss_x_local_u(k,j) = diss_r(k)
+                swap_flux_y_local_u(k)   = flux_n(k)
+                swap_diss_y_local_u(k)   = diss_n(k)
+                flux_d                   = flux_t(k)
+                diss_d                   = diss_t(k)
+#ifndef _OPENACC
+                swap_flux_x_local_u(k,j) = flux_r
+                swap_diss_x_local_u(k,j) = diss_r
+                swap_flux_y_local_u(k)   = flux_n
+                swap_diss_y_local_u(k)   = diss_n
+#endif
+                flux_d                   = flux_t
+                diss_d                   = diss_t
+!
 !--             Statistical Evaluation of u'u'. The factor has to be applied
 !--             for right evaluation when gallilei_trans = .T. .
+                !$ACC ATOMIC
                 sums_us2_ws_l(k,tn) = sums_us2_ws_l(k,tn)                      &
                 + ( flux_r(k)                                                  &
                     * ( u_comp(k) - 2.0_wp * hom(k,1,1,0)                   )  &
                     / ( u_comp(k) - gu + SIGN( 1.0E-20_wp, u_comp(k) - gu ) )  &
                   + diss_r(k)                                                  &
                     *   ABS( u_comp(k) - 2.0_wp * hom(k,1,1,0)              )  &
                     / ( ABS( u_comp(k) - gu ) + 1.0E-20_wp                  )  &
+                + ( flux_r                                                     &
+                    * ( u_comp - 2.0_wp * hom(k,1,1,0)                   )     &
+                    / ( u_comp - gu + SIGN( 1.0E-20_wp, u_comp - gu )    )     &
+                  + diss_r                                                     &
+                    *   ABS( u_comp - 2.0_wp * hom(k,1,1,0)              )     &
+                    / ( ABS( u_comp - gu ) + 1.0E-20_wp                  )     &
                   ) *   weight_substep(intermediate_timestep_count)
+!
 !--             Statistical Evaluation of w'u'.
+                !$ACC ATOMIC
                 sums_wsus_ws_l(k,tn) = sums_wsus_ws_l(k,tn)                    &
                 + ( flux_t(k)                                                  &
+                + ( flux_t                                                     &
                     * ( w_comp - 2.0_wp * hom(k,1,3,0)                   )     &
                     / ( w_comp + SIGN( 1.0E-20_wp, w_comp )              )     &
                   + diss_t(k)                                                  &
+                  + diss_t                                                     &
                     *   ABS( w_comp - 2.0_wp * hom(k,1,3,0)              )     &
                     / ( ABS( w_comp ) + 1.0E-20_wp                       )     &
 …
        REAL(wp)    ::  ibit19 !< flag indicating 3rd-order scheme along x-direction
        REAL(wp)    ::  ibit20 !< flag indicating 5th-order scheme along x-direction
+#ifdef _OPENACC
+       REAL(wp)    ::  ibit18_l !< flag indicating 1st-order scheme along x-direction
+       REAL(wp)    ::  ibit19_l !< flag indicating 3rd-order scheme along x-direction
+       REAL(wp)    ::  ibit20_l !< flag indicating 5th-order scheme along x-direction
+#endif
        REAL(wp)    ::  ibit21 !< flag indicating 1st-order scheme along y-direction
        REAL(wp)    ::  ibit22 !< flag indicating 3rd-order scheme along y-direction
        REAL(wp)    ::  ibit23 !< flag indicating 5th-order scheme along y-direction
+#ifdef _OPENACC
+       REAL(wp)    ::  ibit21_s !< flag indicating 1st-order scheme along y-direction
+       REAL(wp)    ::  ibit22_s !< flag indicating 3rd-order scheme along y-direction
+       REAL(wp)    ::  ibit23_s !< flag indicating 5th-order scheme along y-direction
+#endif
        REAL(wp)    ::  ibit24 !< flag indicating 1st-order scheme along z-direction
        REAL(wp)    ::  ibit25 !< flag indicating 3rd-order scheme along z-direction
 …
        REAL(wp)    ::  gv     !< Galilei-transformation velocity along y
        REAL(wp)    ::  u_comp !< advection velocity along x
+#ifdef _OPENACC
+       REAL(wp)    ::  u_comp_l !< advection velocity along x
+#endif
        REAL(wp)    ::  w_comp !< advection velocity along z
+       REAL(wp)    ::  diss_s !< discretized artificial dissipation at southward-side of the grid box
+       REAL(wp)    ::  flux_s !< discretized 6th-order flux at southward-side of the grid box
+#ifndef _OPENACC
        REAL(wp), DIMENSION(nzb+1:nzt) ::  swap_diss_y_local_v !< discretized artificial dissipation at southward-side of the grid box
        REAL(wp), DIMENSION(nzb+1:nzt) ::  swap_flux_y_local_v !< discretized 6th-order flux at southward-side of the grid box
+#endif
+       REAL(wp)    ::  diss_l !< discretized artificial dissipation at leftward-side of the grid box
+       REAL(wp)    ::  flux_l !< discretized 6th-order flux at leftward-side of the grid box
+#ifndef _OPENACC
        REAL(wp), DIMENSION(nzb+1:nzt,nys:nyn) ::  swap_diss_x_local_v !< discretized artificial dissipation at leftward-side of the grid box
        REAL(wp), DIMENSION(nzb+1:nzt,nys:nyn) ::  swap_flux_x_local_v !< discretized 6th-order flux at leftward-side of the grid box
+#endif
+       REAL(wp), DIMENSION(nzb:nzt) ::  diss_n !< discretized artificial dissipation at northward-side of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  diss_r !< discretized artificial dissipation at rightward-side of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  diss_t !< discretized artificial dissipation at top of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  flux_n !< discretized 6th-order flux at northward-side of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  flux_r !< discretized 6th-order flux at rightward-side of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  flux_t !< discretized 6th-order flux at top of the grid box
+       REAL(wp), DIMENSION(nzb:nzt) ::  v_comp !< advection velocity along y
+       REAL(wp)    ::  diss_n !< discretized artificial dissipation at northward-side of the grid box
+       REAL(wp)    ::  diss_r !< discretized artificial dissipation at rightward-side of the grid box
+       REAL(wp)    ::  diss_t !< discretized artificial dissipation at top of the grid box
+       REAL(wp)    ::  flux_n !< discretized 6th-order flux at northward-side of the grid box
+       REAL(wp)    ::  flux_r !< discretized 6th-order flux at rightward-side of the grid box
+       REAL(wp)    ::  flux_t !< discretized 6th-order flux at top of the grid box
+       REAL(wp)    ::  v_comp !< advection velocity along y
+#ifdef _OPENACC
+       REAL(wp)    ::  v_comp_s !<
+#endif
        gu = 2.0_wp * u_gtrans
        gv = 2.0_wp * v_gtrans
+#ifndef _OPENACC
+!
 !--    First compute the whole left boundary of the processor domain
 …
        ENDDO
+#endif
+       !$ACC PARALLEL LOOP COLLAPSE(2) FIRSTPRIVATE(tn, gu, gv) &
+       !$ACC PRIVATE(i, j, k, k_mm, k_pp, k_ppp) &
+       !$ACC PRIVATE(ibit18, ibit19, ibit20, ibit21, ibit22, ibit23) &
+       !$ACC PRIVATE(ibit18_l, ibit19_l, ibit20_l) &
+       !$ACC PRIVATE(ibit21_s, ibit22_s, ibit23_s) &
+       !$ACC PRIVATE(ibit24, ibit25, ibit26) &
+       !$ACC PRIVATE(flux_r, diss_r, flux_l, diss_l) &
+       !$ACC PRIVATE(flux_n, diss_n, flux_s, diss_s) &
+       !$ACC PRIVATE(flux_t, diss_t, flux_d, diss_d) &
+       !$ACC PRIVATE(div, u_comp, u_comp_l, v_comp, v_comp_s, w_comp) &
+       !$ACC PRESENT(advc_flags_1) &
+       !$ACC PRESENT(u, v, w) &
+       !$ACC PRESENT(drho_air, rho_air_zw, ddzw) &
+       !$ACC PRESENT(tend) &
+       !$ACC PRESENT(hom(nzb+1:nzb_max,1,2:3,0)) &
+       !$ACC PRESENT(weight_substep(intermediate_timestep_count)) &
+       !$ACC PRESENT(sums_vs2_ws_l, sums_wsvs_ws_l)
        DO i = nxl, nxr
+#ifndef _OPENACC
           j = nysv
           DO  k = nzb+1, nzb_max
 …
              ibit21 = REAL( IBITS(advc_flags_1(k,j-1,i),21,1), KIND = wp )
              v_comp(k)              = v(k,j,i) + v(k,j-1,i) - gv
              swap_flux_y_local_v(k) = v_comp(k) * (                           &
+             v_comp                 = v(k,j,i) + v(k,j-1,i) - gv
+             swap_flux_y_local_v(k) = v_comp * (                              &
                                    ( 37.0_wp * ibit23 * adv_mom_5                &
                                 +     7.0_wp * ibit22 * adv_mom_3                &
 …
+                                                 )
              swap_diss_y_local_v(k) = - ABS( v_comp(k) ) * (                  &
+             swap_diss_y_local_v(k) = - ABS( v_comp ) * (                     &
                                    ( 10.0_wp * ibit23 * adv_mom_5                &
                                 +     3.0_wp * ibit22 * adv_mom_3                &
 …
           DO  k = nzb_max+1, nzt
              v_comp(k)              = v(k,j,i) + v(k,j-1,i) - gv
              swap_flux_y_local_v(k) = v_comp(k) * (                           &
+             v_comp                 = v(k,j,i) + v(k,j-1,i) - gv
+             swap_flux_y_local_v(k) = v_comp * (                              &
 .0_wp * ( v(k,j,i) + v(k,j-1,i)   )                 &
                          -  8.0_wp * ( v(k,j+1,i) + v(k,j-2,i) )                 &
                          +           ( v(k,j+2,i) + v(k,j-3,i) ) ) * adv_mom_5
              swap_diss_y_local_v(k) = - ABS( v_comp(k) ) * (                  &
+             swap_diss_y_local_v(k) = - ABS( v_comp ) * (                     &
 .0_wp * ( v(k,j,i) - v(k,j-1,i)   )                 &
                          -  5.0_wp * ( v(k,j+1,i) - v(k,j-2,i) )                 &
 …
           ENDDO
+#endif
           DO  j = nysv, nyn
-             flux_t(0) = 0.0_wp
-             diss_t(0) = 0.0_wp
              flux_d    = 0.0_wp
              diss_d    = 0.0_wp
 …
                 ibit18 = REAL( IBITS(advc_flags_1(k,j,i),18,1), KIND = wp )
                 u_comp    = u(k,j-1,i+1) + u(k,j,i+1) - gu
                 flux_r(k) = u_comp * (                                       &
+                u_comp = u(k,j-1,i+1) + u(k,j,i+1) - gu
+                flux_r = u_comp * (                                          &
                           ( 37.0_wp * ibit20 * adv_mom_5                        &
                        +     7.0_wp * ibit19 * adv_mom_3                        &
 …
+                                     )
                 diss_r(k) = - ABS( u_comp ) * (                              &
+                diss_r = - ABS( u_comp ) * (                                 &
                           ( 10.0_wp * ibit20 * adv_mom_5                        &
                        +     3.0_wp * ibit19 * adv_mom_3                        &
 …
+                                              )
+#ifdef _OPENACC
+!
+!--             Recompute the left fluxes.
+                ibit20_l = REAL( IBITS(advc_flags_1(k,j,i-1),20,1), KIND = wp )
+                ibit19_l = REAL( IBITS(advc_flags_1(k,j,i-1),19,1), KIND = wp )
+                ibit18_l = REAL( IBITS(advc_flags_1(k,j,i-1),18,1), KIND = wp )
+                u_comp_l  = u(k,j-1,i) + u(k,j,i) - gu
+                flux_l    = u_comp_l * (                                     &
+                                      ( 37.0_wp * ibit20_l * adv_mom_5          &
+                                   +     7.0_wp * ibit19_l * adv_mom_3          &
+                                   +              ibit18_l * adv_mom_1          &
+                                      ) *                                    &
+                                     ( v(k,j,i)   + v(k,j,i-1) )             &
+                               -      (  8.0_wp * ibit20_l * adv_mom_5          &
+                                   +              ibit19_l * adv_mom_3          &
+                                      ) *                                    &
+                                     ( v(k,j,i+1) + v(k,j,i-2) )             &
+                               +      (           ibit20_l * adv_mom_5          &
+                                      ) *                                    &
+                                     ( v(k,j,i+2) + v(k,j,i-3) )             &
+                                                 )
+                 diss_l   = - ABS( u_comp_l ) * (                            &
+                                      ( 10.0_wp * ibit20_l * adv_mom_5          &
+                                   +     3.0_wp * ibit19_l * adv_mom_3          &
+                                   +              ibit18_l * adv_mom_1          &
+                                      ) *                                    &
+                                     ( v(k,j,i)   - v(k,j,i-1) )             &
+                               -      (  5.0_wp * ibit20_l * adv_mom_5          &
+                                   +              ibit19_l * adv_mom_3          &
+                                      ) *                                    &
+                                     ( v(k,j,i+1) - v(k,j,i-2) )             &
+                               +      (           ibit20_l * adv_mom_5          &
+                                      ) *                                    &
+                                     ( v(k,j,i+2) - v(k,j,i-3) )             &
+                                                           )
+#else
+                flux_l = swap_flux_x_local_v(k,j)
+                diss_l = swap_diss_x_local_v(k,j)
+#endif
                 ibit23 = REAL( IBITS(advc_flags_1(k,j,i),23,1), KIND = wp )
                 ibit22 = REAL( IBITS(advc_flags_1(k,j,i),22,1), KIND = wp )
                 ibit21 = REAL( IBITS(advc_flags_1(k,j,i),21,1), KIND = wp )
                 v_comp(k) = v(k,j+1,i) + v(k,j,i)
                 flux_n(k) = ( v_comp(k) - gv ) * (                           &
+                v_comp = v(k,j+1,i) + v(k,j,i)
+                flux_n = ( v_comp - gv ) * (                                 &
                           ( 37.0_wp * ibit23 * adv_mom_5                        &
                        +     7.0_wp * ibit22 * adv_mom_3                        &
 …
+                                     )
                 diss_n(k) = - ABS( v_comp(k) - gv ) * (                      &
+                diss_n = - ABS( v_comp - gv ) * (                            &
                           ( 10.0_wp * ibit23 * adv_mom_5                        &
                        +     3.0_wp * ibit22 * adv_mom_3                        &
 …
                                  ( v(k,j+3,i) - v(k,j-2,i) )                 &
+                                                      )
+#ifdef _OPENACC
+!
+!--             Recompute the south fluxes.
+                ibit23_s = REAL( IBITS(advc_flags_1(k,j-1,i),23,1), KIND = wp )
+                ibit22_s = REAL( IBITS(advc_flags_1(k,j-1,i),22,1), KIND = wp )
+                ibit21_s = REAL( IBITS(advc_flags_1(k,j-1,i),21,1), KIND = wp )
+                v_comp_s = v(k,j,i) + v(k,j-1,i) - gv
+                flux_s   = v_comp_s * (                                      &
+                                   ( 37.0_wp * ibit23_s * adv_mom_5             &
+                                +     7.0_wp * ibit22_s * adv_mom_3             &
+                                +              ibit21_s * adv_mom_1             &
+                                   ) *                                       &
+                                     ( v(k,j,i)   + v(k,j-1,i) )             &
+                            -      (  8.0_wp * ibit23_s * adv_mom_5             &
+                                +              ibit22_s * adv_mom_3             &
+                                   ) *                                       &
+                                     ( v(k,j+1,i) + v(k,j-2,i) )             &
+                            +      (           ibit23_s * adv_mom_5             &
+                                   ) *                                       &
+                                     ( v(k,j+2,i) + v(k,j-3,i) )             &
+                                                 )
+                diss_s   = - ABS( v_comp_s ) * (                             &
+                                   ( 10.0_wp * ibit23_s * adv_mom_5             &
+                                +     3.0_wp * ibit22_s * adv_mom_3             &
+                                +              ibit21_s * adv_mom_1             &
+                                   ) *                                       &
+                                     ( v(k,j,i)   - v(k,j-1,i) )             &
+                            -      (  5.0_wp * ibit23_s * adv_mom_5             &
+                                +              ibit22_s * adv_mom_3             &
+                                   ) *                                       &
+                                     ( v(k,j+1,i) - v(k,j-2,i) )             &
+                            +      (           ibit23_s * adv_mom_5             &
+                                   ) *                                       &
+                                     ( v(k,j+2,i) - v(k,j-3,i) )             &
+                                                          )
+#else
+               flux_s = swap_flux_y_local_v(k)
+               diss_s = swap_diss_y_local_v(k)
+#endif
+!
 !--             k index has to be modified near bottom and top, else array
 …
                 k_mm  = k - 2 * ibit26
                 w_comp    = w(k,j-1,i) + w(k,j,i)
                 flux_t(k) = w_comp * rho_air_zw(k) * (                       &
+                w_comp = w(k,j-1,i) + w(k,j,i)
+                flux_t = w_comp * rho_air_zw(k) * (                          &
                           ( 37.0_wp * ibit26 * adv_mom_5                        &
                        +     7.0_wp * ibit25 * adv_mom_3                        &
 …
+                                      )
                 diss_t(k) = - ABS( w_comp ) * rho_air_zw(k) * (              &
+                diss_t = - ABS( w_comp ) * rho_air_zw(k) * (                 &
                           ( 10.0_wp * ibit26 * adv_mom_5                        &
                        +     3.0_wp * ibit25 * adv_mom_3                        &
 …
                                          )                                    &
                   ) * ddx                                                     &
                +  ( v_comp(k)                                                 &
+               +  ( v_comp                                                    &
                                        * ( ibit21 + ibit22 + ibit23 )         &
                 - ( v(k,j,i)     + v(k,j-1,i) )                               &
 …
                 tend(k,j,i) = tend(k,j,i) - (                                 &
+                       ( flux_r(k) + diss_r(k)                                &
+                     -   swap_flux_x_local_v(k,j) - swap_diss_x_local_v(k,j)  &
+                       ) * ddx                                                &
+                     + ( flux_n(k) + diss_n(k)                                &
+                     -   swap_flux_y_local_v(k) - swap_diss_y_local_v(k)      &
+                       ) * ddy                                                &
+                     + ( ( flux_t(k) + diss_t(k) )                            &
+                     -   ( flux_d    + diss_d    )                            &
+                       ) * drho_air(k) * ddzw(k)                              &
+                       ( ( flux_r + diss_r )                                  &
+                     -   ( flux_l + diss_l ) ) * ddx                          &
+                     + ( ( flux_n + diss_n )                                  &
+                     -   ( flux_s + diss_s ) ) * ddy                          &
+                     + ( ( flux_t + diss_t )                                  &
+                     -   ( flux_d + diss_d ) ) * drho_air(k) * ddzw(k)        &
                                             )  + v(k,j,i) * div
+                swap_flux_x_local_v(k,j) = flux_r(k)
+                swap_diss_x_local_v(k,j) = diss_r(k)
+                swap_flux_y_local_v(k)   = flux_n(k)
+                swap_diss_y_local_v(k)   = diss_n(k)
+                flux_d                   = flux_t(k)
+                diss_d                   = diss_t(k)
+#ifndef _OPENACC
+                swap_flux_x_local_v(k,j) = flux_r
+                swap_diss_x_local_v(k,j) = diss_r
+                swap_flux_y_local_v(k)   = flux_n
+                swap_diss_y_local_v(k)   = diss_n
+#endif
+                flux_d                   = flux_t
+                diss_d                   = diss_t
+!
 !--             Statistical Evaluation of v'v'. The factor has to be applied
 !--             for right evaluation when gallilei_trans = .T. .
+                !$ACC ATOMIC
                 sums_vs2_ws_l(k,tn) = sums_vs2_ws_l(k,tn)                      &
                 + ( flux_n(k)                                                  &
                     * ( v_comp(k) - 2.0_wp * hom(k,1,2,0)                   )  &
                     / ( v_comp(k) - gv + SIGN( 1.0E-20_wp, v_comp(k) - gv ) )  &
                +   diss_n(k)                                                   &
                     *   ABS( v_comp(k) - 2.0_wp * hom(k,1,2,0)              )  &
                     / ( ABS( v_comp(k) - gv ) + 1.0E-20_wp                  )  &
+                + ( flux_n                                                     &
+                    * ( v_comp - 2.0_wp * hom(k,1,2,0)                   )     &
+                    / ( v_comp - gv + SIGN( 1.0E-20_wp, v_comp - gv )    )     &
+               +   diss_n                                                      &
+                    *   ABS( v_comp - 2.0_wp * hom(k,1,2,0)              )     &
+                    / ( ABS( v_comp - gv ) + 1.0E-20_wp                  )     &
                   ) *   weight_substep(intermediate_timestep_count)
+!
 !--             Statistical Evaluation of w'u'.
+                !$ACC ATOMIC
                 sums_wsvs_ws_l(k,tn) = sums_wsvs_ws_l(k,tn)                    &
                 + ( flux_t(k)                                                  &
+                + ( flux_t                                                     &
                     * ( w_comp - 2.0_wp * hom(k,1,3,0)                   )     &
                     / ( w_comp + SIGN( 1.0E-20_wp, w_comp )              )     &
                +   diss_t(k)                                                   &
+               +   diss_t                                                      &
                     *   ABS( w_comp - 2.0_wp * hom(k,1,3,0)              )     &
                     / ( ABS( w_comp ) + 1.0E-20_wp                       )     &
 …
              DO  k = nzb_max+1, nzt
                 u_comp    = u(k,j-1,i+1) + u(k,j,i+1) - gu
                 flux_r(k) = u_comp * (                                        &
+                u_comp = u(k,j-1,i+1) + u(k,j,i+1) - gu
+                flux_r = u_comp * (                                           &
 .0_wp * ( v(k,j,i+1) + v(k,j,i)   )                      &
                     -  8.0_wp * ( v(k,j,i+2) + v(k,j,i-1) )                      &
                     +           ( v(k,j,i+3) + v(k,j,i-2) ) ) * adv_mom_5
                 diss_r(k) = - ABS( u_comp ) * (                               &
+                diss_r = - ABS( u_comp ) * (                                  &
 .0_wp * ( v(k,j,i+1) - v(k,j,i) )                        &
                     -  5.0_wp * ( v(k,j,i+2) - v(k,j,i-1) )                      &
                     +           ( v(k,j,i+3) - v(k,j,i-2) ) ) * adv_mom_5
+                v_comp(k) = v(k,j+1,i) + v(k,j,i)
+                flux_n(k) = ( v_comp(k) - gv ) * (                            &
+#ifdef _OPENACC
+!
+!--             Recompute the left fluxes.
+                u_comp_l = u(k,j-1,i) + u(k,j,i) - gu
+                flux_l   = u_comp_l * (                                       &
+.0_wp * ( v(k,j,i) + v(k,j,i-1)   )               &
+                           -  8.0_wp * ( v(k,j,i+1) + v(k,j,i-2) )               &
+                           +           ( v(k,j,i+2) + v(k,j,i-3) ) ) * adv_mom_5
+                diss_l   = - ABS( u_comp_l ) * (                              &
+.0_wp * ( v(k,j,i) - v(k,j,i-1)   )               &
+                           -  5.0_wp * ( v(k,j,i+1) - v(k,j,i-2) )               &
+                           +           ( v(k,j,i+2) - v(k,j,i-3) ) ) * adv_mom_5
+#else
+                flux_l = swap_flux_x_local_v(k,j)
+                diss_l = swap_diss_x_local_v(k,j)
+#endif
+                v_comp = v(k,j+1,i) + v(k,j,i)
+                flux_n = ( v_comp - gv ) * (                                  &
 .0_wp * ( v(k,j+1,i) + v(k,j,i)   )                      &
                     -  8.0_wp * ( v(k,j+2,i) + v(k,j-1,i) )                      &
                       +         ( v(k,j+3,i) + v(k,j-2,i) ) ) * adv_mom_5
                 diss_n(k) = - ABS( v_comp(k) - gv ) * (                       &
+                diss_n = - ABS( v_comp - gv ) * (                             &
 .0_wp * ( v(k,j+1,i) - v(k,j,i)   )                      &
                     -  5.0_wp * ( v(k,j+2,i) - v(k,j-1,i) )                      &
                     +           ( v(k,j+3,i) - v(k,j-2,i) ) ) * adv_mom_5
+#ifdef _OPENACC
+!
+!--             Recompute the south fluxes.
+                v_comp_s = v(k,j,i) + v(k,j-1,i) - gv
+                flux_s   = v_comp_s * (                                       &
+.0_wp * ( v(k,j,i) + v(k,j-1,i)   )                 &
+                         -  8.0_wp * ( v(k,j+1,i) + v(k,j-2,i) )                 &
+                         +           ( v(k,j+2,i) + v(k,j-3,i) ) ) * adv_mom_5
+                diss_s   = - ABS( v_comp_s ) * (                              &
+.0_wp * ( v(k,j,i) - v(k,j-1,i)   )                 &
+                         -  5.0_wp * ( v(k,j+1,i) - v(k,j-2,i) )                 &
+                         +           ( v(k,j+2,i) - v(k,j-3,i) ) ) * adv_mom_5
+#else
+                flux_s = swap_flux_y_local_v(k)
+                diss_s = swap_diss_y_local_v(k)
+#endif
+!
 !--             k index has to be modified near bottom and top, else array
 …
                 k_mm  = k - 2 * ibit26
                 w_comp    = w(k,j-1,i) + w(k,j,i)
                 flux_t(k) = w_comp * rho_air_zw(k) * (                       &
+                w_comp = w(k,j-1,i) + w(k,j,i)
+                flux_t = w_comp * rho_air_zw(k) * (                          &
                           ( 37.0_wp * ibit26 * adv_mom_5                        &
                        +     7.0_wp * ibit25 * adv_mom_3                        &
 …
+                                      )
                 diss_t(k) = - ABS( w_comp ) * rho_air_zw(k) * (              &
+                diss_t = - ABS( w_comp ) * rho_air_zw(k) * (                 &
                           ( 10.0_wp * ibit26 * adv_mom_5                        &
                        +     3.0_wp * ibit25 * adv_mom_3                        &
 …
 !--             by a not sufficient reduction of divergences near topography.
                 div = ( ( u_comp + gu - ( u(k,j-1,i)   + u(k,j,i)   ) ) * ddx &
                      +  ( v_comp(k)   - ( v(k,j,i)     + v(k,j-1,i) ) ) * ddy &
+                     +  ( v_comp      - ( v(k,j,i)     + v(k,j-1,i) ) ) * ddy &
                      +  (   w_comp                      * rho_air_zw(k) -     &
                           ( w(k-1,j-1,i) + w(k-1,j,i) ) * rho_air_zw(k-1)     &
 …
                 tend(k,j,i) = tend(k,j,i) - (                                 &
+                       ( flux_r(k) + diss_r(k)                                &
+                     -   swap_flux_x_local_v(k,j) - swap_diss_x_local_v(k,j)  &
+                       ) * ddx                                                &
+                     + ( flux_n(k) + diss_n(k)                                &
+                     -   swap_flux_y_local_v(k) - swap_diss_y_local_v(k)      &
+                       ) * ddy                                                &
+                     + ( ( flux_t(k) + diss_t(k) )                            &
+                     -   ( flux_d    + diss_d    )                            &
+                       ) * drho_air(k) * ddzw(k)                              &
+                       ( ( flux_r + diss_r )                                  &
+                     -   ( flux_l + diss_l ) ) * ddx                          &
+                     + ( ( flux_n + diss_n )                                  &
+                     -   ( flux_s + diss_s ) ) * ddy                          &
+                     + ( ( flux_t + diss_t )                                  &
+                     -   ( flux_d + diss_d ) ) * drho_air(k) * ddzw(k)        &
                                             )  + v(k,j,i) * div
+                swap_flux_x_local_v(k,j) = flux_r(k)
+                swap_diss_x_local_v(k,j) = diss_r(k)
+                swap_flux_y_local_v(k)   = flux_n(k)
+                swap_diss_y_local_v(k)   = diss_n(k)
+                flux_d                   = flux_t(k)
+                diss_d                   = diss_t(k)
+#ifndef _OPENACC
+                swap_flux_x_local_v(k,j) = flux_r
+                swap_diss_x_local_v(k,j) = diss_r
+                swap_flux_y_local_v(k)   = flux_n
+                swap_diss_y_local_v(k)   = diss_n
+#endif
+                flux_d                   = flux_t
+                diss_d                   = diss_t
+!
 !--             Statistical Evaluation of v'v'. The factor has to be applied
 !--             for right evaluation when gallilei_trans = .T. .
+                !$ACC ATOMIC
                 sums_vs2_ws_l(k,tn) = sums_vs2_ws_l(k,tn)                      &
                 + ( flux_n(k)                                                  &
                     * ( v_comp(k) - 2.0_wp * hom(k,1,2,0)                   )  &
                     / ( v_comp(k) - gv + SIGN( 1.0E-20_wp, v_comp(k) - gv ) )  &
                +   diss_n(k)                                                   &
                     *   ABS( v_comp(k) - 2.0_wp * hom(k,1,2,0)              )  &
                     / ( ABS( v_comp(k) - gv ) + 1.0E-20_wp                  )  &
+                + ( flux_n                                                     &
+                    * ( v_comp - 2.0_wp * hom(k,1,2,0)                   )     &
+                    / ( v_comp - gv + SIGN( 1.0E-20_wp, v_comp - gv )    )     &
+               +   diss_n                                                      &
+                    *   ABS( v_comp - 2.0_wp * hom(k,1,2,0)              )     &
+                    / ( ABS( v_comp - gv ) + 1.0E-20_wp                  )     &
                   ) *   weight_substep(intermediate_timestep_count)
+!
 !--             Statistical Evaluation of w'u'.
+                !$ACC ATOMIC
                 sums_wsvs_ws_l(k,tn) = sums_wsvs_ws_l(k,tn)                    &
                 + ( flux_t(k)                                                  &
+                + ( flux_t                                                     &
                     * ( w_comp - 2.0_wp * hom(k,1,3,0)                   )     &
                     / ( w_comp + SIGN( 1.0E-20_wp, w_comp )              )     &
                +   diss_t(k)                                                   &
+               +   diss_t                                                      &
                     *   ABS( w_comp - 2.0_wp * hom(k,1,3,0)              )     &
                     / ( ABS( w_comp ) + 1.0E-20_wp                       )     &
 …
           ENDDO
        ENDDO
+!$ACC UPDATE HOST(sums_vs2_ws_l(nzb+1,tn))
        sums_vs2_ws_l(nzb,tn) = sums_vs2_ws_l(nzb+1,tn)
+!$ACC UPDATE DEVICE(sums_vs2_ws_l(nzb,tn))
 …
        REAL(wp)    ::  ibit28 !< flag indicating 3rd-order scheme along x-direction
        REAL(wp)    ::  ibit29 !< flag indicating 5th-order scheme along x-direction
+#ifdef _OPENACC
+       REAL(wp)    ::  ibit27_l !< flag indicating 1st-order scheme along x-direction
+       REAL(wp)    ::  ibit28_l !< flag indicating 3rd-order scheme along x-direction
+       REAL(wp)    ::  ibit29_l !< flag indicating 5th-order scheme along x-direction
+#endif
        REAL(wp)    ::  ibit30 !< flag indicating 1st-order scheme along y-direction
        REAL(wp)    ::  ibit31 !< flag indicating 3rd-order scheme along y-direction
        REAL(wp)    ::  ibit32 !< flag indicating 5th-order scheme along y-direction
+#ifdef _OPENACC
+       REAL(wp)    ::  ibit30_s !< flag indicating 1st-order scheme along y-direction
+       REAL(wp)    ::  ibit31_s !< flag indicating 3rd-order scheme along y-direction
+       REAL(wp)    ::  ibit32_s !< flag indicating 5th-order scheme along y-direction
+#endif
        REAL(wp)    ::  ibit33 !< flag indicating 1st-order scheme along z-direction
        REAL(wp)    ::  ibit34 !< flag indicating 3rd-order scheme along z-direction
 …
        REAL(wp)    ::  gv     !< Galilei-transformation velocity along y
        REAL(wp)    ::  u_comp !< advection velocity along x
+#ifdef _OPENACC
+       REAL(wp)    ::  u_comp_l !< advection velocity along x
+#endif
        REAL(wp)    ::  v_comp !< advection velocity along y
+#ifdef _OPENACC
+       REAL(wp)    ::  v_comp_s !< advection velocity along y
+#endif
        REAL(wp)    ::  w_comp !< advection velocity along z
        REAL(wp), DIMENSION(nzb:nzt)    ::  diss_t !< discretized artificial dissipation at top of the grid box
        REAL(wp), DIMENSION(nzb:nzt)    ::  flux_t !< discretized 6th-order flux at top of the grid box
+       REAL(wp)    ::  diss_t !< discretized artificial dissipation at top of the grid box
+       REAL(wp)    ::  flux_t !< discretized 6th-order flux at top of the grid box
+       REAL(wp), DIMENSION(nzb+1:nzt)  ::  diss_n !< discretized artificial dissipation at northward-side of the grid box
+       REAL(wp), DIMENSION(nzb+1:nzt)  ::  diss_r !< discretized artificial dissipation at rightward-side of the grid box
+       REAL(wp), DIMENSION(nzb+1:nzt)  ::  flux_n !< discretized 6th-order flux at northward-side of the grid box
+       REAL(wp), DIMENSION(nzb+1:nzt)  ::  flux_r !< discretized 6th-order flux at rightward-side of the grid box
+       REAL(wp)    ::  diss_n !< discretized artificial dissipation at northward-side of the grid box
+       REAL(wp)    ::  diss_r !< discretized artificial dissipation at rightward-side of the grid box
+       REAL(wp)    ::  flux_n !< discretized 6th-order flux at northward-side of the grid box
+       REAL(wp)    ::  flux_r !< discretized 6th-order flux at rightward-side of the grid box
+       REAL(wp)    ::  diss_s !< discretized artificial dissipation at southward-side of the grid box
+       REAL(wp)    ::  flux_s !< discretized 6th-order flux at southward-side of the grid box
+#ifndef _OPENACC
        REAL(wp), DIMENSION(nzb+1:nzt)  ::  swap_diss_y_local_w !< discretized artificial dissipation at southward-side of the grid box
        REAL(wp), DIMENSION(nzb+1:nzt)  ::  swap_flux_y_local_w !< discretized 6th-order flux at southward-side of the grid box
+#endif
+       REAL(wp)    ::  diss_l !< discretized artificial dissipation at leftward-side of the grid box
+       REAL(wp)    ::  flux_l !< discretized 6th-order flux at leftward-side of the grid box
+#ifndef _OPENACC
        REAL(wp), DIMENSION(nzb+1:nzt,nys:nyn) ::  swap_diss_x_local_w !< discretized artificial dissipation at leftward-side of the grid box
        REAL(wp), DIMENSION(nzb+1:nzt,nys:nyn) ::  swap_flux_x_local_w !< discretized 6th-order flux at leftward-side of the grid box
+#endif
        gu = 2.0_wp * u_gtrans
        gv = 2.0_wp * v_gtrans
+#ifndef _OPENACC
+!
 !--   compute the whole left boundary of the processor domain
 …
        ENDDO
+#endif
+       !$ACC PARALLEL LOOP COLLAPSE(2) FIRSTPRIVATE(tn, gu, gv) &
+       !$ACC PRIVATE(i, j, k, k_mm, k_pp, k_ppp) &
+       !$ACC PRIVATE(ibit27, ibit28, ibit29, ibit30, ibit31, ibit32) &
+       !$ACC PRIVATE(ibit27_l, ibit28_l, ibit29_l) &
+       !$ACC PRIVATE(ibit30_s, ibit31_s, ibit32_s) &
+       !$ACC PRIVATE(ibit33, ibit34, ibit35) &
+       !$ACC PRIVATE(flux_r, diss_r, flux_l, diss_l) &
+       !$ACC PRIVATE(flux_n, diss_n, flux_s, diss_s) &
+       !$ACC PRIVATE(flux_t, diss_t, flux_d, diss_d) &
+       !$ACC PRIVATE(div, u_comp, u_comp_l, v_comp, v_comp_s, w_comp) &
+       !$ACC PRESENT(advc_flags_1, advc_flags_2) &
+       !$ACC PRESENT(u, v, w) &
+       !$ACC PRESENT(rho_air, drho_air_zw, ddzu) &
+       !$ACC PRESENT(tend) &
+       !$ACC PRESENT(hom(nzb+1:nzb_max,1,3,0)) &
+       !$ACC PRESENT(weight_substep(intermediate_timestep_count)) &
+       !$ACC PRESENT(sums_ws2_ws_l(nzb+1:nzb_max,0))
        DO i = nxl, nxr
+#ifndef _OPENACC
           j = nys
           DO  k = nzb+1, nzb_max
 …
           ENDDO
+#endif
           DO  j = nys, nyn
 …
 !--          at the first w-level. For topography wall this is done implicitely
 !--          by advc_flags_1.
+             k         = nzb + 1
+             w_comp    = w(k,j,i) + w(k-1,j,i)
+             flux_t(0) = w_comp       * ( w(k,j,i) + w(k-1,j,i) ) * adv_mom_1
+             diss_t(0) = -ABS(w_comp) * ( w(k,j,i) - w(k-1,j,i) ) * adv_mom_1
+             flux_d    = flux_t(0)
+             diss_d    = diss_t(0)
+             k      = nzb + 1
+             w_comp = w(k,j,i) + w(k-1,j,i)
+             flux_d = w_comp       * ( w(k,j,i) + w(k-1,j,i) ) * adv_mom_1
+             diss_d = -ABS(w_comp) * ( w(k,j,i) - w(k-1,j,i) ) * adv_mom_1
              DO  k = nzb+1, nzb_max
 …
                 ibit27 = REAL( IBITS(advc_flags_1(k,j,i),27,1), KIND = wp )
                 u_comp    = u(k+1,j,i+1) + u(k,j,i+1) - gu
                 flux_r(k) = u_comp * (                                       &
+                u_comp = u(k+1,j,i+1) + u(k,j,i+1) - gu
+                flux_r = u_comp * (                                          &
                           ( 37.0_wp * ibit29 * adv_mom_5                        &
                        +     7.0_wp * ibit28 * adv_mom_3                        &
 …
+                                     )
                 diss_r(k) = - ABS( u_comp ) * (                              &
+                diss_r = - ABS( u_comp ) * (                                 &
                           ( 10.0_wp * ibit29 * adv_mom_5                        &
                        +     3.0_wp * ibit28 * adv_mom_3                        &
 …
+                                              )
+#ifdef _OPENACC
+!
+!--             Recompute the left fluxes.
+                ibit29_l = REAL( IBITS(advc_flags_1(k,j,i-1),29,1), KIND = wp )
+                ibit28_l = REAL( IBITS(advc_flags_1(k,j,i-1),28,1), KIND = wp )
+                ibit27_l = REAL( IBITS(advc_flags_1(k,j,i-1),27,1), KIND = wp )
+                u_comp_l = u(k+1,j,i) + u(k,j,i) - gu
+                flux_l   = u_comp_l * (                                      &
+                                      ( 37.0_wp * ibit29_l * adv_mom_5          &
+                                   +     7.0_wp * ibit28_l * adv_mom_3          &
+                                   +              ibit27_l * adv_mom_1          &
+                                      ) *                                    &
+                                     ( w(k,j,i)   + w(k,j,i-1) )             &
+                               -      (  8.0_wp * ibit29_l * adv_mom_5          &
+                                   +              ibit28_l * adv_mom_3          &
+                                      ) *                                    &
+                                     ( w(k,j,i+1) + w(k,j,i-2) )             &
+                               +      (           ibit29_l * adv_mom_5          &
+                                      ) *                                    &
+                                     ( w(k,j,i+2) + w(k,j,i-3) )             &
+                                                 )
+                diss_l   = - ABS( u_comp_l ) * (                             &
+                                        ( 10.0_wp * ibit29_l * adv_mom_5        &
+                                     +     3.0_wp * ibit28_l * adv_mom_3        &
+                                     +              ibit27_l * adv_mom_1        &
+                                        ) *                                  &
+                                     ( w(k,j,i)   - w(k,j,i-1) )             &
+                                 -      (  5.0_wp * ibit29_l * adv_mom_5        &
+                                     +              ibit28_l * adv_mom_3        &
+                                        ) *                                  &
+                                     ( w(k,j,i+1) - w(k,j,i-2) )             &
+                                 +      (           ibit29_l * adv_mom_5        &
+                                        ) *                                  &
+                                     ( w(k,j,i+2) - w(k,j,i-3) )             &
+                                                            )
+#else
+                flux_l = swap_flux_x_local_w(k,j)
+                diss_l = swap_diss_x_local_w(k,j)
+#endif
                 ibit32 = REAL( IBITS(advc_flags_2(k,j,i),0,1),  KIND = wp )
                 ibit31 = REAL( IBITS(advc_flags_1(k,j,i),31,1), KIND = wp )
                 ibit30 = REAL( IBITS(advc_flags_1(k,j,i),30,1), KIND = wp )
                 v_comp    = v(k+1,j+1,i) + v(k,j+1,i) - gv
                 flux_n(k) = v_comp * (                                       &
+                v_comp = v(k+1,j+1,i) + v(k,j+1,i) - gv
+                flux_n = v_comp * (                                          &
                           ( 37.0_wp * ibit32 * adv_mom_5                        &
                        +     7.0_wp * ibit31 * adv_mom_3                        &
 …
+                                     )
                 diss_n(k) = - ABS( v_comp ) * (                              &
+                diss_n = - ABS( v_comp ) * (                                 &
                           ( 10.0_wp * ibit32 * adv_mom_5                        &
                        +     3.0_wp * ibit31 * adv_mom_3                        &
 …
                                  ( w(k,j+3,i) - w(k,j-2,i) )                 &
+                                              )
+#ifdef _OPENACC
+!
+!--             Recompute the south fluxes.
+                ibit32_s = REAL( IBITS(advc_flags_2(k,j-1,i),0,1),  KIND = wp )
+                ibit31_s = REAL( IBITS(advc_flags_1(k,j-1,i),31,1), KIND = wp )
+                ibit30_s = REAL( IBITS(advc_flags_1(k,j-1,i),30,1), KIND = wp )
+                v_comp_s = v(k+1,j,i) + v(k,j,i) - gv
+                flux_s   = v_comp_s * (                                      &
+                                    ( 37.0_wp * ibit32_s * adv_mom_5            &
+                                 +     7.0_wp * ibit31_s * adv_mom_3            &
+                                 +              ibit30_s * adv_mom_1            &
+                                    ) *                                      &
+                                     ( w(k,j,i)   + w(k,j-1,i) )             &
+                             -      (  8.0_wp * ibit32_s * adv_mom_5            &
+                                 +              ibit31_s * adv_mom_3            &
+                                    ) *                                      &
+                                     ( w(k,j+1,i) + w(k,j-2,i) )             &
+                             +      (           ibit32_s * adv_mom_5            &
+                                    ) *                                      &
+                                     ( w(k,j+2,i) + w(k,j-3,i) )             &
+                                               )
+                diss_s   = - ABS( v_comp_s ) * (                             &
+                                    ( 10.0_wp * ibit32_s * adv_mom_5            &
+                                 +     3.0_wp * ibit31_s * adv_mom_3            &
+                                 +              ibit30_s * adv_mom_1            &
+                                    ) *                                      &
+                                     ( w(k,j,i)   - w(k,j-1,i) )             &
+                             -      (  5.0_wp * ibit32_s * adv_mom_5            &
+                                 +              ibit31_s * adv_mom_3            &
+                                    ) *                                      &
+                                     ( w(k,j+1,i) - w(k,j-2,i) )             &
+                             +      (           ibit32_s * adv_mom_5            &
+                                    ) *                                      &
+                                     ( w(k,j+2,i) - w(k,j-3,i) )             &
+                                                        )
+#else
+                flux_s = swap_flux_y_local_w(k)
+                diss_s = swap_diss_y_local_w(k)
+#endif
+!
 !--             k index has to be modified near bottom and top, else array
 …
                 k_mm  = k - 2 * ibit35
                 w_comp    = w(k+1,j,i) + w(k,j,i)
                 flux_t(k) = w_comp * rho_air(k+1) * (                        &
+                w_comp = w(k+1,j,i) + w(k,j,i)
+                flux_t = w_comp * rho_air(k+1) * (                           &
                           ( 37.0_wp * ibit35 * adv_mom_5                        &
                        +     7.0_wp * ibit34 * adv_mom_3                        &
 …
+                                       )
                 diss_t(k) = - ABS( w_comp ) * rho_air(k+1) * (               &
+                diss_t = - ABS( w_comp ) * rho_air(k+1) * (                  &
                           ( 10.0_wp * ibit35 * adv_mom_5                        &
                        +     3.0_wp * ibit34 * adv_mom_3                        &
 …
                 tend(k,j,i) = tend(k,j,i) - (                                 &
+                      ( flux_r(k) + diss_r(k)                                 &
+                    -   swap_flux_x_local_w(k,j) - swap_diss_x_local_w(k,j)   &
+                      ) * ddx                                                 &
+                    + ( flux_n(k) + diss_n(k)                                 &
+                    -   swap_flux_y_local_w(k)   - swap_diss_y_local_w(k)     &
+                      ) * ddy                                                 &
+                    + ( ( flux_t(k) + diss_t(k) )                             &
+                    -   ( flux_d    + diss_d    )                             &
+                      ) * drho_air_zw(k) * ddzu(k+1)                          &
+                      ( ( flux_r + diss_r )                                   &
+                    -   ( flux_l + diss_l ) ) * ddx                           &
+                    + ( ( flux_n + diss_n )                                   &
+                    -   ( flux_s + diss_s ) ) * ddy                           &
+                    + ( ( flux_t + diss_t )                                   &
+                    -   ( flux_d + diss_d ) ) * drho_air_zw(k) * ddzu(k+1)    &
                                             )  + div * w(k,j,i)
+                swap_flux_x_local_w(k,j) = flux_r(k)
+                swap_diss_x_local_w(k,j) = diss_r(k)
+                swap_flux_y_local_w(k)   = flux_n(k)
+                swap_diss_y_local_w(k)   = diss_n(k)
+                flux_d                   = flux_t(k)
+                diss_d                   = diss_t(k)
+#ifndef _OPENACC
+                swap_flux_x_local_w(k,j) = flux_r
+                swap_diss_x_local_w(k,j) = diss_r
+                swap_flux_y_local_w(k)   = flux_n
+                swap_diss_y_local_w(k)   = diss_n
+#endif
+                flux_d                   = flux_t
+                diss_d                   = diss_t
+                !$ACC ATOMIC
                 sums_ws2_ws_l(k,tn)  = sums_ws2_ws_l(k,tn)                    &
                       + ( flux_t(k)                                           &
+                      + ( flux_t                                              &
                        * ( w_comp - 2.0_wp * hom(k,1,3,0)                   ) &
                        / ( w_comp + SIGN( 1.0E-20_wp, w_comp )              ) &
                         + diss_t(k)                                           &
+                        + diss_t                                              &
                        *   ABS( w_comp - 2.0_wp * hom(k,1,3,0)              ) &
                        / ( ABS( w_comp ) + 1.0E-20_wp                       ) &
 …
              DO  k = nzb_max+1, nzt
                 u_comp    = u(k+1,j,i+1) + u(k,j,i+1) - gu
                 flux_r(k) = u_comp * (                                      &
+                u_comp = u(k+1,j,i+1) + u(k,j,i+1) - gu
+                flux_r = u_comp * (                                         &
 .0_wp * ( w(k,j,i+1) + w(k,j,i)   )                    &
                     -  8.0_wp * ( w(k,j,i+2) + w(k,j,i-1) )                    &
                     +           ( w(k,j,i+3) + w(k,j,i-2) ) ) * adv_mom_5
                 diss_r(k) = - ABS( u_comp ) * (                             &
+                diss_r = - ABS( u_comp ) * (                                &
 .0_wp * ( w(k,j,i+1) - w(k,j,i)   )                    &
                     -  5.0_wp * ( w(k,j,i+2) - w(k,j,i-1) )                    &
                     +           ( w(k,j,i+3) - w(k,j,i-2) ) ) * adv_mom_5
+                v_comp    = v(k+1,j+1,i) + v(k,j+1,i) - gv
+                flux_n(k) = v_comp * (                                      &
+#ifdef _OPENACC
+!
+!--             Recompute the left fluxes.
+                u_comp_l = u(k+1,j,i) + u(k,j,i) - gu
+                flux_l   = u_comp_l * (                                     &
+.0_wp * ( w(k,j,i) + w(k,j,i-1)   )              &
+                          -  8.0_wp * ( w(k,j,i+1) + w(k,j,i-2) )              &
+                          +           ( w(k,j,i+2) + w(k,j,i-3) ) ) * adv_mom_5
+                diss_l   = - ABS( u_comp_l ) * (                            &
+.0_wp * ( w(k,j,i) - w(k,j,i-1)   )              &
+                          -  5.0_wp * ( w(k,j,i+1) - w(k,j,i-2) )              &
+                          +           ( w(k,j,i+2) - w(k,j,i-3) ) ) * adv_mom_5
+#else
+                flux_l = swap_flux_x_local_w(k,j)
+                diss_l = swap_diss_x_local_w(k,j)
+#endif
+                v_comp = v(k+1,j+1,i) + v(k,j+1,i) - gv
+                flux_n = v_comp * (                                         &
 .0_wp * ( w(k,j+1,i) + w(k,j,i)   )                    &
                     -  8.0_wp * ( w(k,j+2,i) + w(k,j-1,i) )                    &
                     +           ( w(k,j+3,i) + w(k,j-2,i) ) ) * adv_mom_5
                 diss_n(k) = - ABS( v_comp ) * (                             &
+                diss_n = - ABS( v_comp ) * (                                &
 .0_wp * ( w(k,j+1,i) - w(k,j,i)   )                    &
                     -  5.0_wp * ( w(k,j+2,i) - w(k,j-1,i) )                    &
                     +           ( w(k,j+3,i) - w(k,j-2,i) ) ) * adv_mom_5
+#ifdef _OPENACC
+!
+!--             Recompute the south fluxes.
+                v_comp_s = v(k+1,j,i) + v(k,j,i) - gv
+                flux_s   = v_comp_s * (                                     &
+.0_wp * ( w(k,j,i) + w(k,j-1,i)   )               &
+                         -  8.0_wp * ( w(k,j+1,i) +w(k,j-2,i)  )               &
+                         +           ( w(k,j+2,i) + w(k,j-3,i) ) ) * adv_mom_5
+                diss_s   = - ABS( v_comp_s ) * (                            &
+.0_wp * ( w(k,j,i) - w(k,j-1,i)   )               &
+                         -  5.0_wp * ( w(k,j+1,i) - w(k,j-2,i) )               &
+                         +           ( w(k,j+2,i) - w(k,j-3,i) ) ) * adv_mom_5
+#else
+                flux_s = swap_flux_y_local_w(k)
+                diss_s = swap_diss_y_local_w(k)
+#endif
+!
 !--             k index has to be modified near bottom and top, else array
 …
                 k_mm  = k - 2 * ibit35
                 w_comp    = w(k+1,j,i) + w(k,j,i)
                 flux_t(k) = w_comp * rho_air(k+1) * (                        &
+                w_comp = w(k+1,j,i) + w(k,j,i)
+                flux_t = w_comp * rho_air(k+1) * (                           &
                           ( 37.0_wp * ibit35 * adv_mom_5                        &
                        +     7.0_wp * ibit34 * adv_mom_3                        &
 …
+                                       )
                 diss_t(k) = - ABS( w_comp ) * rho_air(k+1) * (               &
+                diss_t = - ABS( w_comp ) * rho_air(k+1) * (                  &
                           ( 10.0_wp * ibit35 * adv_mom_5                        &
                        +     3.0_wp * ibit34 * adv_mom_3                        &
 …
                 tend(k,j,i) = tend(k,j,i) - (                                 &
+                      ( flux_r(k) + diss_r(k)                                 &
+                    -   swap_flux_x_local_w(k,j) - swap_diss_x_local_w(k,j)   &
+                      ) * ddx                                                 &
+                    + ( flux_n(k) + diss_n(k)                                 &
+                    -   swap_flux_y_local_w(k)   - swap_diss_y_local_w(k)     &
+                      ) * ddy                                                 &
+                    + ( ( flux_t(k) + diss_t(k) )                             &
+                    -   ( flux_d    + diss_d    )                             &
+                      ) * drho_air_zw(k) * ddzu(k+1)                          &
+                      ( ( flux_r + diss_r )                                   &
+                    -   ( flux_l + diss_l ) ) * ddx                           &
+                    + ( ( flux_n + diss_n )                                   &
+                    -   ( flux_s + diss_s ) ) * ddy                           &
+                    + ( ( flux_t + diss_t )                                   &
+                    -   ( flux_d + diss_d ) ) * drho_air_zw(k) * ddzu(k+1)    &
                                             )  + div * w(k,j,i)
+                swap_flux_x_local_w(k,j) = flux_r(k)
+                swap_diss_x_local_w(k,j) = diss_r(k)
+                swap_flux_y_local_w(k)   = flux_n(k)
+                swap_diss_y_local_w(k)   = diss_n(k)
+                flux_d                   = flux_t(k)
+                diss_d                   = diss_t(k)
+#ifndef _OPENACC
+                swap_flux_x_local_w(k,j) = flux_r
+                swap_diss_x_local_w(k,j) = diss_r
+                swap_flux_y_local_w(k)   = flux_n
+                swap_diss_y_local_w(k)   = diss_n
+#endif
+                flux_d                   = flux_t
+                diss_d                   = diss_t
+                !$ACC ATOMIC
                 sums_ws2_ws_l(k,tn)  = sums_ws2_ws_l(k,tn)                    &
                       + ( flux_t(k)                                           &
+                      + ( flux_t                                              &
                        * ( w_comp - 2.0_wp * hom(k,1,3,0)                   ) &
                        / ( w_comp + SIGN( 1.0E-20_wp, w_comp )              ) &
                         + diss_t(k)                                           &
+                        + diss_t                                              &
                        *   ABS( w_comp - 2.0_wp * hom(k,1,3,0)              ) &
                        / ( ABS( w_comp ) + 1.0E-20_wp                       ) &

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 3634 for palm/trunk/SOURCE/advec_ws.f90

Legend:

palm/trunk/SOURCE/advec_ws.f90

Download in other formats: