srsLTE/lib/include/srslte/phy/fec/turbodecoder_win.h

/**
 *
 * \section COPYRIGHT
 *
 * Copyright 2013-2015 Software Radio Systems Limited
 *
 * \section LICENSE
 *
 * This file is part of the srsLTE library.
 *
 * srsLTE is free software: you can redistribute it and/or modify
 * it under the terms of the GNU Affero General Public License as
 * published by the Free Software Foundation, either version 3 of
 * the License, or (at your option) any later version.
 *
 * srsLTE is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 * GNU Affero General Public License for more details.
 *
 * A copy of the GNU Affero General Public License can be found in
 * the LICENSE file in the top-level directory of this distribution
 * and at http://www.gnu.org/licenses/.
 *
 */

#include "srslte/config.h"

#define MAKE_FUNC(a) CONCAT2(CONCAT2(tdec_win,WINIMP),CONCAT2(_,a))
#define MAKE_TYPE CONCAT2(CONCAT2(tdec_win_,WINIMP),_t)

#ifdef WINIMP_IS_SSE16

  #ifndef LV_HAVE_SSE
  #error "Selected SSE window decoder but instruction set not supported"
  #endif

  #include <nmmintrin.h>

  #define WINIMP sse16
  #define nof_blocks 8

  #define llr_t int16_t

  #define simd_type_t  __m128i
  #define simd_load    _mm_load_si128
  #define simd_store   _mm_store_si128
  #define simd_add     _mm_adds_epi16
  #define simd_sub     _mm_subs_epi16
  #define simd_max     _mm_max_epi16
  #define simd_set1    _mm_set1_epi16
  #define simd_insert  _mm_insert_epi16
  #define simd_shuffle _mm_shuffle_epi8
  #define move_right   _mm_set_epi8(15,14,15,14,13,12,11,10,9,8,7,6,5,4,3,2)
  #define move_left    _mm_set_epi8(13,12,11,10,9,8,7,6,5,4,3,2,1,0,1,0)
  #define simd_rb_shift _mm_srai_epi16

  #define normalize_period 2
  #define win_overlap_len  40

#define divide_output 1

#define INF 10000

#else
#ifdef WINIMP_IS_AVX16

  #ifndef LV_HAVE_AVX
  #error "Selected AVX window decoder but instruction set not supported"
  #endif

  #include <immintrin.h>

  #define WINIMP avx16
  #define nof_blocks 16

  #define llr_t int16_t

  #define simd_type_t  __m256i
  #define simd_load    _mm256_load_si256
  #define simd_store   _mm256_store_si256
  #define simd_add     _mm256_adds_epi16
  #define simd_sub     _mm256_subs_epi16
  #define simd_max     _mm256_max_epi16
  #define simd_set1    _mm256_set1_epi16
  #define simd_insert  _mm256_insert_epi16
  #define simd_shuffle _mm256_shuffle_epi8
  #define move_right   _mm256_set_epi8(31,30,31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2)
  #define move_left    _mm256_set_epi8(29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,1,0)

  #define normalize_period 2
  #define win_overlap_len  40

  #define INF 10000
#else

#ifdef WINIMP_IS_SSE8

  #ifndef LV_HAVE_SSE
  #error "Selected SSE window decoder but instruction set not supported"
  #endif

  #include <nmmintrin.h>

  #define WINIMP sse8
  #define nof_blocks 16

  #define llr_t int8_t

  #define simd_type_t  __m128i
  #define simd_load    _mm_load_si128
  #define simd_store   _mm_store_si128
  #define simd_add     _mm_adds_epi8
  #define simd_sub     _mm_subs_epi8
  #define simd_max     _mm_max_epi8
  #define simd_set1    _mm_set1_epi8
  #define simd_insert  _mm_insert_epi8
  #define simd_shuffle _mm_shuffle_epi8
  #define move_right   _mm_set_epi8(15,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1)
  #define move_left    _mm_set_epi8(14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,0)
  #define simd_rb_shift simd_rb_shift_128

  #define normalize_max
  #define normalize_period 1
  #define win_overlap_len  40
  #define use_saturated_add
  #define divide_output 1

  #define INF 0

  inline static simd_type_t simd_rb_shift_128(simd_type_t v, const int l) {
    __m128i low = _mm_srai_epi16(_mm_slli_epi16(v,8), l+8);
    __m128i hi  = _mm_srai_epi16(v,l);
    return _mm_blendv_epi8(hi, low, _mm_set1_epi32(0x00FF00FF));
  }


#else

#ifdef WINIMP_IS_AVX8

  #ifndef LV_HAVE_AVX
  #error "Selected AVX window decoder but instruction set not supported"
  #endif

  #include <immintrin.h>

  #define WINIMP avx8
  #define nof_blocks 32

  #define llr_t int8_t

  #define simd_type_t  __m256i
  #define simd_load    _mm256_load_si256
  #define simd_store   _mm256_store_si256
  #define simd_add     _mm256_adds_epi8
  #define simd_sub     _mm256_subs_epi8
  #define simd_max     _mm256_max_epi8
  #define simd_set1    _mm256_set1_epi8
  #define simd_insert  _mm256_insert_epi8
  #define simd_shuffle _mm256_shuffle_epi8
  #define move_right   _mm256_set_epi8(31,31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1)
  #define move_left    _mm256_set_epi8(30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,0)
  #define simd_rb_shift simd_rb_shift_256

  #define INF 0

  #define normalize_max
  #define normalize_period 1
  #define win_overlap_len  40
  #define use_saturated_add
  #define divide_output 1

  inline static simd_type_t simd_rb_shift_256(simd_type_t v, const int l) {
    __m256i low = _mm256_srai_epi16(_mm256_slli_epi16(v,8), l+8);
    __m256i hi  = _mm256_srai_epi16(v,l);
    return _mm256_blendv_epi8(hi, low, _mm256_set1_epi32(0x00FF00FF));
  }


#else
  #error "Unknown WINIMP value"
#endif
#endif
#endif
#endif

typedef struct SRSLTE_API {
  uint32_t max_long_cb;
  llr_t *beta;
} MAKE_TYPE;


#define long_sb (long_cb/nof_blocks)


#define debug_enabled_win 0

#if debug_enabled_win
#define debug_state(d) printf("k=%5d, in=%5d, pa=%3d, out=%5d, alpha=[", d*long_sb+k+1, MAKE_FUNC(get_simd)(x,d), MAKE_FUNC(get_simd)(y,d), MAKE_FUNC(get_simd)(out,d)); \
                        for (int j=0;j<8;j++) printf("%5d, ", MAKE_FUNC(get_simd)(old[j],d)); \
                        printf("], beta=["); \
                        for (int j=0;j<8;j++) printf("%5d, ", MAKE_FUNC(get_simd)(beta_save[j], d));printf("\n");

#define debug_state_pre(d) printf("pre-window k=%5d, in=%5d, pa=%3d, alpha=[", (d+1)*long_sb-loop_len+k+1, MAKE_FUNC(get_simd)(x,d), MAKE_FUNC(get_simd)(y,d)); \
                        for (int j=0;j<8;j++) printf("%5d, ", MAKE_FUNC(get_simd)(old[j],d)); \
                        printf("]\n");

#define debug_state_beta(d) printf("k=%5d, in=%5d, pa=%3d, beta=[", d*long_sb+k, MAKE_FUNC(get_simd)(x,d), MAKE_FUNC(get_simd)(y,d)); \
                        for (int j=0;j<8;j++) printf("%5d, ", MAKE_FUNC(get_simd)(old[j],d));\
                        printf("\n");

static llr_t MAKE_FUNC(get_simd)(simd_type_t x, uint32_t pos) {
  llr_t *s = (llr_t*) &x;
  return s[pos];
}


#else
#define debug_state(a)
#define debug_state_pre(a)
#define debug_state_beta(a)
#endif
/*
static void MAKE_FUNC(print_simd)(simd_type_t x) {
  llr_t *s = (llr_t*) &x;
  printf("[");
  for (int i=0;i<nof_blocks;i++) {
    printf("%4d, ", s[i]);
  }
  printf("]\n");
}*/

inline static llr_t MAKE_FUNC(sadd)(llr_t x, llr_t y) {
#ifndef use_saturated_add
  return x+y;
#else
  int16_t z = (int16_t) x+y;
  return z>127?127:(int8_t) z;
#endif
}

inline static void MAKE_FUNC(normalize)(uint32_t k, simd_type_t old[8]) {
  if ((k % normalize_period) == 0 && k != 0) {
#ifdef normalize_max
    simd_type_t m = simd_max(old[0],old[1]);
    for (int i=2;i<8;i++) {
      m = simd_max(m,old[i]);
    }
    for (int i=0;i<8;i++) {
      old[i] = simd_sub(old[i], m);
    }
#else
    for (int i = 1; i < 8; i++) {
      old[i] = simd_sub(old[i], old[0]);
    }
    old[0] = simd_set1(0);
#endif
  }
}

static void MAKE_FUNC(beta_trellis)(llr_t *input, llr_t *parity, uint32_t long_cb, llr_t old[8])
{
  llr_t m_b[8], new[8];
  llr_t x, y, xy;

  /* Calculate last state using Tail. No need to use SIMD here */
  old[0] = 0;
  for (int i = 1; i < 8; i++) {
    old[i] = -INF;
  }
  for (int k=long_cb+2;k >= long_cb; k--) {
    x = input[k];
    y = parity[k];

    xy = MAKE_FUNC(sadd)(x, y);

    m_b[0] = MAKE_FUNC(sadd)(old[4],xy);
    m_b[1] = old[4];
    m_b[2] = MAKE_FUNC(sadd)(old[5], y);
    m_b[3] = MAKE_FUNC(sadd)(old[5], x);
    m_b[4] = MAKE_FUNC(sadd)(old[6], x);
    m_b[5] = MAKE_FUNC(sadd)(old[6], y);
    m_b[6] = old[7];
    m_b[7] = MAKE_FUNC(sadd)(old[7], xy);

    new[0] = old[0];
    new[1] = MAKE_FUNC(sadd)(old[0], xy);
    new[2] = MAKE_FUNC(sadd)(old[1], x);
    new[3] = MAKE_FUNC(sadd)(old[1], y);
    new[4] = MAKE_FUNC(sadd)(old[2], y);
    new[5] = MAKE_FUNC(sadd)(old[2], x);
    new[6] = MAKE_FUNC(sadd)(old[3], xy);
    new[7] = old[3];

#if debug_enabled_win
    printf("trellis: k=%d, in=%d, pa=%d, beta: ", k, x, y); for (int i=0;i<8;i++) {printf("%d,", old[i]);} printf("\n");
#endif

    for (int i = 0; i < 8; i++) {
      if (m_b[i] > new[i])
        new[i] = m_b[i];
      old[i] = new[i];
    }
  }
}

/* Computes beta values */
static void MAKE_FUNC(beta)(MAKE_TYPE * s, llr_t *input, llr_t *app, llr_t *parity, uint32_t long_cb)
{
  simd_type_t m_b[8], new[8], old[8];
  simd_type_t x, y, xy, ap;

  simd_type_t *inputPtr;
  simd_type_t *appPtr;
  simd_type_t *parityPtr;
  simd_type_t *betaPtr   = (simd_type_t*) s->beta;

  uint32_t loop_len;
  for (int j=0;j<2;j++) {

    // First run L states to find initial state for all sub-blocks after first
    if (j==0) {
      loop_len = win_overlap_len;
    } else {
      loop_len = long_sb;
    }

    // When passing through all window pick estimated initial states (known state for sb=0)
    if (loop_len == long_sb) {

      // shuffle across 128-bit boundary manually
#ifdef WINIMP_IS_AVX16
      llr_t tmp[8];
      for (int i = 0; i < 8; i++) {
        tmp[i] = _mm256_extract_epi16(old[i], 8);
      }
#endif
#ifdef WINIMP_IS_AVX8
      llr_t tmp[8];
      for (int i = 0; i < 8; i++) {
        tmp[i] = _mm256_extract_epi8(old[i], 16);
      }
#endif

      for (int i = 0; i < 8; i++) {
        old[i] = simd_shuffle(old[i], move_right);
      }
      // last sub-block state is calculated from the trellis
      llr_t trellis_old[8];
      MAKE_FUNC(beta_trellis)(input, parity, long_cb, trellis_old);
      for (int i = 0; i < 8; i++) {
        old[i] = simd_insert(old[i], trellis_old[i], nof_blocks-1);
      }

#ifdef WINIMP_IS_AVX16
      for (int i = 0; i < 8; i++) {
        old[i] = _mm256_insert_epi16(old[i], tmp[i], 7);
      }
#endif
#ifdef WINIMP_IS_AVX8
      for (int i = 0; i < 8; i++) {
        old[i] = _mm256_insert_epi8(old[i], tmp[i], 15);
      }
#endif

      inputPtr  = (simd_type_t*) &input[long_cb-nof_blocks];
      appPtr    = (simd_type_t*) &app[long_cb-nof_blocks];
      parityPtr = (simd_type_t*) &parity[long_cb-nof_blocks];

      for (int i = 0; i < 8; i++) {
        simd_store(&betaPtr[8*long_sb + i], old[i]);
      }

    } else {
      // when estimating states, just set all to unknown
      for (int i = 0; i < 8; i++) {
        old[i] = simd_set1(-INF);
      }
      inputPtr  = (simd_type_t*) &input[nof_blocks*(loop_len-1)];
      appPtr    = (simd_type_t*) &app[nof_blocks*(loop_len-1)];
      parityPtr = (simd_type_t*) &parity[nof_blocks*(loop_len-1)];
    }

    for (int k = loop_len - 1; k >= 0; k--) {
      x = simd_load(inputPtr--);
      y = simd_load(parityPtr--);

      if (app) {
        ap = simd_load(appPtr--);
        x = simd_add(ap, x);
      }

      xy = simd_add(x, y);

      m_b[0] = simd_add(old[4], xy);
      m_b[1] = old[4];
      m_b[2] = simd_add(old[5], y);
      m_b[3] = simd_add(old[5], x);
      m_b[4] = simd_add(old[6], x);
      m_b[5] = simd_add(old[6], y);
      m_b[6] = old[7];
      m_b[7] = simd_add(old[7], xy);

      new[0] = old[0];
      new[1] = simd_add(old[0], xy);
      new[2] = simd_add(old[1], x);
      new[3] = simd_add(old[1], y);
      new[4] = simd_add(old[2], y);
      new[5] = simd_add(old[2], x);
      new[6] = simd_add(old[3], xy);
      new[7] = old[3];

      // Calculate maximum metric
      for (int i = 0; i < 8; i++) {
        old[i] = simd_max(m_b[i], new[i]);
      }
      // Store metric only when doing the final pass
      if (loop_len == long_sb) {
        for (int i = 0; i < 8; i++) {
          simd_store(&betaPtr[8*k + i], old[i]);
        }
      }
      if (loop_len!=long_sb) {
        debug_state_beta(0);
      } else {
        debug_state_beta(0);
      }

      // normalize
      MAKE_FUNC(normalize)(k, old);
    }
  }
}

/* Computes alpha metrics */
static void MAKE_FUNC(alpha)(MAKE_TYPE * s, llr_t *input, llr_t *app, llr_t *parity, llr_t * output, uint32_t long_cb)
{
  simd_type_t m_b[8], new[8], old[8], max1[8], max0[8];
  simd_type_t x, y, xy, ap;
  simd_type_t m1, m0;

  simd_type_t *inputPtr;
  simd_type_t *appPtr;
  simd_type_t *parityPtr;
  simd_type_t *betaPtr   = (simd_type_t*) s->beta;
  simd_type_t *outputPtr = (simd_type_t*) output;

#if debug_enabled_win
  simd_type_t beta_save[8];
#endif

  // Skip state 0
  betaPtr+=8;

  uint32_t loop_len;

  for (int j=0;j<2;j++) {

    // First run L states to find initial state for all sub-blocks after first
    if (j==0) {
      loop_len = win_overlap_len;
    } else {
      loop_len = long_sb;
    }

    // When passing through all window pick estimated initial states (known state for sb=0)
    if (loop_len == long_sb) {

#ifdef WINIMP_IS_AVX16
      llr_t tmp[8];
      for (int i=0;i<8;i++) {
        tmp[i] = _mm256_extract_epi16(old[i], 7);
      }
#endif
#ifdef WINIMP_IS_AVX8
      llr_t tmp[8];
      for (int i=0;i<8;i++) {
        tmp[i] = _mm256_extract_epi8(old[i], 15);
      }
#endif
      for (int i = 0; i < 8; i++) {
        old[i] = simd_shuffle(old[i], move_left);
      }
#ifdef WINIMP_IS_AVX16
      for (int i=0;i<8;i++) {
        old[i] = _mm256_insert_epi16(old[i], tmp[i], 8);
      }
#endif
#ifdef WINIMP_IS_AVX8
      for (int i=0;i<8;i++) {
        old[i] = _mm256_insert_epi8(old[i], tmp[i], 16);
      }
#endif
      // 1st sub-block state is known
      old[0] = simd_insert(old[0], 0, 0);
      for (int i = 1; i < 8; i++) {
        old[i] = simd_insert(old[i], -INF, 0);
      }
    } else {
      // when estimating states, just set all to unknown
      for (int i = 0; i < 8; i++) {
        old[i] = simd_set1(-INF);
      }
    }

    inputPtr  = (simd_type_t*) &input[nof_blocks*(long_sb-loop_len)];
    appPtr    = (simd_type_t*) &app[nof_blocks*(long_sb-loop_len)];
    parityPtr = (simd_type_t*) &parity[nof_blocks*(long_sb-loop_len)];

    for (int k = 0; k < loop_len; k++) {
      x = simd_load(inputPtr++);
      y = simd_load(parityPtr++);

      if (app) {
        ap = simd_load(appPtr++);
        x = simd_add(ap, x);
      }

      xy = simd_add(x,y);

      m_b[0] = old[0];
      m_b[1] = simd_add(old[3], y);
      m_b[2] = simd_add(old[4], y);
      m_b[3] = old[7];
      m_b[4] = old[1];
      m_b[5] = simd_add(old[2], y);
      m_b[6] = simd_add(old[5], y);
      m_b[7] = old[6];

      new[0] = simd_add(old[1], xy);
      new[1] = simd_add(old[2], x);
      new[2] = simd_add(old[5], x);
      new[3] = simd_add(old[6], xy);
      new[4] = simd_add(old[0], xy);
      new[5] = simd_add(old[3], x);
      new[6] = simd_add(old[4], x);
      new[7] = simd_add(old[7], xy);

      // Load beta and compute output only when passing through all window
      if (loop_len == long_sb) {
        simd_type_t beta;
        for (int i = 0; i < 8; i++) {
          beta = simd_load(betaPtr++);
          max0[i] = simd_add(beta, m_b[i]);
          max1[i] = simd_add(beta, new[i]);

#if debug_enabled_win
          beta_save[i] = beta;
#endif
        }

        m1 = simd_max(max1[0], max1[1]);
        m0 = simd_max(max0[0], max0[1]);

        for (int i = 2; i < 8; i++) {
          m1 = simd_max(m1, max1[i]);
          m0 = simd_max(m0, max0[i]);
        }

        simd_type_t out = simd_sub(m1, m0);

        // Divide output when using 8-bit arithmetic
#ifdef divide_output
        out = simd_rb_shift(out, divide_output);
#endif

        simd_store(outputPtr++, out);

        debug_state(0);
      }

      for (int i = 0; i < 8; i++) {
        old[i] = simd_max(m_b[i], new[i]);
      }

      // normalize
      MAKE_FUNC(normalize)(k, old);

      if (loop_len != long_sb) {
        debug_state_pre(0);
      }
    }
  }
}

int MAKE_FUNC(init)(void **hh, uint32_t max_long_cb)
{
  *hh = calloc(1, sizeof(MAKE_TYPE));

  MAKE_TYPE *h = (MAKE_TYPE*) *hh;

  h->beta = srslte_vec_malloc(sizeof(llr_t) * 8 * max_long_cb * nof_blocks);
  if (!h->beta) {
    perror("srslte_vec_malloc");
    return -1;
  }
  h->max_long_cb = max_long_cb;
  return nof_blocks;
}

void MAKE_FUNC(free)(void *hh)
{
  MAKE_TYPE *h = (MAKE_TYPE*) hh;
  if (h->beta) {
    free(h->beta);
  }
  bzero(h, sizeof(MAKE_TYPE));
}

void MAKE_FUNC(dec)(void *hh, llr_t *input, llr_t *app, llr_t *parity, llr_t *output, uint32_t long_cb)
{
  MAKE_TYPE *h = (MAKE_TYPE*) hh;
  MAKE_FUNC(beta)(h, input, app, parity, long_cb);
  MAKE_FUNC(alpha)(h, input, app, parity, output, long_cb);
#if debug_enabled_win
  printf("running win decoder: %s\n", STRING(WINIMP));
#endif
}

#define INSERT8_INPUT(reg, st, off)     reg = simd_insert(reg, input[3*(i+(st+0)*long_sb)+off], st+0);\
                                        reg = simd_insert(reg, input[3*(i+(st+1)*long_sb)+off], st+1);\
                                        reg = simd_insert(reg, input[3*(i+(st+2)*long_sb)+off], st+2);\
                                        reg = simd_insert(reg, input[3*(i+(st+3)*long_sb)+off], st+3);\
                                        reg = simd_insert(reg, input[3*(i+(st+4)*long_sb)+off], st+4);\
                                        reg = simd_insert(reg, input[3*(i+(st+5)*long_sb)+off], st+5);\
                                        reg = simd_insert(reg, input[3*(i+(st+6)*long_sb)+off], st+6);\
                                        reg = simd_insert(reg, input[3*(i+(st+7)*long_sb)+off], st+7);


void MAKE_FUNC(extract_input)(llr_t *input, llr_t *systematic, llr_t *app2, llr_t *parity_0, llr_t *parity_1, uint32_t long_cb)
{
  simd_type_t *systPtr    = (simd_type_t*) systematic;
  simd_type_t *parity0Ptr = (simd_type_t*) parity_0;
  simd_type_t *parity1Ptr = (simd_type_t*) parity_1;

  simd_type_t syst, parity0, parity1;

  for (int i=0;i<long_sb;i++) {
    INSERT8_INPUT(syst,    0, 0);
    INSERT8_INPUT(parity0, 0, 1);
    INSERT8_INPUT(parity1, 0, 2);

#if nof_blocks >= 16
    INSERT8_INPUT(syst,    8, 0);
    INSERT8_INPUT(parity0, 8, 1);
    INSERT8_INPUT(parity1, 8, 2);
#endif

#if nof_blocks >= 32
    INSERT8_INPUT(syst,    16, 0);
    INSERT8_INPUT(parity0, 16, 1);
    INSERT8_INPUT(parity1, 16, 2);
    INSERT8_INPUT(syst,    24, 0);
    INSERT8_INPUT(parity0, 24, 1);
    INSERT8_INPUT(parity1, 24, 2);
#endif

    simd_store(systPtr++,    syst);
    simd_store(parity0Ptr++, parity0);
    simd_store(parity1Ptr++, parity1);
  }

  for (int i = long_cb; i < long_cb + 3; i++) {
    systematic[i] = input[3*long_cb + 2*(i - long_cb)];
    parity_0[i]   = input[3*long_cb + 2*(i - long_cb) + 1];

    app2[i]       = input[3*long_cb + 6 + 2*(i - long_cb)];
    parity_1[i]   = input[3*long_cb + 6 + 2*(i - long_cb) + 1];
  }
}

#define deinter(x,win) ((x%(long_cb/win))*(win)+x/(long_cb/win))

#define reset_cnt(a,b)      if(!((a+1)%b)) { \
                              k+=b*nof_blocks; \
                              if (k >= long_cb) { \
                                k -= (long_cb-1);\
                              }\
                            }
#define insert_bit(a,b)     ap = _mm_insert_epi16(ap, app1[k+(a%b)*nof_blocks], 7-a); \
                            reset_cnt(a,b); \


#define decide_for(b)     for (uint32_t i = 0; i < long_cb/8; i++) { \
                            insert_bit(0,b);\
                            insert_bit(1,b);\
                            insert_bit(2,b);\
                            insert_bit(3,b);\
                            insert_bit(4,b);\
                            insert_bit(5,b);\
                            insert_bit(6,b);\
                            insert_bit(7,b);\
                            output[i] = (uint8_t) _mm_movemask_epi8(_mm_cmpgt_epi8(_mm_packs_epi16(ap,zeros),zeros));\
                          }

/* No improvement to use AVX here */
void MAKE_FUNC(decision_byte)(llr_t *app1, uint8_t *output, uint32_t long_cb)
{
  uint32_t k=0;
  __m128i zeros = _mm_setzero_si128();
  __m128i ap;

  if ((long_cb%(nof_blocks*8)) == 0) {
    decide_for(8);
  } else if ((long_cb%(nof_blocks*4)) == 0) {
    decide_for(4);
  } else if ((long_cb%(nof_blocks*2)) == 0) {
    decide_for(2);
  } else {
    decide_for(1);
  }
}


#undef WINIMP
#undef nof_blocks
#undef llr_t
#undef normalize_period
#undef INF
#undef win_overlap_len
#undef simd_type_t
#undef simd_load
#undef simd_store
#undef simd_add
#undef simd_sub
#undef simd_max
#undef simd_set1
#undef simd_insert
#undef simd_shuffle
#undef move_right
#undef move_left
#undef debug_enabled_win

#ifdef normalize_max
#undef normalize_max
#endif

#ifdef use_saturated_add
#undef use_saturated_add
#endif

#ifdef simd_rb_shift
#undef simd_rb_shift
#endif

#ifdef divide_output
#undef divide_output
#endif
New optimization on the PHY for both UE and eNodeB (#251) * New parallel Turbodecoder implementation in SSE/AVX 16-bit and 8-bit * Optimised UL Interleaver * Include TB CRC calculation in FEC encoder * New threading priorities 2018-09-04 08:51:35 -07:00			`/**`
			`*`
			`* \section COPYRIGHT`
			`*`
			`* Copyright 2013-2015 Software Radio Systems Limited`
			`*`
			`* \section LICENSE`
			`*`
			`* This file is part of the srsLTE library.`
			`*`
			`* srsLTE is free software: you can redistribute it and/or modify`
			`* it under the terms of the GNU Affero General Public License as`
			`* published by the Free Software Foundation, either version 3 of`
			`* the License, or (at your option) any later version.`
			`*`
			`* srsLTE is distributed in the hope that it will be useful,`
			`* but WITHOUT ANY WARRANTY; without even the implied warranty of`
			`* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the`
			`* GNU Affero General Public License for more details.`
			`*`
			`* A copy of the GNU Affero General Public License can be found in`
			`* the LICENSE file in the top-level directory of this distribution`
			`* and at http://www.gnu.org/licenses/.`
			`*`
			`*/`

			`#include "srslte/config.h"`

			`#define MAKE_FUNC(a) CONCAT2(CONCAT2(tdec_win,WINIMP),CONCAT2(_,a))`
			`#define MAKE_TYPE CONCAT2(CONCAT2(tdec_win_,WINIMP),_t)`

			`#ifdef WINIMP_IS_SSE16`

			`#ifndef LV_HAVE_SSE`
			`#error "Selected SSE window decoder but instruction set not supported"`
			`#endif`

			`#include <nmmintrin.h>`

			`#define WINIMP sse16`
			`#define nof_blocks 8`

			`#define llr_t int16_t`

			`#define simd_type_t __m128i`
			`#define simd_load _mm_load_si128`
			`#define simd_store _mm_store_si128`
			`#define simd_add _mm_adds_epi16`
			`#define simd_sub _mm_subs_epi16`
			`#define simd_max _mm_max_epi16`
			`#define simd_set1 _mm_set1_epi16`
			`#define simd_insert _mm_insert_epi16`
			`#define simd_shuffle _mm_shuffle_epi8`
			`#define move_right _mm_set_epi8(15,14,15,14,13,12,11,10,9,8,7,6,5,4,3,2)`
			`#define move_left _mm_set_epi8(13,12,11,10,9,8,7,6,5,4,3,2,1,0,1,0)`
			`#define simd_rb_shift _mm_srai_epi16`

			`#define normalize_period 2`
			`#define win_overlap_len 40`

			`#define divide_output 1`

			`#define INF 10000`

			`#else`
			`#ifdef WINIMP_IS_AVX16`

			`#ifndef LV_HAVE_AVX`
			`#error "Selected AVX window decoder but instruction set not supported"`
			`#endif`

			`#include <immintrin.h>`

			`#define WINIMP avx16`
			`#define nof_blocks 16`

			`#define llr_t int16_t`

			`#define simd_type_t __m256i`
			`#define simd_load _mm256_load_si256`
			`#define simd_store _mm256_store_si256`
			`#define simd_add _mm256_adds_epi16`
			`#define simd_sub _mm256_subs_epi16`
			`#define simd_max _mm256_max_epi16`
			`#define simd_set1 _mm256_set1_epi16`
			`#define simd_insert _mm256_insert_epi16`
			`#define simd_shuffle _mm256_shuffle_epi8`
			`#define move_right _mm256_set_epi8(31,30,31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2)`
			`#define move_left _mm256_set_epi8(29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,1,0)`

			`#define normalize_period 2`
			`#define win_overlap_len 40`

			`#define INF 10000`
			`#else`

			`#ifdef WINIMP_IS_SSE8`

			`#ifndef LV_HAVE_SSE`
			`#error "Selected SSE window decoder but instruction set not supported"`
			`#endif`

			`#include <nmmintrin.h>`

			`#define WINIMP sse8`
			`#define nof_blocks 16`

			`#define llr_t int8_t`

			`#define simd_type_t __m128i`
			`#define simd_load _mm_load_si128`
			`#define simd_store _mm_store_si128`
			`#define simd_add _mm_adds_epi8`
			`#define simd_sub _mm_subs_epi8`
			`#define simd_max _mm_max_epi8`
			`#define simd_set1 _mm_set1_epi8`
			`#define simd_insert _mm_insert_epi8`
			`#define simd_shuffle _mm_shuffle_epi8`
			`#define move_right _mm_set_epi8(15,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1)`
			`#define move_left _mm_set_epi8(14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,0)`
			`#define simd_rb_shift simd_rb_shift_128`

			`#define normalize_max`
			`#define normalize_period 1`
			`#define win_overlap_len 40`
			`#define use_saturated_add`
			`#define divide_output 1`

			`#define INF 0`

			`inline static simd_type_t simd_rb_shift_128(simd_type_t v, const int l) {`
			`__m128i low = _mm_srai_epi16(_mm_slli_epi16(v,8), l+8);`
			`__m128i hi = _mm_srai_epi16(v,l);`
			`return _mm_blendv_epi8(hi, low, _mm_set1_epi32(0x00FF00FF));`
			`}`


			`#else`

			`#ifdef WINIMP_IS_AVX8`

			`#ifndef LV_HAVE_AVX`
			`#error "Selected AVX window decoder but instruction set not supported"`
			`#endif`

			`#include <immintrin.h>`

			`#define WINIMP avx8`
			`#define nof_blocks 32`

			`#define llr_t int8_t`

			`#define simd_type_t __m256i`
			`#define simd_load _mm256_load_si256`
			`#define simd_store _mm256_store_si256`
			`#define simd_add _mm256_adds_epi8`
			`#define simd_sub _mm256_subs_epi8`
			`#define simd_max _mm256_max_epi8`
			`#define simd_set1 _mm256_set1_epi8`
			`#define simd_insert _mm256_insert_epi8`
			`#define simd_shuffle _mm256_shuffle_epi8`
			`#define move_right _mm256_set_epi8(31,31,30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1)`
			`#define move_left _mm256_set_epi8(30,29,28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,0)`
			`#define simd_rb_shift simd_rb_shift_256`

			`#define INF 0`

			`#define normalize_max`
			`#define normalize_period 1`
			`#define win_overlap_len 40`
			`#define use_saturated_add`
			`#define divide_output 1`

			`inline static simd_type_t simd_rb_shift_256(simd_type_t v, const int l) {`
			`__m256i low = _mm256_srai_epi16(_mm256_slli_epi16(v,8), l+8);`
			`__m256i hi = _mm256_srai_epi16(v,l);`
			`return _mm256_blendv_epi8(hi, low, _mm256_set1_epi32(0x00FF00FF));`
			`}`


			`#else`
			`#error "Unknown WINIMP value"`
			`#endif`
			`#endif`
			`#endif`
			`#endif`

			`typedef struct SRSLTE_API {`
			`uint32_t max_long_cb;`
			`llr_t *beta;`
			`} MAKE_TYPE;`


			`#define long_sb (long_cb/nof_blocks)`



			`#define debug_enabled_win 0`

			`#if debug_enabled_win`
			`#define debug_state(d) printf("k=%5d, in=%5d, pa=%3d, out=%5d, alpha=[", d*long_sb+k+1, MAKE_FUNC(get_simd)(x,d), MAKE_FUNC(get_simd)(y,d), MAKE_FUNC(get_simd)(out,d)); \`
			`for (int j=0;j<8;j++) printf("%5d, ", MAKE_FUNC(get_simd)(old[j],d)); \`
			`printf("], beta=["); \`
			`for (int j=0;j<8;j++) printf("%5d, ", MAKE_FUNC(get_simd)(beta_save[j], d));printf("\n");`

			`#define debug_state_pre(d) printf("pre-window k=%5d, in=%5d, pa=%3d, alpha=[", (d+1)*long_sb-loop_len+k+1, MAKE_FUNC(get_simd)(x,d), MAKE_FUNC(get_simd)(y,d)); \`
			`for (int j=0;j<8;j++) printf("%5d, ", MAKE_FUNC(get_simd)(old[j],d)); \`
			`printf("]\n");`

			`#define debug_state_beta(d) printf("k=%5d, in=%5d, pa=%3d, beta=[", d*long_sb+k, MAKE_FUNC(get_simd)(x,d), MAKE_FUNC(get_simd)(y,d)); \`
			`for (int j=0;j<8;j++) printf("%5d, ", MAKE_FUNC(get_simd)(old[j],d));\`
			`printf("\n");`

			`static llr_t MAKE_FUNC(get_simd)(simd_type_t x, uint32_t pos) {`
			`llr_t s = (llr_t) &x;`
			`return s[pos];`
			`}`


			`#else`
			`#define debug_state(a)`
			`#define debug_state_pre(a)`
			`#define debug_state_beta(a)`
			`#endif`
			`/*`
			`static void MAKE_FUNC(print_simd)(simd_type_t x) {`
			`llr_t s = (llr_t) &x;`
			`printf("[");`
			`for (int i=0;i<nof_blocks;i++) {`
			`printf("%4d, ", s[i]);`
			`}`
			`printf("]\n");`
			`}*/`

			`inline static llr_t MAKE_FUNC(sadd)(llr_t x, llr_t y) {`
			`#ifndef use_saturated_add`
			`return x+y;`
			`#else`
			`int16_t z = (int16_t) x+y;`
			`return z>127?127:(int8_t) z;`
			`#endif`
			`}`

			`inline static void MAKE_FUNC(normalize)(uint32_t k, simd_type_t old[8]) {`
			`if ((k % normalize_period) == 0 && k != 0) {`
			`#ifdef normalize_max`
			`simd_type_t m = simd_max(old[0],old[1]);`
			`for (int i=2;i<8;i++) {`
			`m = simd_max(m,old[i]);`
			`}`
			`for (int i=0;i<8;i++) {`
			`old[i] = simd_sub(old[i], m);`
			`}`
			`#else`
			`for (int i = 1; i < 8; i++) {`
			`old[i] = simd_sub(old[i], old[0]);`
			`}`
			`old[0] = simd_set1(0);`
			`#endif`
			`}`
			`}`

			`static void MAKE_FUNC(beta_trellis)(llr_t input, llr_t parity, uint32_t long_cb, llr_t old[8])`
			`{`
			`llr_t m_b[8], new[8];`
			`llr_t x, y, xy;`

			`/* Calculate last state using Tail. No need to use SIMD here */`
			`old[0] = 0;`
			`for (int i = 1; i < 8; i++) {`
			`old[i] = -INF;`
			`}`
			`for (int k=long_cb+2;k >= long_cb; k--) {`
			`x = input[k];`
			`y = parity[k];`

			`xy = MAKE_FUNC(sadd)(x, y);`

			`m_b[0] = MAKE_FUNC(sadd)(old[4],xy);`
			`m_b[1] = old[4];`
			`m_b[2] = MAKE_FUNC(sadd)(old[5], y);`
			`m_b[3] = MAKE_FUNC(sadd)(old[5], x);`
			`m_b[4] = MAKE_FUNC(sadd)(old[6], x);`
			`m_b[5] = MAKE_FUNC(sadd)(old[6], y);`
			`m_b[6] = old[7];`
			`m_b[7] = MAKE_FUNC(sadd)(old[7], xy);`

			`new[0] = old[0];`
			`new[1] = MAKE_FUNC(sadd)(old[0], xy);`
			`new[2] = MAKE_FUNC(sadd)(old[1], x);`
			`new[3] = MAKE_FUNC(sadd)(old[1], y);`
			`new[4] = MAKE_FUNC(sadd)(old[2], y);`
			`new[5] = MAKE_FUNC(sadd)(old[2], x);`
			`new[6] = MAKE_FUNC(sadd)(old[3], xy);`
			`new[7] = old[3];`

			`#if debug_enabled_win`
			`printf("trellis: k=%d, in=%d, pa=%d, beta: ", k, x, y); for (int i=0;i<8;i++) {printf("%d,", old[i]);} printf("\n");`
			`#endif`

			`for (int i = 0; i < 8; i++) {`
			`if (m_b[i] > new[i])`
			`new[i] = m_b[i];`
			`old[i] = new[i];`
			`}`
			`}`
			`}`

			`/* Computes beta values */`
			`static void MAKE_FUNC(beta)(MAKE_TYPE * s, llr_t input, llr_t app, llr_t *parity, uint32_t long_cb)`
			`{`
			`simd_type_t m_b[8], new[8], old[8];`
			`simd_type_t x, y, xy, ap;`

			`simd_type_t *inputPtr;`
			`simd_type_t *appPtr;`
			`simd_type_t *parityPtr;`
			`simd_type_t betaPtr = (simd_type_t) s->beta;`

			`uint32_t loop_len;`
			`for (int j=0;j<2;j++) {`

			`// First run L states to find initial state for all sub-blocks after first`
			`if (j==0) {`
			`loop_len = win_overlap_len;`
			`} else {`
			`loop_len = long_sb;`
			`}`

			`// When passing through all window pick estimated initial states (known state for sb=0)`
			`if (loop_len == long_sb) {`

			`// shuffle across 128-bit boundary manually`
			`#ifdef WINIMP_IS_AVX16`
			`llr_t tmp[8];`
			`for (int i = 0; i < 8; i++) {`
			`tmp[i] = _mm256_extract_epi16(old[i], 8);`
			`}`
			`#endif`
			`#ifdef WINIMP_IS_AVX8`
			`llr_t tmp[8];`
			`for (int i = 0; i < 8; i++) {`
			`tmp[i] = _mm256_extract_epi8(old[i], 16);`
			`}`
			`#endif`

			`for (int i = 0; i < 8; i++) {`
			`old[i] = simd_shuffle(old[i], move_right);`
			`}`
			`// last sub-block state is calculated from the trellis`
			`llr_t trellis_old[8];`
			`MAKE_FUNC(beta_trellis)(input, parity, long_cb, trellis_old);`
			`for (int i = 0; i < 8; i++) {`
			`old[i] = simd_insert(old[i], trellis_old[i], nof_blocks-1);`
			`}`

			`#ifdef WINIMP_IS_AVX16`
			`for (int i = 0; i < 8; i++) {`
			`old[i] = _mm256_insert_epi16(old[i], tmp[i], 7);`
			`}`
			`#endif`
			`#ifdef WINIMP_IS_AVX8`
			`for (int i = 0; i < 8; i++) {`
			`old[i] = _mm256_insert_epi8(old[i], tmp[i], 15);`
			`}`
			`#endif`

			`inputPtr = (simd_type_t*) &input[long_cb-nof_blocks];`
			`appPtr = (simd_type_t*) &app[long_cb-nof_blocks];`
			`parityPtr = (simd_type_t*) &parity[long_cb-nof_blocks];`

			`for (int i = 0; i < 8; i++) {`
			`simd_store(&betaPtr[8*long_sb + i], old[i]);`
			`}`

			`} else {`
			`// when estimating states, just set all to unknown`
			`for (int i = 0; i < 8; i++) {`
			`old[i] = simd_set1(-INF);`
			`}`
			`inputPtr = (simd_type_t) &input[nof_blocks(loop_len-1)];`
			`appPtr = (simd_type_t) &app[nof_blocks(loop_len-1)];`
			`parityPtr = (simd_type_t) &parity[nof_blocks(loop_len-1)];`
			`}`

			`for (int k = loop_len - 1; k >= 0; k--) {`
			`x = simd_load(inputPtr--);`
			`y = simd_load(parityPtr--);`

			`if (app) {`
			`ap = simd_load(appPtr--);`
			`x = simd_add(ap, x);`
			`}`

			`xy = simd_add(x, y);`

			`m_b[0] = simd_add(old[4], xy);`
			`m_b[1] = old[4];`
			`m_b[2] = simd_add(old[5], y);`
			`m_b[3] = simd_add(old[5], x);`
			`m_b[4] = simd_add(old[6], x);`
			`m_b[5] = simd_add(old[6], y);`
			`m_b[6] = old[7];`
			`m_b[7] = simd_add(old[7], xy);`

			`new[0] = old[0];`
			`new[1] = simd_add(old[0], xy);`
			`new[2] = simd_add(old[1], x);`
			`new[3] = simd_add(old[1], y);`
			`new[4] = simd_add(old[2], y);`
			`new[5] = simd_add(old[2], x);`
			`new[6] = simd_add(old[3], xy);`
			`new[7] = old[3];`

			`// Calculate maximum metric`
			`for (int i = 0; i < 8; i++) {`
			`old[i] = simd_max(m_b[i], new[i]);`
			`}`
			`// Store metric only when doing the final pass`
			`if (loop_len == long_sb) {`
			`for (int i = 0; i < 8; i++) {`
			`simd_store(&betaPtr[8*k + i], old[i]);`
			`}`
			`}`
			`if (loop_len!=long_sb) {`
			`debug_state_beta(0);`
			`} else {`
			`debug_state_beta(0);`
			`}`

			`// normalize`
			`MAKE_FUNC(normalize)(k, old);`
			`}`
			`}`
			`}`

			`/* Computes alpha metrics */`
			`static void MAKE_FUNC(alpha)(MAKE_TYPE * s, llr_t input, llr_t app, llr_t parity, llr_t output, uint32_t long_cb)`
			`{`
			`simd_type_t m_b[8], new[8], old[8], max1[8], max0[8];`
			`simd_type_t x, y, xy, ap;`
			`simd_type_t m1, m0;`

			`simd_type_t *inputPtr;`
			`simd_type_t *appPtr;`
			`simd_type_t *parityPtr;`
			`simd_type_t betaPtr = (simd_type_t) s->beta;`
			`simd_type_t outputPtr = (simd_type_t) output;`

			`#if debug_enabled_win`
			`simd_type_t beta_save[8];`
			`#endif`

			`// Skip state 0`
			`betaPtr+=8;`

			`uint32_t loop_len;`

			`for (int j=0;j<2;j++) {`

			`// First run L states to find initial state for all sub-blocks after first`
			`if (j==0) {`
			`loop_len = win_overlap_len;`
			`} else {`
			`loop_len = long_sb;`
			`}`

			`// When passing through all window pick estimated initial states (known state for sb=0)`
			`if (loop_len == long_sb) {`

			`#ifdef WINIMP_IS_AVX16`
			`llr_t tmp[8];`
			`for (int i=0;i<8;i++) {`
			`tmp[i] = _mm256_extract_epi16(old[i], 7);`
			`}`
			`#endif`
			`#ifdef WINIMP_IS_AVX8`
			`llr_t tmp[8];`
			`for (int i=0;i<8;i++) {`
			`tmp[i] = _mm256_extract_epi8(old[i], 15);`
			`}`
			`#endif`
			`for (int i = 0; i < 8; i++) {`
			`old[i] = simd_shuffle(old[i], move_left);`
			`}`
			`#ifdef WINIMP_IS_AVX16`
			`for (int i=0;i<8;i++) {`
			`old[i] = _mm256_insert_epi16(old[i], tmp[i], 8);`
			`}`
			`#endif`
			`#ifdef WINIMP_IS_AVX8`
			`for (int i=0;i<8;i++) {`
			`old[i] = _mm256_insert_epi8(old[i], tmp[i], 16);`
			`}`
			`#endif`
			`// 1st sub-block state is known`
			`old[0] = simd_insert(old[0], 0, 0);`
			`for (int i = 1; i < 8; i++) {`
			`old[i] = simd_insert(old[i], -INF, 0);`
			`}`
			`} else {`
			`// when estimating states, just set all to unknown`
			`for (int i = 0; i < 8; i++) {`
			`old[i] = simd_set1(-INF);`
			`}`
			`}`

			`inputPtr = (simd_type_t) &input[nof_blocks(long_sb-loop_len)];`
			`appPtr = (simd_type_t) &app[nof_blocks(long_sb-loop_len)];`
			`parityPtr = (simd_type_t) &parity[nof_blocks(long_sb-loop_len)];`

			`for (int k = 0; k < loop_len; k++) {`
			`x = simd_load(inputPtr++);`
			`y = simd_load(parityPtr++);`

			`if (app) {`
			`ap = simd_load(appPtr++);`
			`x = simd_add(ap, x);`
			`}`

			`xy = simd_add(x,y);`

			`m_b[0] = old[0];`
			`m_b[1] = simd_add(old[3], y);`
			`m_b[2] = simd_add(old[4], y);`
			`m_b[3] = old[7];`
			`m_b[4] = old[1];`
			`m_b[5] = simd_add(old[2], y);`
			`m_b[6] = simd_add(old[5], y);`
			`m_b[7] = old[6];`

			`new[0] = simd_add(old[1], xy);`
			`new[1] = simd_add(old[2], x);`
			`new[2] = simd_add(old[5], x);`
			`new[3] = simd_add(old[6], xy);`
			`new[4] = simd_add(old[0], xy);`
			`new[5] = simd_add(old[3], x);`
			`new[6] = simd_add(old[4], x);`
			`new[7] = simd_add(old[7], xy);`

			`// Load beta and compute output only when passing through all window`
			`if (loop_len == long_sb) {`
			`simd_type_t beta;`
			`for (int i = 0; i < 8; i++) {`
			`beta = simd_load(betaPtr++);`
			`max0[i] = simd_add(beta, m_b[i]);`
			`max1[i] = simd_add(beta, new[i]);`

			`#if debug_enabled_win`
			`beta_save[i] = beta;`
			`#endif`
			`}`

			`m1 = simd_max(max1[0], max1[1]);`
			`m0 = simd_max(max0[0], max0[1]);`

			`for (int i = 2; i < 8; i++) {`
			`m1 = simd_max(m1, max1[i]);`
			`m0 = simd_max(m0, max0[i]);`
			`}`

			`simd_type_t out = simd_sub(m1, m0);`

			`// Divide output when using 8-bit arithmetic`
			`#ifdef divide_output`
			`out = simd_rb_shift(out, divide_output);`
			`#endif`

			`simd_store(outputPtr++, out);`

			`debug_state(0);`
			`}`

			`for (int i = 0; i < 8; i++) {`
			`old[i] = simd_max(m_b[i], new[i]);`
			`}`

			`// normalize`
			`MAKE_FUNC(normalize)(k, old);`

			`if (loop_len != long_sb) {`
			`debug_state_pre(0);`
			`}`
			`}`
			`}`
			`}`

			`int MAKE_FUNC(init)(void **hh, uint32_t max_long_cb)`
			`{`
			`*hh = calloc(1, sizeof(MAKE_TYPE));`

			`MAKE_TYPE h = (MAKE_TYPE) *hh;`

			`h->beta = srslte_vec_malloc(sizeof(llr_t) * 8 * max_long_cb * nof_blocks);`
			`if (!h->beta) {`
			`perror("srslte_vec_malloc");`
			`return -1;`
			`}`
			`h->max_long_cb = max_long_cb;`
			`return nof_blocks;`
			`}`

			`void MAKE_FUNC(free)(void *hh)`
			`{`
			`MAKE_TYPE h = (MAKE_TYPE) hh;`
			`if (h->beta) {`
			`free(h->beta);`
			`}`
			`bzero(h, sizeof(MAKE_TYPE));`
			`}`

			`void MAKE_FUNC(dec)(void hh, llr_t input, llr_t app, llr_t parity, llr_t *output, uint32_t long_cb)`
			`{`
			`MAKE_TYPE h = (MAKE_TYPE) hh;`
			`MAKE_FUNC(beta)(h, input, app, parity, long_cb);`
			`MAKE_FUNC(alpha)(h, input, app, parity, output, long_cb);`
			`#if debug_enabled_win`
			`printf("running win decoder: %s\n", STRING(WINIMP));`
			`#endif`
			`}`

			`#define INSERT8_INPUT(reg, st, off) reg = simd_insert(reg, input[3(i+(st+0)long_sb)+off], st+0);\`
			`reg = simd_insert(reg, input[3(i+(st+1)long_sb)+off], st+1);\`
			`reg = simd_insert(reg, input[3(i+(st+2)long_sb)+off], st+2);\`
			`reg = simd_insert(reg, input[3(i+(st+3)long_sb)+off], st+3);\`
			`reg = simd_insert(reg, input[3(i+(st+4)long_sb)+off], st+4);\`
			`reg = simd_insert(reg, input[3(i+(st+5)long_sb)+off], st+5);\`
			`reg = simd_insert(reg, input[3(i+(st+6)long_sb)+off], st+6);\`
			`reg = simd_insert(reg, input[3(i+(st+7)long_sb)+off], st+7);`


			`void MAKE_FUNC(extract_input)(llr_t input, llr_t systematic, llr_t app2, llr_t parity_0, llr_t *parity_1, uint32_t long_cb)`
			`{`
			`simd_type_t systPtr = (simd_type_t) systematic;`
			`simd_type_t parity0Ptr = (simd_type_t) parity_0;`
			`simd_type_t parity1Ptr = (simd_type_t) parity_1;`

			`simd_type_t syst, parity0, parity1;`

			`for (int i=0;i<long_sb;i++) {`
			`INSERT8_INPUT(syst, 0, 0);`
			`INSERT8_INPUT(parity0, 0, 1);`
			`INSERT8_INPUT(parity1, 0, 2);`

			`#if nof_blocks >= 16`
			`INSERT8_INPUT(syst, 8, 0);`
			`INSERT8_INPUT(parity0, 8, 1);`
			`INSERT8_INPUT(parity1, 8, 2);`
			`#endif`

			`#if nof_blocks >= 32`
			`INSERT8_INPUT(syst, 16, 0);`
			`INSERT8_INPUT(parity0, 16, 1);`
			`INSERT8_INPUT(parity1, 16, 2);`
			`INSERT8_INPUT(syst, 24, 0);`
			`INSERT8_INPUT(parity0, 24, 1);`
			`INSERT8_INPUT(parity1, 24, 2);`
			`#endif`

			`simd_store(systPtr++, syst);`
			`simd_store(parity0Ptr++, parity0);`
			`simd_store(parity1Ptr++, parity1);`
			`}`

			`for (int i = long_cb; i < long_cb + 3; i++) {`
			`systematic[i] = input[3long_cb + 2(i - long_cb)];`
			`parity_0[i] = input[3long_cb + 2(i - long_cb) + 1];`

			`app2[i] = input[3long_cb + 6 + 2(i - long_cb)];`
			`parity_1[i] = input[3long_cb + 6 + 2(i - long_cb) + 1];`
			`}`
			`}`

			`#define deinter(x,win) ((x%(long_cb/win))*(win)+x/(long_cb/win))`

			`#define reset_cnt(a,b) if(!((a+1)%b)) { \`
			`k+=b*nof_blocks; \`
			`if (k >= long_cb) { \`
			`k -= (long_cb-1);\`
			`}\`
			`}`
			`#define insert_bit(a,b) ap = _mm_insert_epi16(ap, app1[k+(a%b)*nof_blocks], 7-a); \`
			`reset_cnt(a,b); \`


			`#define decide_for(b) for (uint32_t i = 0; i < long_cb/8; i++) { \`
			`insert_bit(0,b);\`
			`insert_bit(1,b);\`
			`insert_bit(2,b);\`
			`insert_bit(3,b);\`
			`insert_bit(4,b);\`
			`insert_bit(5,b);\`
			`insert_bit(6,b);\`
			`insert_bit(7,b);\`
			`output[i] = (uint8_t) _mm_movemask_epi8(_mm_cmpgt_epi8(_mm_packs_epi16(ap,zeros),zeros));\`
			`}`

			`/* No improvement to use AVX here */`
			`void MAKE_FUNC(decision_byte)(llr_t app1, uint8_t output, uint32_t long_cb)`
			`{`
			`uint32_t k=0;`
			`__m128i zeros = _mm_setzero_si128();`
			`__m128i ap;`

			`if ((long_cb%(nof_blocks*8)) == 0) {`
			`decide_for(8);`
			`} else if ((long_cb%(nof_blocks*4)) == 0) {`
			`decide_for(4);`
			`} else if ((long_cb%(nof_blocks*2)) == 0) {`
			`decide_for(2);`
			`} else {`
			`decide_for(1);`
			`}`
			`}`


			`#undef WINIMP`
			`#undef nof_blocks`
			`#undef llr_t`
			`#undef normalize_period`
			`#undef INF`
			`#undef win_overlap_len`
			`#undef simd_type_t`
			`#undef simd_load`
			`#undef simd_store`
			`#undef simd_add`
			`#undef simd_sub`
			`#undef simd_max`
			`#undef simd_set1`
			`#undef simd_insert`
			`#undef simd_shuffle`
			`#undef move_right`
			`#undef move_left`
			`#undef debug_enabled_win`

			`#ifdef normalize_max`
			`#undef normalize_max`
			`#endif`

			`#ifdef use_saturated_add`
			`#undef use_saturated_add`
			`#endif`

			`#ifdef simd_rb_shift`
			`#undef simd_rb_shift`
			`#endif`

			`#ifdef divide_output`
			`#undef divide_output`
			`#endif`