HM-doc/_t_com_rd_cost_8cpp_source.html

 /* The copyright in this software is being made available under the BSD

  * License, included below. This software may be subject to other third party

  * and contributor rights, including patent rights, and no such rights are

  * granted under this license.

  *

  * Copyright (c) 2010-2017, ITU/ISO/IEC

  * All rights reserved.

  *

  * Redistribution and use in source and binary forms, with or without

  * modification, are permitted provided that the following conditions are met:

  *

  *  * Redistributions of source code must retain the above copyright notice,

  *    this list of conditions and the following disclaimer.

  *  * Redistributions in binary form must reproduce the above copyright notice,

  *    this list of conditions and the following disclaimer in the documentation

  *    and/or other materials provided with the distribution.

  *  * Neither the name of the ITU/ISO/IEC nor the names of its contributors may

  *    be used to endorse or promote products derived from this software without

  *    specific prior written permission.

  *

  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"

  * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE

  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE

  * ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS

  * BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR

  * CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF

  * SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS

  * INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN

  * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)

  * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF

  * THE POSSIBILITY OF SUCH DAMAGE.

  */


 #include <math.h>

 #include <assert.h>

 #include <limits>

 #include "TComRom.h"

 #include "TComRdCost.h"


 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

 #include <emmintrin.h>

 #include <xmmintrin.h>

 #endif


 TComRdCost::TComRdCost()

 {

   init();

 }


 TComRdCost::~TComRdCost()

 {

 }


 // Calculate RD functions

 Double TComRdCost::calcRdCost( Double numBits, Double distortion, DFunc eDFunc )

 {

   Double lambda = 1.0;


   switch ( eDFunc )

   {

     case DF_SSE:

       assert(0);

       break;

     case DF_SAD:

       lambda = m_dLambdaMotionSAD[0]; // 0 is valid, because for lossless blocks, the cost equation is modified to compensate.

       break;

     case DF_DEFAULT:

       lambda = m_dLambda;

       break;

     case DF_SSE_FRAME:

       lambda = m_dFrameLambda;

       break;

     default:

       assert (0);

       break;

   }


   if (eDFunc == DF_SAD)

   {

     if (m_costMode != COST_STANDARD_LOSSY)

     {

       return ((distortion * 65536.0) / lambda) + numBits; // all lossless costs would have uiDistortion=0, and therefore this cost function can be used.

     }

     else

     {

       return distortion + (((numBits * lambda) ) / 65536.0);

     }

   }

   else

   {

     if (m_costMode != COST_STANDARD_LOSSY)

     {

       return (distortion / lambda) + numBits; // all lossless costs would have uiDistortion=0, and therefore this cost function can be used.

     }

     else

     {

       return distortion + (numBits * lambda);

     }

   }

 }


 Void TComRdCost::setLambda( Double dLambda, const BitDepths &bitDepths )

 {

   m_dLambda           = dLambda;

   m_sqrtLambda        = sqrt(m_dLambda);

   m_dLambdaMotionSAD[0] = 65536.0 * m_sqrtLambda;

   m_dLambdaMotionSSE[0] = 65536.0 * m_dLambda;

 #if FULL_NBIT

   dLambda = 0.57 * pow(2.0, ((LOSSLESS_AND_MIXED_LOSSLESS_RD_COST_TEST_QP_PRIME - 12) / 3.0));

 #else

   dLambda = 0.57 * pow(2.0, ((LOSSLESS_AND_MIXED_LOSSLESS_RD_COST_TEST_QP_PRIME - 12 - 6 * (bitDepths.recon[CHANNEL_TYPE_LUMA] - 8)) / 3.0));

 #endif

   m_dLambdaMotionSAD[1] = 65536.0 * sqrt(dLambda);

   m_dLambdaMotionSSE[1] = 65536.0 * dLambda;

 }


 // Initalize Function Pointer by [eDFunc]

 Void TComRdCost::init()

 {

   m_afpDistortFunc[DF_DEFAULT] = NULL;                  // for DF_DEFAULT


   m_afpDistortFunc[DF_SSE    ] = TComRdCost::xGetSSE;

   m_afpDistortFunc[DF_SSE4   ] = TComRdCost::xGetSSE4;

   m_afpDistortFunc[DF_SSE8   ] = TComRdCost::xGetSSE8;

   m_afpDistortFunc[DF_SSE16  ] = TComRdCost::xGetSSE16;

   m_afpDistortFunc[DF_SSE32  ] = TComRdCost::xGetSSE32;

   m_afpDistortFunc[DF_SSE64  ] = TComRdCost::xGetSSE64;

   m_afpDistortFunc[DF_SSE16N ] = TComRdCost::xGetSSE16N;


   m_afpDistortFunc[DF_SAD    ] = TComRdCost::xGetSAD;

   m_afpDistortFunc[DF_SAD4   ] = TComRdCost::xGetSAD4;

   m_afpDistortFunc[DF_SAD8   ] = TComRdCost::xGetSAD8;

   m_afpDistortFunc[DF_SAD16  ] = TComRdCost::xGetSAD16;

   m_afpDistortFunc[DF_SAD32  ] = TComRdCost::xGetSAD32;

   m_afpDistortFunc[DF_SAD64  ] = TComRdCost::xGetSAD64;

   m_afpDistortFunc[DF_SAD16N ] = TComRdCost::xGetSAD16N;


   m_afpDistortFunc[DF_SADS   ] = TComRdCost::xGetSAD;

   m_afpDistortFunc[DF_SADS4  ] = TComRdCost::xGetSAD4;

   m_afpDistortFunc[DF_SADS8  ] = TComRdCost::xGetSAD8;

   m_afpDistortFunc[DF_SADS16 ] = TComRdCost::xGetSAD16;

   m_afpDistortFunc[DF_SADS32 ] = TComRdCost::xGetSAD32;

   m_afpDistortFunc[DF_SADS64 ] = TComRdCost::xGetSAD64;

   m_afpDistortFunc[DF_SADS16N] = TComRdCost::xGetSAD16N;


   m_afpDistortFunc[DF_SAD12  ] = TComRdCost::xGetSAD12;

   m_afpDistortFunc[DF_SAD24  ] = TComRdCost::xGetSAD24;

   m_afpDistortFunc[DF_SAD48  ] = TComRdCost::xGetSAD48;


   m_afpDistortFunc[DF_SADS12 ] = TComRdCost::xGetSAD12;

   m_afpDistortFunc[DF_SADS24 ] = TComRdCost::xGetSAD24;

   m_afpDistortFunc[DF_SADS48 ] = TComRdCost::xGetSAD48;


   m_afpDistortFunc[DF_HADS   ] = TComRdCost::xGetHADs;

   m_afpDistortFunc[DF_HADS4  ] = TComRdCost::xGetHADs;

   m_afpDistortFunc[DF_HADS8  ] = TComRdCost::xGetHADs;

   m_afpDistortFunc[DF_HADS16 ] = TComRdCost::xGetHADs;

   m_afpDistortFunc[DF_HADS32 ] = TComRdCost::xGetHADs;

   m_afpDistortFunc[DF_HADS64 ] = TComRdCost::xGetHADs;

   m_afpDistortFunc[DF_HADS16N] = TComRdCost::xGetHADs;


   m_costMode                   = COST_STANDARD_LOSSY;


   m_motionLambda               = 0;

   m_iCostScale                 = 0;

 }


 // Static member function

 UInt TComRdCost::xGetExpGolombNumberOfBits( Int iVal )

 {

   assert(iVal != std::numeric_limits<Int>::min());

   UInt uiLength = 1;

   UInt uiTemp   = ( iVal <= 0) ? (UInt(-iVal)<<1)+1: UInt(iVal<<1);


   while ( 1 != uiTemp )

   {

     uiTemp >>= 1;

     uiLength += 2;

   }


   return uiLength;

 }


 Void TComRdCost::setDistParam( UInt uiBlkWidth, UInt uiBlkHeight, DFunc eDFunc, DistParam& rcDistParam )

 {

   // set Block Width / Height

   rcDistParam.iCols    = uiBlkWidth;

   rcDistParam.iRows    = uiBlkHeight;

   rcDistParam.DistFunc = m_afpDistortFunc[eDFunc + g_aucConvertToBit[ rcDistParam.iCols ] + 1 ];


   // initialize

   rcDistParam.iSubShift  = 0;

   rcDistParam.m_maximumDistortionForEarlyExit = std::numeric_limits<Distortion>::max();

 }


 // Setting the Distortion Parameter for Inter (ME)

 Void TComRdCost::setDistParam( const TComPattern* const pcPatternKey, const Pel* piRefY, Int iRefStride, DistParam& rcDistParam )

 {

   // set Original & Curr Pointer / Stride

   rcDistParam.pOrg = pcPatternKey->getROIY();

   rcDistParam.pCur = piRefY;


   rcDistParam.iStrideOrg = pcPatternKey->getPatternLStride();

   rcDistParam.iStrideCur = iRefStride;


   // set Block Width / Height

   rcDistParam.iCols    = pcPatternKey->getROIYWidth();

   rcDistParam.iRows    = pcPatternKey->getROIYHeight();

   rcDistParam.DistFunc = m_afpDistortFunc[DF_SAD + g_aucConvertToBit[ rcDistParam.iCols ] + 1 ];

   rcDistParam.m_maximumDistortionForEarlyExit = std::numeric_limits<Distortion>::max();


   if (rcDistParam.iCols == 12)

   {

     rcDistParam.DistFunc = m_afpDistortFunc[DF_SAD12];

   }

   else if (rcDistParam.iCols == 24)

   {

     rcDistParam.DistFunc = m_afpDistortFunc[DF_SAD24];

   }

   else if (rcDistParam.iCols == 48)

   {

     rcDistParam.DistFunc = m_afpDistortFunc[DF_SAD48];

   }


   // initialize

   rcDistParam.iSubShift  = 0;

 }


 // Setting the Distortion Parameter for Inter (subpel ME with step)

 Void TComRdCost::setDistParam( const TComPattern* const pcPatternKey, const Pel* piRefY, Int iRefStride, Int iStep, DistParam& rcDistParam, Bool bHADME )

 {

   // set Original & Curr Pointer / Stride

   rcDistParam.pOrg = pcPatternKey->getROIY();

   rcDistParam.pCur = piRefY;


   rcDistParam.iStrideOrg = pcPatternKey->getPatternLStride();

   rcDistParam.iStrideCur = iRefStride * iStep;


   // set Step for interpolated buffer

   rcDistParam.iStep = iStep;


   // set Block Width / Height

   rcDistParam.iCols    = pcPatternKey->getROIYWidth();

   rcDistParam.iRows    = pcPatternKey->getROIYHeight();


   rcDistParam.m_maximumDistortionForEarlyExit = std::numeric_limits<Distortion>::max();


   // set distortion function

   if ( !bHADME )

   {

     rcDistParam.DistFunc = m_afpDistortFunc[DF_SADS + g_aucConvertToBit[ rcDistParam.iCols ] + 1 ];

     if (rcDistParam.iCols == 12)

     {

       rcDistParam.DistFunc = m_afpDistortFunc[DF_SADS12];

     }

     else if (rcDistParam.iCols == 24)

     {

       rcDistParam.DistFunc = m_afpDistortFunc[DF_SADS24];

     }

     else if (rcDistParam.iCols == 48)

     {

       rcDistParam.DistFunc = m_afpDistortFunc[DF_SADS48];

     }

   }

   else

   {

     rcDistParam.DistFunc = m_afpDistortFunc[DF_HADS + g_aucConvertToBit[ rcDistParam.iCols ] + 1 ];

   }


   // initialize

   rcDistParam.iSubShift  = 0;

 }


 Void TComRdCost::setDistParam( DistParam& rcDP, Int bitDepth, const Pel* p1, Int iStride1, const Pel* p2, Int iStride2, Int iWidth, Int iHeight, Bool bHadamard )

 {

   rcDP.pOrg         = p1;

   rcDP.pCur         = p2;

   rcDP.iStrideOrg   = iStride1;

   rcDP.iStrideCur   = iStride2;

   rcDP.iCols        = iWidth;

   rcDP.iRows        = iHeight;

   rcDP.iStep        = 1;

   rcDP.iSubShift    = 0;

   rcDP.bitDepth     = bitDepth;

   rcDP.DistFunc     = m_afpDistortFunc[ ( bHadamard ? DF_HADS : DF_SADS ) + g_aucConvertToBit[ iWidth ] + 1 ];

   rcDP.m_maximumDistortionForEarlyExit = std::numeric_limits<Distortion>::max();

 }


 Distortion TComRdCost::calcHAD( Int bitDepth, const Pel* pi0, Int iStride0, const Pel* pi1, Int iStride1, Int iWidth, Int iHeight )

 {

   Distortion uiSum = 0;

   Int x, y;


   if ( ( (iWidth % 8) == 0 ) && ( (iHeight % 8) == 0 ) )

   {

     for ( y=0; y<iHeight; y+= 8 )

     {

       for ( x=0; x<iWidth; x+= 8 )

       {

         uiSum += xCalcHADs8x8( &pi0[x], &pi1[x], iStride0, iStride1, 1

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

           , bitDepth

 #endif

           );

       }

       pi0 += iStride0*8;

       pi1 += iStride1*8;

     }

   }

   else

   {

     assert ( ( (iWidth % 4) == 0 ) && ( (iHeight % 4) == 0 ) );


     for ( y=0; y<iHeight; y+= 4 )

     {

       for ( x=0; x<iWidth; x+= 4 )

       {

         uiSum += xCalcHADs4x4( &pi0[x], &pi1[x], iStride0, iStride1, 1 );

       }

       pi0 += iStride0*4;

       pi1 += iStride1*4;

     }

   }


   return ( uiSum >> DISTORTION_PRECISION_ADJUSTMENT(bitDepth-8) );

 }


 Distortion TComRdCost::getDistPart( Int bitDepth, const Pel* piCur, Int iCurStride,  const Pel* piOrg, Int iOrgStride, UInt uiBlkWidth, UInt uiBlkHeight, const ComponentID compID, DFunc eDFunc )

 {

   DistParam cDtParam;

   setDistParam( uiBlkWidth, uiBlkHeight, eDFunc, cDtParam );

   cDtParam.pOrg       = piOrg;

   cDtParam.pCur       = piCur;

   cDtParam.iStrideOrg = iOrgStride;

   cDtParam.iStrideCur = iCurStride;

   cDtParam.iStep      = 1;


   cDtParam.bApplyWeight = false;

   cDtParam.compIdx      = MAX_NUM_COMPONENT; // just for assert: to be sure it was set before use

   cDtParam.bitDepth     = bitDepth;


   if (isChroma(compID))

   {

     return ((Distortion) (m_distortionWeight[compID] * cDtParam.DistFunc( &cDtParam )));

   }

   else

   {

     return cDtParam.DistFunc( &cDtParam );

   }

 }


 // ====================================================================================================================

 // Distortion functions

 // ====================================================================================================================


 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

 inline Int simdSADLine4n16b( const Pel * piOrg , const Pel * piCur , Int nWidth )

 {

   // internal bit-depth must be 12-bit or lower

   assert( !( nWidth & 0x03 ) );

   __m128i org , cur , abs , sum;

   sum = _mm_setzero_si128();

   for( Int n = 0 ; n < nWidth ; n += 4 )

   {

     org = _mm_loadl_epi64( ( __m128i* )( piOrg + n ) );

     cur = _mm_loadl_epi64( ( __m128i* )( piCur + n ) );

     abs = _mm_subs_epi16( _mm_max_epi16( org , cur )  , _mm_min_epi16( org , cur ) );

     sum = _mm_adds_epu16( abs , sum );

   }

   __m128i zero =  _mm_setzero_si128();

   sum = _mm_unpacklo_epi16( sum , zero );

   sum = _mm_add_epi32( sum , _mm_shuffle_epi32( sum , _MM_SHUFFLE( 2 , 3 , 0 , 1 ) ) );

   sum = _mm_add_epi32( sum , _mm_shuffle_epi32( sum , _MM_SHUFFLE( 1 , 0 , 3 , 2 ) ) );

   return( _mm_cvtsi128_si32( sum ) );

 }


 inline Int simdSADLine8n16b( const Pel * piOrg , const Pel * piCur , Int nWidth )

 {

   // internal bit-depth must be 12-bit or lower

   assert( !( nWidth & 0x07 ) );

   __m128i org , cur , abs , sum;

   sum = _mm_setzero_si128();

   for( Int n = 0 ; n < nWidth ; n += 8 )

   {

     org = _mm_loadu_si128( ( __m128i* )( piOrg + n ) );

     cur = _mm_loadu_si128( ( __m128i* )( piCur + n ) );

     abs = _mm_subs_epi16( _mm_max_epi16( org , cur )  , _mm_min_epi16( org , cur ) );

     sum = _mm_adds_epu16( abs , sum );

   }

   __m128i zero =  _mm_setzero_si128();

   __m128i hi = _mm_unpackhi_epi16( sum , zero );

   __m128i lo = _mm_unpacklo_epi16( sum , zero );

   sum = _mm_add_epi32( lo , hi );

   sum = _mm_add_epi32( sum , _mm_shuffle_epi32( sum , _MM_SHUFFLE( 2 , 3 , 0 , 1 ) ) );

   sum = _mm_add_epi32( sum , _mm_shuffle_epi32( sum , _MM_SHUFFLE( 1 , 0 , 3 , 2 ) ) );

   return( _mm_cvtsi128_si32( sum ) );

 }


 inline Void simd8x8Transpose32b( __m128i * pBuffer )

 {

   __m128 tmp[16];

   for( Int n = 0 ; n < 16 ; n++ )

   {

     tmp[n] = _mm_castsi128_ps( pBuffer[n] );

   }

   _MM_TRANSPOSE4_PS( tmp[0] , tmp[2] , tmp[4] , tmp[6] );

   _MM_TRANSPOSE4_PS( tmp[1] , tmp[3] , tmp[5] , tmp[7] );

   _MM_TRANSPOSE4_PS( tmp[8] , tmp[10] , tmp[12] , tmp[14] );

   _MM_TRANSPOSE4_PS( tmp[9] , tmp[11] , tmp[13] , tmp[15] );

   for( Int n = 0 ; n < 8 ; n += 2 )

   {

     pBuffer[n] = _mm_castps_si128( tmp[n] );

     pBuffer[n+1]  = _mm_castps_si128( tmp[n+8] );

     pBuffer[n+8] = _mm_castps_si128( tmp[n+1] );

     pBuffer[n+9]  = _mm_castps_si128( tmp[n+9] );

   }

 }


 #ifdef __GNUC__

 #define GCC_VERSION (__GNUC__ * 10000 + __GNUC_MINOR__ * 100 + __GNUC_PATCHLEVEL__)

 #if GCC_VERSION > 40600 && GCC_VERSION < 40700

 __attribute__((optimize("no-tree-vrp")))

 #endif

 #endif

 Void simd8x8HAD1D32b( __m128i * pInput , __m128i * pOutput )

 {

   __m128i m1[8][2] , m2[8][2];


   m2[0][0] = _mm_add_epi32( pInput[0] ,pInput[8 ] );  m2[0][1] = _mm_add_epi32( pInput[1] ,pInput[9 ] );

   m2[1][0] = _mm_add_epi32( pInput[2] ,pInput[10] );  m2[1][1] = _mm_add_epi32( pInput[3] ,pInput[11] );

   m2[2][0] = _mm_add_epi32( pInput[4] ,pInput[12] );  m2[2][1] = _mm_add_epi32( pInput[5] ,pInput[13] );

   m2[3][0] = _mm_add_epi32( pInput[6] ,pInput[14] );  m2[3][1] = _mm_add_epi32( pInput[7] ,pInput[15] );

   m2[4][0] = _mm_sub_epi32( pInput[0] ,pInput[8 ] );  m2[4][1] = _mm_sub_epi32( pInput[1] ,pInput[9 ] );

   m2[5][0] = _mm_sub_epi32( pInput[2] ,pInput[10] );  m2[5][1] = _mm_sub_epi32( pInput[3] ,pInput[11] );

   m2[6][0] = _mm_sub_epi32( pInput[4] ,pInput[12] );  m2[6][1] = _mm_sub_epi32( pInput[5] ,pInput[13] );

   m2[7][0] = _mm_sub_epi32( pInput[6] ,pInput[14] );  m2[7][1] = _mm_sub_epi32( pInput[7] ,pInput[15] );


   m1[0][0] = _mm_add_epi32( m2[0][0] , m2[2][0] );  m1[0][1] = _mm_add_epi32( m2[0][1] , m2[2][1] );

   m1[1][0] = _mm_add_epi32( m2[1][0] , m2[3][0] );  m1[1][1] = _mm_add_epi32( m2[1][1] , m2[3][1] );

   m1[2][0] = _mm_sub_epi32( m2[0][0] , m2[2][0] );  m1[2][1] = _mm_sub_epi32( m2[0][1] , m2[2][1] );

   m1[3][0] = _mm_sub_epi32( m2[1][0] , m2[3][0] );  m1[3][1] = _mm_sub_epi32( m2[1][1] , m2[3][1] );

   m1[4][0] = _mm_add_epi32( m2[4][0] , m2[6][0] );  m1[4][1] = _mm_add_epi32( m2[4][1] , m2[6][1] );

   m1[5][0] = _mm_add_epi32( m2[5][0] , m2[7][0] );  m1[5][1] = _mm_add_epi32( m2[5][1] , m2[7][1] );

   m1[6][0] = _mm_sub_epi32( m2[4][0] , m2[6][0] );  m1[6][1] = _mm_sub_epi32( m2[4][1] , m2[6][1] );

   m1[7][0] = _mm_sub_epi32( m2[5][0] , m2[7][0] );  m1[7][1] = _mm_sub_epi32( m2[5][1] , m2[7][1] );


   pInput[0 ] = _mm_add_epi32( m1[0][0] , m1[1][0] );  pInput[1 ] = _mm_add_epi32( m1[0][1] , m1[1][1] );

   pInput[2 ] = _mm_sub_epi32( m1[0][0] , m1[1][0] );  pInput[3 ] = _mm_sub_epi32( m1[0][1] , m1[1][1] );

   pInput[4 ] = _mm_add_epi32( m1[2][0] , m1[3][0] );  pInput[5 ] = _mm_add_epi32( m1[2][1] , m1[3][1] );

   pInput[6 ] = _mm_sub_epi32( m1[2][0] , m1[3][0] );  pInput[7 ] = _mm_sub_epi32( m1[2][1] , m1[3][1] );

   pInput[8 ] = _mm_add_epi32( m1[4][0] , m1[5][0] );  pInput[9 ] = _mm_add_epi32( m1[4][1] , m1[5][1] );

   pInput[10] = _mm_sub_epi32( m1[4][0] , m1[5][0] );  pInput[11] = _mm_sub_epi32( m1[4][1] , m1[5][1] );

   pInput[12] = _mm_add_epi32( m1[6][0] , m1[7][0] );  pInput[13] = _mm_add_epi32( m1[6][1] , m1[7][1] );

   pInput[14] = _mm_sub_epi32( m1[6][0] , m1[7][0] );  pInput[15] = _mm_sub_epi32( m1[6][1] , m1[7][1] );

 }


 inline __m128i simdAbs32b( __m128i m )

 {

   const __m128i zero = _mm_setzero_si128();

   __m128i tmp = _mm_sub_epi32( zero , m );

   __m128i mask = _mm_cmpgt_epi32( m , tmp );

   return( _mm_or_si128( _mm_and_si128( mask , m ) , _mm_andnot_si128( mask , tmp ) ) );

 }


 UInt simdHADs8x8( const Pel * piOrg, const Pel * piCur, Int iStrideOrg, Int iStrideCur )

 {

   __m128i mmDiff[8][2];

   __m128i mmZero = _mm_setzero_si128();

   for( Int n = 0 ; n < 8 ; n++ , piOrg += iStrideOrg , piCur += iStrideCur )

   {

     __m128i diff = _mm_sub_epi16( _mm_loadu_si128( ( __m128i* )piOrg ) , _mm_loadu_si128( ( __m128i* )piCur ) );

     // sign extension

     __m128i mask = _mm_cmplt_epi16( diff , mmZero );

     mmDiff[n][0] = _mm_unpacklo_epi16( diff , mask );

     mmDiff[n][1] = _mm_unpackhi_epi16( diff , mask );

   }


   // transpose

   simd8x8Transpose32b( &mmDiff[0][0] );


   // horizontal

   simd8x8HAD1D32b( &mmDiff[0][0] , &mmDiff[0][0] );


   // transpose

   simd8x8Transpose32b( &mmDiff[0][0] );


   // vertical

   simd8x8HAD1D32b( &mmDiff[0][0] , &mmDiff[0][0] );


   __m128i mmSum = _mm_setzero_si128();

   for( Int n = 0 ; n < 8 ; n++ )

   {

     mmSum = _mm_add_epi32( mmSum , simdAbs32b( mmDiff[n][0] ) );

     mmSum = _mm_add_epi32( mmSum , simdAbs32b( mmDiff[n][1] ) );

   }

   mmSum = _mm_add_epi32( mmSum , _mm_shuffle_epi32( mmSum , _MM_SHUFFLE( 2 , 3 , 0 , 1 ) ) );

   mmSum = _mm_add_epi32( mmSum , _mm_shuffle_epi32( mmSum , _MM_SHUFFLE( 1 , 0 , 3 , 2 ) ) );


   UInt sad = _mm_cvtsi128_si32( mmSum );

   sad = ( sad + 2 ) >> 2;


   return( sad );

 }

 #endif


 // --------------------------------------------------------------------------------------------------------------------

 // SAD

 // --------------------------------------------------------------------------------------------------------------------


 Distortion TComRdCost::xGetSAD( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetSADw( pcDtParam );

   }

   const Pel* piOrg           = pcDtParam->pOrg;

   const Pel* piCur           = pcDtParam->pCur;

   const Int  iCols           = pcDtParam->iCols;

   const Int  iStrideCur      = pcDtParam->iStrideCur;

   const Int  iStrideOrg      = pcDtParam->iStrideOrg;

   const UInt distortionShift = DISTORTION_PRECISION_ADJUSTMENT(pcDtParam->bitDepth - 8);


   Distortion uiSum = 0;


 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   if( pcDtParam->bitDepth <= 10 )

   {

     if( ( iCols & 0x07 ) == 0 )

     {

       for( Int iRows   = pcDtParam->iRows ; iRows != 0; iRows-- )

       {

         uiSum += simdSADLine8n16b( piOrg , piCur , iCols );

         piOrg += iStrideOrg;

         piCur += iStrideCur;

       }

     }

     else

     {

       for( Int  iRows   = pcDtParam->iRows; iRows != 0; iRows-- )

       {

         uiSum += simdSADLine4n16b( piOrg , piCur , iCols );

         piOrg += iStrideOrg;

         piCur += iStrideCur;

       }

     }

   }

   else

   {

 #endif

   for(Int iRows = pcDtParam->iRows ; iRows != 0; iRows-- )

   {

     for (Int n = 0; n < iCols; n++ )

     {

       uiSum += abs( piOrg[n] - piCur[n] );

     }

     if (pcDtParam->m_maximumDistortionForEarlyExit < ( uiSum >> distortionShift ))

     {

       return ( uiSum >> distortionShift );

     }

     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   }

 #endif


   return ( uiSum >> distortionShift );

 }


 Distortion TComRdCost::xGetSAD4( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetSADw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iSubShift  = pcDtParam->iSubShift;

   Int  iSubStep   = ( 1 << iSubShift );

   Int  iStrideCur = pcDtParam->iStrideCur*iSubStep;

   Int  iStrideOrg = pcDtParam->iStrideOrg*iSubStep;


   Distortion uiSum = 0;


 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   if( pcDtParam->bitDepth <= 10 )

   {

     for( ; iRows != 0; iRows-=iSubStep )

     {

       uiSum += simdSADLine4n16b( piOrg , piCur , 4 );

       piOrg += iStrideOrg;

       piCur += iStrideCur;

     }

   }

   else

   {

 #endif

   for( ; iRows != 0; iRows-=iSubStep )

   {

     uiSum += abs( piOrg[0] - piCur[0] );

     uiSum += abs( piOrg[1] - piCur[1] );

     uiSum += abs( piOrg[2] - piCur[2] );

     uiSum += abs( piOrg[3] - piCur[3] );


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   }

 #endif


   uiSum <<= iSubShift;

   return ( uiSum >> DISTORTION_PRECISION_ADJUSTMENT(pcDtParam->bitDepth-8) );

 }


 Distortion TComRdCost::xGetSAD8( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetSADw( pcDtParam );

   }

   const Pel* piOrg      = pcDtParam->pOrg;

   const Pel* piCur      = pcDtParam->pCur;

   Int  iRows      = pcDtParam->iRows;

   Int  iSubShift  = pcDtParam->iSubShift;

   Int  iSubStep   = ( 1 << iSubShift );

   Int  iStrideCur = pcDtParam->iStrideCur*iSubStep;

   Int  iStrideOrg = pcDtParam->iStrideOrg*iSubStep;


   Distortion uiSum = 0;


 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   if( pcDtParam->bitDepth <= 10 )

   {

     for( ; iRows != 0; iRows-=iSubStep )

     {

       uiSum += simdSADLine8n16b( piOrg , piCur , 8 );

       piOrg += iStrideOrg;

       piCur += iStrideCur;

     }

   }

   else

   {

 #endif

   for( ; iRows != 0; iRows-=iSubStep )

   {

     uiSum += abs( piOrg[0] - piCur[0] );

     uiSum += abs( piOrg[1] - piCur[1] );

     uiSum += abs( piOrg[2] - piCur[2] );

     uiSum += abs( piOrg[3] - piCur[3] );

     uiSum += abs( piOrg[4] - piCur[4] );

     uiSum += abs( piOrg[5] - piCur[5] );

     uiSum += abs( piOrg[6] - piCur[6] );

     uiSum += abs( piOrg[7] - piCur[7] );


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   }

 #endif


   uiSum <<= iSubShift;

   return ( uiSum >> DISTORTION_PRECISION_ADJUSTMENT(pcDtParam->bitDepth-8) );

 }


 Distortion TComRdCost::xGetSAD16( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetSADw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iSubShift  = pcDtParam->iSubShift;

   Int  iSubStep   = ( 1 << iSubShift );

   Int  iStrideCur = pcDtParam->iStrideCur*iSubStep;

   Int  iStrideOrg = pcDtParam->iStrideOrg*iSubStep;


   Distortion uiSum = 0;


 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   if( pcDtParam->bitDepth <= 10 )

   {

     for( ; iRows != 0; iRows-=iSubStep )

     {

       uiSum += simdSADLine8n16b( piOrg , piCur , 16 );

       piOrg += iStrideOrg;

       piCur += iStrideCur;

     }

   }

   else

   {

 #endif

   for( ; iRows != 0; iRows-=iSubStep )

   {

     uiSum += abs( piOrg[0] - piCur[0] );

     uiSum += abs( piOrg[1] - piCur[1] );

     uiSum += abs( piOrg[2] - piCur[2] );

     uiSum += abs( piOrg[3] - piCur[3] );

     uiSum += abs( piOrg[4] - piCur[4] );

     uiSum += abs( piOrg[5] - piCur[5] );

     uiSum += abs( piOrg[6] - piCur[6] );

     uiSum += abs( piOrg[7] - piCur[7] );

     uiSum += abs( piOrg[8] - piCur[8] );

     uiSum += abs( piOrg[9] - piCur[9] );

     uiSum += abs( piOrg[10] - piCur[10] );

     uiSum += abs( piOrg[11] - piCur[11] );

     uiSum += abs( piOrg[12] - piCur[12] );

     uiSum += abs( piOrg[13] - piCur[13] );

     uiSum += abs( piOrg[14] - piCur[14] );

     uiSum += abs( piOrg[15] - piCur[15] );


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   }

 #endif


   uiSum <<= iSubShift;

   return ( uiSum >> DISTORTION_PRECISION_ADJUSTMENT(pcDtParam->bitDepth-8) );

 }


 Distortion TComRdCost::xGetSAD12( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetSADw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iSubShift  = pcDtParam->iSubShift;

   Int  iSubStep   = ( 1 << iSubShift );

   Int  iStrideCur = pcDtParam->iStrideCur*iSubStep;

   Int  iStrideOrg = pcDtParam->iStrideOrg*iSubStep;


   Distortion uiSum = 0;


   for( ; iRows != 0; iRows-=iSubStep )

   {

     uiSum += abs( piOrg[0] - piCur[0] );

     uiSum += abs( piOrg[1] - piCur[1] );

     uiSum += abs( piOrg[2] - piCur[2] );

     uiSum += abs( piOrg[3] - piCur[3] );

     uiSum += abs( piOrg[4] - piCur[4] );

     uiSum += abs( piOrg[5] - piCur[5] );

     uiSum += abs( piOrg[6] - piCur[6] );

     uiSum += abs( piOrg[7] - piCur[7] );

     uiSum += abs( piOrg[8] - piCur[8] );

     uiSum += abs( piOrg[9] - piCur[9] );

     uiSum += abs( piOrg[10] - piCur[10] );

     uiSum += abs( piOrg[11] - piCur[11] );


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }


   uiSum <<= iSubShift;

   return ( uiSum >> DISTORTION_PRECISION_ADJUSTMENT(pcDtParam->bitDepth-8) );

 }


 Distortion TComRdCost::xGetSAD16N( DistParam* pcDtParam )

 {

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iCols   = pcDtParam->iCols;

   Int  iSubShift  = pcDtParam->iSubShift;

   Int  iSubStep   = ( 1 << iSubShift );

   Int  iStrideCur = pcDtParam->iStrideCur*iSubStep;

   Int  iStrideOrg = pcDtParam->iStrideOrg*iSubStep;


   Distortion uiSum = 0;


 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   if( pcDtParam->bitDepth <= 10 )

   {

     for( ; iRows != 0; iRows-=iSubStep )

     {

       uiSum += simdSADLine8n16b( piOrg , piCur , iCols );

       piOrg += iStrideOrg;

       piCur += iStrideCur;

     }

   }

   else

   {

 #endif

   for( ; iRows != 0; iRows-=iSubStep )

   {

     for (Int n = 0; n < iCols; n+=16 )

     {

       uiSum += abs( piOrg[n+ 0] - piCur[n+ 0] );

       uiSum += abs( piOrg[n+ 1] - piCur[n+ 1] );

       uiSum += abs( piOrg[n+ 2] - piCur[n+ 2] );

       uiSum += abs( piOrg[n+ 3] - piCur[n+ 3] );

       uiSum += abs( piOrg[n+ 4] - piCur[n+ 4] );

       uiSum += abs( piOrg[n+ 5] - piCur[n+ 5] );

       uiSum += abs( piOrg[n+ 6] - piCur[n+ 6] );

       uiSum += abs( piOrg[n+ 7] - piCur[n+ 7] );

       uiSum += abs( piOrg[n+ 8] - piCur[n+ 8] );

       uiSum += abs( piOrg[n+ 9] - piCur[n+ 9] );

       uiSum += abs( piOrg[n+10] - piCur[n+10] );

       uiSum += abs( piOrg[n+11] - piCur[n+11] );

       uiSum += abs( piOrg[n+12] - piCur[n+12] );

       uiSum += abs( piOrg[n+13] - piCur[n+13] );

       uiSum += abs( piOrg[n+14] - piCur[n+14] );

       uiSum += abs( piOrg[n+15] - piCur[n+15] );

     }

     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   }

 #endif


   uiSum <<= iSubShift;

   return ( uiSum >> DISTORTION_PRECISION_ADJUSTMENT(pcDtParam->bitDepth-8) );

 }


 Distortion TComRdCost::xGetSAD32( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetSADw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iSubShift  = pcDtParam->iSubShift;

   Int  iSubStep   = ( 1 << iSubShift );

   Int  iStrideCur = pcDtParam->iStrideCur*iSubStep;

   Int  iStrideOrg = pcDtParam->iStrideOrg*iSubStep;


   Distortion uiSum = 0;


 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   if( pcDtParam->bitDepth <= 10 )

   {

     for( ; iRows != 0; iRows-=iSubStep )

     {

       uiSum += simdSADLine8n16b( piOrg , piCur , 32 );

       piOrg += iStrideOrg;

       piCur += iStrideCur;

     }

   }

   else

   {

 #endif

   for( ; iRows != 0; iRows-=iSubStep )

   {

     uiSum += abs( piOrg[0] - piCur[0] );

     uiSum += abs( piOrg[1] - piCur[1] );

     uiSum += abs( piOrg[2] - piCur[2] );

     uiSum += abs( piOrg[3] - piCur[3] );

     uiSum += abs( piOrg[4] - piCur[4] );

     uiSum += abs( piOrg[5] - piCur[5] );

     uiSum += abs( piOrg[6] - piCur[6] );

     uiSum += abs( piOrg[7] - piCur[7] );

     uiSum += abs( piOrg[8] - piCur[8] );

     uiSum += abs( piOrg[9] - piCur[9] );

     uiSum += abs( piOrg[10] - piCur[10] );

     uiSum += abs( piOrg[11] - piCur[11] );

     uiSum += abs( piOrg[12] - piCur[12] );

     uiSum += abs( piOrg[13] - piCur[13] );

     uiSum += abs( piOrg[14] - piCur[14] );

     uiSum += abs( piOrg[15] - piCur[15] );

     uiSum += abs( piOrg[16] - piCur[16] );

     uiSum += abs( piOrg[17] - piCur[17] );

     uiSum += abs( piOrg[18] - piCur[18] );

     uiSum += abs( piOrg[19] - piCur[19] );

     uiSum += abs( piOrg[20] - piCur[20] );

     uiSum += abs( piOrg[21] - piCur[21] );

     uiSum += abs( piOrg[22] - piCur[22] );

     uiSum += abs( piOrg[23] - piCur[23] );

     uiSum += abs( piOrg[24] - piCur[24] );

     uiSum += abs( piOrg[25] - piCur[25] );

     uiSum += abs( piOrg[26] - piCur[26] );

     uiSum += abs( piOrg[27] - piCur[27] );

     uiSum += abs( piOrg[28] - piCur[28] );

     uiSum += abs( piOrg[29] - piCur[29] );

     uiSum += abs( piOrg[30] - piCur[30] );

     uiSum += abs( piOrg[31] - piCur[31] );


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   }

 #endif


   uiSum <<= iSubShift;

   return ( uiSum >> DISTORTION_PRECISION_ADJUSTMENT(pcDtParam->bitDepth-8) );

 }


 Distortion TComRdCost::xGetSAD24( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetSADw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iSubShift  = pcDtParam->iSubShift;

   Int  iSubStep   = ( 1 << iSubShift );

   Int  iStrideCur = pcDtParam->iStrideCur*iSubStep;

   Int  iStrideOrg = pcDtParam->iStrideOrg*iSubStep;


   Distortion uiSum = 0;


 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   if( pcDtParam->bitDepth <= 10 )

   {

     for( ; iRows != 0; iRows-=iSubStep )

     {

       uiSum += simdSADLine8n16b( piOrg , piCur , 24 );

       piOrg += iStrideOrg;

       piCur += iStrideCur;

     }

   }

   else

   {

 #endif

   for( ; iRows != 0; iRows-=iSubStep )

   {

     uiSum += abs( piOrg[0] - piCur[0] );

     uiSum += abs( piOrg[1] - piCur[1] );

     uiSum += abs( piOrg[2] - piCur[2] );

     uiSum += abs( piOrg[3] - piCur[3] );

     uiSum += abs( piOrg[4] - piCur[4] );

     uiSum += abs( piOrg[5] - piCur[5] );

     uiSum += abs( piOrg[6] - piCur[6] );

     uiSum += abs( piOrg[7] - piCur[7] );

     uiSum += abs( piOrg[8] - piCur[8] );

     uiSum += abs( piOrg[9] - piCur[9] );

     uiSum += abs( piOrg[10] - piCur[10] );

     uiSum += abs( piOrg[11] - piCur[11] );

     uiSum += abs( piOrg[12] - piCur[12] );

     uiSum += abs( piOrg[13] - piCur[13] );

     uiSum += abs( piOrg[14] - piCur[14] );

     uiSum += abs( piOrg[15] - piCur[15] );

     uiSum += abs( piOrg[16] - piCur[16] );

     uiSum += abs( piOrg[17] - piCur[17] );

     uiSum += abs( piOrg[18] - piCur[18] );

     uiSum += abs( piOrg[19] - piCur[19] );

     uiSum += abs( piOrg[20] - piCur[20] );

     uiSum += abs( piOrg[21] - piCur[21] );

     uiSum += abs( piOrg[22] - piCur[22] );

     uiSum += abs( piOrg[23] - piCur[23] );


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   }

 #endif


   uiSum <<= iSubShift;

   return ( uiSum >> DISTORTION_PRECISION_ADJUSTMENT(pcDtParam->bitDepth-8) );

 }


 Distortion TComRdCost::xGetSAD64( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetSADw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iSubShift  = pcDtParam->iSubShift;

   Int  iSubStep   = ( 1 << iSubShift );

   Int  iStrideCur = pcDtParam->iStrideCur*iSubStep;

   Int  iStrideOrg = pcDtParam->iStrideOrg*iSubStep;


   Distortion uiSum = 0;


 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   if( pcDtParam->bitDepth <= 10 )

   {

     for( ; iRows != 0; iRows-=iSubStep )

     {

       uiSum += simdSADLine8n16b( piOrg , piCur , 64 );

       piOrg += iStrideOrg;

       piCur += iStrideCur;

     }

   }

   else

   {

 #endif

   for( ; iRows != 0; iRows-=iSubStep )

   {

     uiSum += abs( piOrg[0] - piCur[0] );

     uiSum += abs( piOrg[1] - piCur[1] );

     uiSum += abs( piOrg[2] - piCur[2] );

     uiSum += abs( piOrg[3] - piCur[3] );

     uiSum += abs( piOrg[4] - piCur[4] );

     uiSum += abs( piOrg[5] - piCur[5] );

     uiSum += abs( piOrg[6] - piCur[6] );

     uiSum += abs( piOrg[7] - piCur[7] );

     uiSum += abs( piOrg[8] - piCur[8] );

     uiSum += abs( piOrg[9] - piCur[9] );

     uiSum += abs( piOrg[10] - piCur[10] );

     uiSum += abs( piOrg[11] - piCur[11] );

     uiSum += abs( piOrg[12] - piCur[12] );

     uiSum += abs( piOrg[13] - piCur[13] );

     uiSum += abs( piOrg[14] - piCur[14] );

     uiSum += abs( piOrg[15] - piCur[15] );

     uiSum += abs( piOrg[16] - piCur[16] );

     uiSum += abs( piOrg[17] - piCur[17] );

     uiSum += abs( piOrg[18] - piCur[18] );

     uiSum += abs( piOrg[19] - piCur[19] );

     uiSum += abs( piOrg[20] - piCur[20] );

     uiSum += abs( piOrg[21] - piCur[21] );

     uiSum += abs( piOrg[22] - piCur[22] );

     uiSum += abs( piOrg[23] - piCur[23] );

     uiSum += abs( piOrg[24] - piCur[24] );

     uiSum += abs( piOrg[25] - piCur[25] );

     uiSum += abs( piOrg[26] - piCur[26] );

     uiSum += abs( piOrg[27] - piCur[27] );

     uiSum += abs( piOrg[28] - piCur[28] );

     uiSum += abs( piOrg[29] - piCur[29] );

     uiSum += abs( piOrg[30] - piCur[30] );

     uiSum += abs( piOrg[31] - piCur[31] );

     uiSum += abs( piOrg[32] - piCur[32] );

     uiSum += abs( piOrg[33] - piCur[33] );

     uiSum += abs( piOrg[34] - piCur[34] );

     uiSum += abs( piOrg[35] - piCur[35] );

     uiSum += abs( piOrg[36] - piCur[36] );

     uiSum += abs( piOrg[37] - piCur[37] );

     uiSum += abs( piOrg[38] - piCur[38] );

     uiSum += abs( piOrg[39] - piCur[39] );

     uiSum += abs( piOrg[40] - piCur[40] );

     uiSum += abs( piOrg[41] - piCur[41] );

     uiSum += abs( piOrg[42] - piCur[42] );

     uiSum += abs( piOrg[43] - piCur[43] );

     uiSum += abs( piOrg[44] - piCur[44] );

     uiSum += abs( piOrg[45] - piCur[45] );

     uiSum += abs( piOrg[46] - piCur[46] );

     uiSum += abs( piOrg[47] - piCur[47] );

     uiSum += abs( piOrg[48] - piCur[48] );

     uiSum += abs( piOrg[49] - piCur[49] );

     uiSum += abs( piOrg[50] - piCur[50] );

     uiSum += abs( piOrg[51] - piCur[51] );

     uiSum += abs( piOrg[52] - piCur[52] );

     uiSum += abs( piOrg[53] - piCur[53] );

     uiSum += abs( piOrg[54] - piCur[54] );

     uiSum += abs( piOrg[55] - piCur[55] );

     uiSum += abs( piOrg[56] - piCur[56] );

     uiSum += abs( piOrg[57] - piCur[57] );

     uiSum += abs( piOrg[58] - piCur[58] );

     uiSum += abs( piOrg[59] - piCur[59] );

     uiSum += abs( piOrg[60] - piCur[60] );

     uiSum += abs( piOrg[61] - piCur[61] );

     uiSum += abs( piOrg[62] - piCur[62] );

     uiSum += abs( piOrg[63] - piCur[63] );


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   }

 #endif


   uiSum <<= iSubShift;

   return ( uiSum >> DISTORTION_PRECISION_ADJUSTMENT(pcDtParam->bitDepth-8) );

 }


 Distortion TComRdCost::xGetSAD48( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetSADw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iSubShift  = pcDtParam->iSubShift;

   Int  iSubStep   = ( 1 << iSubShift );

   Int  iStrideCur = pcDtParam->iStrideCur*iSubStep;

   Int  iStrideOrg = pcDtParam->iStrideOrg*iSubStep;


   Distortion uiSum = 0;


 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   if( pcDtParam->bitDepth <= 10 )

   {

     for( ; iRows != 0; iRows-=iSubStep )

     {

       uiSum += simdSADLine8n16b( piOrg , piCur , 48 );

       piOrg += iStrideOrg;

       piCur += iStrideCur;

     }

   }

   else

   {

 #endif

   for( ; iRows != 0; iRows-=iSubStep )

   {

     uiSum += abs( piOrg[0] - piCur[0] );

     uiSum += abs( piOrg[1] - piCur[1] );

     uiSum += abs( piOrg[2] - piCur[2] );

     uiSum += abs( piOrg[3] - piCur[3] );

     uiSum += abs( piOrg[4] - piCur[4] );

     uiSum += abs( piOrg[5] - piCur[5] );

     uiSum += abs( piOrg[6] - piCur[6] );

     uiSum += abs( piOrg[7] - piCur[7] );

     uiSum += abs( piOrg[8] - piCur[8] );

     uiSum += abs( piOrg[9] - piCur[9] );

     uiSum += abs( piOrg[10] - piCur[10] );

     uiSum += abs( piOrg[11] - piCur[11] );

     uiSum += abs( piOrg[12] - piCur[12] );

     uiSum += abs( piOrg[13] - piCur[13] );

     uiSum += abs( piOrg[14] - piCur[14] );

     uiSum += abs( piOrg[15] - piCur[15] );

     uiSum += abs( piOrg[16] - piCur[16] );

     uiSum += abs( piOrg[17] - piCur[17] );

     uiSum += abs( piOrg[18] - piCur[18] );

     uiSum += abs( piOrg[19] - piCur[19] );

     uiSum += abs( piOrg[20] - piCur[20] );

     uiSum += abs( piOrg[21] - piCur[21] );

     uiSum += abs( piOrg[22] - piCur[22] );

     uiSum += abs( piOrg[23] - piCur[23] );

     uiSum += abs( piOrg[24] - piCur[24] );

     uiSum += abs( piOrg[25] - piCur[25] );

     uiSum += abs( piOrg[26] - piCur[26] );

     uiSum += abs( piOrg[27] - piCur[27] );

     uiSum += abs( piOrg[28] - piCur[28] );

     uiSum += abs( piOrg[29] - piCur[29] );

     uiSum += abs( piOrg[30] - piCur[30] );

     uiSum += abs( piOrg[31] - piCur[31] );

     uiSum += abs( piOrg[32] - piCur[32] );

     uiSum += abs( piOrg[33] - piCur[33] );

     uiSum += abs( piOrg[34] - piCur[34] );

     uiSum += abs( piOrg[35] - piCur[35] );

     uiSum += abs( piOrg[36] - piCur[36] );

     uiSum += abs( piOrg[37] - piCur[37] );

     uiSum += abs( piOrg[38] - piCur[38] );

     uiSum += abs( piOrg[39] - piCur[39] );

     uiSum += abs( piOrg[40] - piCur[40] );

     uiSum += abs( piOrg[41] - piCur[41] );

     uiSum += abs( piOrg[42] - piCur[42] );

     uiSum += abs( piOrg[43] - piCur[43] );

     uiSum += abs( piOrg[44] - piCur[44] );

     uiSum += abs( piOrg[45] - piCur[45] );

     uiSum += abs( piOrg[46] - piCur[46] );

     uiSum += abs( piOrg[47] - piCur[47] );


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   }

 #endif


   uiSum <<= iSubShift;

   return ( uiSum >> DISTORTION_PRECISION_ADJUSTMENT(pcDtParam->bitDepth-8) );

 }


 // --------------------------------------------------------------------------------------------------------------------

 // SSE

 // --------------------------------------------------------------------------------------------------------------------


 Distortion TComRdCost::xGetSSE( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetSSEw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iCols   = pcDtParam->iCols;

   Int  iStrideOrg = pcDtParam->iStrideOrg;

   Int  iStrideCur = pcDtParam->iStrideCur;


   Distortion uiSum   = 0;

   UInt       uiShift = DISTORTION_PRECISION_ADJUSTMENT((pcDtParam->bitDepth-8) << 1);


   Intermediate_Int iTemp;


   for( ; iRows != 0; iRows-- )

   {

     for (Int n = 0; n < iCols; n++ )

     {

       iTemp = piOrg[n  ] - piCur[n  ];

       uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     }

     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }


   return ( uiSum );

 }


 Distortion TComRdCost::xGetSSE4( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     assert( pcDtParam->iCols == 4 );

     return TComRdCostWeightPrediction::xGetSSEw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iStrideOrg = pcDtParam->iStrideOrg;

   Int  iStrideCur = pcDtParam->iStrideCur;


   Distortion uiSum   = 0;

   UInt       uiShift = DISTORTION_PRECISION_ADJUSTMENT((pcDtParam->bitDepth-8) << 1);


   Intermediate_Int  iTemp;


   for( ; iRows != 0; iRows-- )

   {


     iTemp = piOrg[0] - piCur[0]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[1] - piCur[1]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[2] - piCur[2]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[3] - piCur[3]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }


   return ( uiSum );

 }


 Distortion TComRdCost::xGetSSE8( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     assert( pcDtParam->iCols == 8 );

     return TComRdCostWeightPrediction::xGetSSEw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iStrideOrg = pcDtParam->iStrideOrg;

   Int  iStrideCur = pcDtParam->iStrideCur;


   Distortion uiSum   = 0;

   UInt       uiShift = DISTORTION_PRECISION_ADJUSTMENT((pcDtParam->bitDepth-8) << 1);


   Intermediate_Int  iTemp;


   for( ; iRows != 0; iRows-- )

   {

     iTemp = piOrg[0] - piCur[0]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[1] - piCur[1]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[2] - piCur[2]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[3] - piCur[3]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[4] - piCur[4]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[5] - piCur[5]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[6] - piCur[6]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[7] - piCur[7]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }


   return ( uiSum );

 }


 Distortion TComRdCost::xGetSSE16( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     assert( pcDtParam->iCols == 16 );

     return TComRdCostWeightPrediction::xGetSSEw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iStrideOrg = pcDtParam->iStrideOrg;

   Int  iStrideCur = pcDtParam->iStrideCur;


   Distortion uiSum   = 0;

   UInt       uiShift = DISTORTION_PRECISION_ADJUSTMENT((pcDtParam->bitDepth-8) << 1);


   Intermediate_Int  iTemp;


   for( ; iRows != 0; iRows-- )

   {


     iTemp = piOrg[ 0] - piCur[ 0]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 1] - piCur[ 1]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 2] - piCur[ 2]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 3] - piCur[ 3]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 4] - piCur[ 4]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 5] - piCur[ 5]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 6] - piCur[ 6]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 7] - piCur[ 7]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 8] - piCur[ 8]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 9] - piCur[ 9]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[10] - piCur[10]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[11] - piCur[11]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[12] - piCur[12]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[13] - piCur[13]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[14] - piCur[14]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[15] - piCur[15]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }


   return ( uiSum );

 }


 Distortion TComRdCost::xGetSSE16N( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetSSEw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iCols   = pcDtParam->iCols;

   Int  iStrideOrg = pcDtParam->iStrideOrg;

   Int  iStrideCur = pcDtParam->iStrideCur;


   Distortion uiSum   = 0;

   UInt       uiShift = DISTORTION_PRECISION_ADJUSTMENT((pcDtParam->bitDepth-8) << 1);


   Intermediate_Int  iTemp;


   for( ; iRows != 0; iRows-- )

   {

     for (Int n = 0; n < iCols; n+=16 )

     {


       iTemp = piOrg[n+ 0] - piCur[n+ 0]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+ 1] - piCur[n+ 1]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+ 2] - piCur[n+ 2]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+ 3] - piCur[n+ 3]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+ 4] - piCur[n+ 4]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+ 5] - piCur[n+ 5]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+ 6] - piCur[n+ 6]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+ 7] - piCur[n+ 7]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+ 8] - piCur[n+ 8]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+ 9] - piCur[n+ 9]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+10] - piCur[n+10]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+11] - piCur[n+11]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+12] - piCur[n+12]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+13] - piCur[n+13]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+14] - piCur[n+14]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

       iTemp = piOrg[n+15] - piCur[n+15]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);


     }

     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }


   return ( uiSum );

 }


 Distortion TComRdCost::xGetSSE32( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     assert( pcDtParam->iCols == 32 );

     return TComRdCostWeightPrediction::xGetSSEw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iStrideOrg = pcDtParam->iStrideOrg;

   Int  iStrideCur = pcDtParam->iStrideCur;


   Distortion uiSum   = 0;

   UInt       uiShift = DISTORTION_PRECISION_ADJUSTMENT((pcDtParam->bitDepth-8) << 1);


   Intermediate_Int  iTemp;


   for( ; iRows != 0; iRows-- )

   {


     iTemp = piOrg[ 0] - piCur[ 0]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 1] - piCur[ 1]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 2] - piCur[ 2]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 3] - piCur[ 3]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 4] - piCur[ 4]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 5] - piCur[ 5]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 6] - piCur[ 6]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 7] - piCur[ 7]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 8] - piCur[ 8]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 9] - piCur[ 9]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[10] - piCur[10]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[11] - piCur[11]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[12] - piCur[12]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[13] - piCur[13]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[14] - piCur[14]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[15] - piCur[15]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[16] - piCur[16]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[17] - piCur[17]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[18] - piCur[18]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[19] - piCur[19]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[20] - piCur[20]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[21] - piCur[21]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[22] - piCur[22]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[23] - piCur[23]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[24] - piCur[24]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[25] - piCur[25]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[26] - piCur[26]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[27] - piCur[27]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[28] - piCur[28]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[29] - piCur[29]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[30] - piCur[30]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[31] - piCur[31]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }


   return ( uiSum );

 }


 Distortion TComRdCost::xGetSSE64( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     assert( pcDtParam->iCols == 64 );

     return TComRdCostWeightPrediction::xGetSSEw( pcDtParam );

   }

   const Pel* piOrg   = pcDtParam->pOrg;

   const Pel* piCur   = pcDtParam->pCur;

   Int  iRows   = pcDtParam->iRows;

   Int  iStrideOrg = pcDtParam->iStrideOrg;

   Int  iStrideCur = pcDtParam->iStrideCur;


   Distortion uiSum   = 0;

   UInt       uiShift = DISTORTION_PRECISION_ADJUSTMENT((pcDtParam->bitDepth-8) << 1);


   Intermediate_Int  iTemp;


   for( ; iRows != 0; iRows-- )

   {

     iTemp = piOrg[ 0] - piCur[ 0]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 1] - piCur[ 1]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 2] - piCur[ 2]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 3] - piCur[ 3]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 4] - piCur[ 4]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 5] - piCur[ 5]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 6] - piCur[ 6]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 7] - piCur[ 7]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 8] - piCur[ 8]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[ 9] - piCur[ 9]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[10] - piCur[10]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[11] - piCur[11]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[12] - piCur[12]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[13] - piCur[13]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[14] - piCur[14]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[15] - piCur[15]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[16] - piCur[16]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[17] - piCur[17]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[18] - piCur[18]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[19] - piCur[19]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[20] - piCur[20]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[21] - piCur[21]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[22] - piCur[22]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[23] - piCur[23]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[24] - piCur[24]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[25] - piCur[25]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[26] - piCur[26]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[27] - piCur[27]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[28] - piCur[28]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[29] - piCur[29]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[30] - piCur[30]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[31] - piCur[31]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[32] - piCur[32]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[33] - piCur[33]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[34] - piCur[34]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[35] - piCur[35]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[36] - piCur[36]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[37] - piCur[37]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[38] - piCur[38]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[39] - piCur[39]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[40] - piCur[40]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[41] - piCur[41]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[42] - piCur[42]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[43] - piCur[43]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[44] - piCur[44]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[45] - piCur[45]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[46] - piCur[46]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[47] - piCur[47]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[48] - piCur[48]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[49] - piCur[49]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[50] - piCur[50]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[51] - piCur[51]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[52] - piCur[52]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[53] - piCur[53]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[54] - piCur[54]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[55] - piCur[55]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[56] - piCur[56]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[57] - piCur[57]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[58] - piCur[58]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[59] - piCur[59]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[60] - piCur[60]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[61] - piCur[61]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[62] - piCur[62]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);

     iTemp = piOrg[63] - piCur[63]; uiSum += Distortion(( iTemp * iTemp ) >> uiShift);


     piOrg += iStrideOrg;

     piCur += iStrideCur;

   }


   return ( uiSum );

 }


 // --------------------------------------------------------------------------------------------------------------------

 // HADAMARD with step (used in fractional search)

 // --------------------------------------------------------------------------------------------------------------------


 Distortion TComRdCost::xCalcHADs2x2( const Pel *piOrg, const Pel *piCur, Int iStrideOrg, Int iStrideCur, Int iStep )

 {

   Distortion satd = 0;

   TCoeff diff[4], m[4];

   assert( iStep == 1 );

   diff[0] = piOrg[0             ] - piCur[0];

   diff[1] = piOrg[1             ] - piCur[1];

   diff[2] = piOrg[iStrideOrg    ] - piCur[0 + iStrideCur];

   diff[3] = piOrg[iStrideOrg + 1] - piCur[1 + iStrideCur];

   m[0] = diff[0] + diff[2];

   m[1] = diff[1] + diff[3];

   m[2] = diff[0] - diff[2];

   m[3] = diff[1] - diff[3];


   satd += abs(m[0] + m[1]);

   satd += abs(m[0] - m[1]);

   satd += abs(m[2] + m[3]);

   satd += abs(m[2] - m[3]);


   return satd;

 }


 Distortion TComRdCost::xCalcHADs4x4( const Pel *piOrg, const Pel *piCur, Int iStrideOrg, Int iStrideCur, Int iStep )

 {

   Int k;

   Distortion satd = 0;

   TCoeff diff[16], m[16], d[16];


   assert( iStep == 1 );

   for( k = 0; k < 16; k+=4 )

   {

     diff[k+0] = piOrg[0] - piCur[0];

     diff[k+1] = piOrg[1] - piCur[1];

     diff[k+2] = piOrg[2] - piCur[2];

     diff[k+3] = piOrg[3] - piCur[3];


     piCur += iStrideCur;

     piOrg += iStrideOrg;

   }


   /*===== hadamard transform =====*/

   m[ 0] = diff[ 0] + diff[12];

   m[ 1] = diff[ 1] + diff[13];

   m[ 2] = diff[ 2] + diff[14];

   m[ 3] = diff[ 3] + diff[15];

   m[ 4] = diff[ 4] + diff[ 8];

   m[ 5] = diff[ 5] + diff[ 9];

   m[ 6] = diff[ 6] + diff[10];

   m[ 7] = diff[ 7] + diff[11];

   m[ 8] = diff[ 4] - diff[ 8];

   m[ 9] = diff[ 5] - diff[ 9];

   m[10] = diff[ 6] - diff[10];

   m[11] = diff[ 7] - diff[11];

   m[12] = diff[ 0] - diff[12];

   m[13] = diff[ 1] - diff[13];

   m[14] = diff[ 2] - diff[14];

   m[15] = diff[ 3] - diff[15];


   d[ 0] = m[ 0] + m[ 4];

   d[ 1] = m[ 1] + m[ 5];

   d[ 2] = m[ 2] + m[ 6];

   d[ 3] = m[ 3] + m[ 7];

   d[ 4] = m[ 8] + m[12];

   d[ 5] = m[ 9] + m[13];

   d[ 6] = m[10] + m[14];

   d[ 7] = m[11] + m[15];

   d[ 8] = m[ 0] - m[ 4];

   d[ 9] = m[ 1] - m[ 5];

   d[10] = m[ 2] - m[ 6];

   d[11] = m[ 3] - m[ 7];

   d[12] = m[12] - m[ 8];

   d[13] = m[13] - m[ 9];

   d[14] = m[14] - m[10];

   d[15] = m[15] - m[11];


   m[ 0] = d[ 0] + d[ 3];

   m[ 1] = d[ 1] + d[ 2];

   m[ 2] = d[ 1] - d[ 2];

   m[ 3] = d[ 0] - d[ 3];

   m[ 4] = d[ 4] + d[ 7];

   m[ 5] = d[ 5] + d[ 6];

   m[ 6] = d[ 5] - d[ 6];

   m[ 7] = d[ 4] - d[ 7];

   m[ 8] = d[ 8] + d[11];

   m[ 9] = d[ 9] + d[10];

   m[10] = d[ 9] - d[10];

   m[11] = d[ 8] - d[11];

   m[12] = d[12] + d[15];

   m[13] = d[13] + d[14];

   m[14] = d[13] - d[14];

   m[15] = d[12] - d[15];


   d[ 0] = m[ 0] + m[ 1];

   d[ 1] = m[ 0] - m[ 1];

   d[ 2] = m[ 2] + m[ 3];

   d[ 3] = m[ 3] - m[ 2];

   d[ 4] = m[ 4] + m[ 5];

   d[ 5] = m[ 4] - m[ 5];

   d[ 6] = m[ 6] + m[ 7];

   d[ 7] = m[ 7] - m[ 6];

   d[ 8] = m[ 8] + m[ 9];

   d[ 9] = m[ 8] - m[ 9];

   d[10] = m[10] + m[11];

   d[11] = m[11] - m[10];

   d[12] = m[12] + m[13];

   d[13] = m[12] - m[13];

   d[14] = m[14] + m[15];

   d[15] = m[15] - m[14];


   for (k=0; k<16; ++k)

   {

     satd += abs(d[k]);

   }

   satd = ((satd+1)>>1);


   return satd;

 }


 Distortion TComRdCost::xCalcHADs8x8( const Pel *piOrg, const Pel *piCur, Int iStrideOrg, Int iStrideCur, Int iStep

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   , Int bitDepth

 #endif

   )

 {

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

   if( bitDepth <= 10 )

   {

     return( simdHADs8x8( piOrg , piCur , iStrideOrg , iStrideCur ) );

   }

 #endif

   Int k, i, j, jj;

   Distortion sad = 0;

   TCoeff diff[64], m1[8][8], m2[8][8], m3[8][8];

   assert( iStep == 1 );

   for( k = 0; k < 64; k += 8 )

   {

     diff[k+0] = piOrg[0] - piCur[0];

     diff[k+1] = piOrg[1] - piCur[1];

     diff[k+2] = piOrg[2] - piCur[2];

     diff[k+3] = piOrg[3] - piCur[3];

     diff[k+4] = piOrg[4] - piCur[4];

     diff[k+5] = piOrg[5] - piCur[5];

     diff[k+6] = piOrg[6] - piCur[6];

     diff[k+7] = piOrg[7] - piCur[7];


     piCur += iStrideCur;

     piOrg += iStrideOrg;

   }


   //horizontal

   for (j=0; j < 8; j++)

   {

     jj = j << 3;

     m2[j][0] = diff[jj  ] + diff[jj+4];

     m2[j][1] = diff[jj+1] + diff[jj+5];

     m2[j][2] = diff[jj+2] + diff[jj+6];

     m2[j][3] = diff[jj+3] + diff[jj+7];

     m2[j][4] = diff[jj  ] - diff[jj+4];

     m2[j][5] = diff[jj+1] - diff[jj+5];

     m2[j][6] = diff[jj+2] - diff[jj+6];

     m2[j][7] = diff[jj+3] - diff[jj+7];


     m1[j][0] = m2[j][0] + m2[j][2];

     m1[j][1] = m2[j][1] + m2[j][3];

     m1[j][2] = m2[j][0] - m2[j][2];

     m1[j][3] = m2[j][1] - m2[j][3];

     m1[j][4] = m2[j][4] + m2[j][6];

     m1[j][5] = m2[j][5] + m2[j][7];

     m1[j][6] = m2[j][4] - m2[j][6];

     m1[j][7] = m2[j][5] - m2[j][7];


     m2[j][0] = m1[j][0] + m1[j][1];

     m2[j][1] = m1[j][0] - m1[j][1];

     m2[j][2] = m1[j][2] + m1[j][3];

     m2[j][3] = m1[j][2] - m1[j][3];

     m2[j][4] = m1[j][4] + m1[j][5];

     m2[j][5] = m1[j][4] - m1[j][5];

     m2[j][6] = m1[j][6] + m1[j][7];

     m2[j][7] = m1[j][6] - m1[j][7];

   }


   //vertical

   for (i=0; i < 8; i++)

   {

     m3[0][i] = m2[0][i] + m2[4][i];

     m3[1][i] = m2[1][i] + m2[5][i];

     m3[2][i] = m2[2][i] + m2[6][i];

     m3[3][i] = m2[3][i] + m2[7][i];

     m3[4][i] = m2[0][i] - m2[4][i];

     m3[5][i] = m2[1][i] - m2[5][i];

     m3[6][i] = m2[2][i] - m2[6][i];

     m3[7][i] = m2[3][i] - m2[7][i];


     m1[0][i] = m3[0][i] + m3[2][i];

     m1[1][i] = m3[1][i] + m3[3][i];

     m1[2][i] = m3[0][i] - m3[2][i];

     m1[3][i] = m3[1][i] - m3[3][i];

     m1[4][i] = m3[4][i] + m3[6][i];

     m1[5][i] = m3[5][i] + m3[7][i];

     m1[6][i] = m3[4][i] - m3[6][i];

     m1[7][i] = m3[5][i] - m3[7][i];


     m2[0][i] = m1[0][i] + m1[1][i];

     m2[1][i] = m1[0][i] - m1[1][i];

     m2[2][i] = m1[2][i] + m1[3][i];

     m2[3][i] = m1[2][i] - m1[3][i];

     m2[4][i] = m1[4][i] + m1[5][i];

     m2[5][i] = m1[4][i] - m1[5][i];

     m2[6][i] = m1[6][i] + m1[7][i];

     m2[7][i] = m1[6][i] - m1[7][i];

   }


   for (i = 0; i < 8; i++)

   {

     for (j = 0; j < 8; j++)

     {

       sad += abs(m2[i][j]);

     }

   }


   sad=((sad+2)>>2);


   return sad;

 }


 Distortion TComRdCost::xGetHADs( DistParam* pcDtParam )

 {

   if ( pcDtParam->bApplyWeight )

   {

     return TComRdCostWeightPrediction::xGetHADsw( pcDtParam );

   }

   const Pel* piOrg      = pcDtParam->pOrg;

   const Pel* piCur      = pcDtParam->pCur;

   const Int  iRows      = pcDtParam->iRows;

   const Int  iCols      = pcDtParam->iCols;

   const Int  iStrideCur = pcDtParam->iStrideCur;

   const Int  iStrideOrg = pcDtParam->iStrideOrg;

   const Int  iStep      = pcDtParam->iStep;


   Int  x, y;


   Distortion uiSum = 0;


   if( ( iRows % 8 == 0) && (iCols % 8 == 0) )

   {

     Int  iOffsetOrg = iStrideOrg<<3;

     Int  iOffsetCur = iStrideCur<<3;

     for ( y=0; y<iRows; y+= 8 )

     {

       for ( x=0; x<iCols; x+= 8 )

       {

         uiSum += xCalcHADs8x8( &piOrg[x], &piCur[x*iStep], iStrideOrg, iStrideCur, iStep

 #if VECTOR_CODING__DISTORTION_CALCULATIONS && (RExt__HIGH_BIT_DEPTH_SUPPORT==0)

           , pcDtParam->bitDepth

 #endif

                             );

       }

       piOrg += iOffsetOrg;

       piCur += iOffsetCur;

     }

   }

   else if( ( iRows % 4 == 0) && (iCols % 4 == 0) )

   {

     Int  iOffsetOrg = iStrideOrg<<2;

     Int  iOffsetCur = iStrideCur<<2;


     for ( y=0; y<iRows; y+= 4 )

     {

       for ( x=0; x<iCols; x+= 4 )

       {

         uiSum += xCalcHADs4x4( &piOrg[x], &piCur[x*iStep], iStrideOrg, iStrideCur, iStep );

       }

       piOrg += iOffsetOrg;

       piCur += iOffsetCur;

     }

   }

   else if( ( iRows % 2 == 0) && (iCols % 2 == 0) )

   {

     Int  iOffsetOrg = iStrideOrg<<1;

     Int  iOffsetCur = iStrideCur<<1;

     for ( y=0; y<iRows; y+=2 )

     {

       for ( x=0; x<iCols; x+=2 )

       {

         uiSum += xCalcHADs2x2( &piOrg[x], &piCur[x*iStep], iStrideOrg, iStrideCur, iStep );

       }

       piOrg += iOffsetOrg;

       piCur += iOffsetCur;

     }

   }

   else

   {

     assert(false);

   }


   return ( uiSum >> DISTORTION_PRECISION_ADJUSTMENT(pcDtParam->bitDepth-8) );

 }


g_aucConvertToBit
SChar g_aucConvertToBit[MAX_CU_SIZE+1]
Definition: TComRom.cpp:572

DF_SSE8
8xM SSE
Definition: TypeDef.h:384

BitDepths
Definition: TypeDef.h:787

DF_SADS8
8xM SAD with step
Definition: TypeDef.h:400

DF_HADS4
4xM HAD with step
Definition: TypeDef.h:407

DistParam::iCols
Int iCols
Definition: TComRdCost.h:75

DistParam::iRows
Int iRows
Definition: TComRdCost.h:74

Distortion
UInt Distortion
distortion measurement
Definition: TypeDef.h:260

DF_HADS8
8xM HAD with step
Definition: TypeDef.h:408

Void
void Void
Definition: TypeDef.h:203

TComRdCost::xGetSAD48
static Distortion xGetSAD48(DistParam *pcDtParam)
Definition: TComRdCost.cpp:1081

DistParam::pCur
const Pel * pCur
Definition: TComRdCost.h:71

MAX_NUM_COMPONENT
Definition: TypeDef.h:313

TComRdCost::m_dLambda
Double m_dLambda
Definition: TComRdCost.h:119

CHANNEL_TYPE_LUMA
Definition: TypeDef.h:303

DF_SADS24
Definition: TypeDef.h:419

TComRdCost::~TComRdCost
virtual ~TComRdCost()
Definition: TComRdCost.cpp:57

TComRdCost::xGetHADs
static Distortion xGetHADs(DistParam *pcDtParam)
Definition: TComRdCost.cpp:1753

TComRom.h
global variables &amp; functions (header)

TComRdCost::xGetSSE4
static Distortion xGetSSE4(DistParam *pcDtParam)
Definition: TComRdCost.cpp:1208

NULL
#define NULL
Definition: CommonDef.h:107

DF_SADS4
4xM SAD with step
Definition: TypeDef.h:399

TComRdCost::xGetSAD64
static Distortion xGetSAD64(DistParam *pcDtParam)
Definition: TComRdCost.cpp:974

TComPattern::getROIYHeight
Int getROIYHeight() const
Definition: TComPattern.h:76

TComPattern
neighbouring pixel access class for all components
Definition: TComPattern.h:55

TComRdCost.h
RD cost computation classes (header)

UInt
unsigned int UInt
Definition: TypeDef.h:212

DF_HADS16N
16NxM HAD with step
Definition: TypeDef.h:412

TComRdCost::xCalcHADs2x2
static Distortion xCalcHADs2x2(const Pel *piOrg, const Pel *piCurr, Int iStrideOrg, Int iStrideCur, Int iStep)
Definition: TComRdCost.cpp:1527

Pel
Short Pel
pixel type
Definition: TypeDef.h:249

TComRdCost::xGetSSE
static Distortion xGetSSE(DistParam *pcDtParam)
Definition: TComRdCost.cpp:1176

TComRdCost::m_dLambdaMotionSAD
Double m_dLambdaMotionSAD[2]
Definition: TComRdCost.h:121

TComRdCost::xGetSAD32
static Distortion xGetSAD32(DistParam *pcDtParam)
Definition: TComRdCost.cpp:832

DF_SAD48
Definition: TypeDef.h:416

DF_SADS12
Definition: TypeDef.h:418

BitDepths::recon
Int recon[MAX_NUM_CHANNEL_TYPE]
the bit depth as indicated in the SPS
Definition: TypeDef.h:793

RExt__HIGH_BIT_DEPTH_SUPPORT
#define RExt__HIGH_BIT_DEPTH_SUPPORT
0 (default) use data type definitions for 8-10 bit video, 1 = use larger data types to allow for up t...
Definition: TypeDef.h:138

DF_SSE
general size SSE
Definition: TypeDef.h:382

DF_SSE16N
16NxM SSE
Definition: TypeDef.h:388

TComRdCost::xGetSAD24
static Distortion xGetSAD24(DistParam *pcDtParam)
Definition: TComRdCost.cpp:907

DF_SSE4
4xM SSE
Definition: TypeDef.h:383

TComRdCost::xCalcHADs8x8
static Distortion xCalcHADs8x8(const Pel *piOrg, const Pel *piCurr, Int iStrideOrg, Int iStrideCur, Int iStep)
Definition: TComRdCost.cpp:1645

TComRdCostWeightPrediction::xGetHADsw
Distortion xGetHADsw(DistParam *pcDtParam)
get weighted Hadamard cost
Definition: TComRdCostWeightPrediction.cpp:543

TComRdCost::m_iCostScale
Int m_iCostScale
Definition: TComRdCost.h:128

TComPattern::getROIYWidth
Int getROIYWidth() const
Definition: TComPattern.h:75

DF_SAD8
8xM SAD
Definition: TypeDef.h:392

Intermediate_Int
Int Intermediate_Int
used as intermediate value in calculations
Definition: TypeDef.h:253

TComRdCost::init
Void init()
Definition: TComRdCost.cpp:126

DistParam::iSubShift
Int iSubShift
During cost calculations, if distortion exceeds this value, cost calculations may early-terminate...
Definition: TComRdCost.h:89

TComRdCost::m_motionLambda
Double m_motionLambda
Definition: TComRdCost.h:127

TComRdCost::xCalcHADs4x4
static Distortion xCalcHADs4x4(const Pel *piOrg, const Pel *piCurr, Int iStrideOrg, Int iStrideCur, Int iStep)
Definition: TComRdCost.cpp:1549

DistParam::iStep
Int iStep
Definition: TComRdCost.h:76

Bool
bool Bool
Definition: TypeDef.h:204

DF_SADS16N
16NxM SAD with step
Definition: TypeDef.h:404

TComRdCost::calcRdCost
Double calcRdCost(Double numBits, Double distortion, DFunc eDFunc=DF_DEFAULT)
Definition: TComRdCost.cpp:62

TComRdCost::xGetSAD16
static Distortion xGetSAD16(DistParam *pcDtParam)
Definition: TComRdCost.cpp:676

LOSSLESS_AND_MIXED_LOSSLESS_RD_COST_TEST_QP_PRIME
static const Int LOSSLESS_AND_MIXED_LOSSLESS_RD_COST_TEST_QP_PRIME
QP&#39; to use for mixed_lossy_lossless coding.
Definition: CommonDef.h:211

TComRdCost::xGetSSE8
static Distortion xGetSSE8(DistParam *pcDtParam)
Definition: TComRdCost.cpp:1241

DistParam
distortion parameter class
Definition: TComRdCost.h:67

DistParam::iStrideOrg
Int iStrideOrg
Definition: TComRdCost.h:72

TComRdCost::xGetSSE16
static Distortion xGetSSE16(DistParam *pcDtParam)
Definition: TComRdCost.cpp:1277

TComRdCost::TComRdCost
TComRdCost()
Definition: TComRdCost.cpp:52

TComRdCost::xGetSSE16N
static Distortion xGetSSE16N(DistParam *pcDtParam)
Definition: TComRdCost.cpp:1322

TComRdCost::m_sqrtLambda
Double m_sqrtLambda
Definition: TComRdCost.h:120

TComRdCost::setLambda
Void setLambda(Double dLambda, const BitDepths &bitDepths)
Definition: TComRdCost.cpp:109

TComRdCost::xGetSSE64
static Distortion xGetSSE64(DistParam *pcDtParam)
Definition: TComRdCost.cpp:1431

TComRdCost::xGetSAD
static Distortion xGetSAD(DistParam *pcDtParam)
Definition: TComRdCost.cpp:518

DistParam::m_maximumDistortionForEarlyExit
Distortion m_maximumDistortionForEarlyExit
Definition: TComRdCost.h:85

DF_SAD
general size SAD
Definition: TypeDef.h:390

TCoeff
Int TCoeff
transform coefficient
Definition: TypeDef.h:250

DF_SADS16
16xM SAD with step
Definition: TypeDef.h:401

DistParam::compIdx
ComponentID compIdx
Definition: TComRdCost.h:84

DF_HADS64
64xM HAD with step
Definition: TypeDef.h:411

TComPattern::getROIY
__inline Pel * getROIY()
Definition: TComPattern.h:89

TComRdCost::m_dLambdaMotionSSE
Double m_dLambdaMotionSSE[2]
Definition: TComRdCost.h:122

DistParam::bApplyWeight
Bool bApplyWeight
Definition: TComRdCost.h:80

DF_SAD16N
16NxM SAD
Definition: TypeDef.h:396

DistParam::iStrideCur
Int iStrideCur
Definition: TComRdCost.h:73

TComRdCost::m_distortionWeight
Double m_distortionWeight[MAX_NUM_COMPONENT]
Definition: TComRdCost.h:118

DF_DEFAULT
Definition: TypeDef.h:381

TComRdCost::setDistParam
Void setDistParam(UInt uiBlkWidth, UInt uiBlkHeight, DFunc eDFunc, DistParam &rcDistParam)
Definition: TComRdCost.cpp:192

VECTOR_CODING__DISTORTION_CALCULATIONS
#define VECTOR_CODING__DISTORTION_CALCULATIONS
enable vector coding for distortion calculations 0 (default if SSE not possible) disable SSE vector c...
Definition: TypeDef.h:146

TComRdCost::xGetSAD4
static Distortion xGetSAD4(DistParam *pcDtParam)
Definition: TComRdCost.cpp:578

TComRdCost::m_dFrameLambda
Double m_dFrameLambda
Definition: TComRdCost.h:123

TComRdCost::xGetSSE32
static Distortion xGetSSE32(DistParam *pcDtParam)
Definition: TComRdCost.cpp:1370

DF_SAD32
32xM SAD
Definition: TypeDef.h:394

TComRdCost::xGetSAD16N
static Distortion xGetSAD16N(DistParam *pcDtParam)
Definition: TComRdCost.cpp:774

DistParam::bitDepth
Int bitDepth
Definition: TComRdCost.h:78

DF_HADS32
32xM HAD with step
Definition: TypeDef.h:410

DF_SSE32
32xM SSE
Definition: TypeDef.h:386

TComRdCost::m_costMode
CostMode m_costMode
Definition: TComRdCost.h:117

DistParam::DistFunc
FpDistFunc DistFunc
Definition: TComRdCost.h:77

COST_STANDARD_LOSSY
Definition: TypeDef.h:622

DF_SAD12
Definition: TypeDef.h:414

DF_HADS
general size Hadamard with step
Definition: TypeDef.h:406

DISTORTION_PRECISION_ADJUSTMENT
#define DISTORTION_PRECISION_ADJUSTMENT(x)
Definition: TypeDef.h:164

DF_SAD4
4xM SAD
Definition: TypeDef.h:391

TComRdCost::getDistPart
Distortion getDistPart(Int bitDepth, const Pel *piCur, Int iCurStride, const Pel *piOrg, Int iOrgStride, UInt uiBlkWidth, UInt uiBlkHeight, const ComponentID compID, DFunc eDFunc=DF_SSE)
Definition: TComRdCost.cpp:336

Int
int Int
Definition: TypeDef.h:211

isChroma
static Bool isChroma(const ComponentID id)
Definition: TComChromaFormat.h:56

ComponentID
ComponentID
Definition: TypeDef.h:308

TComRdCost::xGetExpGolombNumberOfBits
static UInt xGetExpGolombNumberOfBits(Int iVal)
Definition: TComRdCost.cpp:177

TComRdCost::m_afpDistortFunc
FpDistFunc m_afpDistortFunc[DF_TOTAL_FUNCTIONS]
Definition: TComRdCost.h:116

DF_SSE_FRAME
Frame-based SSE.
Definition: TypeDef.h:422

TComPattern::getPatternLStride
Int getPatternLStride() const
Definition: TComPattern.h:77

TComRdCost::xGetSAD12
static Distortion xGetSAD12(DistParam *pcDtParam)
Definition: TComRdCost.cpp:735

DF_SADS64
64xM SAD with step
Definition: TypeDef.h:403

Double
double Double
Definition: TypeDef.h:213

DF_SSE16
16xM SSE
Definition: TypeDef.h:385

TComRdCostWeightPrediction::xGetSSEw
Distortion xGetSSEw(DistParam *pcDtParam)
Definition: TComRdCostWeightPrediction.cpp:217

DF_SAD24
Definition: TypeDef.h:415

DF_SAD64
64xM SAD
Definition: TypeDef.h:395

DF_SADS32
32xM SAD with step
Definition: TypeDef.h:402

TComRdCost::calcHAD
Distortion calcHAD(Int bitDepth, const Pel *pi0, Int iStride0, const Pel *pi1, Int iStride1, Int iWidth, Int iHeight)
Definition: TComRdCost.cpp:297

TComRdCost::xGetSAD8
static Distortion xGetSAD8(DistParam *pcDtParam)
Definition: TComRdCost.cpp:625

DF_SADS48
Definition: TypeDef.h:420

DistParam::pOrg
const Pel * pOrg
Definition: TComRdCost.h:70

DF_HADS16
16xM HAD with step
Definition: TypeDef.h:409

TComRdCostWeightPrediction::xGetSADw
Distortion xGetSADw(DistParam *pcDtParam)
Definition: TComRdCostWeightPrediction.cpp:55

DF_SAD16
16xM SAD
Definition: TypeDef.h:393

DFunc
DFunc
distortion function index
Definition: TypeDef.h:379

DF_SSE64
64xM SSE
Definition: TypeDef.h:387

DF_SADS
general size SAD with step
Definition: TypeDef.h:398