在TI 的DSP 平台下优化AVS 的 IDCT 反变换的方法和代码

来源：互联网发布：淘宝素材中心作用编辑：程序博客网时间：2024/04/28 14:55

一， AVS标准规定的IDCT反变换

本条定义将8´8变换系数矩阵CoeffMatrix转换为8´8残差样值矩阵ResidueMatrix的过程，步骤如下：

00001—— 首先，对变换系数矩阵进行如下水平反变换：

H¢ = CoeffMatrix ´ T8T

其中，T 8是8´8反变换矩阵，T 8T是T8的转置矩阵， H¢ 表示水平反变换后的中间结果。从符合本部分的比特流中解码得到的H¢矩阵元素取值范围应为 –215～215–5。

8 10 10 9 8 6 4 2

8 9 4 -2 -8 -10 -10 -6

8 6 -4 -10 -8 2 10 9

8 2 -10 -6 8 9 -4 -10

T8 = 8 -2 -10 6 8 -9 -4 10

8 -6 -4 10 -8 -2 10 -9

8 -9 4 2 -8 10 -10 6

8 -10 10 -9 8 -6 4 -2

00002—— 第二步，对矩阵H¢中的每个系数加4再右移3位，得到矩阵H¢¢。

00003—— 第三步，对矩阵H¢¢进行如下垂直反变换：

H = T8 ´ H¢¢

其中，H表示反变换后的8´8矩阵。从符合本部分的比特流中解码得到的H矩阵元素取值范围应为 –215～215–65。

00004—— 第四步，残差样值矩阵ResidueMatrix的元素rij计算如下：

rij = (hij + 26) >> 7 i, j = 0..7

其中hij是H矩阵的元素。

二， C语言实现

void idct_c_dsp(short* blk)

{

int i, j;

short* b = blk;

short x[8];

int r[12];

int z[8];

for(i=0; i<8; i++, b+=8) // horizontal transform

{

for(j=0; j<8; j++)

{

x[j] = b[j];

}

r[0] = 8 * x[0] + 8 * x[4];

r[1] = 8 * x[0] - 8 * x[4];

r[2] = 10 * x[1] + 6 * x[5];

r[3] = 9 * x[1] - 10 * x[5];

r[4] = 6 * x[1] + 2 * x[5];

r[5] = 2 * x[1] + 9 * x[5];

r[6] = 10 * x[2] + 4 * x[6];

r[7] = 4 * x[2] - 10 * x[6];

r[8] = 9 * x[3] + 2 * x[7];

r[9] = 2 * x[3] + 6 * x[7];

r[10]= 10 * x[3] - 9 * x[7];

r[11]= 6 * x[3] + 10 * x[7];

z[0] = r[0] + r[6];

z[1] = r[2] + r[8];

z[2] = r[1] + r[7];

z[3] = r[3] - r[9];

z[4] = r[1] - r[7];

z[5] = r[4] - r[10];

z[6] = r[0] - r[6];

z[7] = r[5] - r[11];

b[0] = (short) (CLIP3(-32768, 32767, (z[0] + z[1] + 4)) >> 3);

b[1] = (short) (CLIP3(-32768, 32767, (z[2] + z[3] + 4)) >> 3);

b[2] = (short) (CLIP3(-32768, 32767, (z[4] + z[5] + 4)) >> 3);

b[3] = (short) (CLIP3(-32768, 32767, (z[6] + z[7] + 4)) >> 3);

b[4] = (short) (CLIP3(-32768, 32767, (z[6] - z[7] + 4)) >> 3);

b[5] = (short) (CLIP3(-32768, 32767, (z[4] - z[5] + 4)) >> 3);

b[6] = (short) (CLIP3(-32768, 32767, (z[2] - z[3] + 4)) >> 3);

b[7] = (short) (CLIP3(-32768, 32767, (z[0] - z[1] + 4)) >> 3);

}

b = blk;

for(i=0; i<8; i++, b+=1) // vertical transform

{

for(j=0; j<8; j++)

{

x[j] = b[j*8];

}

r[0] = 8 * x[0] + 8 * x[4]; // 0x080008

r[1] = 8 * x[0] - 8 * x[4]; // 0x080008

r[2] = 10 * x[1] + 6 * x[5]; // 0x0a0006

r[3] = 9 * x[1] - 10 * x[5]; // 0x09000a

r[4] = 6 * x[1] + 2 * x[5]; // 0x060002

r[5] = 2 * x[1] + 9 * x[5]; // 0x020009

r[6] = 10 * x[2] + 4 * x[6]; // 0x0a0004

r[7] = 4 * x[2] - 10 * x[6]; // 0x04000a

r[8] = 9 * x[3] + 2 * x[7]; // 0x090002

r[9] = 2 * x[3] + 6 * x[7]; // 0x020006

r[10]= 10 * x[3] - 9 * x[7]; // 0x0a0009

r[11]= 6 * x[3] + 10 * x[7]; // 0x06000a

z[0] = r[0] + r[6];

z[1] = r[2] + r[8];

z[2] = r[1] + r[7];

z[3] = r[3] - r[9];

z[4] = r[1] - r[7];

z[5] = r[4] - r[10];

z[6] = r[0] - r[6];

z[7] = r[5] - r[11];

b[0*8] = (short) (CLIP3(-32768, 32767, (z[0] + z[1] + 64)) >> 7);

b[1*8] = (short) (CLIP3(-32768, 32767, (z[2] + z[3] + 64)) >> 7);

b[2*8] = (short) (CLIP3(-32768, 32767, (z[4] + z[5] + 64)) >> 7);

b[3*8] = (short) (CLIP3(-32768, 32767, (z[6] + z[7] + 64)) >> 7);

b[4*8] = (short) (CLIP3(-32768, 32767, (z[6] - z[7] + 64)) >> 7);

b[5*8] = (short) (CLIP3(-32768, 32767, (z[4] - z[5] + 64)) >> 7);

b[6*8] = (short) (CLIP3(-32768, 32767, (z[2] - z[3] + 64)) >> 7);

b[7*8] = (short) (CLIP3(-32768, 32767, (z[0] - z[1] + 64)) >> 7);

}

三，C语言实现的算法分析

仔细分析系数矩阵可以看到特点：偶数列上的上四行和下四行是对称的，奇数列上的上四行和下四行是反对称的。这样就可以得出十二个基本项，就是c代码中的r[12]，进而得到8个值z[8],最后得到反变换的值。仔细阅读代码就会清楚的明白了。

需要注意的是，CLIP3函数实际是用来求16位的有符号数的饱和计算。在理想情况下系数矩阵经过变换后是不会出现超出16位可表示的数值的，但在实际中还是会出现极少数情况超出，为了优化又需要在16位之内计算，因此，采用折中的办法将超出进行饱和处理，保证IDCT的精度损失较小。

四，基于TI 的6000系列DSP优化

1，利用dsp的乘加指令和32位加载伪指令进行初步优化，代码实现如下

void idct_intrinsic_dsp(short* blk)

{

int i;

short* b = blk;

int x[4];

int r[12];

int z[8];

_nassert(((int)(blk) & 0x03) == 0);

for(i=0; i<8; i++, b+=8) // horizontal transform

{

x[0] = _mem4(&b[0]); // b[1] b[0] , little endian

x[1] = _mem4(&b[2]); // b[3] b[2]

x[2] = _mem4(&b[4]); // b[5] b[4]

x[3] = _mem4(&b[6]); // b[7] b[6]

r[0] = x[0]; // save x[0]

r[1] = x[1]; // save x[1]

x[0] = _pack2 (r[0], x[2]); // b[0] b[4]

x[1] = _packh2(r[0], x[2]); // b[1] b[5]

x[2] = _pack2 (r[1], x[3]); // b[2] b[6]

x[3] = _packh2(r[1], x[3]); // b[3] b[7]

r[0] = _dotp2 (0x080008, x[0]); // r[0] = 8 * x[0] + 8 * x[4]; // 0x080008

r[1] = _dotpn2(0x080008, x[0]); // r[1] = 8 * x[0] - 8 * x[4]; // 0x08fff8

r[2] = _dotp2 (0x0a0006, x[1]); // r[2] = 10 * x[1] + 6 * x[5]; // 0x0a0006

r[3] = _dotpn2(0x09000a, x[1]); // r[3] = 9 * x[1] - 10 * x[5]; // 0x09000a

r[4] = _dotp2 (0x060002, x[1]); // r[4] = 6 * x[1] + 2 * x[5]; // 0x060002

r[5] = _dotp2 (0x020009, x[1]); // r[5] = 2 * x[1] + 9 * x[5]; // 0x020009

r[6] = _dotp2 (0x0a0004, x[2]); // r[6] = 10 * x[2] + 4 * x[6]; // 0x0a0004

r[7] = _dotpn2(0x04000a, x[2]); // r[7] = 4 * x[2] - 10 * x[6]; // 0x04000a

r[8] = _dotp2 (0x090002, x[3]); // r[8] = 9 * x[3] + 2 * x[7]; // 0x090002

r[9] = _dotp2 (0x020006, x[3]); // r[9] = 2 * x[3] + 6 * x[7]; // 0x020006

r[10]= _dotpn2(0x0a0009, x[3]); // r[10]= 10 * x[3] - 9 * x[7]; // 0x0a0009

r[11]= _dotp2 (0x06000a, x[3]); // r[11]= 6 * x[3] + 10 * x[7]; // 0x06000a

z[0] = r[0] + r[6];

z[1] = r[2] + r[8];

z[2] = r[1] + r[7];

z[3] = r[3] - r[9];

z[4] = r[1] - r[7];

z[5] = r[4] - r[10];

z[6] = r[0] - r[6];

z[7] = r[5] - r[11];

b[0] = (short)(CLIP3(-32768, 32767, (z[0] + z[1] + 4)) >> 3);

b[1] = (short)(CLIP3(-32768, 32767, (z[2] + z[3] + 4)) >> 3);

b[2] = (short)(CLIP3(-32768, 32767, (z[4] + z[5] + 4)) >> 3);

b[3] = (short)(CLIP3(-32768, 32767, (z[6] + z[7] + 4)) >> 3);

b[4] = (short)(CLIP3(-32768, 32767, (z[6] - z[7] + 4)) >> 3);

b[5] = (short)(CLIP3(-32768, 32767, (z[4] - z[5] + 4)) >> 3);

b[6] = (short)(CLIP3(-32768, 32767, (z[2] - z[3] + 4)) >> 3);

b[7] = (short)(CLIP3(-32768, 32767, (z[0] - z[1] + 4)) >> 3);

}

b = blk;

for(i=0; i<8; i++, b+=1) // horizontal transform

{

short* p = (short*)x;

p[0] = b[4*8];

p[1] = b[0*8];

p[2] = b[5*8];

p[3] = b[1*8];

p[4] = b[6*8];

p[5] = b[2*8];

p[6] = b[7*8];

p[7] = b[3*8];