离散余弦变换(FDCT和IDCT)

来源：互联网发布：vm centos 桥接模式编辑：程序博客网时间：2024/06/02 02:33

1.为什么要进行变换？

       图像数据一般有较强的相关性，若所选用的正交矢量空间的基矢量与图像本身的主要特征相近，在该正交矢量空间中描述图像数据则会变得更简单。
        经过正交变换，会把原来分散在原空间的图像数据在新的坐标空间中得到集中。对于大多数图像，大量变换系数很小，只要删除接近于零的系数，并且对较小的系数进行粗量化，而保留包含图像主要信息的系数，以此进行压缩编码。
       在重建图像进行解码时，所损失的将是一些不重要的信息，几乎不会引起图像的失真。

2.子图像尺寸选择
         在变换编码中，首先要将图像数据分割成子图像，然后对子图像数据块实施某种变换，如DCT变换，那么子图像尺寸取多少好呢？根据实践证明子图像尺寸取4×4、8×8、16×16适合作图像的压缩，这是因为：
        <1> 如果子图像尺寸取得太小，虽然计算速度快，实现简单，但压缩能力有一定的限制。
        <2> 如果子图像尺寸取得太大，虽然去相关效果变好，因为象DFT、DCT等正弦型变换均具有渐近最佳性，但也渐趋饱和。若尺寸太大，由于图像本身的相关性很小，反而使其压缩效果不显示，而且增加了计算的复杂性。

3. 数学公式：

FDCT:
7 7 2*x+1 2*y+1
F(u,v) = alpha(u)*alpha(v)* sum sum f(x,y) * cos (------- *u*PI)* cos (--------- *v*PI)
x=0 y=0 16 16

u,v = 0,1,...,7

{ 1/sqrt(8) (u==0)
alpha(u) = {
{ 1/2 (u!=0)

IDCT:
7 7 2*x+1 2*y+1
f(x,y) = sum sum alpha(u)*alpha(v)*F(u,v)*cos (------- *u*PI)* cos (------ *v*PI)
u=0 v=0 16 16

x,y=0,1...7

上述公式是二维的，二维离散余弦变换可以分解成一维DCT来实现，也就是说可以先行，后列或者先列后行。

7 2*x+1
F(u) = alpha(u)* sum f(x) * cos (------- *u*PI)
x=0 16

总体上来说，DCT 变换实际是空间域的低通滤波器。对 Y 分量采用细量化，对 UV 采用粗量化。
　　量化表是控制 JPEG 压缩比的关键，这个步骤除掉了一些高频量；另一个重要原因是所有图片的点与点之间会有一个色彩过渡的过程，大量的图像信息被包含在低频率中，经过量化处理后，在高频率段，将出现大量连续的零。
　　5、“Z”字形编排
　　量化后的数据，有一个很大的特点，就是直流分量相对于交流分量来说要大，而且交流分量中含有大量的0。这样，对这个量化后的数据如何来进行简化，从而再更大程度地进行压缩呢。
这就出现了“Z”字形编排，如图：

对于前面量化的系数所作的 “Z”字形编排结果就是：
　　底部 ?26，?3，0，?3，?3，?6，2，?4，1 ?4，1，1，5，1，2，?1，1，?1，2，0，0，0，0，0，?1，?1，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0，0 顶部
　　这样做的特点就是会连续出现多个0，这样很有利于使用简单而直观的行程编码(RLE：Run Length Coding)对它们进行编码。
　　8×8图像块经过 DCT 变换之后得到的 DC 直流系数有两个特点，一是系数的数值比较大，二是相邻8×8图像块的 DC 系数值变化不大。根据这个特点，JPEG 算法使用了差分脉冲调制编码（DPCM）技术，对相邻图像块之间量化 DC 系数的差值（Delta）进行编码。即充分利用相邻两图像块的特性，来再次简化数据。
　　即上面的 DC 分量-26，需要单独处理。
　　而对于其他63个元素采用zig-zag（“Z”字形）行程编码，以增加行程中连续0的个数

　6、行程编码
　　Run Length Coding，行程编码又称“运行长度编码”或“游程编码”，它是一种无损压缩编码。
　　例如：5555557777733322221111111
　　这个数据的一个特点是相同的内容会重复出现很多次，那么就可以用一种简化的方法来记录这一串数字，如
　　（5，6）（7，5）（3，3）（2，4）（l，7）
即为它的行程编码。
　　行程编码的位数会远远少于原始字符串的位数。
　　对经过“Z”字形编排过的数据，即可以用行程编码来对其进行大幅度的数据压缩。
　　我们来用一个简单的例子来详细说明一下：
　　57，45，0，0，0，0，23，0，-30，-16，0，0，1，0，0，0，0 ，0 ，0 ，0，..，0
　　可以表示为
　　(0，57) ; (0，45) ; (4，23) ; (1，-30) ; (0，-16) ; (2，1) ; EOB
　　即每组数字的头一个表示0的个数，而且为了能更有利于后续的处理，必须是 4 bit，就是说，只能是 0~15，这是的这个行程编码的一个特点。
　　7、范式 Huffman 编码
　　在直流 DC 系数经过上面的 DPCM 编码，交流 AC 系数经过 RLE 编码后，得到的数据，还可以再进一补压缩，即使用 Huffman 编码来处理。
　　范式 Huffman 编码即 Canonical Huffman Code，现在流行的很多压缩方法都使用了范式哈夫曼编码技术，如 GZIB、ZLIB、PNG、JPEG、MPEG 等。
　　对上面的例子中 RLC 后的结果，对它的存储，JPEG 里并不直接保存这个数值，这样主要是为了提高效率。

对上面的例子内容，就可以得到：
　　57 为第 6 组的，实际保存值为 111001，编码为 (6，111001)
　　45编码为 (6，101101)
　　23为(5，10111)
　　-30为(5，00001)
　　这个时候前面的例子就变为：
　　(0，6)，111001 ; (0，6)，101101 ; (4，5)，10111; (1，5)，00001; (0，4) ，0111 ; (2，1)，1 ; (0，0)
　　这样，括号里的数值正好再合成一个字节，高4位是前面0的个数，低4位描述了后面数字的位数；后面被编码的数字表示范围是 -32767..32767。

0 0