音频压缩和视频压缩方法的对比

--中国人民公安大学 2012级安防四区苏东祥

摘要：视频压缩和音频压缩的原理都是利用人的视觉和听觉特性，通过将视频与音频中的原始信号中包含的冗余信号给去除掉，再进行各种多样的编码方式，从而达成对视频和音频的压缩，而不影响人们对于视频的观看和音频的欣赏。

关键词：视频压缩；音频压缩；编码

一、引言：

随着互联网的普及，更多的人们在网上观看视频，收听音乐，占用了大量的带宽，不方便大数据时代的传输，所以我们便对视频和音频进行了压缩。其实视频和音频中的原始信号中包含我们很多看不到和听不到的资料，把这些对于我们来讲其实无意义的资料给去掉，这样就能达到对视频和音频的压缩。下面我们将对视频压缩和音频压缩的方法进行比较。

二、视频压缩的原理

1、视频信号的冗余信息

视频信号能进行压缩主要依据两个基本条件：1、数据冗余。例如如空间冗余、时间冗余、结构冗余、信息熵冗余等，即图像的各像素之间存在着很强的相关性。消除这些冗余并不会导致信息损失，属于无损压缩。2、视觉冗余。人眼的一些特性比如亮度辨别阈值，视觉阈值，对亮度和色度的敏感度不同，使得在编码的时候引入适量的误差，也不会被察觉出来。可以利用人眼的视觉特性，以一定的客观失真换取数据压缩。这种压缩属于有损压缩。

数字视频信号的压缩正是基于上述两种条件，使得视频数据量得以极大的压缩，有利于传输和存储。一般的数字视频压缩编码方法都是混合编码，即将变换编码，熵编码，以及运动估计和运动补偿三种方式相结合来进行压缩编码。通常使用变换编码来消去除图像的帧内冗余，用熵编码来进一步提高压缩的效率，用运动估计和运动补偿来去除图像的帧间冗余。

2、压缩编码的方法

（1）变换编码。变换编码的作用是将空间域描述的图像信号变换到频率域，然后对变换后的系数进行编码处理。一般来说，图像在空间上具有较强的相关性，变换到频率域可以实现去相关和能量集中。常用的正交变换有离散傅里叶变换，离散余弦变换等等。数字视频压缩过程中应用广泛的是离散余弦变换。离散余弦变换简称为DCT 变换。它可以将L*L的图像块从空间域变换为频率域。所以，在基于DCT 的图像压缩编码过程中，首先需要将图像分成互不重叠的图像块。假设一帧图像的大小为1280*720，首先将其以网格状的形式分成160*90个尺寸为8*8的彼此没有重叠的图像块，接下来才能对每个图像块进行DCT 变换。经过分块以后，每个8*8点的图像块被送入DCT 编码器，将8*8的图像块从空间域变换为频率域，经过DCT 变换后，图像中低频系数集中了大量能量，高频系数上的能量很小。信号经过DCT 变换后需要进行量化。由于人的眼睛对图像的低频特性比如物

体的总体亮度之类的信息很敏感，而对图像中的高频细节信息不敏感，因此在传送过程中可以少传或不传送高频信息，只传送低频部分。量化过程通过对低频区的系数进行细量化，高频区的系数进行粗量化，去除了人眼不敏感的高频信息，从而降低信息传送量。因此，量化是一个有损压缩的过程，而且是视频压缩编码中质量损伤的主要原因。

（2）熵编码。熵编码是因编码后的平均码长接近信源熵值而得名。熵编码多用可变字长编码实现。其基本原理是对信源中出现概率大的符号赋予短码，对于出现概率小的符号赋予长码，从而在统计上获得较短的平均码长。可变字长编码通常有霍夫曼编码、算术编码、游程编码等。其中游程编码是一种十分简单的压缩方法，它的压缩效率不高，但编码、解码速度快，仍被得到广泛的应用，特别在变换编码之后使用游程编码，有很好的效果。

首先要在量化器输出直流系数后对紧跟其后的交流系数进行Z 型扫描。Z 型扫描将二维的量化系数转换为一维的序列，并在此基础上进行游程编码。最后再对游程编码后的数据进行另一种变长编码，例如霍夫曼编码。通过这种变长编码，进一步提高编码的效率。

（3）运动估计和运动补偿。运动估计和运动补偿是消除图像序列时间方向相关性的有效手段。上文介绍的DCT 变换、量化、熵编码的方法是在一帧图像的基础上进行，通过这些方法可以消除图像内部各像素间在空间上的相关性。实际上图像信号除了空间上的相关性之外，还有时间上的相关性。例如对于像新闻联播这种背景静止，画面主体运动较小的数字视频，每一幅画面之间的区别很小，画面之间的相关性很大。对于这种情况我们没有必要对每一帧图像单独进行编码，而是可以只对相邻视频帧中变化的部分进行编码，从而进一步减小数据量，这方面的工作是由运动估计和运动补偿来实现的。

运动估计技术一般将当前的输入图像分割成若干彼此不相重叠的小图像子块，例如一帧图像的大小为1280*720，首先将其以网格状的形式分成40*45个尺寸为16*16的彼此没有重叠的图像块，然后在前一图像或者后一个图像某个搜索窗口的范围内为每一个图像块寻找一个与之最为相似的图像块。这个搜寻的过程叫做运动估计。通过计算最相似的图像块与该图像块之间的位置信息，可以得到一个运动矢量。这样在编码过程中就可以将当前图像中的块与参考图像运动矢量所指向的最相似的图像块相减，得到一个残差图像块，由于残差图像块中的每个像素值很小，所以在压缩编码中可以获得更高的压缩比。这个相减过程叫运动补偿。

由于编码过程中需要使用参考图像来进行运动估计和运动补偿，因此参考图像的选择显得很重要。一般情况下编码器的将输入的每一帧图像根据其参考图像的不同分成3种不同的类型：I 帧、B 帧、P 帧。I 帧只使用本帧内的数据进行编码，在编码过程中它不需要进行运动估计和运动补偿。由于I 帧没有消除时间方向的相关性，所以压缩比相对不高。P 帧在编码过程中使用一个前面的I 帧或P 帧作为参考图像进行运动补偿，实际上是对当前图像与参考图像的差值进行编码。B 帧的编码方式与P 帧相似，惟一不同的地方是在编码过程中它要使用一个前面的I 帧或P 帧和一个后面的I 帧或P 帧进行预测。由此可见，每一个P 帧的编码需要利用一帧图像作为参考图像，而B 帧则需要两帧图像作为参考。相比之下，B 帧比P 帧拥有更高的压缩比。

三、音频压缩的原理

1、音频信号的冗余信息

数字音频压缩编码在保证信号在听觉方面不产生失真的前提下，对音频数据信号进行尽可能大的压缩。数字音频压缩编码采取去除声音信号中冗余成分的方法来实现。所谓冗余成分指的是音频中不能被人耳感知到的信号，它们对确定声音的音色，音调等信息没有任何的帮助。冗余信号包含人耳听觉范围外的音频信号以及被掩蔽掉的音频信号等。例如，人耳所能察觉的声音信号的频率范围为20Hz ～20KHz ，除此之外的其它频率人耳无法察觉，都可视为冗余信号。此外，根据人耳听觉的生理和心理声学现象，当一个强音信号与一个弱音信号同时存在时，弱音信号将被强音信号所掩蔽而听不见，这样弱音信号就可以视为冗余信号而不用传送。这就是人耳听觉的掩蔽效应，主要表现在频谱掩蔽效应和时域掩蔽效应，现分别介绍如下：

（1）频谱掩蔽效应。一个频率的声音能量小于某个阈值之后，人耳就会听不到，这个阈值称为最小可闻阈。当有另外能量较大的声音出现的时候，该声音频率附近的阈值会提高很多，即所谓的掩蔽效应。

（2）时域掩蔽效应。当强音信号和弱音信号同时出现时，还存在时域掩蔽效应。即两者发生时间很接近的时候，也会发生掩蔽效应。时域掩蔽分为前掩蔽、同时掩蔽和后掩蔽三部分。前掩蔽是指人耳在听到强信号之前的短暂时间内，已经存在的弱信号会被掩蔽而听不到。同时掩蔽是指当强信号与弱信号同时存在时，弱信号会被强信号所掩蔽而听不到。后掩蔽是指当强信号消失后，需经过较长的一段时间才能重新听见弱信号，称为后掩蔽。这些被掩蔽的弱信号即可视为冗余信号。

2、压缩编码方法

音频信号编码按照压缩原理不同，分为波形编码、参数编码以及多种技术相互融合的编码形式

（1）波形编码直接对音频信号的时域或频域波形按一定速率采样，然后将幅度样本分层量化，变换为数字代码，由波形数据产生一种重构信号编码系统源于信号原始样值，波形与原始声音波形尽可能地一致，保留了信号的细节变化和各种过渡特征。

（2）参数编码首先根据不同的信号源，如语言信号、自然声音等形式建立特征模型，通过提取特征参数和编码处理，力图使重建的声音信号尽可能高的保持原声音的语意，但重建信号的波形同原声音信号的波形可能会有相当大的差别。常用的特征参数有共振峰、线性预测系数、频带划分滤波器等参数编码技术可实现低速率的声音信号编码，比特率可压缩到2Kbit/s - 4.8Kbit/s ，但声音的质量只能达到中等，特别是自然度较低，仅适合语言语言的传递与表达。

（3）混合编码将波形编码和参数编码组合起来的编码形式克服了原有波形编码和参数编码的弱点，力图保持波形编码的高质量和参数编码的低速率，在4 - 16Kbit/s速率上能够得到高质量的合成声音信号。混合编码的基础是线性预测编码（LPC ），常用脉冲激励线性预测编码（MPLPC ）、规划脉冲激励线性预测编码（KPELPC ）码本激励线性预测编码（CELPC ）等编码方式。

四、视频压缩与音频压缩的对比

视频压缩原理主要基于数据冗余和视觉冗余，使得视频数据量得以极大的压缩，有利于传输和存储。一般的数字视频压缩编码方法都是混合编码，即将变换编码，熵编码，以及运动估计和运动补偿三种方式相结合来进行压缩编码。通常

使用变换编码来消去除图像的帧内冗余，用熵编码来进一步提高压缩的效率，用运动估计和运动补偿来去除图像的帧间冗余。而音频压缩原理主要依据人耳的频谱掩蔽效应和时域掩蔽效应，在保证信号在听觉方面不产生失真的前提下，对音频数据信号进行尽可能大的压缩。音频信号编码按照压缩原理不同，分为波形编码、参数编码以及多种技术相互融合的编码形式。

其实视频压缩和音频压缩的原理主要是利用人的视觉和听觉特性，把原始信号中包含我们很多看不到和听不到的资料给去掉，再在此基础上进行各种不同的编码方式，这样就能达到对视频和音频的压缩。它们两者都是根据压缩原理的不同，将各种编码方式结合起来，从而在对视频与音频信号进行尽可能大的压缩的同时，不影响人们对视觉与听觉的欣赏。

五、结论

在科技技术迅速发展的今天，互联网将融入我们更多人的生活中，越来越多的人会在网上进行娱乐消遣，这就对网络的带宽有了更高的要求，我们在提高带宽的传输时，也应该将视频和音频中的原始信号中包含我们很多看不到和听不到的资料给去掉，进行对视频和音频的压缩，降低数据的传输量，使互联网能更好地融入更多平常百姓家。

参考文献：

[1] 期刊——吴帆、朱伟. 《多音道音频压缩编码原理及应用》. 《电声技术》, 2003年, 第11期: 7-10页.

[2] 专著——韩加. 《视频技术》. 2007版. 北京:中国人民公安大学出版社,2007.

[3] 电子文献——雷霄骅. 《视频压缩编码与音频压缩编码的基本原理》: http://blog.csdn.net/leixiaohua1020/article/details/28114081

[4]电子文献——《百度百科》. 《视频压缩》: http://baike.baidu.com/view/746807.htm?from_id=3430711&type=syn&fromtitle=视频压缩&fr=aladdin

音频压缩和视频压缩方法的对比

相关文章