购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2 视/音频压缩编码技术

● 学习背景

由于原始视音频的信息量巨大,对其进行传输及处理将占用大量的网络资源,导致网络拥塞或瘫痪。因此,需要对其进行压缩编码。视音频的压缩编码可以在保证质量的前提下,最大限度地减少数据量,以减少数据存储量,提高网络效率,节约传输的时间。

● 关键知识点

✓ 常见的视频压缩编码方法

✓ 常见视频压缩编码标准及其应用与特点

✓ 常见的音频压缩编码方法

✓ 常见音频压缩编码标准及其应用与特点

2.2.1 视频压缩编码技术

在不压缩的情况下,传输一幅1280px×720px分辨率的彩色视频图像,每个像素有24位,其数据量要达到1280×720×24≈22.12Mbit;如果是以每秒25帧的速度播放的运动图像,则视频信号传输速率约为553Mbit/s。如此大的数据量在有限的计算机网络中难以传输,也会占用大量的存储空间。

因此在传输之前,为节省网络传输带宽和存储空间,需要对视频信号进行压缩编码。视频压缩编码要满足两个要求:一是必须压缩在一定的带宽内,即视频压缩编码应具有足够的压缩比;二是视频信号压缩之后,应保持一定的视频质量。

1.视频压缩编码方法

视频压缩编码的原理是:原始视频图像中存在很大的冗余度,在传输之前先处理数据冗余 问题,达到压缩效果。基本的视频压缩编码方法有预测编码、变换编码和熵编码。

(1)预测编码

预测编码是十分简单实用的视频压缩编码方法。同一幅图像的邻近像素之间有着相关性,而邻近像素之间发生突变或很不相似的概率很小,可以利用这些性质进行预测编码。预测编码后传输的并不是像素本身的取样幅值,而是该取样幅值的预测值和实际值之差。

预测编码分为帧内预测编码和帧间预测编码。

帧内预测编码也称空间压缩编码,这是在每一个块中某个像素可由先前已编码的像素的不同加权和来预测,比如在4×4块中第16个像素可由前面15个像素预测。

帧间预测编码也称时间压缩编码,这是利用视频中的前后两帧具有很大相关性的特性,减小相邻帧之间的冗余量,进一步提高压缩量。一般而言,帧间预测编码的效率比帧内预测编码的高。

帧间预测编码又可分为单向预测编码、双向预测编码和重叠块运动补偿编码。单向预测编码利用前一帧画面经过运动矢量位移作为预测值。双向预测编码不只利用前一帧预测(即前向预测),还需利用后一帧的像素(即后向预测),由于后向预测在当前帧预测之后进行,会引入编码时延的问题,因此无法应用在如会议电视、可视电话等实时通信中,但可以应用在广播电视系统中。重叠块运动补偿编码的原理是,由于活动图像邻近帧中的景物存在一定的相关性,可将活动图像分成若干宏块,并设法搜索出每个宏块在邻近帧图像中的位置,得出两者之间空间位置的相对偏移量,该相对偏移量就是运动矢量,而得到运动矢量的过程被称为运动估计。通过运动估计可以减小帧间冗余度,使得视频传输的比特数大为减少。

(2)变换编码

预测编码是直接在空域对图像进行压缩处理,而变换编码相当于在频域对图像进行压缩处理。变换编码的基本原理是通过正交函数把图像从空域转换为能量比较集中的变换域,然后对变换系数进行量化和编码,从而达到减小码率 的目的。因此变换编码也称为正交变换编码。

在变换编码时,初始数据要从初始空域进行数学变换,变换为一个更适于压缩的变换域。经过变换后,信息中特征最明显的部分更易于识别,并可能成组出现。变换编码要选择一个最佳的变换,以便对特定数据实现最优的压缩,常用的数学变换是离散余弦变换(discrete cosine transform,DCT)。

变换编码实现比较复杂,预测编码实现相对容易,但预测编码的误差会随着时间增大而增大。现实中,往往采用混合编码方法,即对图像先进行带有重叠块运动补偿的帧间预测编码,再对预测后残差信号 进行离散余弦变换。这种混合编码方法已成为许多视频压缩编码国际标准的基本框架。

更多详细信息,请参阅拉斐尔·C.冈萨雷斯(Rafael C. Gonzalez)和理查德·E. 伍兹(Richard E. Woods)的《数字图像处理(第四版)》。

(3)熵编码

利用信源的统计特性进行码率压缩的编码称为熵编码(或统计编码)。熵编码常用的有两种:变长编码(或哈夫曼编码)和算术编码。

变长编码是对出现概率大的符号分配短字长的二进制码,对出现概率小的符号分配长字长的二进制码,从而得到符号平均码长最短的二进制码。

算术编码不采用一个码字代表一个输入信息符号的方法,而采用一个浮点数来代表一串输入符号,经算术编码后输出一个小于1、大于或等于0的浮点数,在解码端被正确、唯一地解码,恢复原符号序列。

熵编码的特点是无损编码,但是压缩比较低,一般用在变换编码后面进行进一步压缩。

2.视频压缩编码标准

国际标准化组织(International Orgarization for Standardization,ISO)根据视频通信的发展,制定了一系列图像处理国际标准,例如JPEG标准、H.26X系列标准、MPEG标准等。下面我们将简单介绍MPEG标准、H.264和H.265。

(1)MPEG标准

MPEG(Moving Picture Expert Group)标准是国际上制定视频编码标准两大组织之一的ISO建立的。该组织制定了可用于数字存储介质上的视频及其相关的音频的国际标准,这些标准简称为MPEG标准。

MPEG标准具有兼容性好、压缩比较高(最高可达到200:1)和音视频失真小的特点,被广泛使用。

(2)H.264标准

国际电信联盟电信标准部(International Telecommunication Union-Telecommunication Standard,ITU-T)是制定视频编码标准的另一个国际组织部门,成立于1992年,它的前身是国际电报电话咨询委员会(International Telegraph and Telephone Consultative Committee,CCITT)。ITU-T研究和制定包括与无线电系统的接口标准的电信网络标准,已通过的建议书有2600多项。

ITU-T的视频压缩标准包括H.263和H.264,此类标准主要应用于实时视频通信领域,如会议电视、视频监控等。相对于先期的视频压缩标准,H.264引入了很多先进的技术,包括4×4整数变换、16×16亮度块预测、基于空域的帧内预测技术、高精度的运动估计等。新技术带来了较高的压缩比,但同时大大提高了算法的复杂度。

H.264不仅比MPEG-4节约了50%的码率,并且在网络传输方面具有更好的支持功能,有利于网络中视频的流媒体传输,获得平稳的图像质量。因此H.264在综合安防领域中被广泛使用,网络摄像机和硬盘录像机基本都支持H.264标准编码。

H.264标准使用I帧、P帧、B帧来表示传输的视频画面。其中I帧称为帧内编码帧,是一种自带信息的独立帧,无须参考其他图像便可独立解码显示。在视频序列中第一个帧始终为I帧,因此I帧又称为关键帧。

P帧称为帧间预测编码帧,与I帧不同,P帧需要参考前面的I帧或P帧才能进行编码,表示的是当前帧画面与前一帧(I帧或P帧)画面的差别,因此P帧占用更少的数据位。

B帧称为双向预测编码帧,记录的是本帧与前、后帧的差别。在解码B帧时,需要对前后两帧都进行解码,叠加本帧的数据才获得最终的画面。因此B帧是这3种帧中压缩比最高的,对解码性能要求也更高。

(3)H.265标准

在2013年,ITU-T和ISO通力合作,发布了新一代的高效视频编码标准(high efficiency video coding,HEVC或H.265)。H.265包含最新的视频编码技术,与H.264相比,H.265在相同的编码质量下能够节约50%左右的码率,其软硬件实现也具有更好的实用性。H.265已经逐步取代H.264,在各种视频业务中获得广泛的应用。

2.2.2 音频压缩编码技术

一般来说,采样频率越高和量化位数越多,声音质量就越高,保存这段声音所用的空间也就越大。音频文件大小的计算公式:

文件大小(B)=采用频率(Hz)×录音时间(s)×(量化比特数/8)×通道数(单声道为1,立体声为2)

例如,当采样频率为44.1kHz、量化比特数为16位、立体声的标准录音,录制10s的文件大小为44100×10×(16/8)×2=1764000B,约1.68MB。这样一张容量为700MB的光碟(compact disc,CD),一般最多只能存放17首歌,根本无法满足现代人对于音乐数量的要求。

因此对数字音频进行压缩是有必要的,同视频压缩情况一样,对音频进行压缩的同时,需要尽量减少受损的程度,让听者感觉不出来。

1.音频压缩编码方法

在实际应用中,音频压缩编码方法的选择需要综合考虑音频质量、压缩比、计算复杂度等因素。常用的音频压缩编码方法主要有波形编码、参数编码、混合编码和感知编码等。对于不同的音频编码方式,其运算复杂度、重构信号的质量、压缩比、编码和解码的延迟都会有很大的不同,因此它们的应用场景也会不同。

(1)波形编码

波形编码是基于信号统计特性进行音频压缩的编码方法。首先通过傅里叶变换,将音频信号数学化地转换为频率分量,然后以最小的方式对每个分量的强度进行编码,保留信号的各种特征,使重建的音频波形尽可能与原波形一致。典型的波形编码包括脉冲编码调制(pulse code modulation,PCM)、差分脉冲编码调制(differential pulse code modulation,DPCM)、自适应差分脉冲编码调制(adaptive differential PCM,ADPCM)等。

波形编码是十分简单也是应用非常早的音频压缩编码方法,具有实施简单、适应性强、音频质量好等优点,其不足之处是压缩比不高,数据量较大。由于波形编码损耗较低,常见的Audio CD、数字通用光碟(digital versatile disc,DVD)就采用了PCM编码,以提供保真的听音享受。

(2)参数编码

人类发声器官产生声音的过程可以用一个数学模型来模拟,我们称之为语音信号模型。参数编码方法基于语音信号模型中的参数,将提取的参数进行采样、量化、编码,最后合成数据发送。接收端接收合成的数据后,通过语音生成模型重构出语音信号。

参数编码的优点是压缩比高,可适用于窄带信道 的语音通信,如航空通信等。但缺点是计算量大、重构的信号质量差。常用的参数编码方法是线性预测编码(linear predictive coding,LPC)。

(3)混合编码

混合编码将波形编码的高质量与参数编码的低码率结合起来,可以在较低码率下获得较高的音质。它将综合滤波器引入编码器,得到一种可变的激励信号,使得产生的波形尽可能与原信号的波形接近。

这种编码方法克服了波形编码和参数编码的弱点,可取得较好的编码效果。常见的混合编码包括码激励线性预测编码(code excited linear prediction,CELP)、多脉冲激励线性预测编码(multi-pulse LPC,MPLPC)等。

(4)感知编码

感知编码利用了人类听觉系统中的某些特定缺陷,通过消除不被感知的冗余信息来实现编码。感知编码一方面运用信号的统计特性减小了信号之间的冗余度,另一方面利用心理声学中的掩蔽特性去掉了人耳系统无法感知的部分,从而实现更高效率的音频压缩。

我们熟知的MP3(MPEG Audio Layer 3)和高级音频编码(advanced audio coding,AAC)格式都基于感知编码技术,如MP3能够在1:12的压缩比下达到近似CD的音质。

2.音频压缩编码标准

当前音频压缩编码的国际标准主要有针对多媒体通信制定的G.7xx语音编码系列、MPEG音频系列。

(1)G.7xx 语音编码标准

G.7xx是综合安防领域使用的主流标准之一。国际电报电话咨询委员会(CCITT)先后提出一系列语音编码标准:1972年首先制定了G.711标准(包括G.711a和G7.11u),码率为64kbit/s,采用PCM编码;1984年公布了G.721标准(于1986年修订),它采用的是ADPCM编码,码率为32kbit/s。这两个标准实际已用于200Hz~3400Hz话音信号。

针对宽带(50Hz~7kHz)语音,CCITT制定了G.722编码标准,它的码率有64kbit/s、56kbit/s、48kbit/s,可用于综合业务数字网(integrated service digital network,ISDN)的B通道上传输音频数据;之后公布的G.723.1中码率有5.3kbit/s和6.3kbit/s;G.726中的码率有40kbit/s、32kbit/s、24kbit/s、16kbit/s。CCITT于1990年通过了镶嵌式ADPCM标准G.727。

低码率、短时延、高质量是人们期望的目标,CCITT分别在1992年和1994年公布了浮点和定点算法的G.728标准,算法时延小于2ms,话音质量平均意见评分(mean opinion score,MOS)可达4分以上。

(2)MPEG音频编码标准

MPEG在制定运动图像编码标准的同时,也为图像伴音制定了音频编码标准,包括MPEG-1、MPEG-2、MPEG-4等音频编码标准。

① MPEG-1。MPEG-1是世界上第一个高保真音频数据压缩标准,采用了MUSICAM和ASPEC两种编码算法,以这两种算法为基础形成了3个不同层次的音频压缩算法,即层Ⅰ(简化的ASPEC)、层Ⅱ(MUSICAM,又称MP2)和层Ⅲ(又称MP3)。

MPEG-1的3个层次的音频编码对应不同的应用要求,具有不同的编码复杂度。层Ⅰ,即简化的MUSICAM,典型比特率为192kbit/s。层Ⅱ等同于MUSICAM,典型比特率为128kbit/s,广泛应用于数字音频广播、数字演播室等音频专业领域的制作、交流、存储和传送。层Ⅲ是在综合MUSICAM和ASPEC两种算法的优点基础上提出的混合压缩方法,它的编码复杂度较高,不利于实时应用,典型比特率为64kbit/s,能在低比特率下保持很高的音质,因而在网络上得到了广泛应用。

② MPEG-2。MPEG-2音频标准包括MPEG-2 BC和MPEG-2 AAC两种。

MPEG-2 BC是在MPEG-1和CCIR Rec.755的基础上发展起来的,与MPEG-1相比,MPEG-2主要在两方面做了重大改进,一是支持多声道声音形式,二是为某些低比特率应用场合,如体育比赛解说等,进行的低采样率扩展。同时,标准规定的码流形式可与MPEG-1的层Ⅰ和层Ⅱ前、后向兼容,并可依据CCIR Rec.755与双声道、单声道形式向下兼容,还能够与杜比环绕(Dolby surround)形式兼容。MPEG-2 BC中采用了多种新技术,如动态传输通道切换、动态串音、自适应多声道预测、中央声道幻像编码(phantom coding of center)、预矫正(predistortion)等,数字音频广播(DAB)系统中的多声道扩展采用的就是MPEG-2 BC编码。

MPEG-2 AAC也是综合安防领域使用的主流标准之一。它是MPEG-2标准中的一种非常灵活的声音感知编码标准,主要利用听觉系统的掩蔽特性来减少音频数据量,并把量化噪声分散到各个子带中,通过全局信号把噪声掩蔽掉。在正式的MPEG-2听音测试中,数据传输比特率为320kbit/s的AAC可提供比数据传输比特率为640kbit/s的MPEG-2 BC更好的音质。因此,MPEG-2 AAC是一种比MPEG-2 BC编码算法更好的音频压缩算法,其主要缺点是兼容性差。

③ MPEG-4。MPEG-4不仅适用于音频,也适用于视频,具有高度的灵活性和可扩展性,其目标是提供未来的交互多媒体应用(如视频电话等)。相对MPEG-1、MPEG-2而言,MPEG-4将以前发展良好但相互独立的高质量音频编码、计算机音乐、合成语音等应用合并在一起,扩展了通信用途,并可以应用于各种信息压缩比、各种传输线路形式。 QqIsQ/nq58ZplLxA6NKxfC+03c6cVraS0Iezwj93/iP1kPyUy/+lilgqai7axloz

点击中间区域
呼出菜单
上一章
目录
下一章
×