购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 音频基础

2.1.1 声学基础知识

1.声音的产生

声音是由物体振动产生的,当振动停止时,声音也随之停止。当振动波传播至人耳时,便引发了听觉体验。声音可以分为乐音和噪声两类。乐音是由规则振动产生的,只包括有限且特定的频率,具有明确的波形。而噪声是由不规则振动产生的,包含一系列不确定的音频,波形不固定。

2.声音的传播

声音需要介质来传播,真空中不能传播声音。介质是指能够传播声音的物质。声音在所有介质中以声波的形式传播。声音在单位时间内传播的距离叫作声速,其在固体和液体中的传播速度通常快于气体。

3.声音的感知

外界的声音引起耳膜振动,通过听小骨及其他组织传递给听觉神经,再由听觉神经将信号传递至大脑,这样人便感知到了声音。

人耳能够感知的频率范围为20 Hz~20 kHz,此频率范围内的声音被称为可听声或者音频。根据频率的不同,声音可进一步进行如下分类。

频率低于20 Hz的声波称为次声波。

频率在20 Hz~20 kHz的声波称为可听声。

频率在20 kHz~1 GHz的声波称为超声波。

频率大于1 GHz的声波称为特超声或微波超声。

4.声音三要素

声音具有3个要素——音调、响度和音色,它们共同决定了声音的特性。

音调。音调是指声音的高低(如高音、低音),由频率决定,频率越高,音调越高。频率是指声音信号在1 s内周期性变化的次数,用赫兹(Hz)表示。例如,20 Hz表示声音信号在1 s内周期性变化20次。

响度。响度又称音量或音强,是人们主观感受到的声音大小,它由声音的振幅和听者与声源之间的距离决定。振幅越大,响度越高;听者距离声源越近,响度越高。响度的度量单位为分贝(dB)。

音色。音色又称音品,是由发声体的材料和结构特性决定的。不同的人声、乐器声,如钢琴、提琴、笛子等,之所以各有特色,正是由它们的音色造成的。

5.声道

声道是指在声音录制或者播放时独立采集或者回放的音频信号。声道的数量代表了录制时使用的音源数量或者播放时使用的扬声器数量。

早期的声音重放技术落后,仅支持单声道,只能提供基本的声音输出(如留声机、调幅广播)。后来有了双声道的立体声技术(如立体声唱片、调频立体声广播、立体声盒式录音带、激光唱片),利用人耳的双耳效应,为听者带来了声音的纵深感和宽度感,营造出立体的听觉体验。现在多种多声道环绕声技术(如4.1、5.1、6.1、7.1声道),通过在听者周围布置多个扬声器,使听者感受到被声音包围的现场感,广泛应用于电影院、家庭影院、DVD-Audio、SACD、DTS-CD、HDTV等场合。

2.1.2 数字音频简介

1.音频

音频(audio)指人类可以听到的所有声音,这包括语音、音乐,以及环境声、音效声、自然声等其他声音类型。

2.数字音频

从物理学的角度来看,复杂的声波由许多具有不同振幅和频率的正弦波叠加而成。

声音可以表现为一种随时间变化的波形,如图2-1所示。

图2-1 声音的波形图

声音的模拟信息是连续变化的,计算机方法直接处理这种连续量,因此必须将其转换为数字形式。经过数字化处理的数字音频是利用数字编码的方式(也就是使用0和1)来记录音频信息的。

数字音频和传统的磁带、广播、电视中的声音就存储和播放方式而言存在本质的区别。与后者相比,数字音频具有存储便捷、成本低,在存储和传输过程中声音不失真,以及编辑处理方便等优点。

3.从模拟信号到数字信号的过程

模拟信号的数字化过程包括3个主要步骤。

步骤1:采样。采样是指在适当的时间间隔内获取不连续的样本值以替代原来的连续信号,又称为取样。

采样就是抽取某点的频率值,显然,在1 s内抽取的点越多,所获取的频率信息越丰富。

根据采样定理,为了能够复原波形,至少需要在一次振动中采样2个点。由于人耳能够感知的最高频率为20 kHz,因此要满足听觉需求,至少需要每秒进行4000次采样。

步骤2:量化。在数字音频技术中,模拟电压的强弱用数字表示,如0.5 V电压用数字20表示,2 V电压用数字80表示。尽管模拟电压的幅度在某一电平范围内可以有无穷多的值,如1.2 V、1.21 V等,但在数字化表示时,必须将无穷多的电压幅度映射到有限数量的数字表示。这个过程称为量化。

步骤3:编码。由于计算机的基本数制是二进制,因此需要把声音数据转换为计算机可识别的格式,这个过程称为编码。音频数字化编码过程如图2-2所示。

图2-2 音频数字化编码过程

4.音频编码技术

一般来说,采样频率和量化位数越高,声音的质量越高,相应地,保存这段声音所需的存储空间也越大。例如,立体声(双声道)的文件大小是单声道文件的两倍。文件大小可以通过如下方式计算。

文件大小(B)=采样频率(Hz)×录音时间(s)×(量化精度/8)×声道数

例如,录制1 min采样频率为44.1 kHz、量化精度为16位的立体声(CD音质)的声音,文件大小为:44.1×1000×60×(16/8)×2 B=10584000 B,约10 MB。由此可见,存储空间需求不小,这就需要一定的存储或传输成本。因此,采用音频编码技术来减小文件变得非常有必要。

根据编码方式的不同,音频编码技术分为3种——波形编码、参数编码和混合编码。接下来分别介绍。

1)波形编码

波形编码是指不利用生成音频信号的任何参数,直接将时间域的模拟信号变换为数字代码,以确保重构的语音波形与原始语音信号的波形尽可能一致。波形编码的基本原理是在时间轴上对模拟语音信号按一定的速率采样,然后将这些幅度样本分层量化,并用数字代码表示。

波形编码技术具有方法简单、易于实现、适应能力强并且语音质量好的优点。不过因为其压缩方法简单,也带来了一些缺点:压缩比相对较低,编码率较高。一般来说,波形编码的复杂程度比较低,但编码率较高。编码率高于16 kbit/s时,音频质量高;当编码率低于16 kbit/s时,音频质量会显著下降。

最简单的波形编码方法是PCM(Pulse Code Modulation,脉冲编码调制),它只对语音信号进行采样和量化处理。优点是编码方法简单、延迟时间短、音质高且重构的语音信号与原始语音信号几乎没有差别;缺点是编码率比较高(通常为64 kbit/s)且对传输通道中的错误比较敏感。

2)参数编码

参数编码通过从语音波形信号中提取关键参数,并利用这些参数通过语音生成模型来重构语音,目的是使重构的语音信号尽可能地保持原始语音信号的语义内容。也就是说,参数编码基于生成语音的数字模型,计算这些模型的参数,然后根据这些参数还原并合成语音。

参数编码的编码率较低,可以达到2.4 kbit/s。由于它依赖数字模型的还原,因此重构的语音信号波形与原始语音信号的波形可能会存在较大差异,失真会比较大。此外,受限于语音生成模型,即使增加数据速率,合成语音的质量提升也有限。尽管如此,参数编码因其较高的保密性,在军事领域有着广泛的应用。典型的参数编码方法为LPC(Linear Predictive Coding,线性预测编码)。

3)混合编码

混合编码结合了两种或两种以上的编码技术,旨在克服波形编码和参数编码各自的局限性,同时吸收它们的优点。混合编码结合了波形编码的高音质和参数编码的低编码率,能够达到比较好的效果。

典型音频编码技术的参数如表2-1所示。

表2-1 典型音频编码技术的参数

5.音频封装格式介绍

1)有损压缩格式

MP3(MPEG Audio Layer 3)是一种有损数据压缩格式。它通过舍弃掉脉冲编码调制音频数据中对人类听觉影响不大的部分,实现了文件大小的显著减小。MP3是目前使用最为广泛的音频压缩格式,常用于互联网上高质量声音的传输。MP3可以实现高达12∶1的压缩比并保持基本可接受的音质。

AAC(Advanced Audio Coding,高级音频编码)于1997年问世,是基于MPEG-2的音频编码技术,由Fraunhofer IIS、杜比实验室、AT&T、索尼等公司共同开发。AAC旨在超越MP3,并于2000年MPEG-4标准发布后,集成了SBR技术和PS技术。为了区别于传统的MPEG-2 AAC,其又称为MPEG-4 AAC。AAC可以在文件大小比MP3缩小30%的情况下提供更好的音质。

WMA(Windows Media Audio)是微软公司开发的一种数字音频压缩格式。WMA通过减少数据流量同时保持音质实现了更高的压缩比,一般可达1∶18,生成的文件大小约为相应MP3文件的一半。

2)无损压缩格式

WAV是微软公司开发的一种数字音频压缩格式。它将音乐从物理介质(如CD)转换为数字形式,是最早的数字音频格式之一,并被Windows平台及其应用程序广泛支持。WAV是最接近无损音质的格式,但因其文件相对较大,导致其对存储空间的需求较大,不便于交流和传播。

FLAC(Free Lossless Audio Codec,无损音频编解码器)不会破坏任何原有音频信息,能够还原音乐光盘的音质。FLAC能节省WAV格式约40%的码率。此外,在遇到爆音问题时会采用静音处理,相比APE等同类格式,FLAC的解码复杂程度较低,解码速度快,容错率高,不容易损坏。

APE是一种无损数字音频压缩格式,它以更精练的记录方式来减小文件体积,保证还原后数据与源文件一样,确保文件的完整性。APE由Monkey's Audio软件压制得到,开发者为Matthew T. Ashland,源代码开放,因其界面上的“猴子”标志而闻名。与FLAC相比,APE具有查错能力但不提供纠错功能,以保证文件的无损和纯正。APE的另一个特点是其压缩率约为55%,高于FLAC,文件大小约为原CD的一半,便于存储。 tPitXeUDWu1ITr+GyDDihMEHFD9AD9FYOdnDKz4UdiadUazIZxJy0YhdmhTtpNQf

点击中间区域
呼出菜单
上一章
目录
下一章
×