人工智能通识讲义最新章节_李楠著

第2章
声音的秘密
——声音的本质

为了能将声音记录和保存下来，人类经历了长期的探索。1877年的一天，发明家托马斯·爱迪生对着一个圆筒状的装置朗读了一句歌词，一句只有8秒钟的话立即被这个装置记录并回放出来，这就是他发明的留声机，如图2-1所示。这句歌词也成为世界上第一段被录下来的声音。从此人类历史进入了有声时代，从老式唱片到磁带，再到今天各种数字化设备中的声音，音频技术经历了一次又一次的技术变革，每一次的变革都是为了能更真实、更大量地存储声音。

图2-1 爱迪生和他发明的留声机

今天，随着人工智能技术的发展，机器已经不满足于保存声音，而是朝着能够听懂和理解声音的方向不断发展和演进。

【学习起航】

1.了解声音的记录与保存。

2.理解模拟和数字方式存储声音的差异。

3.掌握声音的数字化过程。

一、声音的记录与保存

声音是信息的重要载体，也是生物感知外界的重要途径。那么，人类是如何听到声音的？最早记录声音的留声机原理又是什么？

我们能够听到声音，是因为声源的振动引起空气的振动，进而引起我们的耳膜振动，传至内耳，最终通过听觉神经传送到大脑。

请你听听下面的几段声音，你能分辨出声音大致发生的场景吗？

扫一扫听声音

这4个声音场景分别是雨滴打在雨伞上的声音、清晨清脆的闹铃声、有节奏的切菜声以及运动后咕嘟咕嘟的喝水声，如图2-2所示。我们能准确辨别这些声音的大概场景是因为我们将这些声音与大脑中的相关记忆建立了关联。

图2-2 4个声音场景

【知识讲堂】音频场景识别

声音中载有与事件相关的信息，人可以通过声音大致判断声音发生的场景。现在，人工智能也可以做类似的事，我们称之为 音频场景识别 （Audio Scene Recognition，ASR）。音频场景识别是基于人工智能和大数据的技术，通过对声音进行感知和识别，判断出声音来自于什么样的生活场景或自然场景。

人理解声音是以记忆为基础的，机器要理解声音也离不开对声音的存储。

声音由振动产生，以波的形式在介质中传播。人类最早记录声音，是通过机械的方式记录声音的波形。最早的留声机原理就是用针尖轻擦急速旋转的金属箔片，当周围有声音的时候，声波通过空气传导引起金属箔片振动，针尖会将声音波形刻在金属箔片上。

【知识讲堂】模拟方式记录声音的原理

中国中央电视台的《加油！向未来》节目曾通过科学实验还原了最早的留声机。从它的工作原理可以看出，声音的记录是通过连续地记录波形来实现的，这是一种 模拟录音方式 ，通过这种方式录制的声音清晰度不高，原因是纯机械的记录技术只能粗糙地再现波形。随着技术的发展，后来又出现了光学录音、磁性录音等，比如常见的话筒录音装置就是一种磁性录音设备。伴随着模拟录音技术越来越先进，对波形的记录也越来越准确，再现的声音也越来越清晰。

扫一扫听声音

二、声音的数字化

20世纪中期，人类发明了数字计算机，音频技术也逐渐从模拟进入数字记录方式。计算机是基于二进制运算规则的数字化设备，所有的信息都会转换为二进制编码。因此，要将话筒采集到的声音输入计算机会有一个从模拟到数字的转换过程，如图2-3所示。

图2-3 声音输入计算机

【实践活动】看“波形”，标数值

声音的数字化 是将声波的连续模拟信号转换为不连续的离散数字信号。图2-4中的曲线是声波的连续模拟信号，纵向的振幅表示声音的强度，通俗地说就是声音的大小。如果将声波模拟信号以等时间距离分割，则横坐标为时间，纵坐标为瞬时声音强度。

图2-4 模拟信号的数字化

【拓展阅读】连续与离散

连续与离散这两个概念是相关联的，没有连续的概念，离散这个概念就没有意义，反之也成立。我们经常在物理或数学的学习中使用到连续的概念，比如时间，我们总是认为时间是连续的、能无穷细分的，今天的12点和12点零1秒之间，我们还可以把它分成无穷多份微小的时间段。虽然量子力学告诉我们有些物理量的取值并不是连续的，但是按照一般的理解，像时间、速度、质量这些物理量都是连续变化的。在我们目前学习的数学和物理中，也把这些物理量当成连续的，比如小明跑1000米用了3分钟，问小明每分钟能跑多少米。同学们都可以很容易地计算出来，小明每分钟能跑333.333...米，这是一个无限循环小数。但是在计算机的世界里，我们更喜欢用离散的思想处理物理量，为什么呢？

现代计算机的设计思想就是建立在二进制的基础上，而且处理数字的位数又有限制，具有天然的离散特性。况且很多计算机中存放的数据来源于各种传感器，包括麦克风、摄像头，都不能采集连续的物理量，而是以离散的方式存储的。人工智能技术是建立在当前的计算机技术之上的，因此它处理的对象也一定都是离散的。离散的物理量一个最大的特点就是会有一个精度的概念。比如说我们有一个系统的时间精度是秒，这说明它只能记录1秒、2秒这样的数值，而不能记录1.5秒这样的小数。而相对的，另一个系统的时间精度是毫秒，虽然它们都是离散的时间系统，但后者的精度比前者要高1000倍。

图2-5 连续与离散

【实践活动】声音的数值

观察纵轴上的数值，这些数值是二进制，请你将这些数值转换为十进制（注意：数值的首位只表示正负，首位为0表示正数，首位为1表示负数），然后大致标出图中前5个点的声音数值，请填入表2-1。

表2-1 声音数值

【实践活动】录声音，看数值

用Adobe Audition软件录制一段声音，录制的同时你会发现屏幕上出现了“波形”，如图2-6所示，这些就是我们录制好的声音。有两段相同的“波形”，是左右双声道同时录音的缘故。

微课

图2-6 录制的声音“波形”

如果缩短滑轨将“波形”逐渐放大，会看到好像是“连续波形”的声音信号，如图2-7所示。

继续放大，会看到很多的“点”，在其中一个点上单击右键，能看到该点的采样值，如图2-8所示。每个点就是某一瞬时的声音信号。

图2-7 将声音“波形”放大后的“连续波形”声音信号

图2-8 改变声音采样值

现在你知道了，数字化声音确实是将声波“分割”成了大量的不连续信号（也可以称为离散信号），每个信号用一个数值来表示。

三、声音的采样与存储

从上面的体验我们知道了数字化声音（见图2-9）将声波“分割”成大量等时距、不连续的信号，你能推测数字化声音最重要的两个关键信息吗？

图2-9 声音的数字化

假设下面是一段数字化声音的前0.001秒的“波形图”，请问：

（1）该段数字化声音每秒钟有多少个瞬时声音信号？

该段声音总共有30个瞬时声音信号，长度是0.001秒，所以每秒钟有30×1000=30000个声音信号。就是说这段数字化声音的采样频率是30000Hz。常见的数字化声音的采样频率是44100Hz。

（2）每个瞬时声音信号用几位二进制表述？

在这段数字化声音中，每个瞬时声音信号用4位二进制来表述，我们称这段声音的量化位深是4位。实际上，常见的数字化声音的量化位深是16位，结合图2-9中的问题想一想量化位深增大的意义是什么。

【知识讲堂】采样定理

同学们可能会有疑惑，离散的数字化声音为什么能将声音再现得这么好？

声音记录下来再播放让我们能听到，人的听觉频率范围是20～20000Hz。而常见录制的数字化声音的采样频率是44100Hz。美国著名数学家、信息论创始人克劳德·香农曾提出过一个重要的原理，称为 采样定理 （也称香农采样定理）。这个定理告诉我们，为了不失真地恢复模拟信号，采样频率应该不小于模拟信号频谱中最高频率的2倍。对于人类来说，我们最关心的声音频率一般不超过20000Hz，那么2倍就是40000Hz，显然44100Hz的采样频率已经达到了这个要求。

【实践活动】感受数字化声音的影响因素

我们试着降低采样率和量化值，重新录制一遍刚才的声音，体验一下声音的清晰度和还原性是不是有明显的降低，录音参数设置界面如图2-10所示。

图2-10 录音参数设置界面

【知识讲堂】数字化声音采样

要想用数字化设备保存和处理声音，需要将声音的模拟信号转换为数字信号，也就是声音数字化。 声音数字化 的基本方法是按照一定时间间隔采集声波模拟信号，并将其按照编码规则转换为二进制数序列。数字化声音有三个关键点，分别是：

（1）每秒采集多少个声音信号，即 采样频率 。采样频率越高，采样的间隔时间就越短，在单位时间内计算机得到的样本数据就越多，对波形的表示也越精确。常见的数字化音频的采样频率为44100Hz，也就是每秒钟采集44100个声音信号，图2-11中表示了生活中常见音频的采样频率。

图2-11 生活中常见的采样频率

（2）每个瞬时声音信号量化为多大的数值（用多少位的二进制来表示），称为 量化位深 。量化位深通常是16位，也就是说每个瞬时声音信号用16位二进制来表示，这样的量化位深能较为精细地记录声音强度。

（3）编码是声音数字化的最后一步，其实声音模拟信号经过采样、量化之后已经变为数字形式，但是为了方便计算机的存储和处理，需要对它进行编码，以减少数据量。

四、声音的存储与编码压缩

从小生活在胡同的小李最喜欢听老北京清晨胡同里的声音，随着城市变迁，他们全家要搬离生活了很多年的胡同了。小李早起录制了一段长5分钟的数字化声音，这是一段采样频率为44100Hz，量化值为16位的双声道数字音频。

如果完全不进行任何压缩，存储这段声音，需要多大的数字化空间？

每秒钟有44100个数字信号，每个信号用16bit（16位），双声道，所以每秒的数据量是2×44100×16bit

1分钟的数据量是2×44100×16×60bit

1B（字节）是8bit（位），1分钟的数据量转换为字节数就是2×44100×16bit×60÷8=10584000 B

1M=1024KB，1KB=1024B，再将结果转换为MB，也就是10584000B/（1024×1024）≈10MB。

5分钟的数据量就是50MB

通过以上的计算我们知道，如果不进行数据压缩，5分钟的数字化音频就可能需要50MB的存储空间，1小时就达到了大约600MB。可见，数字化音频必须解决的问题是如何通过算法对声音数据进行编码压缩，从而便于存储和传输。 编码压缩 一般可分为有损压缩和无损压缩两种方式。

利用人耳对声波中某些频率不敏感的特性对音频数据进行编码压缩是 有损压缩 的一种方式，可见有损压缩确实会丢弃一些数据而不太影响人类听上去的感觉。 无损压缩 则不同，虽然对数据也进行了压缩，但只是用更精炼的方式来记录数据，其压缩算法使其可以百分之百地还原出所有原始数据中的信息，这是有损压缩做不到的。简言之，有损压缩会在一定程度上改变原始数据，而无损压缩则不会，相对而言，有损压缩占用的存储空间较小。

表2-2列出了三种常见的音频编码格式。

表2-2 常见的音频编码格式

课后练习

1.用Audition录制一段声音，请你将这段声音导出为wav格式，这个数字化声音文件的存储大小是________KB。结合上面的学习，请你思考这个数字化声音文件的大小是怎么计算出来的？

2.重新导出这段声音，编码格式选择mp3，这个数字化声音文件的存储大小是______KB。你能听出这两个文件的差别吗？你会选择哪个编码格式进行永久保存，为什么？

3.关于声纹识别技术

在四大名著之一的《红楼梦》中，王熙凤的出场方式最为特别。她以“未见其人先闻其声”的方式出场，给人留下了深刻的印象。在生活中，我们有时候也会根据说话声判别一个人，因为每个人都有自己的声音特质，有的人声音高亢，有的人声音沙哑……

数字化使得大量声音的存储变得容易，也使得人类能够利用计算机强大的计算力并设计算法，分析语音波形中反映说话人生理和行为特征的语音参数，连接到计算机的声纹库，最终确定说话人的身份。这就是声纹识别，也称作说话人识别，这是一种通过声音判别说话人身份的技术。