TensorFlow语音识别实战最新章节_王晓华著

1.1　何谓语音识别

语音识别技术是将声音转化成文字的一种技术，类似于人类的耳朵，拥有听懂他人说话的内容并将其转换成可以辨识的内容的能力。

不妨设想如下场景：

当你加完班回到家中，疲惫地躺在沙发上，随口一句“打开电视”，沙发前的电视按命令开启，然后一个温柔的声音问候你，“今天想看什么类型的电影？”或者主动向你推荐目前流行的一些影片。

这些都是语音识别所能够处理的场景，虽然看似科幻，但是实际上这些场景已经不再是以往人们的设想，正在悄悄地走进你我的生活。

2018年，谷歌在开发者大会上演示了一个预约理发店的聊天机器人，语气惟妙惟肖，表现相当令人惊艳。相信很多读者都接到过人工智能的推销电话，不去仔细分辨的话，根本不知道电话那头只是一个能够做出语音处理的聊天机器人程序。

“语音转换”“人机对话”“机器人客服”是语音识别应用广泛的三部分，也是商业价值较高的一些方向。此外，还有看图说话等一些带有娱乐性质的应用。这些统统是语音识别技术的应用。

语音识别通常称为自动语音识别（Automatic Speech Recognition，ASR），主要是将人类语音中的词汇内容转换为计算机可读的输入，一般都是可以理解的文本内容，也有可能是二进制编码或者字符序列。

语音识别是一项融合多学科知识的前沿技术，覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科，是人机自然交互技术中的关键环节。但是，语音识别自诞生以来的半个多世纪，一直没有在实际应用过程得到普遍认可。一方面，语音识别技术存在缺陷，其识别精度和速度都达不到实际应用的要求；另一方面，业界对语音识别的期望过高，实际上语音识别与键盘、鼠标或触摸屏等应该是融合关系，而非替代关系。

深度学习技术自2015年兴起之后，已经取得了长足进步。语音识别的精度和速度取决于实际应用环境，但在安静环境、标准口音、常见词汇场景下的语音识别率已经超过95%，意味着具备了与人类相仿的语言识别能力，而这也是语音识别技术当前发展比较火热的原因。

随着技术的发展，现在口音、方言、噪声等场景下的语音识别也达到了可用状态，特别是远场语音识别已经随着智能音箱的兴起，成为全球消费电子领域应用最成功的技术之一。由于语音交互提供了更自然、更便利、更高效的沟通形式，因此语音必定成为未来主要的人机互动接口之一。

当然，当前技术还存在很多不足，如对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升；另外，多人语音识别和离线语音识别也是当前需要重点解决的问题。虽然语音识别还无法做到无限制领域、无限制人群的应用，但是至少从应用实践中我们看到了一些希望。当然，实际上自然语言处理并不限于上文所说的这些，随着人们对深度学习的了解，更多应用正在不停地开发出来，相信读者会亲眼见证这一切的发生。

1.1 何谓语音识别

1.1　何谓语音识别