引言

声音是我们最初的交流方式。当新生儿出生时，做的第一件事就是大哭，以此宣告来到了这个世界。响亮的哭声包含丰富的意义，这是我们第一次公开发声，告诉世界我们来了，而且很健康。它提醒身边的每个人，尽管我们还有很多年才能学会如何正确地说话，但我们已经在有力地表达自己了。我们将毫不犹豫地通过语音交流的方式传达我们的需求。

从那一天起，我们不仅依靠声音来传达需求，而且以后还表达快乐、不适、无聊和喜悦。到18个月大的时候，我们将以每天10个单词的惊人速度学习，并将这一速度一直保持到青春期 ^[1] 。一旦我们学会了如何将单词串成句子，我们将变成一台真正的语言洪流制造机器。一个成年人平均每天说16000个字，这个平均值是不分性别的，事实证明，女性和男性说的字数相等。与一个成年人每分钟大约能打30个字相比，这16000个字是相当惊人的 ^[2] 。如果你连续打字，每小时最多只能打1800个字。如果你连续打8个小时，会打出接近15000个字，普通人每天打出的字数在3000～4000。除非是一个全职的数据录入专业人员，持续且专注地进行打字输出，否则一个成年人每天打出的平均字数要比这个数字少得多。 ¹²³

因此，从本质上讲，我们说话的字数是打字或书写的4～5倍。顺便说一下，打字和书写也包括发短信和发推特。

那么，相较于听，阅读又有何不同呢？

不管你的阅读能力有多强，通过聆听获取的信息比通过阅读获取的信息要多得多。想想你每天参加的会议：电话会议；播客；线上语音会议；你与家人、同事和朋友面对面或通过电话进行的闲聊；参加的讲座；听的广播；看的视频；喜欢的电视节目。将所有这些与你每天阅读的文字量进行比较，包括短信、推文、电子邮件、文件、文章、书籍等。除非你是一个整天被关在图书馆的研究生，否则你阅读的文字甚至都比不上你被动地轻轻松松听到的音频。

因此，就纯粹的数量而言，我们通过音频传递和处理的信息内容远远超过所有其他媒体，甚至是所有其他媒体的总和。

但是，正如本书的其余部分所展示的那样，我们希望语音和音频成为我们与其他人交流的最直接、最有效的手段。不仅因为它是我们从第一天起就开始使用的手段，还因为在越来越重视行为结果的生活方式中，它是最适合当下的手段。我们一直在与人合作，并且还与能帮助我们的机器合作，这种状态将一直持续下去。我们需要机器帮助我们处理自身难以做到的事情，无论是身体上、智力上还是认知上难以做到的事情。因此，我们需要快速获取信息，并且通过机器来帮助我们获取信息。那么，掌握信息的最快方式是什么？在许多情况下，并不是通过打字、刷卡、点击或捏合的动作，而是通过说话。因此，就像我们发明了电锯和钻头来完成过去需要大量精力、技能和体力的工作一样，我们发明了信息技术，使我们能够以某种方式创建、存储和检索信息，而无须再花费大量的精力、技能和体力。

经过相当长的时间，我们目睹了互联网的兴起和它所创造的一切。可以毫不犹豫地说：就像在1982年我们不知道2002年的世界会是什么样子那样，在2002年不知道2022年的世界会是什么样子那样，我们相信，依然不可能准确地知道2042年的世界将变成什么样子。但我们知道的是未来几十年最好的导航方式需要坚持的一些基本原则。在这里，我们分享其中的5个原则。

第一，我们需要尽可能地避免触犯一些禁忌和偏见。建立规则、标准和准则，以及提供一些最佳实践是必要的。例如，本书就是一个练习。但是，无论我们提出、发明、同意以及采用什么方案，所有这些都必须接受验证。考虑到创新正在加速，这种不断修订的精神至关重要。因此，如果希望充分利用我们正在创造的新事物，那么迅速适应变化就是至关重要的。

第二，如果可以的话，需要深入研究我们正在做的任何事情。卓越是罕见的，因为实现卓越非常困难。如果我们对任何事情都努力研究，追求精益求精，卓越就会变成可能。随着工具的普及、生态系统的完善、源代码的开放以及各种社区的发展和繁荣，我们发现自己处于一个令人兴奋的时代，可以专注于实现自己的想法，而不必浪费大量宝贵的资源来实现这些想法。启动技术项目不需要购买昂贵的服务器、安装昂贵的软件，或者雇用昂贵的人员。我们可以使用云服务来完成这些工作，云服务不仅提供所需的软件，而且价格低于我们直接购买服务器和软件。零工经济使我们能够与世界各地的软件开发人员接触。拥有这些之后，我和我的团队可以把时间、精力和金钱集中在深入研究上，并专注于提供真正的价值，这也将降低客户的成本。

第三，我们需要认识到，随着语音优先时代的到来，我们正在经历一场重大的技术变革，其程度与20世纪80年代的个人计算机、20世纪90年代的互联网、21世纪00年代的智能手机以及21世纪10年代的社交媒体一样。21世纪20年代将是语音优先的10年。总的来说，在这10年里，我们不再受限于屏幕大小，会理所当然地用眼睛和手参与到物理和虚拟的世界中。这种认识有什么用？答案是它促使我们的思考更深入、更广泛，避免我们陷入舒适圈，放弃追求。例如，当我们开始在语音方面进行创新时，让我们不要把宝贵的时间和金钱浪费在已经在屏幕上做得很好的“语音功能”的开发上，而是让我们深入挖掘，了解语音与视觉/触觉界面的不同之处，特殊在哪里，然后建立工具，比如我们正在谈论的语音机器人，如何用它来提供屏幕界面无法提供的体验。本书旨在让读者具有这样的信念：我可以创造语音机器人，我可以创造很有价值的语音机器人，我的语音机器人应该做到人类之前做不到的事情，又或者做得不那么笨拙，不那么辛苦。如果做到了，还有什么比用语音机器人更轻松、更方便的呢？

第四，我们需要以深入研究的精神认真对待上下文信息，这是提供卓越服务的核心。首先，上下文信息不仅是指使用语音机器人的用户的背景情况，还包括将语音机器人从开始规划、研究、构建到实现的整个过程中的所有上下文。其次，我们需要确保语音机器人可用，以保证它们能够持续工作。这对它们在面对实际问题时能够尽可能发挥作用至关重要。我们需要深入研究以尽可能了解语音机器人的使用环境，但也必须明白，除非语音机器人的创造者认真对待这些存在的上下文信息，否则语音机器人将无法在现实世界中取得成功。如果我们现在已经创造了一个强大的语音机器人，那么员工是否意识到它的存在，客户支持团队是否知道语音机器人的作用以及它如何帮助客户，这个团队是否投入了足够的资源与客户进行沟通，这些客户是否从使用语音机器人中受益？目前大多数花费高昂的语音机器人都忽略了每一步的上下文信息，或者只是浅浅地触及，又或者只是草率地应用。在这个方面，我们还有很长的路要走。

第五，我们的目标是尽可能地构建正确的东西。在构建语音机器人时，我们需要确保设计的功能听上去靠谱，例如构建模仿人类行为的语音机器人。正如我们已经提到并将在本书中反复声明的那样，人类和语音机器人的互动方式与人类之间的互动方式是不同的。这可能看起来很正常，事实上也应该如此，但我们也看到许多例子，设计者试图让语音机器人“自然”地行动，也就是说，声音和行为都像人类。但这并不是语音机器人设计师的任务，他们的任务要比这简单得多，更有可能为用户提供价值，甚至快乐。语音机器人是一种工具，仅仅是一种工具，一种利用语音和音频来帮助人类做一些事情的工具。语音机器人的设计者应该始终以开放、创新的心态对待他们的工作，而不是人为地将自己局限在对人类模仿的方式上。我们希望本书能够对读者有所帮助，让读者能够朝着这种专业态度迈出一步。

[1] Clifford Nass, Wired for Speech: How Voice Activates and Advances the Human-Computer Relationship (MIT Press, 2007), 1.

[2] C. Marlin Brown, Human-Computer Interface Design Guidelines (Ablex, 1988).