前言

本书酝酿了将近20年。在这些年里，语音技术领域的从业者一直在说：“语音指日可待。”这意味着，终有一天，语音将成为人类检索和创建信息以及做其他事情的可靠方式，届时人们不再需要打字、按下按钮、敲击键盘以及停下手里要做的事情，只需要说话和倾听就足够了。

在早期，“语音指日可待”是我们热切的期望。当时人们情绪高涨（毕竟那是20世纪90年代），所以在很大程度上对未来的预测充满希望。然而，回过头看，考虑到该技术当时的可用性、成本和基本性能（缓慢且不准确），这个主张几乎是不合理的。但是，随着时间的推移，混合着自嘲（“我们怎么会如此傲慢？”）、固执的反击（“但是，我们会让它成真！”），以及对任何带有炒作意味的事物的厌恶（“当它真的要发生时，我们会睁大怀疑的眼睛。”），这个预测变得更加合理。

在语音电话系统[也被称为不受欢迎的交互式语音应答（IVR）应用程序]中，人们拨打一个电话号码，打算与另一个人交谈，却遇到一个令人不快的系统。这是部署在主流应用上的第一批交互式语音技术，并最终在21世纪初成为主流技术。尽管它们确实提供了不可否认的价值，尽管用户的抱怨是合理的，但在某种程度上，它们并没有实现“语音指日可待”的愿望。直到2011年10月4日（史蒂夫·乔布斯去世的前一天）iPhone 4S发布，我们才可以说语音时代已经到来：Siri诞生了，交互式语音可以按需为当时的数千万iPhone用户提供服务。

Siri的出现是一个分水岭，不仅因为它在智能手机上实现了交互式语音服务，还因为它所提供的基于语音的交互类型与用户在IVR系统中遇到的交互类型有着本质上的不同。这里的关键区别在于，在IVR中，人们拨打电话通常是想与人交谈，但遇到自动化语音系统时，他们必须决定是要参与互动，还是立即要求人工代理（或拒绝与自动化语音系统沟通），或者挂断电话。相比之下，使用Siri的用户更愿意参与语音自动化的自助服务。当他们按住Home键（就像Siri第一次让用户做的那样）时，他们并不期望与人类对话，而是期望与语音应用对话。换句话说，用户并没有打算与人对话，而是希望通过语音来进行自助服务。这是主流交互式语音技术的第一次突破。

即便如此，Siri其实也没有像语音从业者所希望的那样发展。在最初的高涨热情之后，我们很快意识到在Siri上看到的并不是“语音指日可待”的实现，而是对多模态界面的渐进式增强（虽然很重要），它添加了一种新的交互模式——语音。你不仅可以看到、触摸和感觉（通过触觉反应），还能通过说话和倾听来完成自助任务。然而，Siri确实取得了一项重大成就（语音从业者应该永远感谢史蒂夫·乔布斯）：它引入了一种前沿的、“酷”的语音应用环境（也就是iPhone），提升了语音作为一项技术的品牌地位，这项技术超越了乏味的电话IVR世界，具有值得期待的未来。

2014年11月8日，当亚马逊Echo到来时，才能够合理地证明：语音技术不再是近在咫尺，而是已经实现了。

亚马逊Echo是第一个实现语音技术承诺的候选设备，它实现了语音界面的三个基本方面。第一，像Siri一样，它是一个用户自愿使用的语音系统界面。第二，与Siri和其他移动应用程序的语音应用不同的是（这一点至关重要），该界面支持远场交互，这意味着用户不需要像使用普通的老式电话或智能手机和听写麦克风那样，将设备放在嘴边。第三，最重要的是，用户可以在手眼都忙着的时候与它互动，完全解放了身体。

下面简单介绍一下本书。

本书关注一种非常特殊的用户界面类型：语音优先的界面，或者简称为“语音机器人”。这种界面能够帮助用户在解放眼睛和手的情况下进行交互。例如，用户在修理汽车、栽种植物、洗澡、躺在床上（半睡半醒）、准备食物、开车、失明或暂时失明、叠衣服和看电视、收拾房子、遛狗、与某人面对面交谈、虚拟通话、打字、玩智能手机，或在博物馆里盯着一幅画时。这种用例还有许多，针对这些场景进行设计将面临许多挑战，本书就是为此而存在的。

因此，本书不涉及非语音、基于文本的聊天机器人的设计。本书也没有提出帮助设计师构建多模态用户界面。在多模态中，即使语音是中心模态，其他模态（屏幕、触摸、触觉）只发挥辅助作用，设计多模态用户界面也是一项完全不同的工作。通常，新手设计师会错误地认为以语音为中心的多模态类似于“语音优先+”，实际上这是一种独立的用户界面类型，与语音优先之间的差异就像它和视觉多模态之间的差异一样，在视觉多模态中，用户界面的中心是视觉而不是语音（例如，智能手机或智能平板电脑）。

下面简单介绍一下格式。读者会注意到，除了最后的附录部分，本书没有使用图片。我们认为：要帮助读者设计让人信服的、有效的、令人愉快的语音机器人，设计师和用户可以使用的唯一工具就是口语和音频，那么作为作者，最好能够通过纯语言来传达我们的概念和建议。

读者还会注意到，本书没有冗长的介绍，文风简洁。这是我们有意为之的。简洁、精确的对话是语音机器人的核心设计原则，我们在写作风格中就要体现出这一点。

说到风格，本书是按照经典的英语写作风格指南——Strunk和White的 The Elements of Style 一书的风格编写的。这本由Harcourt出版社在1920年首次出版、有着百年历史的小型专著之所以能成为一本令人信服的书，并为几代作家服务，是因为它对“底线”的关注。这是一本直入主题的书，我们的目标就是模仿这种风格。

此外， The Elements of Style 并不是关于写作和作品主题的全面而深入的参考书，而是一本方便的手册，供作者在需要具体问题的可行答案时使用。本书的目的同样是作为那些优秀的对话式语音设计书籍的姊妹篇，方便设计师获取，而不是取代它们。我们在“参考文献”部分提供了这类书籍的列表。

目标读者

本书的目标读者是在新兴的远场语音技术领域——例如亚马逊智能音箱（Amazon Echo）、谷歌助手（Google Assistant）等平台，以及苹果AirPods等可听/可说的技术领域——崭露头角并实践的语音机器人设计师。本书对设计IVR系统的人也有用，但仅限于那些不需要用双手和眼睛进行系统操作的情况。

虽然本书主要是为了帮助语音机器人设计师思考并做出合理的设计决策，但为了让与设计师一起工作的同事也可以阅读，我们特意将本书写得可读性很强，并且没有什么术语。这些同事包括用户体验（UX）研究人员、产品经理、开发人员、测试人员、营销人员和业务开发专业人员。

为什么写本书

本书旨在为一些问题提供直接答案，比如：“如何设计一个与语音机器人互动的有效开场白？”“设计失败用例时应该记住什么？”“设计对话式语音助手系统的最佳实践是什么？”这些问题的答案有时可以在其他书中找到，但通常需要读者努力寻找，并可能要查阅多本书籍才能找到答案。本书把这些答案汇集在一起，并专注于直接和简洁地回答这些问题。

然而，本书并没有假装以任何方式提供最终的、不可动摇的、永恒不变的答案。相反，我们的第一个目标是明确设计师在从事这项工作时应该问自己的关键问题，然后利用我们数十年设计和部署语音机器人的经验给出答案。例如，交互的前几秒是至关重要的，可以决定交互的成败，设计师需要仔细考虑对话如何开始。以前从未设计过语音机器人的人甚至可能没有意识到这些开场时刻有多重要。设计师可能也不会想到：初次使用的用户和频繁使用的用户必须以不同的方式参与互动；提示应该设计为当提示完成时用户就知道要说什么；应该将一些经过时间验证的技术编写为有效的故障恢复提示。我们的主要目标是教会设计师在设计语音机器人时，如何批判性地应对面临的诸多挑战，而不是制定固定的且不容置疑的方案。

本书的第二个目标更加雄心勃勃，那就是论证和倡导以下内容：在设计有效的语音机器人时，需要摆脱这样一种观念，即语音机器人越接近人类（例如，通过语音机器人的声音、所使用的语言、所扮演的“角色”），语音机器人的用户体验就越好。我们认为，让语音机器人听起来尽可能像人的观点是错误的，就像成年人对婴儿说话的方式，孩子对狗说话的方式，或者一个人对不懂他们语言的人说话的方式，这些都是需要改进的不完美的风格，应该尽量模仿那些能够相互理解、有效沟通的人所使用的语言。我们将倡导一种与语音机器人互动的风格，这种风格将借用人类彼此交谈的许多方式，但有时会有很大程度的偏离，超越人与人之间的对话方式。

如何阅读本书

本书结构如下：

•从引言到第9章介绍有关语音、音频和对话式语音建模的基本概念。

•第10～19章侧重于针对具体挑战的详细建议。例如：开启语音机器人与人对话的有效方式是什么？设计师可以使用哪些技巧来提供清晰、可操作的提示？事情不顺利时会怎样呢？设计师使用什么技巧可以将互动带回正轨？

•第20～26章介绍语音优先的产品和服务成功的重要考量。

•附录A至附录C提供了概念工具和实践工具，帮助设计师有效地剖析他们的设计策略，并进一步强化思维方式。

到本书结束时，读者将能够理解：

•如何设计合适的语言，使语音机器人能够有效地与人类交流。

•如何制作对故障具有鲁棒性的语音机器人。

•语音机器人不是人类，在设计时应该始终牢记这一基本事实。

•设计高度可用的语音机器人需要关注许多“小细节”，这些细节可以决定体验的成败。

•虽然人类都是称职的对话专家，但不一定是称职的语音机器人设计师。设计引人入胜且有效的语音机器人是一项艰巨的工作，需要经过多年的一线实践来提升技能并建立直觉。

O'Reilly在线学习平台（O'Reilly Online Learning）

40多年来，O'Reilly Media致力于提供技术和商业培训、知识和卓越见解，来帮助众多公司取得成功。

我们拥有独一无二的专家和革新者组成的庞大网络，他们通过图书、文章、会议和我们的在线学习平台分享他们的知识和经验。O'Reilly的在线学习平台允许你按需访问现场培训课程、深入的学习路径、交互式编程环境，以及O'Reilly和200多家其他出版商提供的大量文本和视频资源。有关的更多信息，请访问 https://oreilly.com 。

如何联系我们

对于本书，如果有任何意见或疑问，请按照以下地址联系本书出版商。

美国：

O'Reilly Media，Inc.

1005 Gravenstein Highway North

Sebastopol，CA 95472

中国：

北京市西城区西直门南大街2号成铭大厦C座807室（100035）

奥莱利技术咨询（北京）有限公司

要询问技术问题或对本书提出建议，请发送电子邮件至 errata@oreilly.com.cn 。

本书配套网站 https://oreil.ly/voice-first-style 上列出了勘误表、示例以及其他信息。

关于书籍、课程、会议和新闻的更多信息，请访问我们的网站 https://oreilly. com 。

我们在LinkedIn上的地址： https://linkedin.com/company/oreillymedia

我们在Twitter上的地址： https://twitter.com/oreillymedia

我们在YouTube上的地址： https://youtube.com/oreillymedia

致谢

首先，我们要感谢本书的审校者，感谢他们深思熟虑的建议和发人深省的反馈：Bruce Balentine、Corey Miller、Jared Strawderman、Jonathan Bloom、Julia Anderson、Karl Melder、Lisa Falkson和Rajiv Bammi。

然后，感谢O'Reilly Media团队的辛勤工作和支持。我们要特别感谢Amanda Quinn，她是本书的最初倡导者；感谢Jill Leonard在整个过程中给予的耐心、善意和专业指导；感谢Kate Galloway，她帮助我们完成了无数件事情。无须多说，本书的顺利出版离不开他们。

多年来，“语音优先”的许多同伴为我们提供了机会和灵感，教会了我们很多东西，并与我们一起应对真正的挑战和解决棘手的问题，他们是：Aaron Wellman、Adam Cheyer、Alireza Kenarsari、Alex Johnston博士、Alexa Juliana Ard、Amy Stapleton、André Oosterlinck教授、Ariane Nabeth-Halber、Audrey Arbeeny、Benjamin Falvo、Ben McCulloch、Beth Holmes、Bill Scholz、Bradley Metrock、Bret Kinsella、Brian Garr、Brielle Nickoloff、Carl Grant、Catherine Breslin博士、Cathy Pearl、Dan Miller、Daniel Hill、David Cuddihy、David Day博士、David Ferro教授、David Rennyson、David Toliver、Deborah Dahl博士、Derek Botten、Diana Deibel、Dirk Van Compernolle教授、Emily Banzhaf、Evelyn Tzoukermann博士、Gildie Nazari、Giorgio Robino、Ha-Hoa Hamano、Hassan Sawaf、Heidi Culbertson、Ilana Meir、Ivan Young、Janice Mandel、Jeanna Isham、Jeff Adams、Jintao Jiang博士、John Keeling、John Kelvie、Jon Stine、Joan Palmiter Bajorek博士、Joseph C. Pitt教授、Jonathan Piro、Jungyoon Koh、Kane Simms、Karen Kaushansky、Leor Grebler、Lisa Brandt、Lowell Robinson、Loyd Ford、Mai Tran、Maria Aretoulaki博士、Marjukka Ollilainen教授、Matthew Cadman、Mehedi Hasan、Michael Greenberg、Michael Zirngibk、Michelle Levine、Nathalie Scott、Navya Nayaki Yelloji、Neha Javalagi、Nicholas Sawka、Nicolo Scolieri、Noelle Silver、Paolo Narciso、Pete Erickson、Peter Krogh、Phillip Hunter、Rebecca Evanhoe、Richard Scarbath、Richard Warzecha、Roger Kibbe、Roger K. Moore教授、Ron Jaworski、Russ Elovitz、Ryan Elza、Sam Aparicio、Sarah Andrew Wilson、Sezen Uysal、Shyamala Prayaga、Steve Fuller教授、Susan Hura、Tomasz Jadczyk、Ulie Xu、Vishal Chordia、William Meisel、Yisong Dai教授。

最后，特别感谢我们多年来在Amazon、Angel.com、Apple、Convergys、Genesys、Google、Microsoft、MicroStrategy、MITRE、Schneider Electric和Unisys的许多导师、同事、合作伙伴和朋友。他们一直奋斗在语音优先领域的前线，也将继续充满激情地前行。

最重要的，感谢我们的儿子Faris帮助构建了基于Amazon Echo技能和Google Assistant的服务。同时也感谢他这么多年来在餐桌上保持风度，迁就我们没完没了地讨论人类语言技术。