译者序

“言为心声，语为心境”，语言和对话是我们沟通与协作的重要方式。智能语音技术是一种基于人工智能和自然语言处理技术的语音交互技术，它可以通过语音识别技术将用户的语音指令转换为文本，然后通过自然语言处理技术对文本进行分析和理解，最终生成相应的响应或执行相应的操作。

虽然智能语音技术由来已久，但直到Amazon Echo智能音箱问世，才再一次引发了业界对智能语音技术的广泛关注。这样的智能音箱带给人们一种叫作“语音优先”的用户体验，为用户提供了一种更加便捷、高效的交互方式。

那么，什么是“语音优先”呢？

语音优先是指在设计产品或服务时，将语音交互作为主要的用户界面，以便用户可以通过语音指令来完成操作。这种设计方法可以提高用户的使用体验，特别是在双手正在忙碌的场景中，语音交互更加方便和快捷。语音优先交互方式的优势在于：

•速度。每分钟可以说120～150个字。

•解放双手。例如做饭时通过语音可以完成一些期望做的事。

•直觉性。语言是人类的天赋，也是人类交际沟通的自然手段。

•同理心。语音中包含了语气、音量、语调和语速，这些特征传达了大量的信息。

智能语音交互离不开人工智能技术，语音优先交互中涉及的人工智能技术如下图所示。

其实，在为我们服务的智能语音设备背后有一整套技术和流程，从语音唤醒到自动语音识别，再到自然语言理解，最终通过自然语言生成以及语音合成技术形成反馈。整套流程背后又有很多细分的人工智能技术在支持，如对话管理、深度学习、DNN、CNN、NLP、TTS等。

幸运的是，在2017年，我加入了宣称“All in AI”的百度，负责百度智能音箱的研发。我和团队经受了88天的“炼狱”生活，终于诞生了百度第一款智能音箱Raven-H。之后，我们还参与了小度音箱、小度在家等产品的研发。后来，我担任DuerOS首席布道师，负责DuerOS的生态建设。DuerOS开放平台为开发者提供了开发智能语音应用的工具，使智能语音服务的开发更为便利。谷歌与亚马逊等国外公司，以及小米、阿里等国内公司，也都有着类似于DuerOS开放平台的开发者社区。

在各种语音开放平台上开发智能语音服务时，开发者普遍面临对智能语音交互设计认识不足的情况，特别是语音优先设计的适用场景和独特性。作为一名布道者，我非常想写一本关于智能语音交互设计与实现方面的书，但由于种种原因，未能实现。

本书正是这样一本书，不仅深入浅出地讨论了对话技术，还介绍了智能语音交互设计的各种细节，是一本名副其实的设计指南和实战手册。感谢机械工业出版社让我参与本书的翻译工作，弥补了我曾经的遗憾。

翻译团队的诞生源自几个有趣灵魂的碰撞。王同林和卢健作为高级产品经理，他们强烈的求知欲和十多年的丰富产品设计经验是组建翻译团队的原动力。我们在整个翻译过程中，力争保持严谨的行文和细心的求证，即便如此，仍然如履薄冰。如果文中有不妥之处，欢迎大家指正。

曹洪伟
2023年3月