语音优先：智能语音技术驱动的交互界面设计与语音机器人设计最新章节_艾哈迈德·布齐德著

5.2 对话动作

如上所述，参与者通过陈述采取对话动作，将对话从一种状态转移到另一种状态。以下是主要动作：

开始对话

这是对话的发起者所采取的动作：在人与人对话的上下文中，开始对话通常包括简短、正式的问候语，如“你好”或“嗨”；在和语音机器人对话时，用户通过说出唤醒词来开启对话。如果语音机器人是发起对话的一方，那么它会发出用户已知的声音或铃声，表示希望开始对话。

清晰的内容

这是人类或语音机器人提供内容的动作。内容可以是信息、问题、某些声音，甚至是沉默。

让出对话轮次

停止说话通常意味着让出对话轮次。如果一个参与者停止说话，这通常（但不总是）是一个信号，表示对方应该承接这个对话的轮次。有时，如果参与者觉得对方没有将沉默理解为对话轮次的转移（“继续！”），或是不情愿地接管该对话轮次，他们可能会明确地让出对话轮次（“轮到你说了，你怎么看？”）

请求对话轮次

在人与人之间的对话中，参与者可以通过无声的示意来请求对话轮次，例如举起一根手指，把头往后移，张开嘴；也可以通过温和的插话来请求对话轮次，例如清一清嗓子，犹豫地说一句话，礼貌地请求对话轮次（“我可以插一句话吗？”）或者直接通过与对话轮次所有者说话来接管对话轮次。在人与语音机器人对话的情况下，至少在目前的技术水平上，人可以简单地获取对话轮次，而无须请求它。

放弃对话轮次

这是对话轮次所有者应其他参与者的对话轮次请求而放弃该轮对话所有权的动作。请注意，放弃对话轮次与让出对话轮次是不同的：只有当参与者认为对方是在请求对话轮次时，才会放弃。放弃对话轮次可以无声地完成（轮次所有者停止说话），也可以明确地示意（“请你继续”）

保留对话轮次

当对话轮次被请求时，对话轮次的所有者（由于先前接管让出的对话轮次而被承认）有保留该对话轮次的特权。通过明确（“等等，我还没说完”）或含蓄地（继续交谈并忽略该请求）拒绝放弃对话轮次的请求，对话轮次的所有者可以保留该对话轮次。

夺取对话轮次

尽管当前所有者试图保留该对话轮次的所有权，但当其他参与者接管该对话轮次的所有权后，该对话轮次被夺取。

中断

参与者经常互相打断——有时是在请求对话轮次，有时只是在旁边简单地说些什么，而不是请求对话轮次，至少不是完全接管对话轮次。

暂停

对话可以开始、结束，同样也可以暂停。暂停可能是明确的：参与者可能会说：“等一下，我需要接个电话。”或者在与语音机器人交互时，用户按下一个特定的按钮来暂停交流。暂停也可能是隐含的：外部事件打断了对话——例如，当你和同事聊天时，老板突然探出头来，于是你们停止了交谈，把注意力转向了老板。

在与语音机器人交互的场景中，暂停会带来一些独特的挑战。在传统的基于电话的语音机器人场景中，暂停是一个不太自然的动作。电话呼叫应该迅速地进行，然后不可避免地走向结束。打电话是有时间限制的活动，有非常明确的开始时间（语音机器人接电话的时间），以及同样明确的结束时间（挂断事件）。在此期间，用户需要完全专注于手头的任务——与语音机器人交流——直到电话结束或用户被转接到人工代理。将这种交互与iPhone应用程序进行比较，在任何时候，iPhone应用程序的用户都可以执行一个操作来最小化该程序。这种操作通常意味着：（暂停）我需要做其他的事情，想暂停与你的互动。我可能会回来，也可能不会回来，但这是以后会决定的事情。同时，我需要你记住之前交互的位置。

暂停后恢复

在语音对话的上下文中，暂停后的恢复引入了许多有趣的问题。例如，对话应该从中断的地方继续吗？谁拥有这个对话轮次？对话是多久前暂停的？是停了很久，所以需要提醒参与者的对话从哪里结束？还是时间很近（几秒前），所以应该从对话停止的地方继续？之前提供的信息是否已经失效？想象一下，当你和帮助你预订酒店房间的语音机器人交流时，假设对话在几个小时前暂停，当时你正在提供支付信息。此时，对话应该如何继续？显然，至少要有一个回顾总结，提醒用户到目前为止所提供的信息以及对话是在哪里暂停的。但在总结之前，智能语音机器人要先进行检查，确保自交互以来所提供的任何信息（例如，酒店房间的可用性、房价）都没有改变。

重复

语音对话的交互是短暂的。与短信或即时消息（例如，Slack的频道聊天）不同，纯语音对话在过程中或结束后不会留下任何视觉痕迹。因此，参与者需要对方重复自己的话。重复可以明确地进行请求（“您能再说一遍吗？”），可以用明确的语句提供（“您想让我再说一遍吗？”），也可以直接提供（“这是77812。重复一遍：77812”）。

重新开始

当参与者都是人的时候，重新开始对话很少需要采用明显的动作，但在人与语音机器人的互动中，当有一方决定最好重置对话，而不是修复对话或从中断的地方继续时，这将是一个有用的方法。

终止

对话有两种结束方式：合作结束（双方都同意结束对话）或单方面结束（一方结束对话而不愿与对方合作）。人们的对话几乎总是以合作的方式结束，而有意地单方面结束对话带有强烈的冲突意味。另一方面，人和语音机器人之间的对话通常由人类参与者单方面结束（例如，在收到有关他们最后一次付款日期的信息后，用户停止了互动）。