Chatbot从0到1：对话式交互实践指南最新章节_李佳芮著

2　对话式交互的登场

2.1　交互演进简史

回顾技术发展的历史，最大的几次浪潮出现基本都伴随着一个规律：新的核心技术（无论是软件还是硬件方面）的出现和整合带来全新的人机交互方式，大量的商业应用应运而生。人机交互的历史变化如图2-1所示。

图2-1

人机交互形态从1990年之前以鼠标键盘为主的本地软件，逐渐过渡到2010年以手指触摸为主的移动App。如今，人机交互形态逐渐变为以自然语言对话为主，比如智能音箱、手机助手等。随着底层硬件、操作系统和人工智能技术的发展，交互的方式变得越来越便捷。

从历史的角度来看，1973年，第一个可视化操作的Alto计算机在施乐帕洛阿尔托研究中心（Xerox PARC）完成。Alto是第一个把计算机所有元素结合到一起的图形界面操作系统。它结合了3键鼠标、位运算显示器、图形窗口及以太网络连接，是第一款运用图形式交互技术的计算机。受软硬件限制，过去用上计算设备的人很少。一方面，当时的人机交互方式是让人学习机器的语言，且操作需要一些专业技术，学习成本高；另一方面，计算设备十分昂贵，远超大众经济承受能力，因此无法成为个人设备；再者，日常应用和普通生产力应用寥寥无几，所以即使学会了交互操作，也并不实用。

1983年，苹果公司推出Apple Lisa个人计算机，它是全球第一款搭载对话式交互的个人计算机，“完美借鉴”了Xerox的图形式交互技术，真正将图形式交互的商业应用价值发扬光大。PC时代由此拉开序幕。

2007年年末，移动互联网开始普及，核心驱动的硬件技术是触摸技术、各种传感器的成熟及整体计算能力的提升和小型化；软件方面，iOS系统与Android系统的出现，通过软硬件结合的方式创造出完全颠覆过去的触摸操作的体验，并使其成为真正可用的人机交互方式——让图形式交互的输入工具从鼠标键盘时代跨越到更直观的触摸方式。这样的智能系统，能完美地与开放的生态系统结合，让更多的人从使用计算设备中获利，许多不会使用键盘鼠标的人也可以通过触摸手机屏来操作。

举个例子，在智能设备普及之前，大众点评只是一个小众产品，因为网页并不是最合适这个商业模式的产品形态：通常，人们想要找餐厅的时候，很难快速从互联网获取相关的建议信息，毕竟让大家随身携带一台计算机是不太现实的；相比之下，智能手机的便携性很好地解决了这个问题，人们可以随时取出手机，点开大众点评App查阅相关信息，继而使大众点评的商业模式有了更合适的产品形态。

如今，随着人工智能和自然语言处理（Natural Language Process，NLP）技术的再次兴起，我们跨入了第三次交互浪潮——对话式交互。对话式交互是一种全新的交互方式。随着技术的平民化，人机交互正不可逆转地向人更习惯的方式靠近。

正如苹果公司前资深交互设计师Bred Victor所说：

“在未来的25年，没有人会再点击下拉菜单，但是人们仍然会指着地图互相纠正对方说的话，这是最基本的。好的信息软件在处理信息时会更接近人的使用方式，而不是计算机的方式。”

如图2-2所示，一方面，人机交互形态正在变化。在过去，网站和App强制用户像机器人一样思考问题，而对话系统则强制机器和计算机像人一样思考问题，让机器去适应人，而不是人去适应机器。另一方面，对使用者来说，使用机器的门槛变得越来越低：过去只有专家才能用的巨型人机交互系统，如今，正逐渐变成3岁儿童都可以使用的玩具。

图2-2

可以预见的是，接下来是人工智能的时代，过去的成百上千个App会逐渐演化成未来的成百上千个Chatbot。过去，我们依赖操作系统完成玩游戏、听音乐、看视频、买东西等操作；未来，这些操作中的一大部分都会交给Chatbot去完成。这是未来交互趋势的变化——从没有人工智能到有人工智能，机器从不懂人类到懂人类，从有界面到无界面，从图形式交互界面到对话式交互界面。

如图2-3所示，Chatbot逐渐为各种行业赋能，就像Android和iOS系统为手机赋能一样：手机到智能手机的最大变化是搭载了Android 和iOS这样的操作系统。类似地，从家居到智能家居、硬件到智能硬件、客服到智能客服，也是因为这些产品有了对话的功能，也就是说有了Chatbot。这样类比下来，Chatbot将会逐渐成为新的操作系统。未来，Chatbot将是人工智能时代不可或缺的基础组成部分，任何产品都要依赖对话系统为之赋能。

图2-3

如果一款Chatbot产品能够完美地运作，无须依赖特定硬件，与用户使用习惯天然契合，没有使用成本障碍，并且无须下载新的应用程序，直接在用户熟悉的即时通信软件中实现过去需要应用程序来承载的服务，甚至还能开拓新的形态，则将为Chatbot带来巨大的创新空间和前景。

App怎样颠覆Web，下一代人机交互就会怎样颠覆App。很多商业模式和形态都可以被重新考虑，越来越多的人都能更自然地通过计算设备获得价值。可以肯定，Chatbot会成为下一个具有超级增长点的交互方式，会打开新的维度，释放更多的商业价值。以图形化交互界面为基础的人机交互模式将会逐渐消失，取而代之的是对话式人机交互界面，而对话式人机交互界面的底层操作系统以AGI为代表。

当然，未来的交互方式并不会是单一的对话式交互，就像移动触摸的交互没有完全取代鼠标键盘的交互一样。未来的交互形态会变成多感官的综合交互，包括对话、视觉、触觉等，本书的主要内容就是围绕对话式交互展开的。

2.2　对话式交互简介

2.1节简单介绍了图形式交互和对话式交互，本节进行系统讲解。

·　图形式交互：即图形用户界面，我们过去用的计算机、手机都是图形化界面的，需要用户根据设计者的思维方式，一步步点击操作完成。

·　对话式交互：即对话用户界面，通过对话完成所有的交互任务。未来，交互会逐渐从单一的图形式交互转到对话式交互和图形式交互的混合交互方式。

对话式交互的产品形态非常广泛，可以是商用Chatbot、家用Chatbot、儿童故事机、智能音响、智能家居、车载系统、智能客服，以及个人助手类的产品。对话式交互的目标是使机器像人一样对话，这不仅需要有合理的逻辑、正确的场景（包括对话的上下文关联、角色的设定），还需要明确Chatbot是一个什么样的角色，感知语境，并训练它用得体的语气和用户进行交流。

对话式交互的核心技术是人工智能，真正的对话式交互产品一定是基于自然语言处理技术的，但对话式交互又不仅仅是人工智能或者自然语言处理。深度利用对话式交互的特点，是打造产品的关键。对对话式交互的特点理解决定着产品价值，决定着产品形态上所能发挥的底层技术的商业价值。打造对话式交互产品时，需要特别注意一个问题——对话式交互不只是简单的图形式交互的延续，而是对图形式交互的颠覆，它不是“把按钮变成语言操控”这样简单的事情。

移动设备刚出现时，大家对如何在智能手机上开发产品还没有太多了解。早期的大量App，都是本着从“如何把内容缩小到在手机屏幕上展示”的思路出发来设计的。这是典型的延续上一代交互的思路。

随着不断思考和挖掘移动端的潜力，开发者慢慢理解了移动端真正的核心特质——“碎片时间”“个人身份绑定”“基于位置服务（Location Based Services，LBS）”等，才是真正让移动产品体现价值的，是完全颠覆上一代交互的属性。而且我们发现这些特质几乎与“触摸”这个明显的交互行为没有直接关系。

如今，面对对话式交互的出现，产品经理也会遇到类似的问题。当前，大多数智能助理的设计思路都是“用语言代替过去App中的触摸操作”，例如用语言代替手指触摸屏幕，或者用说话代替打字。而能让用户感觉真正智能的核心属性尚不明确，有待从业者发掘。

在图形式交互时代，用户使用产品时，会打开一个可视化的界面。例如，我们打开大众点评App找餐厅时，其交互页面如图2-4所示。

这是一个常见的App界面，用户能做的选择，都明确地显示在界面上（所见即所选）。要找美食，用户能做的选择基本就是在“附近”“美食”“智能排序”等几个选项中筛选。为了帮助用户决策，这些视觉化的框架会给用户一些提示，比如该从这些方面根据自己的需求做筛选和匹配。

但是在智能助理的界面中，用户看到的是如图2-5所示的Siri的交互样式。

图2-4

图2-5

用户对可以做哪些选择一无所知——在没有可视化的参考下，当用户要找一个餐厅时，面对如此开放的交互，他们提出的要求，大多不在图形式交互设定的范围内。

根据我们实际操作的经验，用户可能对智能助理提如图2-6所示的需求。

只有“在外滩附近的”这条需求包含在图形式交互的查询范围中，其他的需求都是图形式交互中不存在的维度。由于对话式交互的开放性，用户很容易根据平时自己的生活经验，给出上面这样的高度个性化（非结构化）的需求。

如果用图形式交互的产品提供个性化的服务，给用户多种选择，就不得不面临用户使用成本的问题。一个界面被下拉列表、层级关系、各种填空和操作充满的App用起来会很复杂。如此一来，个性化程度是加深了，但是增加的操作量也可能会让用户放弃使用。

图2-6

一方面，在对话式交互的产品设计上，不充分考虑用户“高度个性化”的需求，只提供过去App本身提供的个性化程度，那么用户在实际提需求时得靠运气撞到既定的条件上，不然需求将无法识别，继而失望。另一方面，如果对话式交互只是在做图形式交互范围内的事情，远不足以发挥其真正的能力。

另外，图形式交互的流程是线性的，界面引导用户一步一步找到结果；而对话式交互则可以是完全无视先后顺序的，用户可以在最开始就提出本来在图形式交互中排在最后的条件。

用户打开一个图形式交互的界面，比如在大众点评平台上找一家餐厅，用户需要按照图形界面的指引，通过操作找寻自己最想要的选项。而对话式交互则简单很多，可以直接给出用户期望的结果。另外，图形式交互还需要给不熟悉场景的用户更多的提示，或者比较结果的机会。

“帮我查一下明天晚上或者后天晚上，最便宜的去上海的机票”——从用户的操作和实际体验来看，图形式交互无法一次给出结果，用户只能先查一次明天晚上的机票，再查一次后天晚上的机票，然后手动对比两次查询的结果。而对话式交互“完胜”，它可以直接给出相关条件的检索结果，前提是人工智能足够优秀。

2.3　职位的变革

《人工智能产品经理：人机对话系统设计逻辑探究》的作者有这样一个“三段论”：

一波科技趋势从兴起到没落，技术、产品和运营的重要程度通常会依次经历三个阶段：第一阶段，技术比产品重要，产品比运营重要；第二阶段，产品比技术重要，技术比运营重要；第三阶段，运营比产品和技术都重要。

现在，移动互联网已经走到第三阶段，而人工智能还处于第一阶段的中后期。

笔者比较认可这种说法。现阶段可能更需要产品技术型人才来搭建Chatbot，可能是技术型产品经理，或者是“第一等工程师”。

在这里，笔者稍微解释下这两种职位：

技术型产品经理：以用户需求为导向，充分利用现有技术并推动新技术的研究，为用户提供高质量的产品。这句话有两个要点：一个是“充分利用现有技术”；另一个是“推动新技术的研究”。在人工智能领域，S先生的创始人曾经说过，“人工智能的归人工智能，产品的归产品”，做工具的人和用工具的人的出发点完全不同，应该带着做产品的目的来使用人工智能，而不是带着“人工智能产品经理是来实现人工智能的”这样的幻觉。

“第一等工程师”是吴军博士在《硅谷之谜》中谈论的概念，他将工程师分为五等：第一等工程师开创行业，第二等工程师改变世界，第三等工程师行业最优，第四等工程师领导产品，第五等工程师独立完成任务，至于其他的工程师，属于我们说的“码农”。第一等工程师如爱迪生、特斯拉、福特、保时捷博士等。第二等工程师如实现第一台个人电脑的沃兹尼亚兊、DSL之父约翰·西奥菲。

这样的人实际上是Chatbot的总设计师，他需要同时具备对商业的理解能力、对技术的理解能力、对人心理和语言的洞察能力。通常，能将这3种能力集为一体的人是企业家，他们通过自己的产品，逐渐改变世界。

所以，笔者在这里不去争论，在搭建一个Chatbot的过程中，到底是工程师更重要，还是产品经理更重要。毋庸置疑的是，现阶段，只有同时结合产品、技术和运营，才能搭建出一个好用的Chatbot。本书第3部分和第4部分会详细介绍这3个职位是如何在Chatbot的生命周期的不同阶段发挥重要作用的。

2.4　Prompt Engineer

随着大语言模型的发展，出现了一个新的职位：Prompt Engineer（提示词工程师），这个职位在硅谷的薪水一度超过百万美元。

在GPT技术出现之前，数据科学家和分析师承担了处理和解析大量数据的任务。GPT的出现，使这些岗位逐渐演变成Prompt Engineer，专门为GPT等人工智能模型设计、优化和测试输入提示。这使得与人工智能相关的职位从更注重数据分析转变为专注于理解和改进人工智能模型与人类的交互。

随着Prompt Engineer职位的出现，人们开始关注如何提高人工智能模型的交互质量。他们的主要任务是创建适当的提示，使模型能够更好地理解用户的需求并提供准确、有用的回答。这需要他们熟悉不同领域的知识，以便能够根据用户的需求调整和优化提示。通过不断优化提示，Prompt Engineer能够提高人工智能模型的性能，使模型更符合用户期望。

Prompt Engineer职位的出现也意味着从业者需要具备跨学科技能。除了对人工智能技术和数据分析的深入了解，他们还需要具备良好的沟通和协作能力。此外，具有心理学、语言学和认知科学等领域的知识也对Prompt Engineer至关重要，因为这有助于更好地理解人类的沟通方式和需求。

具体而言，Prompt Engineer 专注于设计、优化和测试输入提示，以实现更高质量的人工智能与人类的交互，使模型更能满足用户的需求。

Prompt Engineer的主要职责如下。

（1）设计有效的输入提示：Prompt Engineer需要为人工智能模型创建明确、简洁且易于理解的输入提示。这些提示将引导模型生成与用户需求相关的回答，提高回答质量。

（2）优化人机交互：通过不断调整和优化输入提示，Prompt Engineer可以改进人工智能模型与人类用户的交互，使其更具针对性、准确性和实用性。

（3）跨领域合作：Prompt Engineer需要与其他团队成员（如数据科学家、产品经理和开发者）紧密合作，共同开发和改进人工智能产品。这种跨领域合作有助于确保人工智能模型的实际应用效果更符合用户的需求和期望。

（4）测试与评估：Prompt Engineer负责对输入提示的效果进行测试和评估，以确定它们是否引导模型产生高质量的回答。他们需要持续监控模型的性能，并根据反馈调整提示，以确保最佳的人机交互体验。

在本书的后续章节中，笔者会为读者详细介绍如何写好一个Prompt（提示词），进而能从自然语言处理模型（如GPT系列）中得到想要的答案。

本书旨在提升读者对于Chatbot所具备的能力的认知，使得读者在搭建自己的Chatbot或者帮助公司进行人工智能转型时，能够拥有全局的视角。通过本书的学习，读者可以了解Chatbot的发展历程、基础技术、设计原则及实现方法等方面的内容。

希望读者能带着下面的问题一边思考，一边阅读：

·　现有技术能搭建的最理想的Chatbot应该是什么样子的？

·　如何引导用户给出够用的信息，让我们解决他们遇到的问题？

·　如何设计产品弥补底层技术的不足？

·　在系统不够智能的时候，如何保持用户满意度？

·　如何合理地管理用户的预期值？

·　如何弥补对话过程中因为没有满足用户预期给用户带来的挫败感？

·　如何控制交互过程中用户的情感？

·　以ChatGPT为代表的AGI的出现，能解决哪些应用场景的问题？

·　Prompt是什么，如何设计一个Prompt，有哪些方法和技术可以提高Prompt的效果和质量？

·　Prompt Engineer在生成式AI中有什么作用和价值？

2 对话式交互的登场

2.1 交互演进简史

2.2 对话式交互简介

2.3 职位的变革

2.4 Prompt Engineer

2　对话式交互的登场

2.1　交互演进简史

2.2　对话式交互简介

2.3　职位的变革

2.4　Prompt Engineer