购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

02 人机交互如何推动AI平台型产品变革

◎李士岩

百度智能云AI人机交互实验室的使命是基于科学设计、人机交互和软硬件一体化,构建平台型的产品,同时驱动数字化的商业创新。其核心主题就是产业的数字化和智能化。从线性的发展历程上看,产业侧的数字化与智能化,本质上是消费侧的数字化延伸,二者互相推动,形成效率更高、成本更低的商业闭环。

在前20年的两次大规模数字化浪潮中,核心是由计算平台的规模化来驱动的。在个人计算机和因特网时代,规模化发展本质上是人们通过鼠标和键盘,在物理维度将图文影音进行数字化,在人的维度将社交关系、兴趣和需求进行数字化。

数字化平台驱动人机交互

到了移动互联网的阶段,规模化的形态本质上是通过手指触屏产生实时的数字化图文、视频。同时在人的维度,实时数字化地理位置信息,如果没有GPS就没有美团,也没有滴滴,没有基于地理位置的生活服务。每一次刷短视频,都将实时表达你的兴趣和需求,这是对个人维度的数字化描述。人机交互在中间起了非常核心的作用。到2007年才真正形成命令型的操作,形成成熟的触摸交互模型,推动了平台化的发展。

所以,整个数字化逻辑是先有一个技术起点,再用算法、设计、人因和软硬一体化的方式,将技术起点打造成成熟的交互模型,再将该交互模型应用于新的计算平台和发展新的计算平台。通过这种计算平台的规模化,能够促进一个繁荣的服务生态,而服务生态的繁荣又能反哺整个平台的规模化,以此形成共荣,开启一个新的数字化浪潮。

目前的技术起点中一个非常核心的方面是AI+5G,基于这种AI的能力、算法设计以及人工工程硬件,打造了语音、手势等人机交互形态,但是基于这种人机交互形态并未有效地孵化出很多平台型产品。唯一能够看到的一个平台就是智能音箱,这是一个我们很久未看到的新型硬件形态,更多的平台型产品需要被创造,然后彼此才能够达成大幅的规模化,形成新一波的生态共荣以及数字化。

科学设计+艺术创造+技术突破

我们现在一个非常核心的工作是以科学设计+艺术创造+技术突破的形态进行AI类平台型产品的孵化。在百度内部,我的团队负责机器人和虚拟人两个类型的平台型产品设计以及商业化。

首先是机器人,中国的服务机器人的销售额每年的增长率超过了35%。在家庭教育、娱乐、咨询等领域,人们也在越来越多地接触到服务机器人,而这些基础能力,本质上是人机交互的能力。

所以,我们在Baidu Create 2018—2019年分别发布了机器人自然情感交互系统,通过该系统可以实现机器人的自然动作和自然语言交互,检测人们的情感,做有策略的情感反馈,实现机器人的主动交流。

在2019年发布了一个标杆产品NIRO-Max服务机器人。服务机器人整体的市场渗透率依然非常低,所以在我们看来,它的体验有两个环节:一个是外观和动作感官层体验,决定了用户能否首次使用产品;另一个是人机交互使用层体验,决定了用户能否反复使用产品。

机器人的外观设计很特殊,下图是华尔街日报上的一篇文章: How to Make Robots Seem Less Creepy (《怎样让机器人看起来不那么恐怖》),因为根据日本科学家的研究,当机器人的形态越接来越近于人的时候,会出现一个恐怖谷现象,所以机器人的设计其实不仅仅是设计学,更是认知科学。

在定义机器人设计的指导规范和文档的时候,我们会问一些问题,例如机器人的面部是不是越具象越好?我们看到过很多机器人的面部,有的只有一只眼睛,有的已经做到极致拟人化。机器人的肢体是不是越完整越好?要不要有手指?为了解决这些问题,我们几乎罗列了每一种设计模式,通过互动意愿、喜爱度、友好度来做大量的数据分析,从而找到一个面部与身体的比例区间,基于此做艺术化创造。

在机器人的人机交互的维度,它的核心点有两个,分别是语音交互模型和主动交互模型。

语音交互的核心场景事实上是近场语音交互和远场语音交互。关于远场语音交互,它和家里的智能音箱是一样的,有5个节点:唤醒、响应、输出、理解和行动。但是机器人的主要应用场景是近场交互,像人与人聊天一样,人不可能每次与机器人交互都要唤醒一次,这是非常不自然的。

为了解决机器人的近场交互问题,现在的核心手段是按钮唤醒和人脸唤醒。我们做了基于图像识别加麦克风阵列定向增益的综合性的算法,通过人脸识别来判断说话人,通过麦克风的定向增益来解决噪音问题。通过这种方式,实现了近场交互嘈杂环境下的自然唤醒,可以随时打断,每4轮的对话效率提升5%。人与人之间还有一种交互形态,就是通过触摸来唤醒。为了实现这种能力,我们做了7块触摸区域,可以使人们感受这种最熟悉的唤醒方式。这里还有一些交互策略。如果人在右边碰机器人的右边,或者人在左边碰机器人的左边,其实是有不同响应形态的。

基于情境感知能力的主动交互是一个重要趋势,它可以使机器人由被动接受指令转向主动进行服务。而主动交互的难点在于什么场景下、以什么程度和以什么形式进行主动交互。

在近场交互中,整体的系统和标杆产品提供了主动猜测并推荐服务内容的能力。在中场交互中,是通过主动展示能力来增加服务的概率。在移动场景下,机器人可以自主巡航,增加服务面积,更多地触达用户,让功能更高效地被使用。同时我们把这种人机交互的能力系统化,形成一个智能化开发套件,为整个行业提供服务。目前,我们的套件已经应用于多个行业、多个企业的十几款机器人。

对于虚拟人而言,其本质是人的自然语言、面部运动、肢体动作的数字化。当前非常显著的交互对象发展趋势是从语音助手到机器人再到虚拟人,本质上是交互对象逐步拟人化。产品的能力体系会决定产品的价值体系,从而形成一定的商业模式。

就虚拟人来说,它的整个能力体系分为三个层次:最底层是吸引力,中层是互动力(输出侧是表情、动作、行为,输入侧是语音、动作和触摸),最上层是共情力(人设、知名度、情绪识别与应对策略),以此实现价值体系(本身即服务、作为信息的交互媒介以及信息的表达器),形成商业模式(技术服务,获客、降本,形成陪伴经济和粉丝经济)。

在能力体系的吸引力维度,内部通过科学统计的形态,先找到美的基底,以此为基础,通过虚拟人的个性化编辑器,如角色、捏脸、妆容、数据等多个维度,重新定义一个虚拟的形象,满足不同行业和不同用户的个性化需求。这种生产是所见即所得、所得即所用的。

增加交互能力必然是软硬一体化的,我们打造了一系列基于虚拟人的人机交互产品,在每一个产品的研发过程中,都需要做大量的人因工程测试,例如,一个摄像头的角度会决定交互识别的整体效率。

在机器人及虚拟人的情感维度,我们通过情感激发应对策略的测试,看情绪回归曲线的时间。当用户处于某种情绪的时候,机器应该以什么样的情绪来回应用户?当用户很悲伤时,机器应该先回应情绪,再完成任务。而当用户很愤怒时,机器往往只需要礼貌、明确地表达立场,而不是一味认错,那样用户的体验会更好。

人类有6种基本情绪和27种丰富的情感,通过不断实验,我们找到了每一种情感的应对方式,从而赋予产品情商。目前这种产品形态已经在金融、政务、营销、媒体等多个行业服务于多种客户。在中国,每天有数以万计的人在机械地回答着各种问题,我们希望这些产品可以让每一次回答都很愉悦。

用户价值与客户价值本质上是人机交互能力体系不断完善所释放的“势能”,而商业模式是驱动势能释放的经济逻辑。但要释放这种势能,需要打造更多的平台型产品,依靠我们的能力是远远不够的,所以我们会在最底层开发研究方法,然后将中层的操作系统以及上层的硬件平台与整个行业共享。

李士岩

百度智能云 AI人机交互实验室负责人

现任百度智能云AI人机交互实验室负责人,主架构师。他在百度建立了业内第一个人机交互研究地图,直接或间接地开启了数十个研究并落地,发表了数十篇学术论文。他主持设计了百度的多款To B硬件,建立了统一的设计语言。作品先后获得德国红点奖、意大利ADEISIGN设计奖、当代好设计奖。 3Qp2Jkl1vkTio6LDe9edgnRlPvekfJwWetZoZ2HprzZhhp6scFxyFeJezmyupsAx

点击中间区域
呼出菜单
上一章
目录
下一章
×