重新定义用户体验：数字思维最新章节_胡晓著

05　多模态交互驱动的汽车智能化设计

◎叶振华

有一个不争的事实，汽车的下一个时代，一定是智能汽车时代。

我们总是在畅想5G能为智能汽车带来多大的变化，但实际上V2X（Vehicle To Everything，车联网）不仅仅只是连上网这么简单。人最终需要的是服务，而不是一张网，人与车需要进行有效的交互，车需要正确地感知到人的需求。其中的桥梁，正是多模态交互架起来的。

多模态交互方式是汽车智能化进程中非常重要的一环，随着不同的生态、内容融合到以人为中心的车联网系统中，多模态交互必然会成为主流的交互形态。

1．下一代人车交互方式

人车交互的发展路径大致分为四个阶段。

早前的车舱里，布满了物理旋钮和按键，但随着车内的信息和功能越来越多，物理旋钮和按键已经满足不了日益增长的内容和功能。

到第二阶段，数字触屏出现。实际上这两个阶段与智能手机的发展进程很相似，甚至很多内容和功能，都是从手机往车机迁移的。但当大量的内容和操作虚拟化之后，数字触屏的弊端就开始暴露出来。虽然数字界面解决了空间、成本、迭代的问题，但界面层级繁多，导致操作效率下降，同时也缺少了物理按钮踏实的反馈感和定位的确定性，在一定程度上会影响到驾驶的安全。

这时候，第三阶段的人车交互方式——语音控制应运而生。语音的出现，可以有效地提高操作效率，打破层级关系，实现功能直达。而且驾驶者眼睛不用盯着屏幕看，手不用离开方向盘，操作便利之余，还提高了驾驶安全性。

那么单纯的语音交互就是最终的人车交互形态了吗？

答案是否定的。纯语音交互也有它的弊端，如功能不可见、输入输出效率不高、语言和环境的干扰导致的识别率下降等，这些都是导致纯语音交互不能成为最理想的车载交互的原因。

为了解决这些问题，第四阶段的人车交互方式——多模态交互被提出。根据车辆、环境、驾驶员状态等条件，进行全面的感知、融合、决策、交互。所以，人车未来的交互方式，多半会是以多模态交互的方式呈现。

2．什么是多模态交互

引用百科中的解释：“所谓‘模态’，英文是modality，通俗讲，就是‘感官’，多模态即将多种感官融合，通过文字、语音、视觉、动作、环境等多种方式进行人机交互，充分模拟人与人之间的交互方式。”

这里面有一句话特别重要：“充分模拟人与人之间的交互方式”。

人类本身就是一个多模态交互的集合体，人与人之间的交流，你会觉得很流畅，因为这是一个多模态集合体与另外一个多模态集合体的交流，当然是没问题的。但目前大多设备都只是单一模态，或者是伪智能多模态，所以人与设备交流，就始终感觉不到智能。

我们来看看多模交互的人车关系。

左边是人，右边是车，中间三层是人与车的沟通桥梁。人对外交流的起点是眼、耳、口、鼻、手，中间要转化成对方能看得懂的语言（不管对方是人还是机器），这些语言就是人脸、触控、手势、语音、情绪等等。有了这些语言之后，机器还不能直接读懂，需要通过数据，结合算法，提供给处理器换算成计算机能够看得懂的语言，整个人车交互流程才算形成闭环。

中间“人脸、触控、手势、语音、情绪”这一层，就是我们所说的多模交互层。

3．多模态交互的应用

当我们有了多模交互层，知道了怎么与车进行沟通之后，我们要怎么去用它们呢？

接下来讲讲小鹏汽车目前在多模态交互上的一些思考和成果。

小鹏汽车一直在致力于打造“高智能互联网汽车”，而我们认为“高智能互联网汽车”需要具备四项能力：智能模态能力、智能驾驶能力、智能服务能力以及智能成长能力。

我们希望能创造一种全新的活物，它可以感知你，弹性地适应环境，动态地展现能力。

另外，多模态交互不只是综合视觉、触觉、听觉，而是高度结合汽车硬件的交互。然而是否能高度结合硬件，是平台决定的。所以我想和大家分享的第一点就是“SEPA”平台。

1）SEPA平台

小鹏P7的自身硬件数据非常耀眼，但用户一般都只会记住“百米加速4.3秒”“NEDC续航706公里”，或者是充满科技感的外观等。实际上P7还有一个非常大的亮点被大多数人忽略，它就是SEPA平台。

SEPA平台架构是小鹏汽车智能化的基础，它拥有百兆以太网络的电子电气架构，独立中央网关，使得它的信息数据能够支持多路的通信交互，传输速率几乎是传统CAN总线的200倍，这保证了平台内各个传感器和控制器之间通信的及时性和高效性。另外，平台架构内控制器100%联网，可以实现全平台全控制，以及真正的整车OTA（Over-the-Air Technology，空中下载技术）能力。

下图是博世提出的汽车电子电气架构变化趋势图。我们可以看到，汽车的电子电气架构，从最开始各自为战的分布式架构，慢慢转化为基于云计算的中央计算架构。

SEPA平台实现了全可控、全管理、全升级、全运营，底层硬件100%联网，上层功能随意组合，全局场景多模体验。

以前的汽车，各个控制器、传感器都是不互通的，很多功能虽然电子化了，但依然是信息的孤岛。以前开灯是一个功能，车窗开关是一个功能，座椅调节又是另一个独立的功能，一旦所有控制器、传感器联网之后，功能与功能之间就可以进行随意交叉组合，从而生成无限多的新功能。

现在传统车的配置表里，只要有一个功能，哪怕再小也会列出来，因为这是需要增加一个零部件，需要增加成本的。但以后车的配置表估计不会详细列功能，因为功能可以根据场景随机组合，根据用户需求进行OTA推送，随着时间的推移，功能将无穷无尽。

这为多模态交互带来什么好处呢？我们来看看下面这个例子。

可以看到，整个捡物品的过程被简化为最原始的两个步骤：①弯腰，②找物。

这就是智能汽车的魅力，也是多模态交互的魅力。

除此之外，小鹏汽车还利用了SEPA平台的优势，将硬件能力开放给第三方厂商，第三方厂商可以在他们的应用中合理地调用和组合我们的硬件能力，让第三方应用也能做好多模态的体验。

相信未来的智能汽车时代，一定不会是所有功能都由汽车厂商一力承担，以后的汽车厂商更像是一个平台，这些平台也会像手机一样，孕育出类似微信、淘宝、抖音这样的超级应用。

2）全场景语音

从1962年IBM发明了第一台可以用语音进行简单数学计算的机器Shoebox，到20世纪末出现的交互式语音应答（IVR，Interactive Voice Response），再到如今发展到具备自然语言理解及深度学习能力的全场景智能语音助理，语音交互可谓足够成熟。

但长久以来，车载语音一直都没有被真正重视起来，以往的汽车语音控制，都只是单纯的菜单指令式的控制，我们只能对着一份看不见、摸不着的指令表里的指令，一字不漏地背出来。

而汽车座舱又是语音交互的绝佳场景。因为在用车场景中，没有被长期占用的感官只有嘴巴和耳朵，这两个感官组合起来，显然就是语音交互，再加上车舱的密闭性也是个天然的优势，造就了这个得天独厚的语音交互场景。

这也是小鹏汽车花大量资源和精力去深挖车载语音交互的原因。

接下来，我分四部分来介绍目前小鹏汽车在语音上的一些探索成果。

（1）全系统功能覆盖。

整个系统所有功能都能直接用语音控制，可见即可说，彻底告别不安全和找不到。

得益于SEPA平台的优势，我们在设计全场景语音功能的时候，可以肆无忌惮地基于平台底层去做全场景的打通。无论是各种能量回收还是驾驶模式，无论是车灯还是座椅，都能通过语音进行快速控制，甚至在精细度上还做到了可怕的程度，例如你说“车窗打开30%”和“车窗打开31%”，都能观察到细微的变化。

除了硬件层面的全场景打通之外，我们在软件界面也做了全场景打通。中控大屏里你能看到的所有内容，包括按钮、开关、功能入口、内容入口等，都能通过语音直接控制，做到全界面的“可见即可说”。

（2）全场景连续对话。

无须反复唤醒，随时可打断，支持跨域跳转；所有功能随便说、跳着说、一直说。

语音交互只有像人面对面聊天一样，才算是高效的沟通。我们的全场景语音具备连续对话的能力，当小P被唤醒了之后，你可以跟她自由对话，小P会有一段“持续倾听”的时间，其间你可以不停地对小P发起指令，无须反复唤醒，想到什么就说什么，小P会保持“洗耳恭听”的状态。

另外在语音对话中，如果遇到较长的内容播报时，用户经常会没有耐心听下去，那么在设计上我们做了两点优化：一是限定TTS（Text To Speech，从文本到语音）的字数，这样播报的长度可以控制在一个合理的范围。二是做了“随时打断”功能，用户不必等小P说完就可以随时发出新的指令，小P也会及时响应，停止上一段的播报，执行新的指令。

（3）多音区智能拾音。

主驾说，听主驾；副驾说，听副驾；主副驾随便聊，小P会在语意中智能提取真正需要执行的指令。

由于P7具备阵列麦克风的硬件，所以在全场景语音中，我们能做到多音区锁定的功能，例如小P是由主驾唤醒的，那么在这一个唤醒周期内，小P就只会听主驾说的话，哪怕副驾和后排人说话再大声，甚至是发起一些与语音相关的指令，小P都会智能过滤掉。同理，副驾唤醒也会只听副驾说话。

并且小P还会根据语意识别来捕捉正在发出的有效指令，也就是说，即使在小P被唤醒期间，唤醒者也可以随便说，说什么都行，和别人聊天也行，小P几乎不会因误识别而执行非用户期望的指令。

（4）自定义指令集。

将多个执行命令捆绑到一个语音指令上，千言万语，汇成一句话。

从以前的“宏”命令，到现在iPhone上的“捷径”，用户总是希望用一个动作解决多件事情。那么在我们的语音设计中，同样也满足了用户的这个需求。

用户可以在手机端的小鹏汽车App上设置好你与小P的“语音暗号”，那么到了车上，只需要把这句“暗号”说出来，小P就可以帮你把关联的多个指令全部执行。

当然最后需要提醒一点，语音交互并不能完全替代触控交互，二者是在不同场景下相辅相成的存在。协同去做好用车的体验，才是多模态交互的初衷。

3）情感化设计

首先引用认知心理学大师诺曼的情感化交互的三层理论模型。

他认为情感化交互分为三层。本能层是人的天性，是连接我们感官的第一印象，例如要设计一件产品，如何在表层上吸引用户，激发用户的潜意识，正向传达第一眼的感觉；行为层关注的是产品设计的功能和实现，是接触产品后的使用状态，行为层设计应该是以人为本，专注于了解和满足真正使用产品的人；反思层则更为高级和深刻，是产品对用户的影响，包括思想上的影响和文化上的共鸣等，反思层的设计对用户的影响是深远和持久的。

当然三层理论模型理解起来会相对比较抽象，但简单地总结一下，情感化交互设计可分为四个阶段：

“让用户认识你、让用户使用你、让用户爱上你、让用户离不开你”。

这是不是很像我们谈恋爱的四个阶段？所以说情感化交互设计，实际上就是让你的产品和用户谈恋爱。以用户情感角度出发，去与用户进行交互，从而让用户和产品发生情感上的连接。

接下来，同样分四个点来介绍小鹏汽车在情感化交互上的理解。

（1）主动响应式交互。

根据不同的使用场景、数据模型和用户喜好，在最合适的时候给出最精准的执行和推荐。

追求别人最重要的一点，就是主动。其实主动响应式交互没有什么神秘的，像很多车上配备的自动大灯、自动雨刷，就是比较初期的主动响应式交互。

除了常规的自动雨刷、自动大灯之外，我们车内的中控大屏和仪表界面，也会根据日出日落时间，智能切换昼夜模式，从而达成“白天看得见，晚上不刺眼”这种既舒适又安全的视觉观感。

此外，我们还探索了很多整车的主动响应式交互。例如P7的迎宾模式：当你靠近车辆的时候，车辆会主动感知你、认识你，向你打招呼。前后贯穿灯以及车外扬声器会向你表达特殊的灯语和迎宾音效，同时还会自动帮你展开隐藏门把手。你打开门的一瞬间，车辆就自动上电（省去了点火启动的步骤），还会根据不同驾驶员，去为他们调整座椅后视镜的位置、音乐的偏好、导航的设置以及车辆其他个性化设置等。务求做到每个人坐上车之后，都能达到最佳的驾乘状态，即使多个人共用一辆车，也会让每个人产生深刻的“主人感”。这仿佛就像一个贴心的管家在你回家之前就给你打点好一切，一切你非必要做的他都能帮你处理好。

另外，在第二代小鹏车载系统设计之初，我们就提出了“感知融合系统框架”概念。

我们根据出行场景中用户对系统的操作行为重新构建了整个框架。在表现层上，在中控屏幕的左侧，也就是用户操作最舒适的区域，划分出一块智能信息流区域，称为“Infoflow区域”，它能根据使用场景、数据模型和用户喜好，在最合适的时候给出最精准的推荐。

例如，早上上班的场景，我们有常用路线智能学习能力，会根据用户工作日的行程路线推算出家和公司的地址，判断用户在此刻大概率是要开车上班，那么就会在Infoflow区域推送当天的天气和上班道路的路况等。例如，高速路驾驶的场景，我们会根据实时定位，判断用户当前是否已上高速，从而建议用户开启更省心省力的智能辅助驾驶功能。再例如，车厢暴晒后，我们会建议用户开启极速降温模式，实现风量最大温度最低，降温效果立竿见影。

所以这是一个与你相处越久，默契越深的智能系统。它通过一个眼神即可感知到你的需求，并聆听你的指令，根据你的喜好甚至心情，主动为你推荐合适的一切。

（2）情绪与氛围渲染。

联动视觉、听觉、触觉、情绪四位一体的“氛围引擎”，为车内成员提供多模态的沉浸体验。

小鹏P7其中一大产品亮点就是“智能音乐座舱”。音乐是情感共鸣的纽带，灯光是情绪的催化剂，所以优质的音乐加上具备节奏的灯光，是抓住用户心理、烘托环境氛围、放大正向情绪的关键因素。

所以，智能音乐座舱方案打造了一个联动视觉、听觉、触觉、情绪四位一体的“智能氛围引擎”，为车内成员提供多模态的沉浸视听体验。

另外，我们还希望汽车具备情绪感知能力。以往人机间的情感表达基本是单向的，用户知道机器冰冷没有感情，但机器并不清楚用户饱满的情绪，因此在交流上明显还不够自然与流畅。但随着硬件以及算法的增强，未来用户情绪的感知不仅可以通过表情来识别，还可以通过各种人体的生理指数来不断地精准化测量。

早在小鹏做第一款车G3时，就开始思考车内的人脸识别应用，甚至用于探索驾驶者的情绪。小鹏G3的车载摄像头可自动进行人脸识别，从而实现账户登录、同步座椅、导航、音乐等个性化设置。我们还引入生物监测和语意感知来了解用户，通过意图、情绪、环境的融合感知进行需求预判、行为建议、服务推荐等。

此外，我们还设计了一套“生理指数安全感知系统”，根据用户的生理指数，发出不同程度的提醒。例如，当用户持续开车时间较长时，我们会在界面上提示用户请注意休息；当用户已经疲劳驾驶开始打瞌睡时，我们会有更强烈的声音和界面提示，尽可能让用户清醒过来，保障安全。

（3）信任度建立。

“离不开”的关系是建立在信任的基础上，清晰表达所见，坦诚公开所想。

情感化交互的最后一个阶段是让用户离不开你，而离不开你的前提是信任你。

如何建立信任度呢？举个例子，当用户开着我们的车在路上跑时，我们会在仪表或者中控大屏上显示车外路况的仿真图像。

这些东西看似没什么意义，毕竟用户在挡风玻璃上能清清楚楚地看到，那又重新以虚拟的形式绘制在屏幕上有什么用呢？

实际上，这是一个让用户了解我们智能辅助驾驶能力的绝佳途径。要让用户看到我们能看到什么，能做到什么程度，以及将要为用户做什么的一个提前展示。

这些虚拟的仿真图像，是经过摄像头、雷达等视觉感知系统捕捉之后，通过机器的大脑进行思考，再重新以UI的形式呈现出来。这时用户可以与现实场景进行对比，如果虚拟绘制的图像与真实世界是相同的，那用户才知道机器的准确率有多高，才有可能放心把方向盘的控制权交给汽车。

除了能看到前方的路况，由于小鹏P7具备360°的视觉感知布局，所以还能看到左右侧以及后方的路况，这里很多角度都是人类驾驶的盲区，所以机器在驾驶这件事上是有理由做得比只有正前方两只眼睛的人类更好的。而我们把汽车的所见所想充分展示给用户，是信任度建立的关键。

（4）令人心动的趣味。

最容易让用户打开心扉，留下深刻印象的方法，就是给他创造趣味和惊喜。

在我们做汽车设计时，会在一些地方加入能让用户惊喜小心思，甚至是让用户向其他人表达惊喜的小心思。

例如，我们拥有各种灯语玩法，你可以利用车外贯穿灯以及音效，向路人表达“你好”“心跳”等情绪；我们还提供了各种灯舞，根据音乐的节奏，配合车灯舞动，达到非常绚丽的效果和氛围，为你打造最炫的派对；甚至还可以用我们的车灯玩钢琴游戏等。

情感化设计虽好，但切勿贪多。情感化交互是满足了基础功能之后的调节剂，切忌在情感饱满的产品上再进行过度设计。因为产品缺乏情感，难以获得用户的认同和共鸣，才需要加入令用户心动的趣味。如果产品本身情感已经足够丰富，用户认同感足够高，那我们再去做情感化设计就会显得无用和多余。

以上就是我们目前在多模态交互上的一些思考和成果。

4．对于未来的思考

1）多模态深度学习

对于多模态交互的未来发展，比较清晰的一点应该是“多模态深度学习”。目前智能汽车所实现的多模态交互，其实很多都只是把各个感官的数据去对应具体的指令而已，需要用到的时候就把各种指令组合起来，输出给用户。但如果遇到模态数据庞大，或者需要高度实时化和复杂的推理判断时，就会显得有心无力。

所以，未来的“多模态深度学习”也许能解决这些问题，让AI本身具备理解模态信号的能力（而不是去对应指令），再进行统一思考，这样就可以保证设备高度实时化，并且可以让设备进行多模态协同学习，真正地“聪明”起来。

2）自动驾驶的多模态交互

不同阶段的自动驾驶同样会给多模态交互带来不同的机会。从现在的单人驾驶，到下一步的人车共驾，再到最后的自动驾驶，用户在每个阶段的交互能力都是不同的。

到了L4之后，座舱的交互设计会产生翻天覆地的变化，之前所有的交互原则可能都不再适用。甚至你看到的这篇文章里的所有内容都可能会被推翻，所以汽车的多模态交互是个持续更新迭代的过程，没有什么原则是铁打不动的定律，一切都有可能变化。

未来智能汽车的多模态交互会是什么样？让你我一起创造吧。

叶振华

小鹏汽车　资深体验设计师

现任小鹏汽车资深体验设计师，专注于智能汽车的感知融合体验挖掘，对移动设备与汽车智能化的体验设计有着丰富的经验和独到的见解。曾服务于魅族科技，参与了从Flyme 4到Flyme 7的系统交互创新工作。设计理念：优秀的设计不应该区分阶层，而我正努力地将越级的体验平民化。

05 多模态交互驱动的汽车智能化设计