近年来,随着机器视觉、人工智能、模式识别技术的发展,以及相应的计算机软硬件技术的进步,以手势识别、动作识别及语音识别等为基础的自然人机交互技术不断涌现。在图形用户界面普及应用的基础上,进一步通过多通道感官信息,如听觉、视觉、触觉、手势及动作等更加符合人们日常生活习惯的交互方式直接进行人机自然对话,从而传递给用户强烈的身临其境体验感和沉浸感。交互的模式也从单一通道输入向多通道输入改变,最终达到智能和自然的目的。多通道人机交互研究正在引起越来越广泛的关注。自然人机交互摆脱了对键盘、鼠标等传统外设的依赖,用户与计算机之间的交流变得更加自然流畅。
多点触控技术是一种允许多用户、多手指同时传输输入信号,并根据动态手势进行实时响应的新型交互技术。该项技术采用裸手作为交互媒介,使用电学或者视觉技术完成信息的采集与定位。具体地说,“多点”是指其区别于以往鼠标等设备的单一输入信号,多点触控技术可以对采集到的数据源进行分析,从而定位多个输入信号;“触控”是指它使用触点的运动轨迹作为系统的输入指令,不同的点数以及不同的运动方向,都代表了不同的操作意图。多点触控技术打破了传统单输入响应的局限,并且使用手势输入方式也更加贴近自然,根据不同的运动轨迹设计不同的操作含义,达到扩展的效果。
多点触控技术经历了多年的积累和发展。2005年,微软研究员Andy Wilson开发了一款便携式的触控设备PlayAnywhere,他采用一个正投投影仪作为光源,通过视觉技术计算手指接触时和非接触时正面摄像机采集到的阴影面积大小来判断是否有指尖接触。也是在2005年,纽约大学教授Jeff Han立下了基于计算机视觉的大屏多点触控技术里程碑,他利用光线穿过不同介质时的折射原理,将特定波长的红外光线完全封装到透明亚克力面板里,使其一直在板中反射,形成受抑全内反射(Frustrated Total Internal Reflection)现象。该系统在大屏多点触控系统设计方面成本低、敏感度高,而且使用计算机视觉技术具有较好的扩展性。其系统效果图如图1-10所示,用户可以通过单手或者多手直接操控计算机。
图1-10 多点触控技术的系统效果图
a)单手触控 b)双手触控
近年来,多点触控技术得到了广泛的应用。2007年,苹果公司发布第一款触摸与显示同屏交互的iPhone手机,用户反应热烈,上市后引发热潮。随后,在通信领域,结合着开放式系统Android,支持多点触控能力的智能机逐渐成为手机业发展的主流。在多媒体方面,基于多点触控技术的产品橱窗、互动游戏桌、广告面板以及智能茶几等都给人们带来了耳目一新的感觉。
手是人体最灵活的器官,人们日常生活中大部分的动作通过手的操作完成。手势交互是指人通过手部动作表达特定的含义和交互意图,通过具有符号功能的手势来进行信息交流和控制计算机的交互技术。手势的形状、位置、运动轨迹和方向等能映射成为丰富的语义内容信息。与操作键盘鼠标相比,用户能够较为自然地做出这些手势。例如,可以采用如图1-11所示的6种手势类型,将其语义分别定义为确定/抓取、返回/释放、锁定/解锁、右选、待转/移动、左选操作指令,从而实现基于手势的多媒体交互应用。手势交互将生活中人们习惯的手势符号作为与计算机交互的直接输入,极大地降低了用户学习成本。
手势交互是一种新兴的交互技术,其技术核心是手势识别。根据识别对象可将手势识别技术分为静态手势识别和动态手势识别。静态手势识别是指在某一静态图片中对手姿或手型的识别。动态手势识别是对连续手势轨迹跟踪和变化手型识别的技术,具有较高的实时性和高效性要求。目前,基于手势识别的应用还处于发展阶段,尤其是在实时动态手势识别方面的研究还比较缺乏。
图1-11 手势定义示例
a)拳头 b)开手掌 c)OK手势 d)右挥动 e)闭手掌 f)左挥动
数据手套是一种应用较为广泛的手势识别方式。图1-12形象地描述了数据手套的结构,关键设计是在手指关节等重要部位放置多个传感器,通过传感器采集手指弯曲程度和手指之间的角度数据,从而区分出每根手指的外围轮廓,然后将传感器的输出数列进行计算,从而得出相应的手势。
图1-12 数据手套(在手指关节处设置了传感器)
数据手套的研究起源于近现代,从20世纪80年代开始有不少学者在这个领域进行了深入的探讨。T.Zimmerman等人发明光弯曲传感手套替代笨重的外骨骼式数据手套,加速了数据手套的发展,随着近年来虚拟现实技术的再次崛起,数据手套也再次受到关注。目前市面上较为成熟的数据手套产品有5DT、CyberGlove、Measurand及Dexmo等,如图1-13所示。
图1-13 几种典型的数据手套
a)5DT b)CyberGlove c)Measurand d)Dexmo
手势识别的另一种方式是通过摄像头采集手势数据。这种方式下,人不需要穿戴额外的手套,裸手即可与计算机互动。手势设备在早期的视觉手势研究中,多采用单目视觉进行图像获取。但是单目相机只适合简单背景的应用场合,难以获得手势在三维空间中的位置信息,因此,后期的研究多集中在双目视觉领域。近年来,人们在双目视觉领域的研究已经日臻成熟,并已成功应用于商业领域中。2013年面市的Leap Motion设备就是经典的双目视觉手势识别系统,它被广泛应用于各种3D交互场合。如图1-14所示,Leap Motion主要由两个摄像头和三个红外LED组成,可在传感器前方生成25~600mm的倒四棱锥体检测空间,基于双目视觉实时融合计算三维空间中的3D手模型,能够达到0.1mm的识别精度。
图1-14 Leap Motion的组成结构与图像效果
a)组成结构 b)图像效果
人体动作是人表达意愿的重要信号,包含了丰富的语义。人体动作是指包括头、四肢及躯干等人的各个身体部分在空间中的姿势或者运动过程。人体动作是一种有目的的行为,其目的在于人与外界环境进行信息互换,并且得到响应。直接通过人体动作与周边数字设备装置和环境进行交互,大大降低了对用户的约束,使得交互过程更加自然。图1-15展示了基于人体动作的人机交互应用。
图1-15 基于人体动作的人机交互应用
人体动作分析是人机交互系统的重要支撑技术,是一个多学科交叉的研究课题,使用了数学建模、图形图像分析、模式识别及人工智能等知识,具有重要的理论研究价值。一个完整的人体动作分析过程主要包括动作捕捉、动作特征描述和动作分类识别三大部分。动作捕捉一般需要借助特定的传感器设备,如彩色摄像机、3D动作捕捉系统、深度传感器等对人体进行检测、跟踪和动作数据进行记录。不同的动作设备捕获得到的动作数据类型不同,当前根据动作数据类型的不同,人体动作分析方法主要分为三大类:基于2D视频图像序列的人体动作分析方法、基于深度图像序列的人体动作分析方法以及基于3D人体骨架序列的动作分析方法。这三类动作分析方法主要的区别在于动作特征的描述,而动作分类识别方法原理大致相同,可相互借鉴,主要包括模板匹配识别、状态空间分类识别和基于语义的识别方法。典型的算法包括动态时间规整(Dynamic Time Warping,DTW)、隐马尔可夫模型(Hidden Markov Model,HMM)、支持向量机(Support Vector Machine,SVM)、人工神经网络(Artificial Neural Network,ANN)及有限状态机(Finite State Machine,FSM)等。
由于人体动作分析具有巨大的应用价值和理论价值,全球的政府、高校、科研机构及公司等投入大量的人力和财力,以推动其发展。目前,人体动作交互在医疗辅助与康复、运动分析、康复训练、游戏娱乐及计算机动画等诸多领域有了较为广泛的应用。与其他交互手段相比,人体动作交互技术无论是硬件还是软件方面都有了较大的提升,交互设备向小型化、便携化及使用方便化等方面发展。
语音交互是人以自然语音或机器合成语音同计算机进行交互的综合性技术。机器通过识别和理解,把语音信号转变为相应的文本或命令,人通过语音与机器进行对话交流,让机器明白用户的交互意图。
语音交互是一种高效的交互方式,解放了人的双手,在智能机器人、智能家居以及驾驶导航等多种场合应用广泛。自从iPhone 4S推出Siri后,智能语音交互应用得到飞速发展,图1-16给出了语音交互的示例商业产品。典型的场景如语音助手苹果Siri、谷歌Assistant、微软Cortana;语音音箱亚马逊Echo、苹果HomePod、谷歌Home、微软Invoke及阿里天猫精灵等。中文典型的智能语音交互应用如虫洞语音助手和讯飞语点也已得到越来越多的用户认可。
图1-16 语音交互产品
a)苹果Siri b)亚马逊Echo
语音交互需要对语音识别和语音合成进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究。语音交互过程包括四部分:语音采集、语音识别、语义理解和语音合成。语音采集完成音频的录入、采样及编码;语音识别完成语音信息到机器可识别的文本信息的转化;语义理解根据语音识别转换后的文本字符或命令完成相应的操作;语音合成完成文本信息到声音信息的转换。
作为人类沟通和获取信息最自然最便捷的手段,语音交互能为人机交互带来根本性变革,具有广阔的发展和应用前景。
人类的交互方式还有很多,当前眼球、意念、表情及唇读等更多的新兴手段被引入人机交互的领域。这些方式针对不同的应用和人群,在特殊情况下更为有效。
眼动追踪(Eye Tracking),是指通过测量眼睛的注视点的位置或者眼球相对头部的运动而实现对眼球运动的追踪。例如苹果有一个专利技术,可以根据用户视线延迟显示屏操作的执行,还可以改变用户界面,生成并执行相关信息。例如,当用户输入文本时如果出现拼写错误,且眼睛正在注视错词,系统将自动修正;如果设备发现用户的视线没有注视错词,系统将延迟修正。眼动追踪技术让操作更直观。
脑机交互又称为脑机接口,指不依赖于外围神经和肌肉等神经通道,直接实现大脑与外界信息传递的通路。脑机接口系统检测中枢神经系统活动,并将其转化为人工输出指令,能够替代、修复、增强、补充或者改善中枢神经系统的正常输出,从而改变中枢神经系统与内外环境之间的交互作用。脑机交互通过对神经信号解码,实现脑信号到机器指令的转化,一般包括信号采集、特征提取和命令输出三个模块。从脑电信号采集的角度,一般将脑机接口分为侵入式和非侵入式两大类。除此之外,脑机接口还有其他常见的分类方式:按照信号传输方向可以分为脑到机、机到脑和脑机双向接口;按照信号生成的类型可分为自发式脑机接口和诱发式脑机接口;按照信号源的不同还可分为基于脑电的脑机接口、基于功能性核磁共振的脑机接口以及基于近红外光谱分析的脑机接口。