感知技术是物联网的核心技术,是联系物理世界和信息世界的纽带。我们所生活的物理世界中存在多种多样的感知信息,除了人类的视觉、听觉、嗅觉等感官功能,物联网同样具有多种感知能力。近年来,计算机视觉、图像、语音等技术的快速普及,为物联网多模态智能感知技术的发展提供了保障。
研究表明人类超过80%的感官输入来源于视觉系统,然而并非所有信息都能由视觉系统直接且精确地获取,因此迫切地需要借助外部辅助力量处理或者理解信息,从而催生了计算机视觉技术。计算机视觉技术致力于使计算机和摄像机能够对目标进行分割、分类、识别、跟踪和决策,拥有类似人眼的功能。物联网技术的发展,极大拓宽了计算机视觉的应用场景,并对传统的计算机视觉提出了新的挑战。
计算机听觉旨在模拟人类对声音的感知和理解过程,基于计算机技术对数字声音的内容进行理解和分析,实现自动化语音和声音识别,进而改变人与设备交互的方式。计算机听觉技术推动着物联网产业及应用的发展,成为智能物联网时代的重要人机交互方式之一。
通俗而言,“模态”(Modality)就如同人的“感官”,多模态即融合多种“感官”。例如,智能音箱可以视为具备听觉模态的物联网设备,智能摄像头可以看作视觉模态的物联网设备,通过将听觉、视觉等多种模态组合到一起便产生了多模态物联网设备。目前智能设备的感知模态主要包括三种:①计算机听觉,包括语音指令控制、语义理解、多轮对话、语音精准识别等;②计算机视觉,包括自然物体识别、人脸识别、动作识别等;③传感器智能,即通过各种传感器实现对各类情境(温度、湿度、位置等)的感知和理解。通过融合上述三种模态,物联网设备就具备了丰富的感知能力,实现“适时适地的能听会说”。此外,较为前沿的多模态感知还包括计算机嗅觉、计算机触觉等,但目前尚无落地产品。
相比一般数据,源于物联网的感知数据具有下述特征。
模态多样: 即物联网数据蕴含多种模态。例如,智能汽车为了全方位、多侧面感知道路状况,装备了摄像头、激光雷达、超声波雷达等各种类型的传感单元,通过获取并融合多种模态的数据,创造出一个智能化、交互式驾驶舱空间,实现驾驶员和车辆的持续智能交互,在提升驾乘体验的同时能够有效地降低交通事故发生率。
时空关联: 即物联网数据之间存在时间和空间维度的关联。一方面,物联网感知节点持续获取的感知数据反映了相应情境信息在时间维度的演变规律,例如一个路口的车流量在一天内呈现高峰期、低谷期交替出现的现象;另一方面,不同感知节点获取的感知数据可能蕴含空间维度的关联规律,例如两个相同类型区域的车流量具有相近的变化规律。
规模海量: 即物联网数据是典型的大规模海量数据。无处不在的物联网设备持续获取各种感知数据,例如一个高清摄像头每小时产生的数据超过1GB;对于由大量节点组成的复杂物联网系统而言,每天产生的数据往往是TB量级。因此,物联网数据的另一重要特征是规模海量。
针对物联网数据模态多样、时空关联、规模海量等特征,下述章节分别从视觉和听觉角度介绍物联网感知。