日常生活中,人类所感受到的世界是立体的,物体均具备一定的三维几何形状,因而人类对大千世界的理解也建立在这些几何信息之上。随着科学技术的发展,像手机、平板电脑、机器人等终端设备,承担着越来越多的服务人类社会的功能。为了更好地实现服务功能,让机器“看”懂所处的世界成为一种趋势。
从视觉角度讲,只有实现物体几何信息以及色彩信息的全记录,终端设备才能获取最准确的信息来解读人类世界。传统的相机可以实现色彩信息的记录,而几何信息则要依赖视觉3D感知技术。
视觉3D感知技术可分为被动成像和主动成像两种类型,两者以是否自带光源发射探测信号为区分。常见的被动成像技术有双目立体成像等,而常见的主动成像技术则有散斑结构光和飞行时间(time of flight,ToF)等。
1.双目立体成像技术
其基本原理是利用两个摄像头对真实世界进行观测,这种观测原理与人用两只眼睛看世界类似。当两只眼睛看同一个物体时,视线会交于同一个物点。对于单只眼睛,其成像模型可以理解为小孔成像(图2-12)。
图2-12 小孔成像模型和眼睛结构示意图
其中,眼睛结构中的晶状体具有类似小孔的功能。每只眼睛可以通过晶状体以及视网膜上的像得到一条射线,两条射线在空间中的交会处就是所看到的物点位置,因此能够唯一确定该物点在空间中相对于人眼的位置。对空间中的所有物点重复上述过程,那么真实世界的立体形象就出现在我们的脑海中。换而言之,对于双目传感器,每一张相片上的像点以及镜头也会确定一条射线,且射线的交点也会确定物点在空间中的位置,从而恢复真实世界的几何信息。
在双目构建几何信息的过程中(图2-13),其实隐含着一个假设条件,即能够在视网膜或者相片上确定同一物点的两个像点的位置。在处理视觉数据时,通常假设物点向各个方向发出的光线信息亮度相同,即在相片上成像的颜色信息相同,此外还要假设物点与周围的点具有色彩上的差异性。设想一下,你站在一间雪白的房间内,里面的光线不会在墙壁上产生一丝阴影,在这种情况下,你能不能判断墙壁相对于你的距离?答案是不能,因为无法判断在两个视网膜上的像来自哪个物点。因此,在场景中没有足够多且明显的特征时,空间的几何信息将无法有效恢复,但主动视觉3D感知技术则能有效解决这一问题。
图2-13 双目视觉原理
2.散斑结构光技术
散斑投影是结构光技术的一种(图2-14),其基本原理是利用散斑投影器,在真实世界中投影随机的散斑点阵,同时通过一个相机对投影的随机散斑点阵进行观测,进而获取真实世界的几何信息,此时哪怕身处之前的白色房间内,也能够通过主动投影的光线获取四周环境的几何信息。
图2-14 散斑投影器的结构原理图和散斑图
在散斑结构光中,一个重要的器件就是散斑投影器。主流的散斑投影器由垂直腔面发射激光器(vertical cavity surface emitting laser,VCSEL)、准直镜以及衍射光学器件(diffractive optical element,DOE)等器件组成。
VCSEL是一个面阵的激光器,上面随机排列着多个激光发射单元。在散斑结构光技术中,VCSEL的激光波长通常选取近红外波段,因此所采用的接收单元为一个装配有窄带滤光片的红外相机(infra-red camera)。常用的VCSEL激光波段有850 nm和940 nm,这两个波段各有优势,一般红外相机在850 nm的量子效率(quantum efficiency)要高于940 nm,但940 nm处于大气透过率较低的波段,受户外阳光的干扰较小,且940 nm光信号对人眼而言是不可见光。
准直镜可以减小激光束的发散角,以保证激光束在空间中传播一段距离之后仍然有足够的亮度。若不进行光束准直,则由VCSEL发射的激光的发散角较大,在空间中传播一段距离之后能量密度降低较快,无法在空间中投影出有效的散斑点。
在通常的结构光测量中,需要1万~3万甚至更多的散斑点,仅仅通过VCSEL上排列的激光发射单元,数量不够,因此还需要DOE这一元器件进行散斑点的复制,形成高密度的随机散斑点阵,来获取精细的场景几何信息。DOE进行散斑点复制的方式是利用单色光衍射的效应,将入射光衍射成不同级次的光,从而起到散斑点复制的作用。
目前散斑结构光技术已经被广泛应用在日常的终端设备上,如苹果的iPhone、iPad,OPPO的Find X,华为的Mate20 Pro,等等,可以支持人脸解锁、支付、三维建模等。
3.飞行时间技术
ToF技术是另外一类视觉3D感知技术,利用光飞行的时间进行3D测量。简单来讲,在发射脉冲光束的时候记录一次时间,同时在接收脉冲光束的时候再记录一次时间,利用两者的时间差异,结合光速常量,即可计算出物点到传感器的距离。因此,ToF技术中主要包含3个关键器件:信号发射单元、信号接收单元、电路控制单元。
但直接进行脉冲计时的方法,对接收脉冲信号的探测器的控制时钟精度要求非常高,因此通常会对发射端光信号进行调制。一种方法是将光信号调制成高频连续波信号,比如正弦波信号,在接收端解调反射回来的高频信号的相位延时。对反射回的信号进行解调时,采用4组不同相位延时的解调信号对接收到的光信号能量进行积分,通过积分得到光能量值即可解算出接收信号相对于发射信号的相位差。而传感器相对于物点的距离可以通过调制信号的频率、光速信息和相位差计算。
此外,还有一种方法不依赖于相位的计算,而是将光信号进行脉冲调制(pulsed modulation),并对反射脉冲信号进行积分,通过不同周期内光信号能量积分比值直接计算出光信号从发射到接收的时间差,从而计算出物点到传感器之间的距离。在实际使用时,ToF传感器接收到的除了有效的反射信号,还有太阳光等干扰信号,因此通常会对背景光进行积分,并在计算过程中减去该积分的量值。
在现代生活中,视觉3D感知技术已经应用于各个方面。畅想一下未来,人们出门可以不用带现金、信用卡,甚至手机,只需要借助视觉3D感知技术即可完成支付。看到构造精巧的物品,想分享给亲朋好友时,可借助视觉3D感知技术,完成全方位的几何信息拷贝,以更加逼真的形态,让亲友也能身临其境般感受物品巧妙的构造。此外,在视觉3D感知技术的助力下,我们能构建更加准确的安防体系、建立更加智慧的仓储物流、获得更加震撼的AR体验。可以预见,未来人类的真实世界可以通过视觉3D感知技术实现数字化拷贝,届时每个人都能拥有一个属于自己的世界。随着5G时代的到来,视觉3D感知技术将会蓬勃发展。
邵理阳,南方科技大学电子与电气工程系研究员,创新创业学院副院长,浙江大学博士。先后在加拿大卡尔顿大学、澳大利亚悉尼大学、香港理工大学、新加坡南洋理工大学等知名高校从事科研工作。主要研究方向有新型微结构光纤/光纤激光器及其应用,分布式光纤传感,微波光子传感及测量,实时超快成像技术以及光信息和传感技术在海洋监测、轨道交通、周界安防、桥隧健康监测等领域的应用等。
杨鹏,深圳奥比中光科技有限公司3D传感技术研发中心算法部负责人,北京大学摄影测量与遥感专业博士。发表论文10余篇,作为重要发明人申请发明专利5项,参与国家重点研发计划、国家自然科学基金等项目3项。