计算机视觉这一概念自20世纪诞生以来,便引起了学界的广泛关注和深入研究。这一技术使得计算机具备了“看”的能力,能够学会理解和解释视觉信息,从而成为计算机在生产和生活中走向实用化的关键技术之一。历经几十年发展,在当今数字时代,计算机视觉技术已经成为科技创新的重要引擎,在许多领域都产生了深远的影响,并推动了科技的不断演进和社会的数字化转型,深刻改变着人类与数字信息互动的方式。从早期的简单图像处理到如今深度学习的应用,计算机视觉技术不断拓展着其应用领域,为各行各业带来了前所未有的机遇。
在计算机视觉领域的早中期发展阶段,研究人员通常采用手工设计的方法来提取图像中的信息,如纹理、梯度等,这些高度提炼的信息被称为特征。随后,再利用这些特征来完成分类等任务。然而,随着具体任务场景复杂性和多样性的增加,设计全面且有效的特征提取方法变得非常具有挑战性。为解决这一问题,研究者们开始探索更高级的特征提取方法。例如,2008年,FELZENSZWALB P等人提出了DPM算法 [1] ,该算法采用了改进的方向梯度直方图(Histogram of Oriented Gradients,HOG)特征和支持向量机分类器,在卷积神经网络出现之前几乎是目标检测性能最佳的方法之一。随着大规模数据集和图形处理器(Graphics Processing Unit,GPU)的出现,卷积神经网络(Convolutional Neural Networks,CNN)引起了广泛关注。卷积神经网络通过深层卷积操作自动学习图像特征和分类器,极大地提高了许多任务的效率和准确率。时至今日,计算机视觉领域的大部分研究任务都依赖于卷积神经网络这一强大工具。本书将在第2章详细介绍卷积神经网络,以便读者理解后续内容。
计算机视觉领域涵盖了众多具体的研究任务,其中包括但不限于目标检测、语义分割和目标识别等。本书旨在向读者介绍两类基础但又重要的计算机视觉任务,即图像融合与目标识别。
图像数据包含丰富而宝贵的信息,大量的图像数据构成了计算机视觉领域的基石。为了获取更高质量的图像信息,传感器成像技术不断得到发展。不同的图像传感器因其工作原理、成像波长和适用环境等因素的影响,导致获得的图像特征存在显著差异。然而,单个图像传感器仅能从单一角度解释图像数据,存在一定的局限性。例如,在同一场景下,使用不同传感器可能采集到不同的信息;即便是在同一场景下的单个传感器,随着其各类参数的变化,也可能获得差异明显的信息。为了克服这些问题,更好且更全面地获取场景中有价值的信息,人们提出了图像融合任务,即将多个传感器获取的同一场景图像进行融合,以更准确和清晰的方式描述场景中的信息,该任务的示意图如图1.1(a)所示。在图像融合的过程中,不仅能够综合利用多个传感器的信息,还能够弥补各个传感器的局限性,提高图像数据的全面性和可靠性。通过将多源信息有机地结合在一起,我们能够实现对场景更深入的理解,从而为计算机视觉的相关任务提供更为丰富和精准的输入数据。
目标识别任务在计算机视觉领域中扮演着至关重要的角色,其核心目标是准确地区分图像中物体的具体类别。这一任务不仅是视觉处理中的基础环节,也是许多高级任务(如目标检测)中不可或缺的一环。在目标识别中,算法需要能够理解并解释图像中的各种特征,以识别并将物体精准地分类至其特定的类别中,该任务的示意图如图1.1(b)所示。目标识别的复杂性体现在对图像中不同物体的多样性和复杂性的处理上。这不仅包括物体的尺寸、形状、颜色、纹理等方面的差异,还涉及不同背景、光照等场景条件。因此,有效的目标识别算法需要具备强大的泛化能力,能够在各种场景下准确地识别目标。
图1.1 图像融合及目标识别任务示意图
图像融合任务和目标识别任务各有侧重。图像融合任务将多幅图像有机结合,令输出图像能同时含有输入图像中的有效信息,因此更适合作为一种图像增强手段,作为人工图像分析或计算机图像处理的前置操作,故常被用于安保 [2] 、监控 [3] 、目标追踪 [4] 等应用中。而目标识别任务需要深入理解整幅图像及其语义信息,是相对高层级的视觉任务,故可以被直接应用于目标检测等任务中。同时,图像融合任务和目标识别任务两者之间也能构成互补的关系:一方面,图像融合能够促进目标识别性能,两者可以形成图像融合-目标识别的任务链,以使用更高质量的融合图像增强目标识别任务的性能 [5] ;另一方面,目标识别模型的优秀语义信息提取能力能为图像融合任务提供有力支援。
随着技术的发展和硬件的进步,对卷积神经网络的研究变得更加深入和广泛。新的图像融合和目标识别算法也不断涌现,逐步融入人们的现实生活,广泛应用于资源调查、环境监测、军事国防等领域。在人们数字化生活不断推进的过程中,这两项任务作为相对基础的计算机视觉任务,重要性将日益凸显。