随着 深度学习(Deep Learning) 和 人工智能(Artificial Intelligence) 技术的发展,计算机视觉、语音识别、自然语言处理、推荐系统等领域都迎来了革命性的突破。以往无法较好解决的问题有了新的方法来求解,而已有传统方法的许多任务也被深度学习方案刷新了成绩。深度学习可以通过数据驱动的方式学习对应任务的先验表征,不但解决了人工设计特征的困难和降低了成本,而且可以获得更好的任务表现。
深度学习的核心是 深度神经网络(Deep Neural Network) ,即由多层神经元组成的模型结构。神经元是神经网络中最小的计算单元,它接收上一层神经元的输出并进行加权求和,经过激活函数处理得到输出,并传到下一层神经元。神经网络中神经元连接的权重是可学习的,通过大量数据的训练和反向传播算法的优化,可以将网络训练到目标任务上,使其泛化到训练集以外的数据上进行预测。深度神经网络的关键在于更深的网络结构,网络深并且参数量大有助于学习到更加复杂的数据表征,更好地拟合任务需求。图1—2 所示为深度神经网络模型示意图。
图1—2 深度神经网络模型示意图
在计算机视觉领域,常见的任务类型为 高层视觉任务(High-level Vision Task) 和 底层视觉任务(Low-level Vision Task) 。其中,高层视觉任务指的是对于语义级别信息进行提取和处理的复杂的图像相关任务,如图像分类、目标检测与跟踪、实例分割等。而底层视觉任务主要指的是与图像语义内容非强相关的、偏向于图像处理的相关任务,如前面提到的去噪、超分辨率等画质相关任务。深度学习在高层视觉任务中的应用较早,在2012年的ImageNet图像分类竞赛中,AlexNet模型利用深度学习卷积神经网络技术,将比赛结果刷新到了一个新的高度。AlexNet的成功毫无疑义地成了深度学习领域的一个里程碑式事件,使得人们对于深度学习范式的人工智能技术重拾信心,并推动了神经网络模型在视觉领域的研究和发展。在随后的研究中,图像分类、语义分割、目标检测等高层视觉任务不断涌现出一批优秀的工作(如ResNet、DeepLab、Fast R-CNN、YOLO等),将领域的SOTA(State of the Art)不断向前推进。图1—3所示为常见的高层视觉任务与底层视觉任务示例。
对于底层视觉任务来说,深度学习和神经网络也为这些传统问题的解决带来了新的思路和可能性。底层视觉技术由于其任务的特殊性,对于网络结构的需求和设计模式与分类、分割等任务的不同,这就驱使研究者针对底层视觉的各项任务重新思考深度学习模型的方案和进路。对于分类、检测这类任务来说,设计模型时一个重要的考量就是如何捕捉丰富的图像数据集中的同类物体的语义特征,比如,如果需要识别“猫”这个类别,那么就需要对各种不同猫图片中不同形态猫的共同特征进行学习。为了取得更好的泛化性能,这些图片中的底层内容信息,如颜色、光照、图像质量、噪声水平(Noise Level)等自然需要被忽略。为了让模型对于这些干扰和变化更加鲁棒,人们往往还会在训练时人为施加随机的颜色、对比度、噪声、旋转变换等处理,即 数据增强(Data Augmentation) 。而对于底层视觉相关的深度学习模型来说,图像的这些非语义的细节信息恰好是模型需要关注和处理的内容。比如,对于去噪模型来说,它的目标就是通过网络模型自适应地识别并抑制图像中的噪声,因此对图像的噪声分布强度是非常敏感的。当然,语义信息对于底层视觉任务来说有时候也是有帮助的,仍以去噪模型为例,如果网络可以足够好地理解图像中的物体类别和它可能有的纹理,那么借助这些信息就可以避免一部分富纹理区域中的细节被作为噪声过滤掉。但是就任务本身而言,去噪模型是被期望对语义不敏感的,即不管图像中的内容是什么,只要它的噪声分布符合人们训练集的设定,就应该可以泛化到该图像上,对该图像进行合理的去噪。
图1—3 常见的高层视觉任务与底层视觉任务示例
除了去噪模型,前面提到的很多画质相关算法任务也都有深度学习相关的方案,并且已经取得了比较好的效果。超分辨率是深度学习方法在底层视觉领域中的一个重要应用,一般来说,想要获得高分辨率图像,需要借助插值上采样,这种方法得到的结果较为模糊,无法补偿下采样及其他退化导致的细节损失。而借助于深度神经网络强大的特征提取能力,人们可以从训练数据中获得丰富的先验信息,这种信息可以在超分辨率上采样过程中,为合理推测上采样以后各个像素的值提供指导,从而使得上采样后的图像更加清晰,并且符合自然图像的分布。另外,对于灰度图像和视频上色任务,通过网络的学习,可以合理推测各个物体可能的颜色,以及哪些像素应该被赋予相同的颜色。图像补全任务则主要依赖于神经网络的结构化先验,利用已知部分的像素信息,对缺失部分的像素进行合理外推。
可以看到,深度学习在底层视觉技术中有着广泛且有效的应用场景,而且随着深度学习基础技术,比如Transformer模型、扩散模型等在视觉任务中的发展,底层视觉技术也在更新换代,效果不断提升。在可以预见的未来,基于深度学习的底层视觉技术将会发展出更优化的方案,为日常生活中的画质任务提供更优质的解决方案。