深度学习笔记最新章节_鲁伟著

6.1　计算机视觉的三大任务

自从神经网络和深度学习方法引入图像领域，经过近些年的发展，从一开始的图像分类逐渐延伸到目标检测和图像分割领域，深度学习也逐渐在计算机视觉领域中占据绝对的主导地位。如果想要利用深度学习技术开启计算机视觉领域的研究，那么明确并深刻理解计算机视觉的三大任务非常关键。计算机视觉的三大任务如图6.1所示。

图6.1　计算机视觉的三大任务

从图6.1中我们可以简单地描述计算机视觉三大任务的要义。图像分类就是要回答这张图像是一只猫的问题，与传统的机器学习任务并无区别，只是输入由数值数据变成图像数据。本节将介绍CNN在图像分类的发展历史上出现的一些经典网络。

而目标检测则不仅需要回答图像中有什么，而且还需要给出这些物体在图像中的具体位置，以图6.1为例就是不仅要识别图中的猫和狗，还要给出猫和狗的具体定位。所以，目标检测的任务简单而言就是“分类+定位”。在无人驾驶的应用中，我们的目标是训练出一个具有极高准确率的物体检测器；在工业产品的瑕疵检测中，我们的目标是能够快速准确地找出产品中的瑕疵区域；在医学肺部结节的检测中，我们的目标是能够根据病人肺部影像很好地检测出结节的位置。图6.2所示是一个自动驾驶场景下对于各个目标物体的检测和识别。

图6.2　自动驾驶场景下对于各个目标物体的检测和识别

图6.3　定位和实例分割示例

图像分割则是需要实现像素级的图像分割，以图6.2为例就是要把每个物体以像素级的标准分割开来，这对算法的要求更高。这其中包括语义分割和实例分割，具体将在第8讲进行介绍。图6.3所示是一个定位和实例分割示例。

6.1 计算机视觉的三大任务

6.1　计算机视觉的三大任务