购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

6.1 计算机视觉的三大任务

自从神经网络和深度学习方法引入图像领域,经过近些年的发展,从一开始的图像分类逐渐延伸到目标检测和图像分割领域,深度学习也逐渐在计算机视觉领域中占据绝对的主导地位。如果想要利用深度学习技术开启计算机视觉领域的研究,那么明确并深刻理解计算机视觉的三大任务非常关键。计算机视觉的三大任务如图6.1所示。

图6.1 计算机视觉的三大任务

从图6.1中我们可以简单地描述计算机视觉三大任务的要义。图像分类就是要回答这张图像是一只猫的问题,与传统的机器学习任务并无区别,只是输入由数值数据变成图像数据。本节将介绍CNN在图像分类的发展历史上出现的一些经典网络。

而目标检测则不仅需要回答图像中有什么,而且还需要给出这些物体在图像中的具体位置,以图6.1为例就是不仅要识别图中的猫和狗,还要给出猫和狗的具体定位。所以,目标检测的任务简单而言就是“分类+定位”。在无人驾驶的应用中,我们的目标是训练出一个具有极高准确率的物体检测器;在工业产品的瑕疵检测中,我们的目标是能够快速准确地找出产品中的瑕疵区域;在医学肺部结节的检测中,我们的目标是能够根据病人肺部影像很好地检测出结节的位置。图6.2所示是一个自动驾驶场景下对于各个目标物体的检测和识别。

图6.2 自动驾驶场景下对于各个目标物体的检测和识别

图6.3 定位和实例分割示例

图像分割则是需要实现像素级的图像分割,以图6.2为例就是要把每个物体以像素级的标准分割开来,这对算法的要求更高。这其中包括语义分割和实例分割,具体将在第8讲进行介绍。图6.3所示是一个定位和实例分割示例。 +ckgt5IC6g174jqbbjWdXiT6kf5c80oZLzznhmpnm/h2+G6/ItHOutuFxjJh9SaX

点击中间区域
呼出菜单
上一章
目录
下一章
×