基于语义计算的小样本图像分类研究最新章节_刘崇文著

1.1 研究背景及意义

人们在认识世界的过程中，需要通过人的感官来了解世界，其中最直接的感官就是视觉。通过视觉，人们可以感知到十分丰富的信息，即图像信息。比如目标及其空间结构，目标所在的场景，目标传达给我们的语义信息等。人类通过视觉方式获得的信息占到了人所获得总信息的80％。随着互联网技术的发展，人们所获取到的各种图像信息呈爆炸式增长。海量图像数据不仅给人们带来了认识世界的新角度，同时也因数据量太大让人们应接不暇。人们需借助计算机才能处理图像和识别图像，但是从认知的角度出发，人们所关注的重点是图像的语义信息，这就出现了计算机对图像理解的问题。图像分类问题经过了较长时间的发展，形成了多个分支，比如图像分类和场景识别等。一个较好的图像分类或场景识别方法，是可以让计算机自动地认知图像及其中的对象，并判断出人们所感兴趣的目标，理解图像所包含的语义信息，通过结合多方面的信息完成图像分类和场景识别的任务。

图像分类或场景识别是将图像给予一个标签的过程，通过这个标签，标示出图像或场景的类别。图像可以是简单的，如单个目标；也可以是复杂的，如自然场景。本书将多个目标，复杂的图像认为是场景图像。图像分类是图灵奖获得者J. Gray提出的未来信息科技发展面临的12个重大问题之一，其目标是让计算机能够“像人一样”去观看和理解图像，这也是图灵机中的一个重要指标。伴随着数字摄像、存储技术、网络技术等相关技术的发展，人们所能获得的图像信息呈现爆炸式增长。想要从这些海量的图像数据中挖掘有用的信息，人力难以胜任。因此，图像分类得到了越来越多研究者的重视，其地位也不断提高，并逐渐成为模式识别、人工智能领域的一个新的研究热点。随着图像分类关注度的提升，国内外的众多科研院所和高校都对其发展做出了重要的贡献，如MIT、CIT、斯坦福大学视觉实验室、牛津大学视觉几何实验室、纽约大学视觉和图像实验室、中科院大学等。计算机视觉领域的著名期刊如IEEE Transactions on PAMI、IEEE Transactions on Image Process、Pattern Recognition等，也刊登了最新研究成果。同时场景识别也得到了计算机视觉领域著名会议的重视，如IEEE Conference on CVPR，IEEE International Conference on Computer Vision、IEEE International Conference on Image Process等，都刊登了最新研究成果。在模式识别和数据挖掘领域中，数据分布不平衡问题是一个难点。在现实问题中，能够获得的训练数据，即带标签数据，不可能做到面面俱到，常见的类别有着大量的带标签数据，而罕见的类别有少量的带标签数据或者根本没有带标签的数据。这些类别稀有，但是该类别是存在的，并且有时候这些稀有类别恰恰是特别重要的。可是在一般的机器学习模型中，对于训练样本较少的类别的分类和识别效果较差。