人们在认识世界的过程中,需要通过人的感官来了解世界,其中最直接的感官就是视觉。通过视觉,人们可以感知到十分丰富的信息,即图像信息。比如目标及其空间结构,目标所在的场景,目标传达给我们的语义信息等。人类通过视觉方式获得的信息占到了人所获得总信息的80%。随着互联网技术的发展,人们所获取到的各种图像信息呈爆炸式增长。海量图像数据不仅给人们带来了认识世界的新角度,同时也因数据量太大让人们应接不暇。人们需借助计算机才能处理图像和识别图像,但是从认知的角度出发,人们所关注的重点是图像的语义信息,这就出现了计算机对图像理解的问题。图像分类问题经过了较长时间的发展,形成了多个分支,比如图像分类和场景识别等。一个较好的图像分类或场景识别方法,是可以让计算机自动地认知图像及其中的对象,并判断出人们所感兴趣的目标,理解图像所包含的语义信息,通过结合多方面的信息完成图像分类和场景识别的任务。
图像分类或场景识别是将图像给予一个标签的过程,通过这个标签,标示出图像或场景的类别。图像可以是简单的,如单个目标;也可以是复杂的,如自然场景。本书将多个目标,复杂的图像认为是场景图像。图像分类是图灵奖获得者J. Gray提出的未来信息科技发展面临的12个重大问题之一,其目标是让计算机能够“像人一样”去观看和理解图像,这也是图灵机中的一个重要指标。伴随着数字摄像、存储技术、网络技术等相关技术的发展,人们所能获得的图像信息呈现爆炸式增长。想要从这些海量的图像数据中挖掘有用的信息,人力难以胜任。因此,图像分类得到了越来越多研究者的重视,其地位也不断提高,并逐渐成为模式识别、人工智能领域的一个新的研究热点。随着图像分类关注度的提升,国内外的众多科研院所和高校都对其发展做出了重要的贡献,如MIT、CIT、斯坦福大学视觉实验室、牛津大学视觉几何实验室、纽约大学视觉和图像实验室、中科院大学等。计算机视觉领域的著名期刊如IEEE Transactions on PAMI、IEEE Transactions on Image Process、Pattern Recognition等,也刊登了最新研究成果。同时场景识别也得到了计算机视觉领域著名会议的重视,如IEEE Conference on CVPR,IEEE International Conference on Computer Vision、IEEE International Conference on Image Process等,都刊登了最新研究成果。在模式识别和数据挖掘领域中,数据分布不平衡问题是一个难点。在现实问题中,能够获得的训练数据,即带标签数据,不可能做到面面俱到,常见的类别有着大量的带标签数据,而罕见的类别有少量的带标签数据或者根本没有带标签的数据。这些类别稀有,但是该类别是存在的,并且有时候这些稀有类别恰恰是特别重要的。可是在一般的机器学习模型中,对于训练样本较少的类别的分类和识别效果较差。