基于语义计算的小样本图像分类研究最新章节_刘崇文著

1.3 本书的主要工作和贡献

本书以图像分类为应用点，着重研究了图像分类中普遍存在的小样本问题。小样本问题可以分为多个方面，在本书中解决了两类4种情况中的小样本问题，具体如图1.1所示。

1）单源数据下的小样本问题

（1）在单一数据库中所存在小样本问题。在图像数据库中，有些类别的训练数据较少。这种情况是普遍存在的，特别是在自然场景的图像中，很多对象由于出现次数较少，因此能提供的训练数据就较少。

（2）零样本问题，即待测试类别没有训练数据，这种情况在现实中也是普遍存在。我们所能得到的数据库，特别是针对复杂场景、自然场景的图像数据，不可能都收集到，并标上标签作为训练数据。这样就会出现某些类别是没有训练数据的。但是我们依然要对这些没有训练数据的类别进行分类识别。

2）多源数据下的小样本问题

（1）在单一主机环境下，主机包含了多个数据库。某些数据库包含的数据少，或者某些类别所包含的数据少。但是本地主机还有其他数据库可以利用。这种情况多出现在图像服务器中，数据存放在多个不同的数据库中。

图1.1 小样本问题的类别和情况

（2）在网络环境中的小样本问题。网络环境中有多个网络节点，这些网络节点都存放着数据。本地主机存放的数据库中的训练数据少，但是整个网络的数据却很多。这种情况较多，而且还是现在网络存储中最普遍的现象。虽然本地主机拥有的数据少，或者某些类别的数据少，但是网络中其他节点的主机可以提供大量的数据。

本书就以上所提出的4种情况中的小样本问题，通过不同的语义计算方法，提出了相应的模型来分别应对这4种情况中的小样本问题。

（1）针对单源数据，即本地只有单一的数据库，只能在本地数据中挖掘出语义知识，提高模型的泛化能力，从而提高模型的分类正确率。

①在单一数据库中所存在的小样本问题，我们通过对不同场景的标签的语义关系，场景所包含的对象的语义关系，以及对象与其中所包含的视觉词汇的语义关系进行分析，通过分析这3个潜在语义关系，寻找其他类别中与数据较少类别相似的样本，并把它们学习到模型中去。在这里，本书应用了自然语言处理的方法，对待学习的数据，根据前述的3个语义关系计算相似性，只学习满足迁移条件的样本，从而保证了学习到数据的质量，提升模型的分类识别正确率。

②当某些类别没有训练数据的情况时，在这种情况下的学习算法称之为零样本学习。本书首先根据训练数据中的图像特征与属性之间的语义关系，提出了模糊属性，其与现有的二进制属性相比，有着更好地对对象的刻画能力。其次在属性与类别之间寻找语义关系，提出模糊知识，通过获得多个不同来源的知识，丰富已有的知识，并且有效纠正某些错误的知识。最后本书提出的模糊DAP和模糊IAP算法，提高了零样本学习的分类识别正确率。

（2）针对多源数据，即本地有多个数据库或者网络中有其他数据可以利用，需要通过语义计算，在满足特定条件的前提下，吸取其他数据源的知识，以提高模型的泛化能力，最终提高模型的分类正确率。

①在单一主机存储着多个数据库，某些数据库的训练样本较少的情况下，可以通过多任务学习的方法学习本地其他数据库的知识。这些数据库虽然都存放在本地，但由于其中所包含的数据完全不同，属于多源数据。多任务学习是对多源数据分别学习，通过参数或模型传递的方式增强所学习到的模型的泛化能力。本书所提出的多任务学习方法与现有的不同之处在于，增加了对图像的理解。在图像理解的思路下，对不同源数据中标注词的语义进行分析，建立了语义二叉树，并通过计算语义之间的关系，融合语义二叉树。通过融合后的语义二叉树，更好地表示了不同类别之间的语义关系，指导将其他源的数据学习到本地数据所训练出的模型中来，从而达到更好的分类识别效果。

②在网络环境下，整个网络所存储的数据是海量的。当本地数据较少，所训练出的分类器较弱时，可以从网络中的其他网络节点学习知识。与前面一种情况不同的是网络中所存储的数据所有权并不归本地，因此在学习其知识时，还需要考虑对数据所有者的隐私进行保护。本书考虑在网络中的每个节点都建成弱分类器，通过分析各个节点中的数据与本地数据的语义关系，通过弱语义计算，采用迁移学习方法，把各个节点的弱分类器集成到本地。本书所提出的办法，相对于现有的其他网络环境下的迁移学习，最重要的一点是能够有效地保护数据拥有者的隐私。此外，本书所提出的方法，还有着节省运算时间、降低运算开销、节省网络传输数据量、提升识别率的优势。