基于语义计算的小样本图像分类研究最新章节_刘崇文著

1.2 国内发展现状

经过多年的发展，图像分类和场景识别领域取得了很大程度的进展。同时在处理图像分类和场景识别的小样本问题也涌现出了不少方法。对于小样本问题，最直接的解决思路就是想办法扩充训练数据，或者扩充所能获得的知识。针对不同的环境，学者们提出了不同的办法来获取更多的训练数据或知识。

对于扩充训练数据的方式，最直接的方法就是想办法获得更多的训练数据，因为这并不是机器学习领域的技巧，所以在这里不进行讨论。如果由于条件的限制，不能直接获得更多的数据，可以通过其他方式来补充训练数据的不足，扩充训练样本或者是不同类的样本分布平衡，如采样的方法。

如果不能有效地扩充训练数据，就需要对所学习到的知识进行扩充。

集成学习方法是一种从有限的训练数据中扩充学习知识的方法。集成学习首先构建多个分类器，然后结合多个分类器来完成学习任务。集成学习根据其所构建的分类器之间是否存在依赖关系，可以分为两类。不存在依赖关系的代表方法为Bagging，存在强依赖关系的代表方法为Boosting。其中迁移学习是Boosting类方法的代表。

多任务学习是通过相关任务的知识来对当前任务知识进行扩充的学习方法，也是应对训练样本不足的方法之一。多任务学习通过利用多个相关学习任务之间的有用信息来提升模型的性能。多任务学习在学习不同任务中通过参数的共享来扩充所学到的知识，根据不同的参数共享方式分为Hard参数共享和Soft参数共享。

根据训练样本的数量，小样本问题的学习可以分为少量样本学习（few-shot learning）、单一样本学习（one-shot learning）、零样本学习（zero-shot learning）。少量样本学习方法是训练数据中某些或全部类别的训练样本数量较少时的学习方法；单一样本学习方法是针对每个类别只有一个训练样本时的学习方法；零样本学习方法是应对某些类别没有训练数据时的学习方法。随着训练样本数量的减少，模型学习难度增加。

（1）集成学习是使用多个模型进行学习，并通过一定的规则，将学习到的多个模型进行整合，最终获得比单个模型效果更好的分类模型。在集成学习研究的初期，主要是基于应用的研究，后来逐步转向机器学习领域的学术研究。在机器学习领域，集成学习主要有两个方面的研究，一方面是如何设计出泛化能力强、集成效率高的学习方法；另外一方面是通过对集成学习理论进行分析，探讨针对不同情况下，哪些方法有效，哪些方法有缺陷，并在此指导下设计出与实际情况相吻合的学习方法。对集成学习当前研究的方法是集中于集成学习知识的输出融合和如何生成单独的集成学习分类器。

集成学习有多种实现的方法，如通过处理训练数据集、通过处理输入特征、通过处理类别标记、通过处理学习算法及多种方法相组合的方式。通过处理训练数据集的方法，即是根据对训练样本的抽样分布，对原始数据进行再抽样得到多个不同的训练数据集，然后使用学习方法对每一个训练集上分别学习一个分类器。代表的方法有Bagging和Boosting。采用Bagging学习方法时，通过对训练数据进行多次抽取，每一次抽取的数据分配到一个学习器中进行训练。这个抽取是随机的，并且是有放回的抽取，因此每次抽取都是独立和随机的。Bagging方法通过这种有放回的随机抽样，使得每次所抽取出来的样本集合有一定的差异度，使训练出的模型泛化能力提高。BREIMAN等采用了P＆C簇算法（Perturb and Combine），并指出了Bagging方法的关键因素是其自身的稳定性。虽然Bagging方法提高了不稳定学习算法的精度，但对于稳定学习算法的精度提升效果并不明显，有时候反而会降低。Boosting是一类算法的总称，最初由SCHAPIRE提出，并由GROSSMAN等进行了改进。通过一系列学习器的生成，分析各个学习器的表现，把已有的学习器中对错误判断的样例以较大的概率出现在新学习器的训练集中。Boosting方法虽然在集成学习泛化能力上有所增强，但是同时会出现在集成过程中过分地偏向某个或者某些特别困难的样本的情况。因此Boosting方法的系统稳定性较差，很大程度上依赖于实际数据的情况。FREUND和SCHAPIRE提出了AdaBoost方法，此算法效率与GROSSMAN的方法相近，是可以非常容易应用到实际情况中去的，因此该方法称为目前应用面最广的Boosting算法。近年来图学习方法得到了学者的重视，通过图的方法实现Bagging，如WU等。

（2）迁移学习是机器学习领域中的一个重要研究课题。迁移学习的目标是将某个领域的知识或其他任务上学习到的知识再次学习应用到不同但相关的领域中的问题。迁移学习的概念类似于人通过类比学习到新的知识的能力。

迁移学习根据源域和目标域，或者称为领域的特征空间和类别空间的异同进行分类，分为异构迁移学习和同构迁移学习。在异构迁移学习中，对于源域和目标域的特征空间不同，最典型的就是自然语言中的文本翻译和检索，训练数据和测试数据采用不同语言。PRETTENHOFER等，LING等，SHI等在自然语言自动翻译应用中，采用了将辅助领域语言翻译到目标领域语言中，通过辅助样本的知识来协助处理目标领域中的问题，再应用统一的语言概率分布处理语言分布中的失配问题，进而将异构迁移学习问题转化为同构迁移学习问题。PLATT等同时从不同语言的数据中建立一个公共子空间，训练文档来源于互译语料、机器翻译等方法，通过训练，将特征投影从不同特征空间中的数据映射到同一个公共子空间，而在测试过程中，测试样本在投影到公共子空间后，得到分类的结果。DAI等提出了翻译学习的方法，通过训练数据在其特征空间中建立监督模型，并在另一个特征空间中进行预测。这样实现了利用图像、自然语言的跨类别数据的相互帮助来实现分类，且能在不同特征空间中构建翻译模型，实现双语字典。QI等提出了在文本和图像间建立知识迁移的学习方法，WANG等提出了通过子空间的方法实现迁移学习，将迁移学习应用到跨自然语言领域和数字图像领域。LI等提出了基于特征扩充和扩展，并对特征进行对齐，通过异构迁移学习方法，采用支持向量机，实现了跨语言、跨媒体的分类学习，取得了良好的实验效果。对于源域类别与目标域类别不同的情况。SHI等提出了风险敏感谱学习（Risk-sensitive Spectral Partition，RSP）算法来解决标签失配的情况。PENG等提出了通过跨类学习的方法，将信息相互转化，以此来解决源域和目标域中的标签对应情况。QI等提出了图像的跨类别迁移方法，以应对某些类别中训练数据较少的情况。XIANG等提出了领域选择方法，辅助选择源域以增加目标域学习的效率。LI等提出了极少训练样本学习（One-Shot Learning），用于处理训练样本极少的情况，形成了迁移学习的一个新类别。其目标在于通过相关联的旧类别的训练样本形成知识，并将知识迁移到新的类别中去，以指导新类别的分类识别。

同构迁移学习则是在源域和目标域分布相同的情况下进行的。同构迁移学习可以进一步分为数据集偏移、领域适配、多任务学习3种子类型。数据集偏移即是在源域和目标域之间的边缘概率分布和条件概率分布都不相同的情况下的学习。BICKEL等和JIANG等通过修正数据特征的边缘分布和条件分布的差异，使用实例权重法，对训练数据进行学习。ARNOLD等和ZHONG等通过特征表示的方法，同时减少数据特征的边缘分布和条件分布的差异，以实现迁移学习。LONG等通过正则化图的方法来实现迁移学习，解决了目标域没有标注数据的情况下解决数据集偏移问题。满足源域和目标域之间边缘概率分布不同的同构迁移学习称为领域适配（Domain Adaptation）。其包括了样本选择偏置（Sample Selection Bias）和方差偏移（Covariate Shift）等。这两类问题是现今迁移学习领域中被研究得最多的问题。在同构迁移学习中，当源域和目标域的条件概率分布不同时，就称为多任务学习。

（3）多任务学习是由CARUANA提出的，他在神经网络的结构中，构造了一个隐藏节点，通过此节点对不同输出任务进行共享，并在训练后，通过任务之间的相关关系和任务的权重表征，在共享节点中进行知识的共享。THRUM设计了一套用于图像分类的神经网络学习的方法，并类似于CARUANA构建了分类器信息共享的结构，因此成了早期的多任务学习模型之一。BAXTER提出了在机器学习理论中的多任务学习方法，通过对共享任务情形下的、固定整个系统中共享任务的数量，研究在此环境下的平均错误率上界与共享任务之间相互共享的信息的上界的关系。CHUANG等使用了Rademacher复杂性来对多任务学习中的风险差上界进行评估。MIN等提出了属性学习的方法用于多任务学习。

多任务学习有从数据特性出发和从任务之间的关系出发的研究思路。在利用数据特性为出发点的研究思路中，利用共享各个任务的特征空间结构来建立各个任务之间联系。DONOHO等提出了应用矩阵的 L _1，2 范数来约束学习任务，并用低维结构表示共享任务。EVGENIOU等提出了应用核空间上的范数来构建任务之间的共享空间。ZHANG等提出了获取任务之间的隐藏结构，并在隐藏结构构成的空间中，使用Laplace分布的独立成分分析（Independent Component Analysis）获得任务之间的关联信息。OBOZINSKI等提出了将不同任务数据生成联合子空间，并在其上面用任务之间的相关系数的 L ₂ 范数进行分块约束。RAI等通过构建隐藏特征空间，据此将不同任务的数据空间联合起来，构建出无限维的共享子空间。

在利用任务之间的关系为出发点的研究思路中，需要寻找出任务之间的相关性，然后通过相关性联合各个任务，达到综合各个任务所学习到的知识，指导分类识别的目的。XUE等提出了采用将任务分组建模的方法，建模使用的是Dirichlet过程，将任务分组后再共享学习到的知识。BONILLA等也采用了将任务分组建模的方法，与BONILLA提出的方法不同的是，其采用了Gauss过程进行建模。JACOB等提出了采用任务聚类的方法进行任务归纳，在聚类过程中采用了正则项约束。HUANG等提出了通过分享空间的快速多任务学习方法。RANJAN等提出了深度学习网络的方法来完成多任务学习，并应用于人脸识别。ZHANG等对任务关联矩阵在高斯密度下建立似然函数，采用粒子滤波的方法把不同对象和特征学习到其他任务中。BONILLA等与GUO等都采用了对任务关联矩阵进行低秩分解，通过低秩分解来逼近关联任务协方差矩阵，同时降低计算的复杂度。GUO等还采用了将关联任务的协方差矩阵分解并投影矩阵上的办法，并采用了隐矩阵变量的方法来完成多任务学习的工作。

（4）零样本学习（Zero-shot Learning）是在待测试类别没有训练数据的情况下，对待测试类别进行分类和识别的学习方法。零样本学习概念是由LAROCHELLE等于2008年提出的。LAROCHELLE等所提出的问题是在带标签的训练样本数据不足和涵盖类别不足的情况下，采用新的模式对待测试样本进行分类识别的新研究课题。在零样本学习中，由于测试类别与训练类别的分布不同，因此通过训练类别的分布无法准确拟合待测试类别的分布情况，因此需要采用新的学习方式，对其进行分类和识别。虽然零样本问题是一个极端和困难的问题，但是却广泛存在于数字图像处理、机器视觉、视频监控等多个领域中。

零样本学习早期应用于专业数据库或者某一个领域的数据库中。LAROCHELLE等在字符识别领域中，采用零样本学习方法对缺少训练样本的类别进行研究，通过实验得到了高于60％的字符识别率。PALATUCCI等在神经活动解读领域，通过对实验中的测试样本少和分布不均的问题进行研究，通过传递神经活动的知识对缺失训练样本的类别进行研究，设计出零样本分类模型，并取得了高于70％的分类识别准确率。LAMPERT等则是在动物数据集上进行了相关问题的研究，但不同于前两个应用，因为动物数据库有着更多的类别和更广泛的覆盖面，所以使得零样本学习的难度更大，于是LAMPERT提出了直接属性预测和间接属性预测两种模型，通过属性将待测试的类别和训练样本的类别联系起来，以解决零样本问题。近期有学者在更加广泛的领域应用了零样本学习，FU等在视觉图像识别领域，采用多视角的方法，通过不同视角得到的不同的特征空间，使其融合在一起，将待识别类别的原型表达出来，从而进行分类识别，并取得了高于80％的分类识别正确率。AKATA等提出了一种通过属性标签空间嵌入的零样本学习方法，通过属性的概念，把属性看作是图像的标签，同时将类别标签空间嵌入属性标签空间，设计出嵌入兼容度函数，通过此兼容度函数来解决零样本学习中的待测试类别与训练类别，以提高学习的性能。HUANG等通过提出超图中的正则化属性，通过将属性的形式改写，权衡属性之间相互的影响，收集属性的投影并嵌入特征空间去，以达到属性学习和分类的目的。JAYARAMAN等采用随机森林的方法来训练分类模型，提出了零样本学习下的随机森林算法，通过统计每个属性在分类中所给出的贡献，将属性预测的错误率降低，从而提高属性预测的准确率，并取得了较好的分类识别效果。XIAN等分析图像的一个区域及所对应的属性，改进了LAMPERT所提出的属性学习方法。DING采用低秩嵌入语义词典的方法，将视觉特征的语义嵌入低秩空间来完成零样本学习。