机器学习的目标是开发能从经验中学习的计算系统,它是人工智能的一个分支。在有监督机器学习中,机器学习系统从有标签的数据中得到一个可泛化的预测未知数据标签的模型。数据通常用直接描述实例的特征来表征,在存在多个相关机器学习问题的情况下,可以使用一种不同类型的特性,即通过机器学习模型对其他问题下的数据做出预测,称为转换机器学习。
机器学习为开发从经验中学习的计算系统,是最早的一种机器学习程序,它使用机器学习来改进质谱数据分析。机器学习被用于几乎所有的科学领域,例如药物发现、有机合成规划、材料科学、医学等。
大多数机器学习使用特征元组表征训练数据,例如,数据可以放到单个表中,每一行代表一个实例,每一列代表一个特征。实例的特征也可称为属性(attribute)。目前,实例的特征几乎都是内生属性。当存在多个相关的机器学习任务时,外生特征也可能被用到:使用在其余任务上训练的机器学习来对目标实例进行预测,称为转换机器学习。转换机器学习将基于内生属性的表征转换为基于其余模型预测值的外生表征。它使得模型可以利用在其余相关任务中学到的知识,而不必从头开始学习。因此,转换机器学习属于元学习(meta learning)的范式,可改进任何非线性的机器学习算法,尤其适用于存在许多相关小型学习任务的场景。
直观地说,以识别多种动物的学习任务为例。如果需要识别多种动物,并且还有待添加的物种,那么相比采用一个大型分类器而言,对每个物种都采用独立的分类器更合理。标准的机器学习方法采用内生特征来训练分类器。转换机器学习则是先采用标准方法学习各种动物的预测模型,并使用基于这些模型的预测结果表征各种动物。转换机器学习适用于所有机器学习任务共享一组内生特征和目标变量的领域,而这在科学研究中很普遍。转换机器学习的有效性在于利用了编码与先前训练模型中关于世界规律的知识。
转换机器学习与其他机器学习方法有非常相似的地方。然而,具体的转换机器学习概念之前没有被系统性地评价过。
(1)转换机器学习与多任务学习非常相似。
多任务学习是一种以相关任务的训练数据中包含的领域信息为归纳基准,从而提高泛化能力的归纳迁移方法。在多任务学习中,相关问题是被同时学习的,目的是利用问题之间的相似性来提高预测性能。多任务学习以共享表征并行训练来达成该目标;从每个任务所学到的知识可以帮助其他任务学得更好。多任务学习和转换机器学习的两个主要区别为:
· 多任务学习的训练通常是并行的,而转换机器学习通常逐个进行训练。
· 转换机器学习在各个任务间共享数据表征,而多任务学习使用单一模型。
(2)转换机器学习还与迁移学习有密切的关联。
· 迁移学习将信息从特定来源的问题转移为特定目标的问题。
· 迁移学习的思想是从一个或多个源领域提取知识,并在数据稀缺的目标领域复用这些知识,从而在目标领域建立性能更好的学习模型。
但是迁移学习通常不同于转换机器学习,因为迁移学习只针对一个源任务,而转换机器学习需要应对多个源任务。迁移学习已成功应用于药物设计,几个前瞻性的应用证明了其有效性。
(3)转换机器学习与叠加学习也非常相似。
叠加学习是一种集成机器学习算法,它结合多种算法,以获得比单独使用任何一种算法更好的预测性能。在叠加多个基准模型时,首先训练基准模型,然后使用基准模型的输出训练元模型。转换机器学习和叠加学习的主要区别在于:转换机器学习的训练是在一大组相关任务上进行的,每个任务对应的训练集可能不同。而在叠加学习中,不同的基准模型通常针对同一个任务进行训练。
转换机器学习适用于任何非线性机器学习的改进。为了评价转换机器学习,可选择以下5种机器学习:
· 随机森林(RF)。
· 梯度增强算法(XGB)。
· 支持向量机(SVM)。
· K近邻(KNN)。
· 神经网络(NN)。
对于每一种机器学习方法和每一个问题领域,我们比较了转换机器学习和基准机器学习算法的表现,研究了两种形式的预测改进——强改进和联合改进。
· 强改进即使用新的转换机器学习特征,得出的预测优于使用基于基准(内生)特征得出的预测。
· 联合改进即以基准特征作为新的转换机器学习特征,以提高预测性能。
为了增强转换机器学习的预测性能,使用了最简单的叠加方法组合预测结果。结果发现,转换机器学习在三个领域中均显著提高了所有方法的平均预测性能(提高幅度从4%到50%),即针对新的外生特征训练的模型通常优于针对内生特征训练的模型。
机器学习的一个重要分支是可解释的人工智能,因为在许多应用中,有必要使预测具有可理解性。在科学领域,可解释的机器学习预测模型会带来科学新知。机器学习模型的可理解性取决于模型的简单性,及模型表征与人类概念间的密切程度。概念结构的标准理论起源于亚里士多德,该理论是以定义和解释概念间存在充分必要条件为基础的。转换机器学习模型的可解释性基于相似概念存在多种可替换的学习方法。
将转换机器学习与深度神经网络(Deep Neural Network,DNN)进行对比是很有启发性的。DNN的输入是典型的空间结构或顺序结构,输入结构的先验知识被编码于网络结构。DNN的成功在于它能够利用多个神经网络层和大量数据,学习如何将较差的输入表征映射到丰富和有效的潜在表征。改善较差输入表征的能力,使DNN能够在原先被证明不适合机器学习的领域取得成功,例如,在围棋等游戏中击败世界冠军、比人类专家更好地诊断皮肤癌等。从DNN的成功中得到的一个关键经验是,利用机器学习能够增强机器学习的表征。DNN最适用于有大量可用于训练良好表征的数据,并且不要求所用符号模型适用于人类认知的问题,而大多数科学问题领域都不满足这些标准。
标准DNN算法在需要处理多任务问题时,需要学习包含所有问题的单一大型模型。与转换机器学习相比,DNN问题间的关系和训练数据间的关系都不是以转换特征的形式显示的。对于多任务问题,转换机器学习还具有支持增量机器学习的优势:如果添加新数据或新任务,那么无须重新学习任务模型。虽然转换机器学习增加了一些额外的计算代价,但是与DNN学习相比,转换机器学习的额外代价很低。
机器学习的传统方法是将每个学习任务看作一个单独的问题。随着多任务学习、迁移学习、终身学习等方面的进展,这种观点开始发生变化。转换机器学习使人们对作为生态系统的机器学习有了更广阔的视野。在生态系统中,学习任务、学习实例、机器学习方法、机器学习预测、元机器学习方法等都能够协同作用,以提升生态系统中所有任务的性能和可解释性。增加更多的训练数据不仅能够改进特定任务的模型(使用特征选择、集成学习、叠加学习、转换机器学习、二阶转换机器学习等),而且能够改进所有其他使用特定任务模型的模型。与此类似,添加了新任务能够扩展转换后的表征,从而可通过转换机器学习、二阶转换机器学习等方式改进所有其他任务的模型。添加新的机器学习或元机器学习方法,即所有的任务模型都会得到改进。在这样一个机器学习生态系统中,随着新知识的增加,预测性能将逐步提高。因为来自许多不同来源的先验知识被用于所有预测任务中,预测也将更加可靠。
在机器学习领域,人们对机器学习的自动化越来越感兴趣,并且存在许多或免费或商业的系统,这些系统能够自动进行机器学习以解决新的问题。然而,目前还没有一个机器学习自动化系统能够发现一个有价值的机器学习新技巧。尽管目前有越来越多的将科学发现自动化的人工智能系统,但这些系统高度依赖机器学习,很少有工作将人工智能发现系统应用于机器学习。