购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第三章
大数据管理与应用的机器学习基础

随着大数据时代的到来,各个行业对数据分析的需求持续增加,通过机器学习从大量数据中提取有效的信息,已经成为当前人工智能技术发展的主要推动力,并且已经广泛用于解决商务领域中的决策与管理问题。在本章中你将了解机器学习的概念,掌握机器学习的四要素,明确机器学习中的模型评估与选择方法,了解机器学习的理论基础。

■ 学习目标

·理解机器学习的基本概念

·掌握机器学习的四要素

·掌握机器学习的模型评估与选择方法

·理解计算学习理论

■ 知识结构图

第一节
机器学习概述

一、机器学习的基本概念

(一)人工智能与机器学习的起源

机器学习来源于早期的人工智能领域,是一种实现人工智能的方法。一般认为,人工智能学科起源于1956年在达特茅斯学院召开的夏季研讨会,参与者包括麦卡锡、明斯基、塞弗里奇、香农、纽厄尔和西蒙等人工智能先驱。在达特茅斯会议召开之前,图灵1950年在英国哲学杂志《心》( Mind )上发表题为《计算机与智能》的文章,并在文中提出“模仿游戏”的概念,此概念被后人称为“图灵测试”。在达特茅斯会议之后,人工智能迎来了第一个发展黄金阶段,该阶段的人工智能主要以自然语言、自动定理证明等研究为主,用来解决代数、几何和语言等问题,并出现了问答系统和搜索推理等标志性研究成果。到了20世纪70年代中期,由于计算机性能不足、数据量严重缺失等问题,导致很多人工智能研究成果无法解决大量复杂的问题,人工智能的项目经费也因此被大幅缩减,遭遇了第一次寒冬。到了80年代初期,专家系统逐渐成为人工智能研究的热点,它能够使用逻辑规则来进行问答或解决特定领域知识的问题。专家系统时代最成功的案例是DEC在1980年推出的XCON,在其投入使用的6年里,一共处理了8万个订单。由于专家系统的出现,人工智能终于有了成熟的商业应用。然而在1987—1993年,第五代计算机研发失败,超过3000家人工智能企业由于运算成本高昂而倒闭,其中以XCON为代表的专家系统因无法自我学习并更新知识库和算法、维护成本越来越高,迫使许多企业开始放弃使用专家系统,人工智能遭遇了第二次寒冬。

从90年代中期开始,随着计算机的算力不断提升,机器学习尤其是神经网络的逐步发展,人工智能进入了平稳发展阶段。1997年5月11日,IBM的“深蓝”系统战胜了国际象棋世界冠军卡斯帕罗夫,成为人工智能发展的一个重要里程。2006年,Hinton在深度学习领域取得突破,人工智能迎来了爆发期。2011年以来,随着IBM的人工智能程序“Watson”在一档智力问答节目中战胜了两位人类冠军,人工智能进入蓬勃发展期。2013年,深度学习算法在语音和视觉识别上有重大突破,识别率超过99%和95%。2016年,Google Deepmind团队的AlphaGo战胜围棋冠军,它的第四代版本AlphaGoZero更是远超人类高手。

(二)机器学习的特点

机器学习是人工智能领域的重要分支,也是实现人工智能的一种手段。机器学习的主要特点是:①机器学习是一门涉及多个领域的交叉学科,包括概率论、统计学、逼近论、凸分析、算法复杂度理论等;②机器学习能够使计算机系统利用经验改善性能;③机器学习以数据为基础,以模型为中心,通过数据来构建模型并应用模型对数据进行预测和分析。

(三)机器学习的定义

莱斯利·瓦里安特认为一个用于执行某项任务的程序如果能够不通过显式编程(Explicit Programming)获得,那么这个过程就是“学习”。例如,一个银行每天能够收到几千个信用卡的申请,它想通过一个自动的程序来评估这些申请,而银行虽然有大量的数据但并没有一个显式的公式或规则可以评估信用卡是否应该被批准,这个自动评估程序就需要从数据中“学习”得到。而机器学习则致力于研究如何通过计算的方法,借助经验来改善系统自身的性能,从而在计算机上从历史数据中产生“模型”,并对新数据做出准确预测。汤姆·米切尔对机器学习给出以下定义。

定义3-1(机器学习) 假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序通过利用经验 E T 任务上获得了性能改善,则我们就说关于 T P ,该程序对 E 进行了学习。

机器学习的基本框架可用图3-1来描述(以监督学习为例)。对于输入空间X(例如用于信用卡申请评估的所有用户信息),假定存在一个机器学习任务 t :X→Y(一个能够准确判断是否应该通过信用卡申请的理想函数),其中Y是输出空间(通过或不通过信用卡申请)。给定不同样本组成的训练集 D ,每个样本( x i , y i )由特征向量 x i 和对应的标签 y i 组成。我们可以通过策略和算法从数据 D 中学习模型 h :X→Y来逼近任务 t ,并利用学到的模型 h 对新的特征 x new 进行预测,得到预测标签

大部分机器学习可由任务、数据、模型、策略和算法五个要素组成。

图3-1 机器学习的基本框架

1)任务:任务是机器学习需要解决的问题。常见的机器学习任务有分类、回归、聚类等。例如,一个分类任务 t :X→Y,其中Y是离散的输出空间。

2)数据:数据是由不同“示例”(Instance)或“样本”(Sample)组成的集合。一般地,令 D ={( x 1 , y 1 ),( x 2 , y 2 ),…,( x m , y m )}表示包含 m 个样本的数据集,每个样本的输入变量 x i R n n 个属性描述,也称为特征(Feature),这样的 n 维特征组成的空间称为输入空间;每个样本的输出变量 y i 代表样本的真实标签,可以是离散值或连续值。

3)模型:模型是从数据集 D 中学习到的某种潜在规律,也被称为“假设”(Hypothesis)。模型可以表示为一个从输入空间映射到输出空间的函数,即 h :X→Y,所有可能的函数 h 组成的集合为假设空间 H ,即 h H

4)策略:策略是从假设空间选取最优模型的准则,它能够度量模型预测标签 和真实标签 y i 之间的差异或损失。损失函数是 y i 的非负值函数,记作 ,常见的损失函数包括0-1损失 和平方损失 等。在假设空间、损失函数和数据集确定的情况下,机器学习的策略可表示为:

5)算法:算法 A 是从假设空间里选取最优模型的计算方法。机器学习的算法涉及求解最优化问题,若最优化问题没有显式的解析解,则需要使用数值计算的方法进行求解,常用方法包括梯度下降法和随机梯度下降法等。

二、归纳偏好

在现实问题中,我们经常面临很大的假设空间,而数据集中的样本通常是有限的。因此,有可能存在多种模型都能拟合数据集的情况,即存在一个与数据集一致的假设空间,称为“版本空间”。机器学习在学习过程中对某种模型的偏好,称为“归纳偏好”。然而,机器学习中没有一个普适的模型能够解决所有的学习问题,这也被称为“没有免费的午餐”定理。“奥卡姆剃刀” 是一种常用的从版本空间中选取模型的方法,即在同样的条件下,应该优先选择较为简单的模型。

第二节
机器学习的分类

根据数据集中包含标签的情况,机器学习大致可以分为监督学习、无监督学习和半监督学习。

一、监督学习

监督学习又被称为有教师学习,所谓“教师”就是指数据集 D 中的每个样本都能提供对应的真实标签,而监督学习是指在真实标签的指导下进行学习。根据标签属性的不同监督学习可以分为分类和回归两类问题,前者的标签为离散值,而后者的标签为连续值。分类问题的目标是学习一个从输入 x 映射到输出 y 的分类模型,其中 y ∈{ c 1 , c 2 ,…, c G }包含 G 类离散的标签。如果 G =2,这种分类问题称为“二分类问题”;如果 G >2,则称为“多分类问题”。现实世界中常见的分类问题如根据医学图像进行诊断、根据文档内容对其进行分类等。与分类问题不同的是,回归问题的标签是连续值 y R 。现实世界中有许多回归问题,例如根据当前股市情况预测明天的股价、根据产品信息预测其销量等。

二、无监督学习

在无监督学习中,数据集中只有输入数据而没有标签,无监督学习的目标是通过对这些无标签样本的学习来揭示数据的内在特性及规律。因此无监督学习是没有经验知识的学习,有时也被称为“知识发现”。聚类分析是无监督学习的代表,它能够根据数据的特点将数据划分成多个没有交集的子集,每个子集被称为簇,簇可能对应一些潜在的概念,但需要人为总结和定义。例如对用户进行精准营销前需要对用户进行细分,就可以通过聚类分析实现。

三、半监督学习

在许多现实问题中,对样本打标签的成本有时很高,因而只能获得少量带有标签的样本。在这种情况下,半监督学习可以让模型不依赖人工干预、自动地利用未标记样本来提升学习性能,从而充分利用有标签和无标签的样本。例如在生物学领域,对某种蛋白的结构或功能标记需要花费生物学家多年的功夫,而大量的未标记样本却很容易得到,半监督学习就提供了一条利用这些未标记样本的途径。

第三节
模型评估与选择

一、训练误差与测试误差

机器学习中的数据集 D 可以进一步分为训练集 S 和测试集 T ,训练集和测试集是从原始数据集中独立同分布采样得到的两个互斥集合。模型能够通过已知标签的训练集上训练得到,并能够在未知标签的测试集上进行预测,因此模型在这两类数据集上产生了两类误差:训练误差与测试误差。

假设训练集 S 中有 m S 个样本,训练误差就是模型 h 在训练集上的平均损失:

假设测试集 T 中有 m T 个样本,训练误差就是模型 h 在测试集上的平均损失:

二、模型评估方法

为了通过实验对模型的泛化能力进行评估并选择泛化能力强的模型,需要使用测试集来评估模型的泛化能力,并且将测试误差作为其泛化误差的近似。根据从原始数据集 D 划分训练集 S 和测试集 T 的方式不同,模型评估方法主要有留出法、 K 折交叉验证法和自助法等。

(一)留出法

留出法直接将原始数据集 D 划分为两个互斥的训练集 S 和测试集 T ,在 S 上学习到不同的模型后,在 T 上评估各个模型的测试误差并选测试误差最小的模型。值得注意的是,训练集和测试集的划分要尽可能保持数据分布的一致性,从而避免因数据划分过程引入额外的偏差而对最终的模型评估结果产生影响。例如在分类问题中,若 D 中包含1000个正例和1000个反例,可以根据类别对 D 进行随机地分层采样得到包含70%样本(700个正例和700个反例)的训练集和包含30%样本(300个正例和300个反例)的测试集。

(二) K 折交叉验证法

K 折交叉验证法是机器学习中应用最多的模型评估方法,它首先将原始数据集随机地划分为 K 个大小相同的互斥子集,然后每次使用 K -1个子集作为训练集训练模型,使用余下的一个子集作为测试集评估模型,最后可以获得 K 次划分的训练集和测试集,并取 K 次评估结果的平均值作为最终的模型评估结果。图3-2给出了五折交叉验证的示意图。

图3-2 五折交叉验证示意图

假定数据集 D 中包含 m 个样本,若在 K 折交叉验证中有 K = m ,则得到其特殊情形,称为留一交叉验证。留一交叉验证不受随机样本划分方式的影响,往往在数据缺乏的情况下使用。

(三)自助法

自助法以自助采样为基础,给定包含 m 个样本的数据集 D ,对它进行采样产生数据集 D ′,每次随机地从数据集 D 中选取一个样本,然后将其有放回地放入 D′ 中,该过程重复执行 m 次后可以得到一个包含 m 个样本的数据集 D′ D D′ 会有一部分样本的重合,假设 m 足够大,样本在 m 次采样过程中始终不被采到的概率为

可以看到, D′ 中包含的样本大概占原始数据集 D 的63.2%。

三、性能度量

性能度量就是对模型的泛化能力进行评估,在对比不同模型的能力时,使用不同的性能度量往往会导致不同的评判结果。下面主要介绍分类和回归问题的性能度量。

(一)分类问题的性能度量

1.错误率与精度

错误率与精度是分类问题中最常用的两种性能度量。错误率是指模型错误分类的样本数占总样本数的比例,而精度则是正确分类的样本数占总样本数的比例。假设测试集中有 m T 个样本, y i 为样本真实标签, 为模型预测标签,分类错误率表示为

分类精度可以表示为:

2.精确率、召回率与 F 1分数

对于二分类问题,模型对样本的预测类别和其真实类别有四种组合:真正例(TP),假正例(FP)、真反例(TN)、假反例(FN)。这四种组合可以由表3-1所示混淆矩阵表示。

表3-1 二分类结果的混淆矩阵

精确率定义为

召回率定义为

F 1分数是精确率和召回率的调和均值,定义为

若模型的精确率和召回率都高,则其 F 1分数也会高。

3.ROC曲线与AUC

ROC曲线的中文名为“受试者工作特征曲线”(Receiver Operating Characteristic Curve)。ROC曲线的纵坐标为“真正例率”(TPR),横坐标为“假正例率”(FPR),两者分别定义为:

如图3-3所示,ROC曲线显示了模型的真正例率和假正例率之间的权衡。

如图3-3a所示,若一个模型的ROC曲线完全处于另一个模型曲线之内,则后者的性能优于前者;如图3-3b所示,若两个模型的ROC曲线有交叉,则很难判断两者的优劣程度。此时,就可以比较AUC(Area Under ROC Curve)来进行判断。直观上来看,AUC是ROC曲线下的面积,通过对ROC曲线下各部分的面积求和得到。

图3-3 ROC曲线

(二)回归问题的性能度量

1.均方误差

均方误差(Mean Square Error,MSE)是回归问题常用的性能度量,假设测试集中有 m T 个样本,MSE可表示为

2.均方根误差

均方根误差(Root Mean Square Error,RMSE)可表示为

3.平均绝对误差

平均绝对误差(Mean Absolute Error,MAE)可表示为

4.平均绝对百分比误差

平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)可表示为

四、偏置与方差

机器学习模型的泛化误差来源于两个方面,一个是偏置(Bias),另外一个是方差(Variance)。假设有多个独立同分布的数据集,每个数据集的大小为 m ,对于任意给定的数据集 D 且标签为 y ,可以训练得到模型 h 用于逼近理想的目标概念 c ,而 h x )能够得到 x 的真实标签,因此不同的数据集会训练得到不同的模型。假设模型 h 为回归模型,则它对 x 的期望预测可以表示为

这些模型之间的方差可以表示为

偏置为期望预测与真实标签之间的差别,可以表示为

因此,模型 h θ ( x ; D )的平方损失可以按以下方式进行分解:

对式(3-19)求期望,可得:

假定噪声的期望为零,即 E D [ y-c ( x )]=0,可以进一步得到:

于是可以得到下面的对于模型 h 期望平方损失的分解:

因此,模型的学习目标是最小化期望损失,它可以分解为偏置、方差和噪声三个部分。对于非常复杂且灵活的模型来说,偏置较小、方差较大;对于简单且相对固定的模型来说,偏置较大、方差较小。因此,模型的偏置和方差之前存在一个折中,模型在偏置和方差之前取得最优的平衡时才能取得最优的预测能力。

五、训练拟合与正则化

(一)过拟合与欠拟合

过拟合(Overfitting)与欠拟合(Underfitting)是机器学习中的一组现象。如图3-4所示,过拟合一般是由于模型过于复杂或参数过多而导致模型对训练数据过度拟合的现象,而欠拟合则是由于模型过于简单或参数过少而导致模型难以训练数据的现象,这两种现象均能导致模型的预测值与真实值之间出现较大的差距。

图3-4 过拟合与欠拟合现象

(二)正则化

正则化(Regularization)是典型的模型选择方法,它是在损失函数上加上一个正则化项来对模型的复杂度进行惩罚。正则化项一般是随模型复杂度递增的单调函数,模型复杂度越高,正则化值越大。因此,正则化能够减缓由于模型参数过多和参数过大而带来的过拟合现象。带有正则化项的损失函数可以表示为

其中,第一项为损失函数,第二项为正则化项, λ ≥0为均衡两者之间关系的系数。正则化项可以取不同的形式,例如,假设 θ 为模型的参数向量,正则化项可以是 θ L 2 范数,即‖ θ 2 ,也可以是 θ L 1 范数,即‖ θ 1 。正则化的作用是选择损失函数与模型复杂度同时较小的模型,因此也符合“奥卡姆剃刀”的原理。

第四节
计算学习理论

一、PAC学习理论

概率近似正确(Probably Approximately Correct,PAC)是机器学习理论中最基本的概念,它能够帮助我们定义什么样的概念能够被有效地学习出来,且在学习过程中需要怎样的样本和时间复杂度。给定数据集 D 中的 m 个样本是从分布 D 独立同分布采样而得,机器学习的目标是使得模型 h 尽可能接近目标概念 c ,其中 c 属于概念类 C 。然而,机器学习过程中经常受到许多因素制约,导致我们无法精确地学到目标概念 c 。因此,我们希望以比较大概率学到比较好的模型来接近目标概念 c ,且模型的误差应满足预设上限,这就是“概率近似正确”的含义。泛化误差(Generalization Error)和经验误差(Empirical Error)是衡量模型 h 与目标概念 c “接近”程度的两个标准。以二分类问题为例,模型 h 的泛化误差为

h D 上的经验误差为

因此,经验误差实际上是 h 在数据集 D 上的平均错误,而泛化误差是 h 在分布 D 下的期望错误,并且二者有如下关系:

在此基础上,PAC学习(PAC-learning)有如下定义:

定义3-2(PAC学习 )若存在学习算法A和多项式函数poly(.,.,.,.),使得对于任意 ε >0和0< δ <1,并对于所有输入空间 X 的分布 D 和所有目标概念 c C ,以下不等式对于任何样本量poly(1/ ε ,1/ δ , n ,size( c ))成立:

如果算法A运行时间也是poly(1/ ε ,1/ δ , n ,size( c )),则称概念类 C 是高效PAC可学(Effectively PAC-learnable),称算法A为概念类 C 的PAC学习算法。

PAC学习给出了一个抽象刻画机器学习能力的框架,首先,该框架对分布 D 没有任何假设,仅假设该分布存在;其次,用于定义误差的训练集和测试集中的样本都从同一分布下采样而得;最后,该框架是针对概念类 C 的可学习问题,而非特定的目标概念。

二、泛化误差上界

PAC学习中的一个关键因素是假设空间 H 的复杂度。当| H |越大时,则其包含目标概念的可能性越大,但从中找到目标概念的难度也越大。| H |有限时,称 H 为有限假设空间,否则为无限假设空间。下面主要基于有限假设空间,考虑一致与不一致情况下的泛化误差上界。

(一)一致情况下的泛化误差上界

在一致情况下,模型在训练集上不犯错误,即 =0,且目标概念在假设空间 H 中。当 H 为一致情况下的有限假设空间时,有下面的定理成立:

定理3-1 H 为有限假设空间, D 为从 D 独立同分布采样得到的大小为 m 的训练集,学习算法A能够基于训练集 D 输出一致假设 h : =0,对于任意 ε >0和0< δ <1,不等式 P [R( h )≤ ε ]≥1 成立的必要条件为

证明 :固定 ε >0,将泛化误差大于 ε 的假设集合记为 H ε ,即 H ε ={ h H : R ( h )> ε }。 H ε 中的假设 h 在训练集 D 上经验误差为零,因此有

对于假设集合 H ε ,存在假设 h 使得经验误差为零的概率为

将式(3-28)代入上式最右端,可得:

从而可知 P [R( h )≤ ε ]≥1 ,定理3-1得证。

定理3-1表明,当H为有限假设空间时,样本复杂度为1/ ε 和1/ δ 的多项式,因此算法A为PAC学习算法。此外,一致假设 h 的泛化误差上界会随样本量的增加而不断收敛,且收敛率为O(1/ m )。

(二)不一致情况下的泛化误差上界

在大多数情况下,假设空间 H 中的假设并不与训练集中的标签一致。因此,在不一致的情况下,模型会在训练集上犯错,即 ≠0,且会导致目标概念不在假设空间 H 中,即 c H 。以下推论能够将泛化误差R( h )和经验误差 联系起来。

推论3-1 固定 ε >0,对于任意假设 h : X →{0,1},以下不等式成立:

联立式(3-31)和式(3-33),以下不等式成立:

在概率论中,Hoeffding不等式给出了随机变量的和与其期望偏差的概率上限,而定理3-1与Hoeffding不等式一致,Hoeffding不等式即为以下不等式:

其中, X →{0,1}为 m 个独立随机变量的集合,且

将式(3-34)右端设为 δ 并对 ε 进行求解,可以得到以下推论。

推论3-2 固定假设 h : X →{0,1},则至少以1 的概率有

根据以上推论,当 H 为不一致情况下的有限假设空间时,有下面的定理成立:

定理3-2 H 为有限假设空间, D 为从 D 独立同分布采样得到的大小为 m 的训练集, h 为不一致假设,对于任意 ε >0和0< δ <1,至少有1 的概率使以下不等式成立:

证明 :令 h 1 , h 2 ,…, h |H | 为假设空间 H 中的元素,结合定理3-1,可得:

将上式右端设为 δ 并对 ε 进行求解即可证明定理3-2。

定理3-2推导出的泛化误差上界与定理3-1相比更加宽松,因此也适用于一致情况下的泛化误差上界。定理3-2表明,对于有限假设空间 H ,随着训练集样本数量的逐渐增加,泛化误差上界会以 的速率收敛,但上界会随着假设空间大小| H |的增大而增大。因此,对假设空间大小| H |进行惩罚能够帮助减少经验误差,对于同样的经验误差,也应该选择更小的假设空间。所以,定理3-2也能在理论上对正则化或“奥卡姆剃刀”进行解释。

第五节
应用案例

作为招商银行智能投顾系统,摩羯智投是以现代投资组合理论为基础,运用机器学习算法,融入招商银行十多年财富管理实践及基金研究经验,并在此基础上,为使用者构建以公募基金为基础的、全球资产配置的智能基金组合配置服务。摩羯智投会帮助使用者在确定投资期限和可承受风险等级后自动构建出相应的基金组合,用户点击“立即购买”后即可按其建议比例购入不同类型的基金,并享受风险预警、调仓提示、一键优化等售后服务。

机器学习为摩羯智投提供了重要技术支撑。第一层次基础技术支撑来源于数据和运算平台,包括数据传输、运算、存储等,摩羯智投基于招行强大的客户和产品数据,已经积累较为丰富的数据分析经验。第二层次人工智能技术利用基础资源和大数据进行机器学习建模,包括感知智能和认知智能,摩羯智投在投资建模方面取得了较好的效果,并且在语音语义识别等感知领域加快步伐。第三层次人工智能应用是将人工智能实现多场景应用,与传统业务更紧密的结合,基于公募基金组合配置场景的应用逐步优化完善,在更多场景的应用也在持续不断地探索。此外,在管理方面,摩羯智投依托招商银行的资源和技术以及管理经验,发展迅速。招商银行拥有大量优质客户,并且非常注重线下服务,在私募与公募的代销方面,也具有突出的影响力。摩羯智投融合了招行多年的基金研究与财富管理经验、得天独厚的优质客户资源、良好的品牌效应和机器学习、大数据,并跟随全球金融科技的步伐,不断发展。

同时,作为机器学习的重要元素,数据同样引起了摩羯智投的重视。根据DCMM 的评估,摩羯智投的数据管理能力处于受管理级,即第2级。DCMM将受管理级描述为组织已意识到数据是资产,根据管理策略的要求制定了管理的流程,指定了相关人员进行初步管理,具体特征如下:意识到数据的重要性,并制定部分数据管理规范,设置了相关岗位;意识到数据质量和数据孤岛是一个重要的管理问题,但目前没有解决问题的办法;组织进行了初步的数据集成工作,尝试整合各业务系统的数据,设计了相关数据模型和管理岗位;开始进行了一些重要数据的文档工作,对重要数据的安全、风险等方面设计相关管理措施。摩羯智投能够意识到数据的重要性。依托于招商银行的管理经验,摩羯智投非常注重数据的相关应用,并利用大数据的支撑,进行客户挖掘、优化资产组合、客户体验、服务模式等方面的创新。

为了达到下一级别,即稳健级,摩羯智投可以尝试从以下方面进行努力。首先是在银行内部建立系列的标准化管理流程并建立数据管理的规章和制度,然后要建立相关数据管理组织,培训数据管理人员,使银行在日常的决策,业务开展过程中能获取更多数据支持,明显提升工作效率。

◎ 思考与练习

1.试讲述机器学习在商务领域的应用。

2.说明精确率、召回率与真正例率(TPR)、假正例率(FPR)之间的关系。

3.说明错误率与ROC曲线的关系。

4.如何判断模型是否发生过拟合现象?若发生过拟合,应该怎么解决?

5.说明一致假设和不一致假设之间的区别和联系。

◎ 本章扩展阅读

[1]李航. 统计学习方法[M]. 北京:清华大学出版社,2012.

[2]周志华. 机器学习[M]. 北京:清华大学出版社,2016.

[3]MITCHELL T M. Machine learning[M]. New York:McGraw-Hill,1997: 432.

[4]BISHOP C.Pattern recognition and machine learning[M].Berlin:Springer-Verlag,2006.

[5]HASTIE T, TIBSHIRANI R, FRIEDMAN J.The elements of statistical learning:data mining inference and prediction[M].2nd ed.Berlin:Springer-Verlag,2009.

[6]ABUMOSTAFA Y S,MAGDONISMAIL M,LIN H T.Learning from data:a short course[EB/OL].(2012-09-01)[2012-09-02].http://amlbook.com/.

[7]MURPHY K P.Machine learning: aprobabilistic perspective[M].Cambridge:MIT Press,2012.

[8]MOHRI M,ROSTAMIZADEH A, TALWALKARa A.Foundations of machine learning,[M].2nd ed.Cambridge:MIT Press,2018.

[9]VALIANT L G.A theory of the learnable[J].Communications of the ACM,1984,27(11):1134-1142.

[10]JORDAN M I,MITCHELL T M.Machine learning: trends,perspectives and prospects[J].Science,2015,349(6245):255-260. VnkjHhMeQf+eobxXLHLLH2TQOcY5WyGB+6GdonffJLzCoBmf5kwk3/FezmEyAdlD

点击中间区域
呼出菜单
上一章
目录
下一章
×