购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.6 小结

经过前面几个章节的学习,相信读者对机器学习的过程已有了大概了解,本节将对机器学习的完整过程做一个总结,加深读者的理解。

对于监督学习,不论回归还是分类,在解决之前首先要提出一个模型/算法,如图2.18所示,并将数据集划分为两部分。常用的划分比例为7∶3,其中70%为训练集。

图2.18 机器学习的完整过程示意

然后应选择一个风险函数(见2.3.1节),根据风险函数,在训练集上训练出模型的参数。得出参数后,将训练集、测试集加入模型中得出预测值。然后在训练集中,根据某拟合优度指标,评价模型的效果。如果模型在训练集中的表现不尽如人意,则模型欠拟合,此时应考虑更换模型;如果模型在训练集中的效果可嘉,则进入测试集评价阶段。根据测试集的评价结果,评估模型是否过拟合;如果过拟合,则采取相应的方法进行更正或直接更换算法。通过两次验证之后,模型才可以投入使用。

当然,在实际过程中可能存在多个算法,此时应该将数据集划分为三部分,即训练集、测试集和验证集,并根据验证集进一步地过滤,或者将多个模型进行交叉验证,从而筛选最优的模型。应该注意,这里介绍的机器学习过程是十分简单的,实际中往往会结合工程增添更多的步骤,如缺失值处理、异常值检验、特征降维、自然语言处理或图像处理等。 j0/hflyiAaSvRJIoJx6eMbE+m0D6emol3lG4/agOeONcxqM0Yv9HosCKkCpP3XWX

点击中间区域
呼出菜单
上一章
目录
下一章
×