购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1.5 机器学习项目开发步骤

假设我们有个机器学习任务,是通过酒精度和颜色来区分红酒和啤酒。下面以机器学习如何区分啤酒和红酒为例(见图1-4),详细介绍一下机器学习中每一个步骤是如何工作的。

图1-4 区分红酒和啤酒案例

1.数据收集与存储

我们先在超市买来一堆不同种类的啤酒和红酒,然后买来测量颜色的光谱仪和用于测量酒精度的设备,最后把买来的所有酒都标记出相应的颜色和酒精度,会形成下面这张表格(见表1-3)。

表1-3 选取数据特征

这一步非常重要,因为数据的数量和质量直接决定了预测模型的好坏。

2.数据预处理

在本例中,数据是很工整的,但是在实际情况中,我们收集到的数据会有很多问题,所以会涉及数据清洗等数据预处理工作,如图1-5所示。

图1-5 数据预处理

当数据本身没有什么问题后,我们将数据分成3个部分:训练集(60%)、验证集(20%)、测试集(20%),用于后面的验证和评估工作。

3.选择一个模型

研究人员和数据科学家创造了许多模型。我们可以根据不同的数据特征选择不同的模型,有些模型非常适合图像数据,有些非常适合序列(如文本或音乐),有些适合数字数据,有些适合文本数据。

在本例中,由于只有两个特征——颜色和酒精度,因此我们可以使用一个小的线性模型,这是一个相当简单的模型。

4.训练

大部分人都认为训练这一步是最重要的部分,其实并非如此,数据的数量、质量,以及模型的选择比训练本身更重要。将原始数据分为训练集和测试集(交叉验证),并利用训练集训练模型,这个过程不需要人来参与,机器可以独立完成,整个过程就像做算术题。因为机器学习的本质就是一个将现实问题转换为数学问题,然后解答数学题的过程。

5.模型评估

一旦训练完成,就可以评估模型是否有用。这是我们之前预留的验证集和测试集发挥作用的地方。这个过程可以让我们看到模型是如何预测的,即模型在现实世界中是如何表现的。

6.参数调整

完成模型评估后,我们可能希望了解是否可以使用任意方式进一步改进训练,这些可以通过调整参数来做到。当模型进行训练时,我们隐含地假设了一些参数,可以通过人为调整这些参数来让模型表现得更出色。

7.预测

前面的6个步骤都是围绕预测来服务的,这也是机器学习的价值。在这一步,当我们买来一瓶新的酒,只要告诉机器酒的颜色和酒精度,模型就会告诉我们这瓶酒是啤酒还是红酒了。 Ucct7pWZ4rUDUqJNfOmc77yZk03VqMSCgQ9yk+uKJQbWig09DN1pyf5D3nh9a4O+

点击中间区域
呼出菜单
上一章
目录
下一章
×