购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 基本术语与符号

本章讨论了监督学习、无监督学习和强化学习这三大类机器学习,下面将介绍本书中常用的基本术语。1.3.1节将介绍我们在引用数据集时将会用到的常用术语,以及更精确和高效地进行沟通所采用的数学符号。

因为机器学习领域广阔而且跨学科,所以肯定会遇到许多指向相同概念的不同术语。1.3.2节收集了机器学习文献中的许多常用术语,希望在你阅读更多不同的机器学习文献时能够有所帮助。

1.3.1 本书中使用的符号和约定

图1-8摘要描述了鸢尾属植物数据集,这是机器学习领域的典型示例。该数据集包含了山鸢尾、变色鸢尾和弗吉尼亚鸢尾三种不同鸢尾属植物的150多朵鸢尾花的测量结果。数据集每行存储一朵花的样本数据,每列存储每种花的度量数据(以厘米为单位),也称之为数据集的特征。

023-01

图 1-8

为了能简单而且高效地实现符号表示,我们将会用到线性代数的一些基础知识。下面的章节中将用矩阵和向量符号来表示数据。我们将按照约定将每个样本表示为特征矩阵 X 的一行,每个特征表示为一列。

鸢尾属植物数据集包含150个样本和4个特征,可以用150×4矩阵 023-02 表示:

023-03
008-01
标注约定

除非特别注明,本书的其余部分将用上标i指第i个训练样本,下标j表示训练样本的第j个维度。

用小写和粗体字符表示向量 023-04 ,用大写和粗体字符表示矩阵 023-05 。分别采用斜体字符x (n) 或者 023-06 表示向量或者矩阵中的某个元素。

例如 024-01 表示第150个鸢尾花样本的第一个维度,即 萼片长度 。因此,该矩阵的每行代表一朵花的数据,可以写成4维行向量 024-02

024-03

每个特征维度是150个元素的列向量 024-04 ,例如:

024-05

类似地,可以把目标变量(这里是类标签)存储为150个元素的列向量:

024-06

1.3.2 机器学习的术语

机器学习领域非常广泛,而且因为有许多科学家来自其他的研究领域,因此学科的交叉现象比较严重。很多似曾相识的术语和概念被重新认识或者定义,名称可能会有所不同。为方便起见,下面精选了常用术语及其同义词,希望对大家阅读本书和其他人工智能书籍有所帮助。 KoH9LIbdkwoYBQd8S510WAP4DrAKKBkb9y0hwX1Jsi0D2J0xIL9LuN3icitHKiUH

点击中间区域
呼出菜单
上一章
目录
下一章
×