Python机器学习：基于PyTorch和Scikit-Learn最新章节_塞巴斯蒂安·拉施卡著

1.3.1 本书中使用的符号和约定

鸢尾花（Iris）数据集是机器学习领域中的一个经典数据集（更多信息请参考https://archive.ics.uci.edu/ml/datasets/iris）。图1.8展示了鸢尾花数据集的部分数据。鸢尾花数据集包含了150朵鸢尾花的测量结果，这些鸢尾花来自三个种类：山鸢尾、变色鸢尾和弗吉尼亚鸢尾。

数据集中的每一行代表一朵花的样本数据，数据集中的每一列存储花卉的度量值（单位为厘米），也被称为数据集的特征。

为了简单而高效地实现符号表示，本书将使用线性代数的一些基础知识。后续章节使用矩阵符号来表示数据。遵循通用约定，矩阵中的每一行代表一个样本，矩阵中的每一列代表一个特征。

鸢尾花数据集包含150个样本和4个特征，可以表示为150行4列的矩阵，即 X ∈R ^150×4 ：

图1.8 鸢尾花数据集的部分数据

符号约定

除非特别说明，本书使用上标 i 表示第 i 个训练样本，下标 j 表示一个训练样本的第 j 维的值。

本书使用粗体的小写字母（ x ∈R ⁿ ^×1 ）表示向量，使用粗体大写字母（ X ∈R ⁿ ^× ^m ）表示矩阵。采用斜体字母表示向量中的一个元素（即 x ^（ ⁿ ^））或矩阵中的一个元素（即）。

例如，表示第150个鸢尾花样本第一维的值，即萼片长度。 X 矩阵的每一行代表一朵花的数据，可以写成4维行向量 x ^（ ⁱ ^） ∈R ^1×4 ：

每个特征都是一个150维的列向量 X ^（ ⁱ ^） ∈R ^150×1 ，例如：

类似地，可以把目标变量（这里指的是类别标签）表示为一个150维的列向量：

其中 y ^（ ⁱ ^） ∈｛山鸢尾，变色鸢尾，弗吉尼亚鸢尾｝。