购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 MNIST数据集

1.1.1 简介

首先介绍MNIST数据集。如图1-1所示,MNIST数据集主要由一些手写数字的图片和相应的标签组成,图片一共有 10 类,分别对应从 0~9,共10个阿拉伯数字。

图1-1 MNIST数据集图片示例

原始的MNIST数据库一共包含下面4个文件,见表1-1。

表1-1 原始的MNIST数据集包含的文件

在表1-1中,图像数据是指很多张手写字符的图像,图像的标签是指每一张图像实际对应的数字是几,也就是说,在 MNIST数据集中的每一张图像都事先标明了对应的数字。

在 MNIST 数据集中有两类图像:一类是训练图像(对应文件train-images-idx3-ubyte.gz 和 train-labels-idx1-ubyte.gz),另一类是测试图像(对应文件t10k-images-idx3-ubyte.gz和t10k-labels-idx1-ubyte.gz)。训练图像一共有60000张,供研究人员训练出合适的模型。测试图像一共有10000张,供研究人员测试训练的模型的性能。在 TensorFlow 中,可以使用下面的Python代码下载MNIST数据(在随书附赠的代码中,该代码对应的文件是donwload.py)。

在执行语句mnist=input_data.read_data_sets(″MNIST_data/″,one_hot=True)时,TensorFlow会检测数据是否存在。当数据不存在时,系统会自动将数据下载到MNIST_data/文件夹中。当执行完语句后,读者可以自行前往MNIST_data/文件夹下查看上述4个文件是否已经被正确地下载

成功加载 MNIST 数据集后,得到了一个 mnist 对象,可以通过 mnist对象的属性访问到MNIST数据集,见表1-2。

表1-2 mnist对象中各个属性的含义和大小

运行下列代码可以查看各个变量的形状大小:

原始的MNIST数据集中包含了60000张训练图片和10000张测试图片。而在TensorFlow中,又将原先的60000张训练图片重新划分成了新的55000张训练图片和 5000 张验证图片。所以在 mnist 对象中,数据一共分为三部分:mnist.train 是训练图片数据,mnist.validation 是验证图片数据,mnist.test是测试图片数据,这正好对应了机器学习中的训练集、验证集和测试集。一般来说,会在训练集上训练模型,通过模型在验证集上的表现调整参数,最后通过测试集确定模型的性能。

1.1.2 实验:将MNIST数据集保存为图片

在原始的MNIST数据集中,每张图片都由一个28×28的矩阵表示,如图1-2所示。

图1-2 单张图片样本的矩阵表示

在TensorFlow中,变量mnist.train.images是训练样本,它的形状为(55000,784)。其中,5000是训练图像的个数,而784实际为单个样本的维数,即每张图片都由一个784维的向量表示(784正好等于28×28)。可以使用以下代码打印出第0张训练图片对应的向量表示:

为了加深对这种表示的理解,下面完成一个简单的程序:将 MNIST数据集读取出来,并保存为图片文件。对应的代码文件为save_pic.py。

运行此程序后,在MNIST_data/raw/文件夹下就可以看到MNIST数据集中训练集的前20张图片。读者可以修改上述程序打印更多的图片。

1.1.3 图像标签的独热表示

变量mnist.train.labels表示训练图像的标签,它的形状是(55000,10)。原始的图像标签是数字0~9,我们完全可以用一个数字来存储图像标签,但为什么这里每个训练标签是一个10维的向量呢?其实,这个10维的向量是原先类别号的独热(one-hot)表示。

所谓独热表示,就是“一位有效编码”。我们用N维的向量来表示N个类别,每个类别占据独立的一位,任何时候独热表示中只有一位是1,其他都为0。读者可以直接从表1-3中理解独热表示。

表1-3 类别的原始表示和独热表示

运行下面的代码可以打印出第0张训练图片的标签:

代码运行的结果是[0.0.0.0.0.0.0.1.0.0.],也就是说第0张图片对应的标签为数字“7”。

此外,我们可以打印出前 20 张图片的标签(对应程序 label.py),读者可以尝试与第 1.1.2 节中保存的图片对照,查看图像与图像的标签是否正确地对应上了。

至此,读者应当对变量mnist.train.images和mnist.train.labels很熟悉了。剩下的 mnist.validation.images、mnist.validation.labels、mnist.test.images、mnist.test.labels四个变量与它们非常类似,唯一的区别只是图像的个数不同,本章就不再做更详细的解释了。 FiPpeaVdFf3Ka9dJoYrzhBmOTFaBKf9KjASfkonzXuSZQ3uvpCxVymXgxC+hTrNh

点击中间区域
呼出菜单
上一章
目录
下一章
×