用ChatGPT轻松玩转机器学习与深度学习最新章节_段小手著

2.1
让ChatGPT帮我们找数据

通过对第1章的学习，我们已经知道，机器学习是让计算机从数据中学习规律和知识。那接下来我们就要先准备一些数据，供我们研究和学习。寻找数据的任务，不妨也让ChatGPT为我们代劳。

2.1.1 有哪些适合机器学习任务的数据集

在ChatGPT对话框中输入“我需要一个机器学习用的数据集”，ChatGPT会给我们如下答复。

ChatGPT好的，以下是几个流行的机器学习数据集，你可以根据你的兴趣和任务从中选择一个。

1．MNIST手写数字识别数据集：这个数据集包含了一系列手写数字的灰度图像，可用于数字识别模型的训练和测试。

2．CIFAR-10 /CIFAR-100 数据集：这些数据集包含了一系列 32×32 像素的彩色图像，分别包含了 10 个和 100 个不同的物体类别。它们可用于图像分类模型的训练和测试。

3．ImageNet数据集：这个数据集包含了超过100万张高分辨率图像，涵盖了超过 1000 个不同的物体类别。它是计算机视觉领域最常用的数据集之一，可用于各种视觉任务，如分类、检测、分割等。

4．COCO数据集：这个数据集包含了超过 33万张标注的图像，用于目标检测、分割和关键点检测任务。

5．IMDB电影评论情感分析数据集：这个数据集包含了5万条电影评论，标注为积极或消极，可用于情感分析模型的训练和测试。

6．Yelp商家评论情感分析数据集：这个数据集包含了超过400万条商家评论，标注为积极或消极，可用于情感分析模型的训练和测试。

7．Twitter情感分析数据集：这个数据集包含了160万条推文，标注为积极、消极或中性，可用于情感分析模型的训练和测试。

希望这些数据集可以帮助到你！

从上面的答复中可以看到，ChatGPT向我们推荐了7个不同的数据集。前面4个是图像数据集，后面3个是文本数据集。这7个数据集都是机器学习领域非常经典的数据集，但是考虑到一些读者是初次接触机器学习技术，我们希望ChatGPT再推荐一些更加简单的数据集，供大家试验。

2.1.2 适合新手的简单数据集

我们继续在ChatGPT对话框中输入“我需要一些更简单的数据集”，可以看到ChatGPT答复如下。

ChatGPT以下是一些较为简单的机器学习数据集，你可以使用它们。

1．Iris鸢尾花数据集：这个数据集包含了3个不同品种的鸢尾花，每个品种有50个样本，总共有150个样本。每个样本有4个特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度。该数据集可用于分类模型的训练和测试。

2．Wine酒数据集：这个数据集包含了3个不同种类的葡萄酒，每个种类有59个样本，总共有177个样本。每个样本有13个特征，包括酸度、酒精度、苹果酸等。该数据集可用于分类模型的训练和测试。

3．Boston房价数据集：这个数据集包含了波士顿地区房屋的13个不同特征，如房间数量、附近学校数量等。每个样本对应1个房屋的价格。该数据集可用于回归模型的训练和测试。

4．Diabetes糖尿病数据集：这个数据集包含了768个女性的医疗数据，其中每个样本有8个特征，如血糖浓度、BMI等。每个样本标注为是否患有糖尿病。该数据集可用于分类模型的训练和测试。

希望这些数据集可以满足你的需求！

通过进一步的交互，可以看到ChatGPT给我们推荐了更加适合新手的数据集，包括Iris鸢尾花数据集、Wine酒数据集、Boston房价数据集及Diabetes糖尿病数据集，并且还给出了这4个数据集的简要介绍。

2.1.3 该去哪里下载数据集

接下来，我们就可以选择其中任意一个数据集进行试验。本章选择Wine酒数据集进行演示。下面让ChatGPT告诉我们如何下载这个数据集。在ChatGPT对话框中输入“下载Wine酒数据集”，可以看到ChatGPT给出了如下答复。

ChatGPT你可以按照以下步骤在UCI Machine Learning Repository网站上下载Wine酒数据集。

1．访问UCI Machine Learning Repository网站。

2．在页面上方的菜单栏中选择“Data Sets”，然后在下拉菜单中选择“Wine Data Set”。

3．在页面下方的“Data Folder”部分，找到包含数据集的ZIP文件。单击链接下载该文件，并解压缩到本地计算机。

4．解压缩后，你可以找到名为“wine.data”的文件，该文件包含了完整的数据集。

请注意，这个数据集不包含列标题，因此你需要手动添加特征名称。特征名称及其描述如下。

Alcohol：酒精浓度

Malic acid：苹果酸含量

Ash：灰分含量

Alcalinity of ash：灰的碱度

Magnesium：镁含量

Total phenols：总酚含量

Flavanoids：黄酮类物质含量

Nonflavanoid phenols：非黄酮类总酚含量

Proanthocyanins：原花青素含量

Color intensity：颜色强度

Hue：色调

OD280/OD315 of diluted wines：稀释后的葡萄酒OD280/OD315值比率

Proline：脯氨酸含量

从上面的答复中，可以看到ChatGPT不仅给出了下载数据集的方法，还非常贴心地提示我们要手动添加特征名称，并给出了每个特征的中英文名称。下面我们就根据ChatGPT的回答，把数据集下载下来。

温馨提示

如果完全按照ChatGPT的指示操作，在打开链接后，你或许在新页面中找不到“菜单栏”和“下拉菜单”，这可能是由于网站改版造成的。不过没有关系，下面会帮助大家找到下载的方式。

打开ChatGPT给出的网站后，直接在页面右侧“Most Popular Data Sets”（最受欢迎的数据集）栏目下就能找到Wine酒数据集的链接，如图2-1所示。

图2-1 Wine酒数据集的链接

单击Wine酒数据集的链接后，在新的页面中单击“Data Folder”（数据文件夹）链接，然后在新的页面中单击“wine.data”就可以将数据集下载下来了。

2.1.4 如何打开数据文件

我们下载的数据文件是以“.data”为后缀名的，这种类型的文件该如何打开呢？不如也让ChatGPT给我们答案。在ChatGPT对话框中输入“如何打开wine.data”，会得到如下答复。

ChatGPT wine.data是一个以逗号分隔的纯文本文件，你可以使用文本编辑器打开它。在大多数操作系统中，你可以使用任何文本编辑器（如Notepad、Sublime Text、Atom等）打开它。以下是在Windows操作系统中打开文件的示例步骤。

1．打开文件浏览器并定位到包含wine.data文件的文件夹。

2．右击wine.data文件，并选择“打开方式”或“打开With”。

3．从下拉列表中选择一个文本编辑器，如记事本。

4．该文件将在所选文本编辑器中打开。

你还可以使用Python的Pandas库或其他数据分析工具读取并处理该数据集，以更方便地进行分析和建模。以下是使用Pandas库在Python中读取数据集的示例代码。

运行以上代码后，你将看到前5行数据的输出。