购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1
让ChatGPT帮我们找数据

通过对第1章的学习,我们已经知道,机器学习是让计算机从数据中学习规律和知识。那接下来我们就要先准备一些数据,供我们研究和学习。寻找数据的任务,不妨也让ChatGPT为我们代劳。

2.1.1 有哪些适合机器学习任务的数据集

在ChatGPT对话框中输入“我需要一个机器学习用的数据集”,ChatGPT会给我们如下答复。

ChatGPT好的,以下是几个流行的机器学习数据集,你可以根据你的兴趣和任务从中选择一个。

1.MNIST手写数字识别数据集:这个数据集包含了一系列手写数字的灰度图像,可用于数字识别模型的训练和测试。

2.CIFAR-10 /CIFAR-100 数据集:这些数据集包含了一系列 32×32 像素的彩色图像,分别包含了 10 个和 100 个不同的物体类别。它们可用于图像分类模型的训练和测试。

3.ImageNet数据集:这个数据集包含了超过100万张高分辨率图像,涵盖了超过 1000 个不同的物体类别。它是计算机视觉领域最常用的数据集之一,可用于各种视觉任务,如分类、检测、分割等。

4.COCO数据集:这个数据集包含了超过 33万张标注的图像,用于目标检测、分割和关键点检测任务。

5.IMDB电影评论情感分析数据集:这个数据集包含了5万条电影评论,标注为积极或消极,可用于情感分析模型的训练和测试。

6.Yelp商家评论情感分析数据集:这个数据集包含了超过400万条商家评论,标注为积极或消极,可用于情感分析模型的训练和测试。

7.Twitter情感分析数据集:这个数据集包含了160万条推文,标注为积极、消极或中性,可用于情感分析模型的训练和测试。

希望这些数据集可以帮助到你!

从上面的答复中可以看到,ChatGPT向我们推荐了7个不同的数据集。前面4个是图像数据集,后面3个是文本数据集。这7个数据集都是机器学习领域非常经典的数据集,但是考虑到一些读者是初次接触机器学习技术,我们希望ChatGPT再推荐一些更加简单的数据集,供大家试验。

2.1.2 适合新手的简单数据集

我们继续在ChatGPT对话框中输入“我需要一些更简单的数据集”,可以看到ChatGPT答复如下。

ChatGPT以下是一些较为简单的机器学习数据集,你可以使用它们。

1.Iris鸢尾花数据集:这个数据集包含了3个不同品种的鸢尾花,每个品种有50个样本,总共有150个样本。每个样本有4个特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。该数据集可用于分类模型的训练和测试。

2.Wine酒数据集:这个数据集包含了3个不同种类的葡萄酒,每个种类有59个样本,总共有177个样本。每个样本有13个特征,包括酸度、酒精度、苹果酸等。该数据集可用于分类模型的训练和测试。

3.Boston房价数据集:这个数据集包含了波士顿地区房屋的13个不同特征,如房间数量、附近学校数量等。每个样本对应1个房屋的价格。该数据集可用于回归模型的训练和测试。

4.Diabetes糖尿病数据集:这个数据集包含了768个女性的医疗数据,其中每个样本有8个特征,如血糖浓度、BMI等。每个样本标注为是否患有糖尿病。该数据集可用于分类模型的训练和测试。

希望这些数据集可以满足你的需求!

通过进一步的交互,可以看到ChatGPT给我们推荐了更加适合新手的数据集,包括Iris鸢尾花数据集、Wine酒数据集、Boston房价数据集及Diabetes糖尿病数据集,并且还给出了这4个数据集的简要介绍。

2.1.3 该去哪里下载数据集

接下来,我们就可以选择其中任意一个数据集进行试验。本章选择Wine酒数据集进行演示。下面让ChatGPT告诉我们如何下载这个数据集。在ChatGPT对话框中输入“下载Wine酒数据集”,可以看到ChatGPT给出了如下答复。

ChatGPT你可以按照以下步骤在UCI Machine Learning Repository网站上下载Wine酒数据集。

1.访问UCI Machine Learning Repository网站。

2.在页面上方的菜单栏中选择“Data Sets”,然后在下拉菜单中选择“Wine Data Set”。

3.在页面下方的“Data Folder”部分,找到包含数据集的ZIP文件。单击链接下载该文件,并解压缩到本地计算机。

4.解压缩后,你可以找到名为“wine.data”的文件,该文件包含了完整的数据集。

请注意,这个数据集不包含列标题,因此你需要手动添加特征名称。特征名称及其描述如下。

Alcohol:酒精浓度

Malic acid:苹果酸含量

Ash:灰分含量

Alcalinity of ash:灰的碱度

Magnesium:镁含量

Total phenols:总酚含量

Flavanoids:黄酮类物质含量

Nonflavanoid phenols:非黄酮类总酚含量

Proanthocyanins:原花青素含量

Color intensity:颜色强度

Hue:色调

OD280/OD315 of diluted wines:稀释后的葡萄酒OD280/OD315值比率

Proline:脯氨酸含量

从上面的答复中,可以看到ChatGPT不仅给出了下载数据集的方法,还非常贴心地提示我们要手动添加特征名称,并给出了每个特征的中英文名称。下面我们就根据ChatGPT的回答,把数据集下载下来。

温馨提示

如果完全按照ChatGPT的指示操作,在打开链接后,你或许在新页面中找不到“菜单栏”和“下拉菜单”,这可能是由于网站改版造成的。不过没有关系,下面会帮助大家找到下载的方式。

打开ChatGPT给出的网站后,直接在页面右侧“Most Popular Data Sets”(最受欢迎的数据集)栏目下就能找到Wine酒数据集的链接,如图2-1所示。

图2-1 Wine酒数据集的链接

单击Wine酒数据集的链接后,在新的页面中单击“Data Folder”(数据文件夹)链接,然后在新的页面中单击“wine.data”就可以将数据集下载下来了。

2.1.4 如何打开数据文件

我们下载的数据文件是以“.data”为后缀名的,这种类型的文件该如何打开呢?不如也让ChatGPT给我们答案。在ChatGPT对话框中输入“如何打开wine.data”,会得到如下答复。

ChatGPT wine.data是一个以逗号分隔的纯文本文件,你可以使用文本编辑器打开它。在大多数操作系统中,你可以使用任何文本编辑器(如Notepad、Sublime Text、Atom等)打开它。以下是在Windows操作系统中打开文件的示例步骤。

1.打开文件浏览器并定位到包含wine.data文件的文件夹。

2.右击wine.data文件,并选择“打开方式”或“打开With”。

3.从下拉列表中选择一个文本编辑器,如记事本。

4.该文件将在所选文本编辑器中打开。

你还可以使用Python的Pandas库或其他数据分析工具读取并处理该数据集,以更方便地进行分析和建模。以下是使用Pandas库在Python中读取数据集的示例代码。

运行以上代码后,你将看到前5行数据的输出。

从上面的答复中可以看到,ChatGPT给出了wine.data的文件类型,并且详细介绍了如何在Windows系统中打开该类型文件。除此之外,ChatGPT还给出了在Python中打开该文件的示例代码。如果读者已经安装了Python的编译环境,就可以把示例代码复制到编译器中尝试运行了;如果还没有安装Python编译环境,可以在ChatGPT的帮助下进行安装。 uf7OHdFSXMypMZ4MwZnZzb6/KpzqAmPus0ZKFql5VWq2TI4biNEb920FJfhFFGIF

点击中间区域
呼出菜单
上一章
目录
下一章
×