购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.3 其他数据分析常用插件介绍

本节主要介绍Noteable插件的注册、安装和基本使用,并将其他常用插件列出清单以供读者在需要时查阅。

3.3.1 Noteable插件的基本使用

Code Interpreter插件仅在Code Interpreter模式下才可用,那么在Plugin模式下会有哪些对数据分析有帮助的插件呢?

在这里我们推荐大家使用Noteable插件。

Noteable插件是由协作数据笔记本平台(http://Noteable.io)开发的第三方工具,它将ChatGPT的自然语言处理(NLP)功能与Noteable的数据笔记本平台无缝集成。这个基于云的平台,类似于Jupyter Notebook,是一个Web应用程序,允许用户创建和共享包含实时代码、方程、可视化图表和Markdown注释的文档。它广泛应用于数据清理、转换、分析、数值模拟、统计建模、数据可视化和机器学习等领域。

通过Noteable插件,用户可以与ChatGPT对话,加载数据集、执行探索性数据分析、创建图表、运行机器学习模型等,所有这些都在一个可以与他人共享的Jupyter Notebook风格的笔记本环境中进行。此外,它还提供了代码单元、版本控制和实时协作等内置功能。这种集成不仅简化了数据分析流程,还使即使不懂编程的人也能通过直观的对话界面进行专业数据分析。

使用Noteable的步骤包括以下几步。

(1)在Plugin store搜索Noteable并在Noteable插件列表中单击“Install”,如图3.16所示。

图3.16 安装Noteable插件

(2)单击“Install”按钮后插件会自动进行安装,待安装完毕后会弹出Noteable账户的登录页面,我们需要将Noteable账户连接到ChatGPT;如果没有弹出登录页面,可以访问http://Noteable.io,注册一个免费账户。在弹出的页面中我们输入自己的邮箱并设置密码,如图3.17所示。

图3.17 注册Noteable账号

单击“Continue”后,网站会发出一封确认邮件到我们的邮箱中,单击“Verify email”即可创建账号,如图3.18所示。

图3.18 确认邮件

(3)创建Noteable账户后,ChatGPT会自动激活Noteable插件,此时选择ChatGPT版本按钮下方会出现Noteable的标志,这就代表我们成功安装和激活了Noteable插件,如果Noteable插件没有被自动选中的话,可以在选择GPT版本的按钮下方的插件列表里选中它,如图3.19所示。

(4)在Noteable平台添加Project,这里我们将Project命名为example,如图3.20所示,需要注意的是,该步骤和后续的添加数据的步骤都是在Noteable自身的平台中进行添加的。

图3.19 激活Noteable插件

图3.20 添加Project

(5)单击刚刚创建的project进入其中,单击Upload上传需要分析的数据文件,这里我们选择上传的数据是鸢尾花数据集(Iris dataset),鸢尾花数据集是一个常用的机器学习和统计学习领域的经典数据集。它包含了三种不同品种的鸢尾花(Iris setosa、Iris versicolor和Iris virginica)的样本数据,该数据集的目标是根据这四个特征预测鸢尾花的品种,下载链接为https://www.kaggle.com/datasets/uciml/iris?select=Iris.csv,上传过程如图3.21所示。

图3.21 上传数据到Noteable平台

图3.21 上传数据到Noteable平台(续)

打开上传的CSV文件,我们需要记住生成的URL(统一资源定位符)如图3.22所示,比如此次我们生成的URL为https://app.noteable.io/f/e41de484-5492-4a7e-85db-f32200 a9b385/Iris.csv。

图3.22 请记住URL

(6)回到ChatGPT界面,我们需要让ChatGPT知道读取数据文件的URL以及我们具体希望它进行何种操作。

User:

假设你是一位数据科学家,我已经将CSV文件放入Notebook中,这个是URL地址:https://app.noteable.io/f/e41de484-5492-4a7e-85db-f32200a9b385/Iris.csv,解读该数据的内容,并预测鸢尾花的品种。

ChatGPT在Noteable插件下智能、自动地输出了从数据解读、数据探索与可视化的内容,并且自动通过随机森林模型对鸢尾花的品种进行了预测,最终还给出了模型效果的评估,可以说Noteable输出的内容已经比较完整了,如下文所示。当然后续我们可以就Noteable在分析中的某个步骤做具体追问,可以参考3.2.2节Code Interpreter的使用案例,在此主要介绍Noteable的使用操作,该内容不做赘述。

ChatGPT:

1.导入库和加载数据

首先,我们导入了数据处理和可视化所需的库,包括pandas, numpy, seaborn, matplotlib,以及用于机器学习的sklearn库。然后,我们加载了鸢尾花数据集。

2.数据预处理和探索性数据分析

基本信息:数据集包含150个样本,每个样本有5个特征(不包括编号)。没有缺失值。

统计描述:对数据集的数值特征进行了描述性统计分析,包括均值、标准差、最小值、最大值等。

品种分布:数据集均匀分布在三个品种(Iris-setosa, Iris-versicolor, Iris-virginica)中,每个品种50个样本。

特征关系可视化:使用seaborn的pairplot函数绘制了特征之间的关系图,可以看出不同品种的鸢尾花在花瓣和萼片的尺寸上有明显区别。

3.训练机器学习模型

数据分割:将数据集分为特征( X )和标签( y ),然后将其分割为训练集和测试集(70%训练,30%测试)。

特征缩放:使用StandardScaler对特征进行缩放,以标准化数据集的范围。

模型训练:使用K最近邻(KNN)算法训练模型。选择了5个邻居(n_neighbors=5)。

4.模型评估

性能评估:在测试集上评估模型,结果显示模型的准确度为100%。

分类报告:显示了精确度、召回率和F1分数,所有指标均为100%,表明模型在所有品种的分类上都表现出色。

混淆矩阵:混淆矩阵显示模型在所有测试样本上的预测都是正确的。

总结

整个分析过程表明,使用的KNN模型能够非常准确地预测鸢尾花的品种。数据集的特征之间存在明显的区分,这有助于模型的高准确度。

其中生成的特征关系可视化图表如图3.23所示。

图3.23 不同特征间分布关系示意图

3.3.2 其他常用插件介绍

目前plugin store中有800多个插件,浩如烟海,因此本节我们将通过表格方式告诉大家一些数据分析中常用的重点插件,大家可以自行下载安装这些插件,感受其用途,如表3.1所示。

表3.1 数据分析常用重点插件 3mPqNlp86BIqCv3bIsS3OdN16mt5TsNSIKMagKfNgr/sTRtWZuEw9iCtlDMOIuVf

点击中间区域
呼出菜单
上一章
目录
下一章
×