购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3 数据集创建

主要内容

■ NumPy基础

■ Pandas数据结构

■ 数据取值与选择

■ 数据读取与储存

统计分析的第一步通常是创建数据集,在Python中分为两个步骤:①选择一种数据结构来存储;②将数据输入或导入这个结构中。

Python中有较多数据结构,如列表、元组和字典,以及NumPy库的数组和Pandas库的DataFrame等。本部分主要介绍NumPy的基础知识和Pandas创建数据集的相关内容。

NumPy和Pandas都是数据处理的重要工具。NumPy主要处理数组数据,Pandas主要处理表格数据;NumPy模块提供了一个强大的对象,称为Array;Pandas提供了一些强大的工具集,主要用于数据分析。本书的数据集创建主要通过Pandas完成,部分内容包含NumPy代码。

通常,Anaconda集成开发环境中已经安装了NumPy和Pandas,通过运行代码清单3-1,可以查看对应的版本信息。

代码清单3-1 查看NumPy和Pandas的版本信息

代码运行结果如下:

1.21.2 Numpy版本信息

1.3.3 Pandas版本信息 jtS0ZTsUTrq2AcUX5gOtjqLDuLOqV7iVYUcPK8gyr6jQXh+P/n7gGDWpBHwBW0cN

点击中间区域
呼出菜单
上一章
目录
下一章
×