主要内容
■ NumPy基础
■ Pandas数据结构
■ 数据取值与选择
■ 数据读取与储存
统计分析的第一步通常是创建数据集,在Python中分为两个步骤:①选择一种数据结构来存储;②将数据输入或导入这个结构中。
Python中有较多数据结构,如列表、元组和字典,以及NumPy库的数组和Pandas库的DataFrame等。本部分主要介绍NumPy的基础知识和Pandas创建数据集的相关内容。
NumPy和Pandas都是数据处理的重要工具。NumPy主要处理数组数据,Pandas主要处理表格数据;NumPy模块提供了一个强大的对象,称为Array;Pandas提供了一些强大的工具集,主要用于数据分析。本书的数据集创建主要通过Pandas完成,部分内容包含NumPy代码。
通常,Anaconda集成开发环境中已经安装了NumPy和Pandas,通过运行代码清单3-1,可以查看对应的版本信息。
代码运行结果如下:
1.21.2 Numpy版本信息
1.3.3 Pandas版本信息