PyTorch深度学习与企业级项目实战最新章节_宋立桓著

3.3　数据分析处理库Pandas

3.3.1　Pandas数据结构Series

Series是一种一维数据结构，每个元素都带有一个索引，与一维数组的含义相似，其中索引可以为数字或字符串，如图3-1所示。

图3-1

Series对象包含两个主要的属性：index和values，分别为上例中的左右两列。因为传给构造器的是一个列表，所以index的值是从0起递增的整数，如果传入的是一个类字典的键-值对结构，就会生成index-value对应的Series；或者在初始化的时候以关键字参数显式指定一个index对象。

示例代码如下，Series类似于一维数组，但Series最大的特点就是可以使用标签索引。ndarray也有索引，但它是位置索引，Series的标签索引使用起来更加方便。

运行结果如图3-2所示。

图3-2

注意： Series的index和values的元素之间虽然存在对应关系，但这与字典的映射不同。index和values实际仍为互相独立的ndarray数组，因此Series对象的性能完全没问题。

3.3.2　Pandas数据结构DataFrame

Dataframe是一种二维数据结构，数据以表格形式（与Excel类似）存储，有对应的行和列，如图3-3所示。它的每列可以是不同的值类型（不像ndarray只能有一个dtype）。基本上可以把DataFrame看成是共享同一个index的Series的集合。

图3-3

DataFrame的构造方法与Series类似，只不过可以同时接受多条一维数据源，每一条都会成为单独的一列，演示代码如下。DataFrame创建方法比较丰富，可以通过字典、列表、ndarrays、Series对象创建而来。

运行结果如图3-4所示。

图3-4

如下面的代码所示，Pandas可以使用loc属性返回指定行的数据，如果没有设置索引，第一行索引为0，第二行索引为1，以此类推。它也可以返回多行数据，使用[[ ... ]]格式，...为各行的索引，以逗号隔开。

运行结果如图3-5所示。

图3-5

另外，也可以只获取dataframe中的几列，比如当处理数据的时候series较多，我们可以只关注其中一些特定的列，代码如下，假设只关注apple和banana数据列。

运行结果如图3-6所示。

图3-6

3.3.3　Pandas处理CSV文件

CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号）文件以纯文本形式存储表格数据（数字和文本）。CSV是一种通用的、相对简单的文件格式，被用户、商业和科学领域广泛应用。Pandas可以很方便地处理CSV文件。

Pandas在读取CSV文件时通过read_csv函数读取，读取CSV文件时指定的分隔符默认为逗号，代码如下。注意“CSV文件的分隔符”和“我们读取CSV文件时指定的分隔符”一定要一致。Pandas的head(n）方法用于读取前面的n行，如果不填参数n，则默认返回5行。tail(n）方法用于读取尾部的n行，如果不填参数n，则默认返回5行。

    import pandas as pd
    df = pd.read_csv('nba.csv',sep=',')
    print(df.head())
    print(df.tail())

运行结果如图3-7所示。

图3-7

Pandas的info(）方法返回表格的一些基本信息，代码如下。在输出结果中，non-null为非空数据，可以看到这些信息总共458行，College字段的空值最多。

    import pandas as pd
    df = pd.read_csv('nba.csv')
    print(df.info())

运行结果如图3-8所示。

图3-8

我们也可以使用to_csv(）方法将DataFrame存储为CSV文件，代码如下：

运行结果如图3-9所示。

图3-9

还要注意Pandas的to_string(）用于返回DataFrame类型的数据，如果不使用该函数，则直接print(df）输出结果为数据的前面5行和末尾5行，中间部分以…代替。

3.3.4　Pandas数据清洗

数据清洗是对一些没有用的数据进行处理的过程。很多数据集存在数据缺失、数据格式错误、数据错误或数据重复的情况，如果要使数据分析更加准确，就需要对这些没有用的数据进行处理。

这里使用的测试数据是clean-data.csv，如图3-10所示。这个表包含4种空数据：n/a、NA、--、na。

图3-10

我们可以通过isnull(）判断各个单元格是否为空，代码如下。这个例子中，我们看到Pandas把n/a和NA当作空数据，na不是空数据，不符合我们的要求，可以指定空数据类型。

运行结果如下：

在下面的代码中，dropna(）方法是删除包含空数据的行。默认情况下，dropna(）方法返回一个新的DataFrame，不会修改源数据（如果你要修改源数据DataFrame，可以使用inplace = True参数）。我们可以使用fillna(）方法来替换一些空字段，也可以指定某一列来替换数据。

运行结果如图3-11所示。

图3-11

通常替换空单元格的方法是计算列的均值、中位数值或众数。Pandas使用mean()、median(）和mode(）方法计算列的均值（所有值加起来的平均值）、中位数值（排序后排在中间的数）和众数（出现频率最高的数）。下面的代码使用mean(）方法计算列的均值并替换空单元格。

运行结果如图3-12所示。

图3-12

数据格式错误的单元格会使数据分析变得困难，数据错误也是很常见的情况，我们可以对错误的数据进行替换或移除。Pandas清洗错误数据代码如下，这里格式化日期，替换错误年龄的数据。

运行结果如图3-13所示。

图3-13

如果要清洗重复的数据，可以使用duplicated(）和drop_duplicates(）方法。如果对应的数据是重复的，duplicated(）会返回True，否则返回False。删除重复数据可以直接使用drop_duplicates(）方法，代码如下：

运行结果如图3-14所示。

图3-14

3.3 数据分析处理库Pandas

3.3.1 Pandas数据结构Series

3.3.2 Pandas数据结构DataFrame

3.3.3 Pandas处理CSV文件

3.3.4 Pandas数据清洗

3.3　数据分析处理库Pandas

3.3.1　Pandas数据结构Series

3.3.2　Pandas数据结构DataFrame

3.3.3　Pandas处理CSV文件

3.3.4　Pandas数据清洗