零基础入门Python数据分析与机器学习最新章节_王国平著

3.4　数据的聚合

数据的聚合指的是通过转换数据让每一个数组生成一个单一的数值。本节将介绍按指定列聚合、多字段分组聚合、自定义聚合等，使用的数据文件为“不同地区商品退单量2.xls”。

在介绍Pandas数据聚合之前，先创建一个关于不同地区商品退单量的数据集，示例代码如下：

运行上述代码，创建的数据集如下：

可以使用level参数选项指定在某列上进行数据统计，例如统计最近两年的平均退单量，示例代码和输出如下：

level参数不仅可以使用列名称，还可以使用列索引号，例如统计不同地区的平均退单量，示例代码和输出如下：

下面重新创建一个关于不同地区商品退单量的数据集，示例代码如下：

运行上述代码，创建的数据集如下：

此外，groupby()函数可以实现对多个字段的分组统计，例如统计最近两年不同地区的平均退单量，示例代码和输出如下：

在Python中，计算一些描述性统计指标通常是调用describe()函数，例如个数、平均值、标准差、最小值和最大值等，示例代码和输出如下：

但是，如果要使用自定义的聚合函数，只需将其传入aggregate()或agg()函数，例如这里定义的是sum、mean、max、min，示例代码和输出如下：