购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.4 数据的聚合

数据的聚合指的是通过转换数据让每一个数组生成一个单一的数值。本节将介绍按指定列聚合、多字段分组聚合、自定义聚合等,使用的数据文件为“不同地区商品退单量2.xls”。

3.4.1 指定列数据统计

在介绍Pandas数据聚合之前,先创建一个关于不同地区商品退单量的数据集,示例代码如下:

运行上述代码,创建的数据集如下:

可以使用level参数选项指定在某列上进行数据统计,例如统计最近两年的平均退单量,示例代码和输出如下:

level参数不仅可以使用列名称,还可以使用列索引号,例如统计不同地区的平均退单量,示例代码和输出如下:

3.4.2 多字段分组统计

下面重新创建一个关于不同地区商品退单量的数据集,示例代码如下:

运行上述代码,创建的数据集如下:

此外,groupby()函数可以实现对多个字段的分组统计,例如统计最近两年不同地区的平均退单量,示例代码和输出如下:

3.4.3 自定义聚合指标

在Python中,计算一些描述性统计指标通常是调用describe()函数,例如个数、平均值、标准差、最小值和最大值等,示例代码和输出如下:

但是,如果要使用自定义的聚合函数,只需将其传入aggregate()或agg()函数,例如这里定义的是sum、mean、max、min,示例代码和输出如下: C09WVWLlThQPC9MOr2tNdsFKC6DzbboIpggMyge7P4BUwGL0a8306YjruN0vRIo9

点击中间区域
呼出菜单
上一章
目录
下一章
×