- Python+Office:轻松实现Python办公自动化
- 王国平
- 724字
- 2025-02-18 05:44:24
3.7 数据的透视
透视表是各类数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合,并根据行和列上的分组键将数据分配到各个矩形区域中。本节将介绍利用pivot_table()函数和crosstab()函数进行数据透视。
3.7.1 pivot_table()函数:数据透视
在Python中,可以使用groupby()函数重塑运算制作透视表。此外在Pandas库中还有一个pivot_table()函数。
下面介绍一下Pandas库中pivot_table()函数的参数及其说明,如表3-1所示。
表3-1 pivot_table()函数的参数及其说明
data:image/s3,"s3://crabby-images/c97ab/c97abd85649395dd653b2be7acace0e508cc19b9" alt="img"
续表
data:image/s3,"s3://crabby-images/7e442/7e44213580dc4c57e2fbec2c0e7de7fbb2066bef" alt="img"
接下来,我们介绍下面程序使用的数据集。众所周知,在西方国家的服务行业中,顾客会给服务员一定金额的小费,这里我们使用餐饮行业的小费数据集,它包括消费总金额(totall_bill)、小费金额(tip)、顾客性别(sex)、消费的星期(day)、消费的时间段(time)、用餐人数(size)、顾客是否抽烟(smoker)等7个字段,如表3-2所示。
表3-2 顾客小费数据集
data:image/s3,"s3://crabby-images/9ad1c/9ad1ce5e8c26e3e2f7f19f030c98d8bfa4538c51" alt="img"
下面导入数据集,代码如下:
data:image/s3,"s3://crabby-images/0baf9/0baf9eee98349bc885ee93db804624dc72a7dee9" alt="img"
运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/75f11/75f11af079305ee42b31fde78bf52a98ae1881e1" alt="img"
例如,想要根据sex和smoker计算分组平均数,并将sex和smoker放到行上,代码如下:
data:image/s3,"s3://crabby-images/e4dec/e4decdc1ed9fa9a6856bf120ee3441ee0e2286a7" alt="img"
运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/4e8b2/4e8b2ae791ec4d2a7cad66602df653b66a7d8db6" alt="img"
例如,想要聚合tip和size,而且需要根据sex和day进行分组,将smoker放到列上,把sex和day放到行上,代码如下:
data:image/s3,"s3://crabby-images/a25d2/a25d2b8c56bcd46b3e11252aea9eae2b5e9c6a77" alt="img"
运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/9f364/9f364bd8189f78b8dda11e48214616e2c57958ea" alt="img"
可以对这个表做进一步处理。例如,设置margins=True,添加加分小计,代码如下:
data:image/s3,"s3://crabby-images/fb4c6/fb4c6978ff4425930ddeb6ed849a4d88e7bf0e83" alt="img"
运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/bbb2e/bbb2e40fb4e3ddebf1f2af886e52624915b715f0" alt="img"
如果想要使用其他的聚合函数,则将其传给参数aggfunc即可。例如,使用len可以得到有关分组大小的交叉表,代码如下:
data:image/s3,"s3://crabby-images/ffd0f/ffd0f92aba2fc4050439ba46e83d2f4e289c47ed" alt="img"
运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/95ebb/95ebbe5a47aebb5429e2d0f6d44c9f02a67577b7" alt="img"
3.7.2 crosstab()函数:数据交叉
Pandas库中的crosstab()函数是一类用于计算分组频率的特殊透视表,也是一类特殊的pivot_table()函数。
例如,需要根据性别和是否吸烟对数据进行统计汇总,代码如下:
data:image/s3,"s3://crabby-images/ad5c8/ad5c83d59dae6131aa50a97f6d3212914208e801" alt="img"
运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/6ef88/6ef884f756a5c087fc6526b59ece95d915dd4861" alt="img"
例如,需要根据性别、星期和是否吸烟对数据进行统计汇总,代码如下:
data:image/s3,"s3://crabby-images/26ead/26ead44c06e614a9af747aac5da3b7677f54ecdc" alt="img"
运行上述代码,输出结果如下所示。
data:image/s3,"s3://crabby-images/c7bd6/c7bd6ade1d73e8eb878fa193ddee562fba31a0f9" alt="img"