- 数据科学与机器学习:数学与统计方法
- (澳)迪尔克·P.克洛泽等
- 308字
- 2024-11-03 18:26:35
1.3 汇总表
通常情况下,将大型电子表格以更简洁的形式进行汇总是很有用的。计数表或频率表可以让我们更轻松地了解变量的基本分布,特别是对于定性数据。这种表格可以使用describe和value_counts方法获得。
作为第一个例子,我们将加载DataFrame对象nutri——1.2节对nutri进行了重构并保存为'nutri.csv',然后对'fat'特征(列)进行汇总。

我们看到,烹调用油有8种,葵花籽油的食用频率最高,226人中有68人使用葵花籽油。value_counts方法给出了不同类型烹调用油的计数结果。

列标签也是DataFrame的属性,例如,nutri.fat与nutri['fat']返回的对象完全相同。
也可以使用crosstab方法对两个或多个变量进行交叉汇总,给出一个列联表(contingency table):

我们从老年人营养数据集中看到,单身男性的比例远远小于单身女性的比例。设置参数margins=True,可以在表格中添加汇总的行和列。
