Pandas透视表和交叉表
来源:互联网 发布:淘宝企业店铺有优势吗 编辑:程序博客网 时间:2024/05/29 10:00
参考:《利用Python进行数据分析》
- 透视表
- pivot_table的参数
- 交叉表crosstab
- 总结
- 透视表
透视表
透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具。它根据一个或多个键对数据进行聚合,并根据行和列上得分组建将数据分配到各个矩形区域中。在Python和pandas中,可以通过本章所介绍的groupby功能以及(能够利用层次化索引的)重塑运算制作透视表。DataFrame有一个pivot_table方法,此外还有一个顶级的pandas.pivot_table函数。除了能为groupby提供便利之外,pivot_table还可以添加分项小计(也叫margins)。
回到如上图所示的小费数据集,假设我想要根据sex和smoker计算分组平均数(pivot_table的默认聚合类型),并将sex和smoker放到行上:
# 方法一:使用groupbytips.groupby(['sex', 'smoker']).mean()# 方法二:使用pivot_tabletips.pivot_table(row=['sex', 'smoker'])
结果是一样的(严格来说,列的排列顺序不一样):
现在假设我们只想聚合tip_pct和size,而且想根据day进行分组。我将smoker放到列上,把day放到行上:
tips.pivot_table(values=['tip_pct', 'size'], index=['sex', 'day'], columns='smoker')
可以看到,pivot_table()
函数给我们提供了很多参数,用来选择用那些数据创建透视表,以及调整创建透视表之后的行和列。
还可以对这个表作进一步处理,传入margins=True添加加分小计。这将会添加标签为ALL的行和列,其值对应于单个等级中所有数据的分组统计。在下面这个例子中,ALL值为平均数:不单独考虑烟民与非烟民(ALL列),不单独考虑行分组两个级别中的任何单项(ALL行)。换句话说:就是下面的ALL行和右边的ALL列只统计对应的列和行。
tips.pivot_table(values=['tip_pct', 'size'], index=['sex', 'day'], columns='smoker', margins=True)
要使用其他的聚合函数,将其传给参数aggfunc
即可。例如,使用count或len可以得到有关分组大小的交叉表:
tips.pivot_table('tip_pct', index=['sex', 'smoker'], columns='day', aggfunc=len, margins=True)
pivot_table的参数
aggfunc : function or list of functions, default numpy.mean
If list of functions passed, the resulting pivot table will have hierarchical columns whose top level are the function names (inferred from the function objects themselves)
fill_value : scalar, default None
Value to replace missing values with
margins : boolean, default False
Add all row / columns (e.g. for subtotal / grand totals)
margins
为True时,ALL行和列的名字交叉表:crosstab
交叉表(cross-tabulation, 简称crosstab)是一种用于计算分组频率的特殊透视表。下面这个范例数据很典型,取自交叉表的Wikipedia页:
data = pd.DataFrame({'Sample': range(1, 11), 'Gender': ['Female', 'Male', 'Female', 'Male', 'Male', 'Male', 'Female', 'Female', 'Male', 'Female'], 'Handedness': ['Right-handed', 'Left-handed', 'Right-handed', 'Right-handed', 'Left-handed', 'Right-handed', 'Right-handed', 'Left-handed', 'Right-handed', 'Right-handed']})
假设我们想要根据性别和用手习惯对这段数据进行统计汇总。虽然可以用pivot_table()
实现该功能,但是pandas.crosstab()
函数会更方便:
# 方法一:用pivot_table# 其实我觉的一点都不麻烦ε=(´ο`*)))唉data.pivot_table(index=['Gender'], columns='Handedness', aggfunc=len, margins=True)# 方法二:用crosstabpd.crosstab(data.Gender, data.Handedness, margins=True)
可以看到,crosstab()
的前两个参数可以是数组、Series或数组列表。再比如对小费数据集:
pd.crosstab([tips.time, tips.day], tips.smoker, margins=True)
总结
- 透视表
pivot_table()
是一种进行分组统计的函数,参数aggfunc
决定统计类型; - 交叉表
crosstab()
是一种特殊的pivot_table(),专用于计算分组频率。
- Pandas透视表和交叉表
- pandas透视表
- pandas中groupby和pivot_table(数据透视表)
- pandas库生成数据透视表
- Pandas透视表(pivot_table)详解
- pandas数据预处理与透视表
- Pandas数据预处理与透视表
- Pandas透视表(pivot_table)详解
- Pandas透视表(pivot_table)详解
- 03_8Pandas_透视表与交叉表
- python科学计算笔记(七)pandas透视表 pivot_table
- pandas学习笔记2—透视表(pivot_table)详解
- Sql Server 生成数据透视表(交叉分析数据)
- 2015-04-08-数据聚合与分组运算(3)-透视表和交叉表+2012联邦选举委员会数据库
- 利用python/pandas/numpy做数据分析(三)-透视表pivot_table
- 自动更新数据透视表
- 概念:数据透视表
- 自动更新数据透视表
- SpringMVC示例
- Android fitsSystemWindows 作用
- libcudnn.so.6:cannot open sharedobjectfile: No such file or directory
- Whither Swift?
- BZOJ 1030 文本生成器 AC自动机+dp
- Pandas透视表和交叉表
- 获取python路径
- 3D数学基础---坐标系
- android 进程与线程
- 使用Idea构建springmvc框架,出现no bean named 'cacheManager' is defined 错误
- LINT_CODE——恢复IP地址
- 我的JAVA学习历程
- ucos学习笔记一
- Python+Selenium【2】学习目录