【pandas】[5] 数据行列转置,数据透视(stack,unstack,pviot,pviot_table)
来源:互联网 发布:java 无参数构造方法 编辑:程序博客网 时间:2024/05/20 13:08
作者:lianghc
在逛CSDN论坛时遇到这样一个问题:
下列代码中srcdf和desdf都是Pandas的DataFrame对象,需要将srcdf转换为desdf,也就是根据列中的值拓展新的列,关系数据库报表中常见的需求,请问用DataFrame要如何实现?
print(srcdf) 姓名 性别 科目 分数编号 0 刘玄德 男 语文 981 刘玄德 男 数学 602 刘玄德 男 体育 503 关云长 男 语文 604 关云长 男 数学 605 关云长 男 体育 100 [6 rows x 4 columns] print(desdf) 姓名 性别 语文 数学 体育 平均分编号 0 刘玄德 男 98 60 50 66.6666671 关云长 男 60 60 100 73.333333 [2 rows x 6 columns]
经过分析,发现实际是将那么分组,将科目展开,即《利用pandas进行数据分析》第七章 数据转换下的将‘长格式’转换为‘宽格式’ 问题。论坛里已经有一种解决办法了:
In [148]: from pandas import Series,DataFrame ...: a=[['刘玄德','男','语文',98.],['刘玄德','男','体育',60.],['关云长','男','数学',60.],['关云长','男','语文',100.]] ...: af=DataFrame(a,columns=['name','sex','course','score'])In [149]: afOut[149]: name sex course score0 刘玄德 男 语文 981 刘玄德 男 体育 602 关云长 男 数学 603 关云长 男 语文 100In [150]: af.set_index(['name','sex','course'],inplace='TRUE')In [151]: afOut[151]: scorename sex course 刘玄德 男 语文 98 体育 60关云长 男 数学 60 语文 100In [152]: t1=af.unstack(level=2)In [153]: t1Out[153]: score course 体育 数学 语文name sex 关云长 男 NaN 60 100刘玄德 男 60 NaN 98In [154]: t2=t1.mean(axis=1,skipna=True)In [155]: t2Out[155]: name sex关云长 男 80刘玄德 男 79dtype: float64In [156]: t1['平均分']=t2In [157]: t1Out[157]: score 平均分course 体育 数学 语文 name sex 关云长 男 NaN 60 100 80刘玄德 男 60 NaN 98 79In [158]: t1.fillna(0)Out[158]: score 平均分course 体育 数学 语文 name sex 关云长 男 0 60 100 80刘玄德 男 60 0 98 79
首先使用set_index 重建索引,这个函数很厉害,实际上是做了分组(groupby)和重建索引的工作。然后用unstack将行转换成列,最后算平均数,然后组合到一起。这里关键用到set_index(),unstack()。默认情况下,unstack的操作就是最内层的(这里就是level=2),除了传统分级编号,也可以用名称对其unstack。如果数据在分组中找不到的话会引入NaN。
下面我尝试用pivot和pivot_table解这个问题:
#解法2:In [126]: a=[['刘玄德','男','语文',98.],['刘玄德','男','体育',60.],['关云长','男','数学',60.],['关云长','男','语文',100.]] ...: af=DataFrame(a,columns=['name','sex','course','score'])In [127]: af2=af.pivot('name','course','score') #使用pviotIn [128]: af2['avg']=af2.mean(axis=1)In [129]: af2.fillna(0)Out[129]: course 体育 数学 语文 avgname 关云长 0 60 100 80刘玄德 60 0 98 79In [130]: af2Out[130]: course 体育 数学 语文 avgname 关云长 NaN 60 100 80刘玄德 60 NaN 98 79In [131]: af2[af2.isnull()]=0In [132]: af2Out[132]: course 体育 数学 语文 avgname 关云长 0 60 100 80刘玄德 60 0 98 79
pivot的前两个参数值分别作用于行和列索引,最后一个参数值则是用于填充DaraFrame的数据列的列名。在《利用pandas进行数据分析》第七章 数据转换下的将‘长格式’转换为‘宽格式’ 中作者一语道破了pivot和上面做法的区别:
接下来我尝试用更简单的方法去得到上面的结果,在《利用pandas进行数据分析》书中,第九章 讲了透视表和交叉表。
pivot_table 就是数据透视表,用过EXCEL数据透视表的对此肯定很熟悉。不过目前函数的参数有所更新,原来的rows变成了index,cols变成了columns。
#解法3:af.pivot_table('score',index='name',columns='course',aggfunc='mean',margins=True,fill_value=0)Out[141]: course 体育 数学 语文 Allname 关云长 0 60 100 80.0刘玄德 60 0 98 79.0All 60 60 99 79.5
0 0
- 【pandas】[5] 数据行列转置,数据透视(stack,unstack,pviot,pviot_table)
- 【pandas】[5] 数据行列转置,数据透视(stack,unstack,pviot,pviot_table)
- pandas学习笔记3—数据重塑图解Pivot, Pivot-Table, Stack and Unstack
- pandas 中 stack 和 unstack的用法
- pandas数据样本行列选取
- [python笔记]行列转换,数据透视
- pandas库生成数据透视表
- pandas数据预处理与透视表
- Pandas数据预处理与透视表
- Python pandas库 数据切片 行列操作
- pandas系列之 DataFrame 行列数据筛选
- 数据行列转置函数
- python pandas 数据框 条件选取行列数据
- 用SQL行列转换实现数据透视的一些思考
- pandas中groupby和pivot_table(数据透视表)
- 十分钟pandas(数据透视、矩阵合并、读写文件)
- stack and unstack
- R实现类似EXCEL中数据的透视功能:数据的行列转换
- maven不同环境打不同war包
- 加速Android Studio/Gradle构建
- Linux下mysql数据库导入导出
- CodeForces 673 A Bear and Game
- 第13周-项目4-立体类族共有的抽象类
- 【pandas】[5] 数据行列转置,数据透视(stack,unstack,pviot,pviot_table)
- 使用JQuery把元素Div弹出与关闭
- poj 3615(Floyd变形)
- 给 Android 开发者的 RxJava 详解
- Linux进程学习---wait()和waitpid()函数
- 直播系列---资源收集_测试
- 多线程之NSThread、NSOperation及GCD
- linux检查网线是否插入
- Swing基本组件使用3(JMenuBar,JMenu,JMenuItem)