使用python(pandas)将数据处理成交叉分组表
来源:互联网 发布:python 乘方 编辑:程序博客网 时间:2024/06/05 02:49
交叉分组表是汇总两种变量数据的方法, 在很多场景可以用到, 本文会介绍如何使用pandas将包含两个变量的数据集处理成交叉分组表.
环境
- pandas
- python 2.7
原理
用坐标轴来进行比喻, 其中一个变量作为x轴, 另一个作为y轴, 如果定位到数据则累加一, 将所有数据遍历一遍, 最后的坐标轴就是一张交叉分组表(使用坐标轴展示的数据一般是连续的, 交叉分组表的数据是离散的).
具体实现
示例数据:
quality price0 bad 181 bad 172 great 523 good 284 excellent 885 great 636 bad 87 good 228 good 689 excellent 9810 great 5311 bad 1312 great 6213 good 4814 excellent 7815 great 6316 good 3717 great 6918 good 2819 excellent 8120 great 4321 good 3222 great 6223 good 2824 excellent 8225 great 53
代码:
import pandas as pd from pandas import DataFrame, Series #生成数据 df = DataFrame([['bad', 18], ['bad', 17], ['great', 52], ['good', 28], ['excellent', 88], ['great', 63] , ['bad', 8], ['good', 22], ['good', 68], ['excellent', 98], ['great', 53] , ['bad', 13], ['great', 62], ['good', 48], ['excellent', 78], ['great', 63] , ['good', 37], ['great', 69], ['good', 28], ['excellent', 81], ['great', 43] , ['good', 32], ['great', 62], ['good', 28], ['excellent', 82], ['great', 53]], columns = ['quality', 'price'])#广播使用的函数def quality_cut(data): s = Series(pd.cut(data['price'], np.arange(0, 100, 10))) return pd.groupby(s, s).count()#进行分组处理df.groupby(df['quality']).apply(quality_cut)
结果:
详细分析
从逻辑上来看, 为了达到对示例数据的交叉分组, 需要完成以下工作:
- 将数据以
quality
列进行分组. - 将每个分组的数据分别进行cut, 以10为间隔.
- 将cut过的数据, 以cut的范围为列进行分组
- 将所有数据组合到一起, row为
quality
, columns为cut的范围
步骤1, pandasgroupby(...)
接口, 会按照指定的列进行分组处理, 每一个分组, 存储相同类别的数据
<class 'pandas.core.frame.DataFrame'> quality price0 bad 181 bad 176 bad 811 bad 13
而我们需要的, 只是price
这列的数据, 所以单独将这列拿出来, 进行cut, 最后得到我们要的series(步骤2, 步骤3)
price(0, 10] 1(10, 20] 3(20, 30] 0(30, 40] 0(40, 50] 0(50, 60] 0(60, 70] 0(70, 80] 0(80, 90] 0
使用pandas
apply()的广播特性, 每一个分组的数据都会经过上述几个步骤的处理, 最后与第一次分组row进行组合.
后记
估计能力有限, 这个问题想了很长时间, 没想到pandas这么可以这么方便达成交叉分组的效果. 思考的时候主要是卡在数据组合上, 当数据量很大时通过多个步骤进行数据组合, 肯定是低效而且错误的. 最后仔细研究了groupby, dataframe, series, dataframeIndex
等数据模型, 使用广播特性用几句代码就完成了. 证明了pandas
的高性能, 也提醒自己遇见问题一定要耐心分析, 念念不忘, 必有回响.
阅读全文
0 0
- 使用python(pandas)将数据处理成交叉分组表
- Python-pandas模块数据处理
- Python大数据处理模块Pandas
- Python基于pandas的数据处理
- Python数据处理的瑞士军刀:pandas
- python之pandas分组统计
- 【python 数据处理】分组求和、合并
- 学习Python大数据处理模块Pandas
- 学习Python大数据处理模块Pandas
- python 数据处理学习pandas之DataFrame(一)
- python 数据处理学习pandas之DataFrame(二)
- python 数据处理学习pandas之DataFrame(三)
- Python数据处理进阶——pandas
- python 数据处理学习一(pandas)
- python:pandas(4),缺失数据处理
- pandas python 分组统计的方法
- python pandas 聚合与分组函数
- pandas数据处理
- iOS数据类型简介及NSLog打印输出
- CodeForces 616E(数学规律)
- 算法——查找之二叉查找树
- RecyclerView数据源变化时遇到的问题
- 实战U盘装PE+kali_linux_persistence+OTG
- 使用python(pandas)将数据处理成交叉分组表
- TypeError: 'numpy.float64' object cannot be interpreted as an index
- C#封装
- gcc 参数说明
- JAVA内存释放机制
- 学习心得(二)
- 工业相机突出代表PMD Camcube3.0和kinect比较,以及和SR-4000 对比
- spark源码解析-从提交任务到jar的加载运行(基于2.1.0版本)
- sublime text3 快捷键