python中数据聚合与分组运算
来源:互联网 发布:卫浴行业数据 编辑:程序博客网 时间:2024/06/01 07:37
在数据分析处理中,对数据进行分组并对各组应用一个函数(无论是聚合还是转换)计算分组统计或生成透视表,是数据分析工作中的重要环节。
python提供了一个灵活高效的groupby功能,它可以使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。在python中主要有两个模块(itertools和pandas)提供了groupby方法。而pandas中的groupby功能尤为强大,可以根据一个或多个键拆分pandas对象、应用组内转换或其他运算,如规格化、线性回归、排名或提取子集等。
下面先来说说itertools中的groupby使用:
itertools.groupby()函数将迭代器中的重复相邻的数聚合在一起。
for key, group in groupby([1, 1, 3, 2, 2, 2, 4, 4, 4, 5]):
print(key, list(group))
(1, [1, 1])
(3, [3])
(2, [2, 2, 2])
(4, [4, 4, 4])
(5, [5])
也可以使用函数对挑选的规则进行个性化设置,只要作用于函数的两个元素返回的值相等,这两个元素就被认为是在一组的。比如下面要忽略大小写挑选出相同字母:
for key, group in groupby(“AaaBBbCccDdd”, lambda x: x.upper()):
print(key, list(group))
(‘A’, [‘A’, ‘a’, ‘a’])
(‘B’, [‘B’, ‘B’, ‘b’])
(‘C’, [‘C’, ‘c’, ‘c’])
(‘D’, [‘D’, ‘d’, ‘d’])
使用一个匿名函数使“A”和“a”都返回为“A”。然后再进行分组。
接下来,采用一个实例讲解groupby的用法。
设计一个场景:要将一个列表中所有连续的数字使用“-”连接,例如:[1,2,3]表示为[1-3]。
下面有一个列表:l = [6, 7, 18, 19, 20, 21, 22, 24, 27, 33, 37]
按照上面的规则对这个l列表进行解析。
将采用值与索引的差进行分组。
l列表为:
[6, 7, 18, 19, 20, 21, 22, 24, 27, 33, 37]
l索引为:
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
两者相减为:
[6, 6, 16, 16, 16, 16, 16, 17, 19, 24, 27]
就可以对他进行分组了。
l = [6, 7, 18, 19, 20, 21, 22, 24, 27, 33, 37]
a = list()
b = []
result = []
function = lambda (i, v): v - i
for k, g in groupby(enumerate(l), function):
g = list(g)
b.append(k)
a.append(g)
for c in range(len(b)):
if [v for i, v in a[c]][0] != [v for i, v in a[c]][-1]:
result.append(“%d-%d” % ([v for i, v in a[c]][0], [v for i, v in a[c]][-1]))
if [v for i, v in a[c]][0] == [v for i, v in a[c]][-1]:
result.append([v for i, v in a[c]][0])
print result
得到结果:[‘6-7’, ‘18-22’, 24, 27, 33, 37]
最后,讲讲pandas中的groupby技术,先来对groupby的技术原理用一张图来说明:
(来自于:《利用python做数据分析》)
groupby技术其实就是按照拆分(split)-应用(apply)-合并(combine)的顺序最终得到的。
下面举例说明此过程:
首先,导入一个经典的数据集——Titanic数据集(不用在网上搜索这个数据集,在seaborn包中就有)。
import seaborn as sns
data = sns.load_dataset(“titanic”)
data.head()
假设要按sex进行分组,并计算age列的平均值。实现该功能的方式很多,而这里要用的是:访问age,并根据sex调用groupby:
grouped = data.age.groupby(data.sex)
- python中数据聚合与分组运算
- Python之数据聚合与分组运算
- 利用Python进行数据分析--数据聚合与分组运算
- 利用Python进行数据分析--数据聚合与分组运算
- 第九章:数据聚合与分组运算
- pandas—数据聚合与分组运算
- 利用python进入数据分析之数据聚合与数据分组运算
- 利用Python进行数据分析--数据聚合与分组运算1
- 利用python进行数据分析-数据聚合与分组运算1
- 利用python进行数据分析-数据聚合与分组运算2
- 《利用Python进行数据分析》笔记---第9章数据聚合与分组运算
- 利用Python进行数据分析--数据聚合与分组运算1
- 利用python进行数据分析(七):数据聚合与分组运算
- python/pandas数据分析(十五)-聚合与分组运算实例
- 数据聚合与分组运算——GroupBy技术(1)
- 2015-04-07-数据聚合与分组运算(2)-分组级运算和转换
- 2015-04-01-数据聚合与分组运算(1)-GroupBy技术+数据聚合
- 数据分组与聚合函数
- bzoj 3158: 千钧一发 最小割
- angular2基础/高级
- 进程和线程的区别
- 关于DIV相对于父DIV绝对定位
- 分治技巧在高级数据结构中的应用——cdq分治(一)&&bzoj3262例题详解
- python中数据聚合与分组运算
- 游戏服务器的常用架构
- Python Review
- EXE4J 使用教程
- c++11 auto 遍历map,vector
- 自定义类型:结构体,枚举,联合
- maya 2018 for mac 英文修改成中文(附破解版下载地址)
- Deep Learning 第五章 机器学习基础
- AsyncTask源码解析