Python 计算不重复元素的个数
来源:互联网 发布:洞洞板画线软件 编辑:程序博客网 时间:2024/05/22 15:54
情景:计算日志文件中,独立IP的个数,也就是unique visitor。
计算量:每小时大概有70万左右的记录,每天24小时,大概1400-1500万条记录
addrs = set()
for line in f.readlines():
addr = get_addr(line)
addrs.add(addr)
print len(addrs)
set的add方法会在内部判断元素是否已经添加,如果元素已经存在,则忽略掉,否则就添加到set里边去
所以,不需要像list那样在添加到set之前判断。
测试了一下,分析完一个文件才要2-3秒钟,速度是用list的200多倍啊,24个文件用了1分钟就分析完了。
set的缺点在于无法保证元素添加进去的顺序,如果需要保证顺序,还需要list的辅助啦。
0 0
- Python 计算不重复元素的个数
- Python 计算不重复元素的个数
- 计算数组里面不重复元素个数
- 计算数组中元素取绝对值后不重复的个数
- 求大数据量数组中不重复元素的个数
- 51Nod-矩阵中不重复元素的个数
- Java打印数组中不重复的元素和个数
- 计算数组中相同元素的个数,以及数组总的元素数(重复元素算一个)
- python列表--查找集合中重复元素的个数
- python计算列表内各元素的个数
- python中统计列表list中的不重复元素及其相应个数
- excel 计算不厂家的车型个数,以及重复的车型个数
- Python中不重复三位数算法的计算
- Map特性,计算字符串内重复元素的个数(Java版)--之一
- 求一个大小已知的整型数组中不重复的元素个数
- 面试题:统计一个数组中不重复出现的元素个数
- 1024 矩阵中不重复的元素 set统计个数 + log处理数据过大问题
- 15.计算数组中3个数和为0的不重复的组合
- MySQL中DATETIME和TIMESTAMP的区别
- 对于点击登录,弹出登录框,其余的连接都不能点的小案例
- 使用Jenkins搭建持续集成(CI)环境
- optimizer_index_caching和optimizer_index_cost_adj两个参数说明
- Oracle学习(六):子查询
- Python 计算不重复元素的个数
- Linux使用GDB调试总结
- VI中的多行删除与复制
- 找出界面的第一响应者,让键盘消失
- Gradle 构建 android 应用常见问题解决指南
- 我们为什么需要VPN,使用VPN有什么好处?
- iis http 错误 404.0
- 是国家非国家法规几个
- 我想用strcmp() 作为比较函数, 调用qsort() 对一个字符串数组排序, 但是不行。