Pandas学习笔记(不定期更新)
来源:互联网 发布:网络传播理论 编辑:程序博客网 时间:2024/04/20 05:45
1.如何使用Pandas处理大数据文件
reader=pd.read_csv('xxx.csv', iterator=True) #分块读取chunkSize = 10000000 #一次读取一千万条记录chunks = []while True: try: chunk = reader.get_chunk(chunkSize) #一次获得1kw的数据量 chunks.append(chunk) except StopIteration: print "Iteration is stopped." breakdf = pd.concat(chunks, ignore_index=True) #读取完数据后再利用pandas的concate连接DataFrame
2.处理时间序列索引的小tips
df['time'] = pd.to_datetime(df['time']) #要将时间转为DateTime格式,才方便后面操作(否则无法对时间序列进小操作)df.set_index('time', inplace=True)
一个小提醒,如果要使用时间索引,先要将相关时间转换为DataTime格式。否则之后针对时间索引的切片选取就会出毛病。
#加入我需要选取7天前到现在的数据date1 = today - relativedelta(days=7) #在DataTime中使用relativedelta()函数来选取相应的时间df_date = df_table[str(date1):str(today)] # 使用str可以使切片选取变成模糊选取。如果使用DataTime格式。当表中没有date这个时间点,程序就会报错。
3.修改DataFrame中的单个值
# 获取单个值.df是DataFrame相关数据df.get_value('行名', '列名') #第一种方法 采用行名和列名df.get_value(行索引, 列索引, takeable = True) #第二种方法 采用行索引和列索引(只能int型)# 修改单个值df.set_value('行名','列名', 修改的值) #第一种方法 采用行名和列名df.set_value(行索引, 列索引, 修改的值, takeable = True) #第二种方法 采用行索引和列索引(只能int型)
- 4.
0 0
- Pandas学习笔记(不定期更新)
- SQLite学习笔记(不定期更新)
- Hadoop学习笔记(不定期更新)
- 不定期更新ML学习笔记
- angularjs学习笔记【不定期更新】
- const笔记(不定期更新)
- Scikit-learn(python)学习笔记 (不定期更新)
- H264学习笔记-名词解释(备忘+不定期更新)
- 【前端学习笔记】项目经验积累(不定期更新)
- 神经网络学习(不定期更新)
- 学习资料(不定期更新)
- Bootrap学习笔记——不定期更新
- 【安卓学习笔记】( 不定期更新)
- qt安装配置笔记(不定期更新)
- 日常开发笔记(不定期更新)
- 【leetcode】leetcode 刷题 笔记 (不定期更新)
- sphinx 笔记(不定期更新)
- node.js学习总结(不定期更新)
- Java接口简单简介
- Educational Codeforces Round 18 D. Paths in a Complete Binary Tree
- [leetcode] 64. Minimum Path Sum Add to List
- Java 异常
- netty 服务端发布源码分析
- Pandas学习笔记(不定期更新)
- effective c++条款5,6(c++默默编写并调用哪些函数,若不想使用,就该明确拒绝)
- 一些简单的数组运算
- Android 关闭多个视图Intent.FLAG_ACTIVITY_CLEAR_TOP用法
- C# 跨线程调用控件
- C语言实现小游戏--扫雷
- SNNU第六届校赛
- Include指令和Include动作的区别
- tomcat端口被占用怎么解决