Python处理大文件
来源:互联网 发布:下载蜜蜂软件 编辑:程序博客网 时间:2024/06/05 20:56
1. pickle模块
数据对象持久化。
使用示例:
import pickleimport osimport pandas as pdfile_path="./cache/data.pkl"if os.exists(file_path): data=pickle.load(open(file_path))#反序列话,把数据解析为一个python对象。存进去是dataframe,解析出来还是dataframeelse: data=pd.read_csv("./dataset/user_profile.csv") #中间一系列转换操作 pickle.dump(data,open(file_path)#通过dump把处理好的数据序列化
2.chunk分块读取数据
当一个文件太大,例如几个G,电脑配置限制,无法一次性读入内存,可以分块读入。例如:
import pandas as pdfile_path="./dataset/actions.csv"reader=pd.read_csv(file_path,iterator=True)chunk_size=1000000chunks=[]flag=Truewhile flag: try: chunk=reader.get_chunk(chunk_size) chunks.append(chunk) except StopIteration: flag=False print "Iteration is stopped"df=pd.concat(chunks,ingore_index=True)
0 0
- Python处理大文件
- Python处理大文件
- Python处理大文件
- python处理xml大文件[xml.sax]
- 用Python处理"大"XLS文件
- Python文本处理之按行处理大文件
- python 模拟分割大文件后,多线程处理
- python 处理大数据
- python处理大数据
- dom4j处理大文件
- J2se大文件处理
- java 大文件处理
- 处理大容量文件
- 大文件异步处理
- 大文件的处理
- c++ 处理大文件
- Java大文件处理
- Java处理大文件
- uboot中gd_t和bd_t数据结构简介
- 作业五-数组
- 被委派的构造函数的初始化列表执行阶段
- Redis的个人使用经验总结
- Javascript 获取行间样式与非行间样式
- Python处理大文件
- C# Winform 防止子窗体重复打开
- 大菠萝实习日记(1)
- mysql(四)Innodb的聚簇索引
- Java多线程与网络编程
- 数据库事务与锁
- 深入理解Java注解
- 371. Sum of Two Integers
- 2017年05月12日 学习小总结(think php 验证码的使用)