pandas分块读取较大csv的方法
来源:互联网 发布:windows无法取得路径 编辑:程序博客网 时间:2024/05/21 14:03
对于几百MB的CSV文件,可以直接使用pd.read_csv()进行读取。然而如果csv文件太大,达到几个Gb,这种方法就不可取。
这时应使用chunk,进行分块读取——
如
user= pd.read_csv('data.csv', chunksize= 20000)count = 0for df in user: count += 1 print count
#其他代码
当然,分块读取后需要额外的拼接工作。
2017.11.26 更新:
发现在这种读取方式下,无法对各个chunk进行循环遍历?(user只能遍历一次)
为了解决这个问题,各种改chunksize,试图改变chunk的数量,未果。。
今天才发现,重新读取一下user就行了!!之前真的是2!
阅读全文
0 0
- pandas分块读取较大csv的方法
- pandas读取完的csv数据格式
- pandas读取csv文件的指定列
- pandas读取csv文件
- pandas读取csv编码问题
- 使用pandas读取csv文件指定的前几行
- 使用pandas读取csv文件的指定列
- pandas csv文件读取与保存乱码的问题
- 读取csv文件的方法
- Python编码格式导致的csv读取错误(csv.reader, pandas.csv_read)
- python中写入csv,excel显示、pandas读取csv文件的编码问题
- pandas 读取mysql数据的简单方法
- pandas Dataframe行 列读取的方法
- pandas教程:[5]读取csv数据
- 【Pandas-Cookbook】01:读取CSV数据
- 使用python pandas读取csv文件数据
- 使用pandas read_table读取csv文件
- pandas 读取csv Initializing from file failed
- QtDownloadTool——简单的HTTP资源下载工具
- 入门c++(一、编译预处理)
- 文件的复制
- mips架构linux启动分析(三)(setup_arch--->cpu_probe)
- 循环素数
- pandas分块读取较大csv的方法
- HDU 1171 Big Event in HDU
- ubuntu 常见错误--Could not get lock /var/lib/dpkg/lock
- 摩尔定律还有效吗?
- 判断学生成绩是否有效
- 线程并发一:概念理解
- 用户界面2
- 20171109
- Codeforces Round #398 (Div. 2) 题解