pandas分块读取较大csv的方法

来源:互联网 发布:windows无法取得路径 编辑:程序博客网 时间:2024/05/21 14:03

对于几百MB的CSV文件,可以直接使用pd.read_csv()进行读取。然而如果csv文件太大,达到几个Gb,这种方法就不可取。

这时应使用chunk,进行分块读取——



user= pd.read_csv('data.csv', chunksize= 20000)count = 0for df in user:    count += 1    print count
    #其他代码
当然,分块读取后需要额外的拼接工作。
2017.11.26 更新:
发现在这种读取方式下,无法对各个chunk进行循环遍历?(user只能遍历一次)
为了解决这个问题,各种改chunksize,试图改变chunk的数量,未果。。
今天才发现,重新读取一下user就行了!!之前真的是2!
原创粉丝点击