Python 读取大文件
来源:互联网 发布:淘宝怎么设置员工账号 编辑:程序博客网 时间:2024/05/21 09:51
简述
在处理大数据时,有可能会碰到好几个 G 大小的文件。如果通过一些工具(例如:NotePad++)打开它,会发生错误,无法读取任何内容。
那么,在 Python 中,如何快速地读取这些大文件呢?
- 简述
- 一般的读取
- 使用 fileinput 模块
- 逐行读取
- 指定每次读取的长度
- 自动管理
- 更多参考
版权所有:一去丶二三里,转载请注明出处:http://blog.csdn.net/liang19890820
一般的读取
读取文件,最常见的方式是:
with open('filename', 'r', encoding = 'utf-8') as f: for line in f.readlines(): do_something(line)
但是,当完成这一操作时,readlines()
方法(read()
也一样)会将整个文件加载到内存中。在文件较大时,往往会引发 MemoryError
(内存溢出)。
那么,如何避免这个问题?
使用 fileinput 模块
稍微好点儿的方式是使用 fileinput
模块:
import fileinputfor line in fileinput.input(['filename']): do_something(line)
调用 fileinput.input()
会按照顺序读取行,但是在读取之后不会将它们保留在内存中。
逐行读取
除此之外,也可使用 while()
循环和 readline()
来逐行读取:
with open('filename', 'r', encoding = 'utf-8') as f: while True: line = f.readline() # 逐行读取 if not line: # 到 EOF,返回空字符串,则终止循环 break do_something(line)
指定每次读取的长度
有时,可能希望对每次读取的内容进行更细粒度的控制。
在这种情况下,可以使用 iter
和 yield
:
def read_in_chunks(file_obj, chunk_size = 2048): """ 逐件读取文件 默认块大小:2KB """ while True: data = file_obj.read(chunk_size) # 每次读取指定的长度 if not data: break yield datawith open('filename', 'r', encoding = 'utf-8') as f: for chuck in read_in_chunks(f): do_something(chunk)
自动管理
这才是 Pythonci
最完美的方式,既高效又快速:
with open('filename', 'r', encoding = 'utf-8') as f: for line in f: do_something(line)
with
语句句柄负责打开和关闭文件(包括在内部块中引发异常时),for line in f
将文件对象 f
视为一个可迭代的数据类型,会自动使用 IO
缓存和内存管理,这样就不必担心大文件了。
更多参考
- How to read large file, line by line in python
阅读全文
0 0
- python读取大文件
- Python 读取大文件
- python读取大文件
- Python 读取大文件
- Python 大文件读取
- 使用python读取大文件
- Python读取大文件(GB)
- 使用python读取大文件
- Python读取大文件(GB)
- python中读取大文件
- Python读取大文件的行数
- 关于python读取大文件的方法
- 用Python读取大文件(上)
- 用Python读取大文件(下)
- Python按行读取大文件
- ##python读取大文件的机制
- Python读取大容量的csv文件
- python-problem-大文件的读取
- javascript作用域和执行上下文的区别
- javaPAT1021个位数统计
- zookeeper实现分布式锁服务
- Nordic Collegiate Programming Contest 2017 题解
- 腾讯QQ快捷登陆
- Python 读取大文件
- CentOS 搭建postfix邮件服务器
- Flash HTML5动画特效
- TFS如何搁置和取消挂起的搁置(参考自msdn)
- NodeJs express自定义中间件
- Power of Matrix UVA
- Class类反射、多线程
- 构建工具Gulp的使用
- 数字图像处理成长之路13:SIFT之尺度空间c++版