python IO编程

来源：互联网发布：美国非农数据美元编辑：程序博客网时间：2024/04/28 11:24

IO编程

IO在计算机中指input/output，也就是输入和输出。由于程序和运行时数据是在内存中驻留，由CPU这个超快的计算核心来执行，涉及到了磁盘、网络等。
由于CPU和内存的速度远远高于外设的速度。所以，在IO编程中，就存在着速度严重不匹配的问题。此时，有两种解决方法：同步IO与异步IO。从原理来看，使用异步IO来编写程序性能会远远高于同步IO，但异步IO编程模型复杂，涉及到回调、轮询等模式。

文件读写

在磁盘上读写文件的过程：请求操作系统打开一个文件对象（通常称为文件描述符），然后通过操作系统提供的接口从这个文件对象中读取数据或者把数据写入这个文件对象。

读文件

要以读文件的模式打开一个文件对象，使用python内置的open函数，传入文件名和标示符

>>> f = open('/User/michael/test.txt','r')

其表示以只读方式打开一个文件。如果文件不存在，open函数会抛出一个IOError错误，并且给出错误码和详细的信息告诉你文件不存在；如果文件打开成功，接下来，调用read()方法可以一次读取文件的全部内容，python把内容读到内存，用一个str对象表示。

>>> f.read()>'Hello,world!'

调用close()方法关闭文件。文件使用完毕后必须关闭，因为文件对象会占用操作系统的资源，并且操作系统同一时间能打开的文件数量也是有限的。

>>> f.close()

为了保证无论是否出错都能正确关闭文件，可以引用with语句自动调用close方法

with open('/path/to/file','r')  as f:    print(f.read())

文件读取的方法有多种：read(size)每次最多读取size个字节的内容。另外，调用readline()可以每次读取一行内容，调用readlines()一次读取所有内容并按行返回list。
这种方法适用于读取ASCII编码的文本文件，若要读取非ASCII编码的文本文件就必须以二进制模式打开，再解码。

import codecswith codecs.open("/user/micael/gbk.txt",'r','gbk') as f:    f.read()

codecs模块可以帮助在读文件时自动转换编码，直接读出unicode

操作文件和目录

# 查看当前目录的绝对路径：>>> os.path.abspath(',')>'/user/michael'# 在某个目录下创建一个新目录# 首先把新目录的完整路径表示出来>>> os.path.join("/user/michael",'testdir')"/user/michael/testdir"# 然后创建一个目录 >>> os.mkdir("/user/michael/testdir")# 删掉一个目录>>> os.rmdir("/user/michael/testdir")

把两个路径合成一个时，不要直接拼接字符串，而是要通过os.path.join()函数，这样就可以正确处理不同操作系统的路径分隔符。同样的道理，要拆分路径时，也不要直接去拆字符串，而要通过os.path.split()函数，这样就可以把一个路径拆分为两部分，后一部分总是最后级别的目录或文件名

StringIO

StringIO顾名思义就是在内存中读写str，首先创建一个StringIO，然后像文件一样写入即可：

>>> from io import StringIO>>> f = StringIO()>>> f.write("hello")>5>>> f.write(" ")>1>>> f.write("world!")>6>>> print(f.getvalue())>hello world!

要读取StringIO，可以用一个str初始化StringIO，然后，像读文件一样读取

>>> from io import StringIO>>> f = StringIO("Hello!\nHi!\nGoodbye!")>>> while True:...     s = f.readline()...     if a == "":...         break...     print(s.strip())

BytesIO

BytesIO实现了在内存中读写bytes

>>> from io import BytesIO>>> f = BytesIO()>>> f.write("中文".encode('utf-8'))>6>>> f.read()>b'\xe4\xb8\xad\xe6\x96\x87'

序列化

在程序运行过程中，所有的变量都是在内存中，用户可以随时修改变量。但是程序一旦结束，变量所占用的内存就会被操作系统全部回收。如果没有把修改后的数据存储到磁盘上，下次重新运行程序时，变量又会被初始化。
把变量从内存中变成可存储或传输的过程称之为序列化pickling。序列化之后，就可以把序列化后的内容写入磁盘或者通过网络传输到别的机器上。反过来，把变量内容从序列化的对象重新读到内存里称之为反序列化unpickling
首先把一个对象序列化并写入文件

>>> import pickle>>> d = dict(name="Bob",age = 20,score=88)>>> pickle.dumps(d)

pickle.dumps()方法把任意对象序列化成一个bytes，然后，就可以把这个bytes写入文件，或者用另一种方法pickle.dump()直接把对象序列化写入一个file-like Object:

>>> f = open("dump.txt","wb")>>> pickle.dump(d,f)>>> f.close()

当我们要把对象从磁盘读到内存时，可以先把内容读到一个bytes，然后用pickle.loads()方法反序列化出对象，也可以直接用pickle.load()方法从一个file-like Object中直接反序列化出对象

>>> f = open("dum.txt","rb")>>> d = pickle.load(f)>>> f.close()

JSON

如果我们要在不同的编程语言之间传递对象，就必须把对象序列化为标准格式，如XML。最好的方法就是序列化为JSON，因为JSON表示出来的是一个字符串，可以被所有语言读取。JSON表示的对象就是标准的JavaScript语言的对象。

>>> import json>>> d = dict(name="Bob", age=20, score=88)>>> json.dumps(d)

dumps()方法返回一个str，内容就是标准的JSON。类似的，dump()方法可以直接把JSON写入一个file-like Object
要把JSON反序列化为python对象，用loads()或者对应的load()方法，前者把JSON的字符串反序列化，后者从file-like Object中读取字符串并反序列化

>>> json_str = '{"age":20, "score":88, "name":"Bob"}'>>> json.loads(json_str)>{'age':20, 'score':88, 'name':'Bob'}

但如果单纯将一个class对象序列化为JSON，会报错TypeError，其根本原因是dumps()不知道如何将Student实例变为一个JSON的{}对象
而可选参数default就是把任意一个对象变成一个可序列化为JSON的对象，此时，需要专门为class对象写一个转换函数，再把函数传进去即可：

def student2dict(std):    return {        'name':std.name,        'age':std.age,        'score':std.score    }

这样，Student实例首先被student2dict()函数转换成dict，然后再被顺利序列化为JSON

>>> print(json.dumps(s, default=student2dict))>{"age":20, "name":"Bob", "score":88}

不过，下次如果遇到一个Teacher类的实例，照样无法序列化为JSON，在此，可以把任意class实例变为dict

print(json.dumps(s,default= lambda obj: obj.__dict__))

因为通常class实例都有一个__dict__属性，其本身就是一个dict用来存储实例变量。
同样的道理，如果我们要把JSON反序列化为一个student对象实例，loads()方法首先转换出一个dict对象，然后，传入的object_hook函数负责把dict转换为student实例：

def dict2student(d):    return Student(d['name'], d['age'], d['score'])

python语言特定的序列化模块是pickle，但如果要把序列华搞得更通用、更符合web标准，就可以使用json模块

0 0