小结一下我困惑Python字符编码

来源：互联网发布：mib browser 软件下载编辑：程序博客网时间：2024/05/18 03:06

一下结论不是一定准确，是我自己通过实验理解的结果。如有错误欢迎指正。

# coding:utf8

这种写法是针对源文件中的非ascii字符的编码方式

例如：

写s = u"中文"，会以utf8将源文件中的字符串解码成unicode。相当于s = f.read(); s = s.decode('utf8')

若代码中写 s = "中文"，不会对字符串进行编码，相当于s = f.read()

sys.setdefaultencoding()

这个配置是用于在 s.encode() s.decode() 不带参数时的默认参数。

例如：print u 会事先将unicode字符串转换为str，再输出到控制台。会调用默认参数的u.encode() 。

如果默认sys.getdefaultencoding()是ascii，而u当中又含有非ascii字符，则会抛出异常。UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

print 输出

Python的print语句会将字符串转换为str进行输出，

也就是说 print s 这个语句，如果s本身就是str类型，则直接输出，若s是unicode类型，则会以默认编码调用s.encode() 然后进行输出。

对于windows来说，控制台中显示中文是以gbk编码的，也就是说print一个utf8编码的str会看到一串乱码。