python 中文乱码
来源:互联网 发布:淘宝店铺头像 护肤品 编辑:程序博客网 时间:2024/06/18 02:42
背景
多次被python的编码/乱码问题困扰,相信pythoner们都被困扰过,网上铺天盖地的资料太多也参差不齐,就整理了下。本文从使用的角度系统总结了python编码相关的一些概念,将本文的例子玩一遍,基本上对python的编码问题就清楚了。
首先明确几个概念:
- 字节流:以utf8/gbk等编码编码的字节流。
- unicode对象:python代码中,
a=u'中国'
, 或者a='中国'.decode()
的结果。 - terminal用于显示字符的编码:将一个用utf8/gbk编码的字节流通过terminal指定的编码,去查找对应的字符显示出来。
- locale:linux下,Locale 是软件在运行时的语言环境, 它包括语言(Language), 地域 (Territory) 和字符集(Codeset)。一个locale的书写格式为: 语言[_地域[.字符集]]. 所以说呢,locale总是和一定的字符集相联系的。比如:zh_CN.GB2312
- 编码转换原则:unicode是”中介”,任何编码之间转换都需要先decode()到unicode。
针对python,先把结论放在前面,三点:
- #coding:utf-8 #.py文件是什么编码就需要告诉python用什么编码去读取这个.py文件。
- sys.stdout.encoding,默认就是locale的编码,print会用sys.stdout.encoding去encode()成字节流,交给terminal显示。所以locale需要与terminal一致,才能正确print打印出中文。
- sys.setdefaultencoding(‘utf8’),用于指定str.encode() str.decode()的默认编码,默认是ascii。
- 对编码字符串a,代码中可以直接写a.encode(“gbk”),但事实上内部自动先通过defaultencoding 去decode成unicode之后再encode()的。
- str(xxx)应该也是用这个去编码的。
'ascii' codec can't encode characters in position 7-8: ordinal not in range(128)
print的时候出现这个错误一般可以使用这个方案去处理。- 为了避免代码中到处都要去encode(“xxx”),还有可能不同的地方写得不一样带来不一致的情况,推荐使用这个:
- 1
- 2
- 3
例子1:
- 在python中,unicode vs 字节流:字节流可以从unicode encode得到,unicode可以从utf8/gbk等编码的字节流decode得到。
- 分析下面这段代码,终端/locale分别为不同编码的情况:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
—终端为UTF-8,locale为zh_CN.GBK—————–
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
—终端为UTF-8,locale为zh_CN.UTF-8—————–
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
—终端为GBK,locale为zh_CN.GBK—————–
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
—终端为GBK,locale为zh_CN.UTF-8—————–
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
例子1总结,对print而言:
- unicode的数据如果要显示正常,必须终端与locale一致。sys.stdout.encoding这个值应该来自locale,print会以sys.stdout.encoding去encode并输出到字节流。
- encode为终端编码的字节流就能显示正常,无论locale是啥。
最终是terminal通过terminal配置的编码规则去解码成对应的字符并显示出来。
例子2:
关于sys.setdefaultencoding(‘utf8’)的例子:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
关于str()和repr()
- str()是对各种类型转化成str,如果本来是encoded字符串,则不变,如果为unicode,会encode()
- repr()对字符串是将字节流出二进制的值以16进制转化为可见字符。
测试环境locale为GBK
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 1
- 2
- 3
- 4
- 5
再深挖下去,还有repr()和eval()的关系,就不深挖了。
关于终端和服务器的编码
另外补充一些关于终端和服务器编码的结论:
1. 对mac iterm2,如果server的locale与mac本地终端的locale一致,才能保证server端与本地的表现一致。
2. cat a.py #就把文件显示出来,就是给terminal一串字节流。terminal根据设置的终端编码规则来显示字符。所以只要文件编码与terminal一致即可,与locale无关。
3. cat a.txt > b.txt #无论locale怎么样,只跟a.txt原来的编码相关
4. echo “中国年过” > a.txt #这个情况下,只有terminal与locale的编码一致,你才能在终端shell打出正确的中文~~~所以a.txt与两者都会一致
参考资料
关于vim:http://blog.chinaunix.net/uid-21843387-id-106001.html
阅读全文
0 0
- Python mysql 中文乱码
- python中文乱码问题
- Python中文乱码
- python 中文乱码
- python 中文乱码解决
- python中文乱码问题
- python中文乱码问题
- python 中文乱码问题
- Python中文注释乱码
- Python 中文乱码解决方法
- python 中文乱码问题
- Python--中文乱码
- python输出乱码中文
- 【python】中文乱码问题
- Python 中文乱码问题
- python中文乱码解决
- python解决中文乱码
- Python中文乱码
- Sql Server 配置IP地址连接
- Eclipse更新SVN版本
- Android热更新——Tinker 使用
- 文章标题
- 只是觉得有点儿意思 值得琢磨下
- python 中文乱码
- C# DirectInput游戏手柄和键盘开发心得2(SharpDX版)
- 简单网络爬虫实现<爬取网页邮箱>
- mysql命令行查询中文乱码问题
- Linux ftp传送问题 WARNING! 258831 bare linefeeds received in ASCII mode
- Overlay网络与物理网络的关系
- ejabberd分析(四) 用户登录
- select正序倒序
- Hive/sparkSQL ( NOT IN ) 语句优化 ---- bigger than spark.driver.maxResultSize (1.0 GB)