python的print对编码的处理
来源:互联网 发布:java培训内容 编辑:程序博客网 时间:2024/06/18 18:10
python的print会对输出的文本做自动的编码转换,而文件对象的write方法就不会做,因此,当一些字符串用print输出正常时,write到文件确不一定和print的一样。
print转换的目的编码和环境变量有关,Windows XP是转换为gbk的。在linux下是按照环境变量来转换的。在linux下使用locale命令就可以看到。比如我的是:
[zhaowei@papaya zhaowei]$ locale
LANG=zh_CN
LC_CTYPE="zh_CN"
LC_NUMERIC="zh_CN"
LC_TIME="zh_CN"
LC_COLLATE="zh_CN"
LC_MONETARY="zh_CN"
LC_MESSAGES="zh_CN"
LC_PAPER="zh_CN"
LC_NAME="zh_CN"
LC_ADDRESS="zh_CN"
LC_TELEPHONE="zh_CN"
LC_MEASUREMENT="zh_CN"
LC_IDENTIFICATION="zh_CN"
LC_ALL=
这个时候会认为是gb2312的。在python中可以用locale模块来获得当前环境的编码:
import locale
![](http://images.csdn.net/syntaxhighlighting/OutliningIndicators/None.gif)
print locale.getdefaultlocale()
print在输出时把字符串自动装换为这个编码。看看下面,"喆"这个字是很著名的一个在gb2312中没有的字,当把它转换为gb2312的时候是会出错的。
上面这段代码会报异常,就是这个原因。但如果是直接 print a 就可以输出来 (假设你的环境变量是GBK或者GB18030或者UTF-8)。如果你的环境变量是GB2312的,那这个print一样会报错!所以在处理其他地方来的文本数据时,最好不要用GB2312的编码,是中文数据,一定要用GB18030或者UTF-8!
而用文件对象的write写unicode的数据也是会出错的!需要做编码转换。
print转换的目的编码和环境变量有关,Windows XP是转换为gbk的。在linux下是按照环境变量来转换的。在linux下使用locale命令就可以看到。比如我的是:
[zhaowei@papaya zhaowei]$ locale
LANG=zh_CN
LC_CTYPE="zh_CN"
LC_NUMERIC="zh_CN"
LC_TIME="zh_CN"
LC_COLLATE="zh_CN"
LC_MONETARY="zh_CN"
LC_MESSAGES="zh_CN"
LC_PAPER="zh_CN"
LC_NAME="zh_CN"
LC_ADDRESS="zh_CN"
LC_TELEPHONE="zh_CN"
LC_MEASUREMENT="zh_CN"
LC_IDENTIFICATION="zh_CN"
LC_ALL=
这个时候会认为是gb2312的。在python中可以用locale模块来获得当前环境的编码:
![](http://images.csdn.net/syntaxhighlighting/OutliningIndicators/None.gif)
![](http://images.csdn.net/syntaxhighlighting/OutliningIndicators/None.gif)
![](http://images.csdn.net/syntaxhighlighting/OutliningIndicators/None.gif)
print在输出时把字符串自动装换为这个编码。看看下面,"喆"这个字是很著名的一个在gb2312中没有的字,当把它转换为gb2312的时候是会出错的。
#-*- encoding: gb18030 -*-
import locale
import sys, encodings, encodings.aliases
# 现在a是unicode的
a = u'喆'
print a.encode("gb2312")
import locale
import sys, encodings, encodings.aliases
# 现在a是unicode的
a = u'喆'
print a.encode("gb2312")
上面这段代码会报异常,就是这个原因。但如果是直接 print a 就可以输出来 (假设你的环境变量是GBK或者GB18030或者UTF-8)。如果你的环境变量是GB2312的,那这个print一样会报错!所以在处理其他地方来的文本数据时,最好不要用GB2312的编码,是中文数据,一定要用GB18030或者UTF-8!
而用文件对象的write写unicode的数据也是会出错的!需要做编码转换。
#-*- encoding: gb18030 -*-
import locale
import sys, encodings, encodings.aliases
# 现在a是unicode的
a = u'喆'
f = open("aaa.txt", "w")
f.write(a)
f.close()
import locale
import sys, encodings, encodings.aliases
# 现在a是unicode的
a = u'喆'
f = open("aaa.txt", "w")
f.write(a)
f.close()
- python的print对编码的处理
- python的print对编码的处理
- python 的print输出
- Python的print函数
- Python的print用法
- python的print
- Python Print的扩展
- python的print 功能
- 11.24学习PYTHON第二天 对print函数的思考
- python的输出 print print, write
- Python的编码处理技术
- Python的中文编码处理
- python的编码处理和中文编码
- Python中对字符编码的理解, 以及Python2和3处理的差异
- python对字符串的处理
- python 对运算的处理
- Python的print 格式化输出
- Python的print 格式化输出
- asp.net学习顺序问题(根据我的情况,稍有加减)
- 在C#.net中如何操作XML
- 大文件的下载(分批下载)
- Array#size
- java中zip格式压缩文件
- python的print对编码的处理
- 利用AXIS添加WebService
- 半笺心语凝成香
- 注册好久了,就是没有写过东西。哈哈
- httpRunTime web.config的属性
- asp.net实现弹窗
- 进程环境与进程控制(5): 进程时间
- VS2005网站发布不便问题讨论
- Google的脚本错误