编码常见问题及解决方式

来源：互联网发布：软件设计师视频下载编辑：程序博客网时间：2024/05/18 03:42

1、问题：UnicodeEncodeError: 'ascii' codec can't encode characters in position
方法：字符集的问题，在文件前加两句话

python中正则表达式string = re.sub(ur"[^\u4e00-\u9fa5]", " ",string)，前面的u不能去掉(python3解释器可能不受影响)

encode就是把参数编码转换成二进制编码，如：word=word.encode("utf8")，就是把utf8转成了二进制编码。

unicode(sen, "utf8")就是把sen转成utf8编码

decode就是按照参数转码成unicode如message.decode('utf8')，所以若参数是utf-8,则功能与上句话相同。

有个讲得比较清楚的网站

补充：

1/《python自然语言理解》这本书上有讲decode与encode之间的关系，大概意思就是各种各样的编码格式（“GBK”，“UTF-8”）——>(decode("GBK"))成unicode——>(encode("GBK"))成各种各样的编码格式。

2/codecs指定编码打开就已经转成unicode了，与line=line.decode("utf-8")的效果一样

3/try语句的使用。有时会遇到乱码问题，这时应该用try语句。try: word=word.decode("utf-8") except:continue

0 0