python中文编码问题

来源:互联网 发布:怎样查看淘宝店铺等级 编辑:程序博客网 时间:2024/04/29 19:09
python 中对中文进行处理的时候,往往涉及到编码转换的问题,通常使用以下三种编码格式:
utf-8
gbk
unicode
国内用的比较多的是gbk格式, unicode是一个很好的编码方案,将世界各国的语言进行了统一的编码,美国人后来觉得自己吃了大亏,于是又搞了一种变长编码的 utf-8的折衷方案。
python 中字符串的默认编码是 unicode,在进行编码转换的时候,一般将 unicode作为中间编码,即将其他编码的字符串解码为 unicode,再将unicode 编码为某个编码格式, python中相应的函数为decode encode
python 中文编码问题中,主要涉及到两点:文件的编码格式和编码声明。
在代码中字符串的默认的编码格式与代码文件的格式是一致的。在 vim中书写代码的时候,可以通过 set fileencodings来进行设置,可以同时设置多个编码, vim会根据顺序来来对文件进行解码。在对字符串进行解码之前,应该确认代码文件的编码格式。
一般在文件的开始都会用下面的形式进行编码声明:
#!/usr/bin/env    python
# -*- coding : gbk - *-
即声明编码格式为gbk -*-是为了美观,可以去掉。 python解释器就会默认采用声明的编码进行解码。在实际编程过程中,编码声明和文件的编码格式最好一致,当二者出现不一致的时候,往往会出现问题,特别是采用不同的编辑器修改后的文件,编码往往存在着差异。
当输入的中文字符串存在 gbk编码和utf-8 编码均有可能时,可以通过 try-except进行嵌套处理,当在某一个编码下解码时没有触发 except的时候,即为该编码的编码格式。
在对十六进制的编码进行处理的时候,还会出现转义的问题。在读入编码 \xXX的过程中,X 代表十六进制字符, \x会被自动分解成\ xX X的单个字符来处理,此时 \已经被转义为\\,这样就完全偏离了初衷,就可以通过正则表达式就行替换处理。

原创粉丝点击