python中文编码问题

来源：互联网发布：怎样查看淘宝店铺等级编辑：程序博客网时间：2024/04/29 19:09

在python 中对中文进行处理的时候，往往涉及到编码转换的问题，通常使用以下三种编码格式：

utf-8

gbk

unicode

国内用的比较多的是gbk格式， unicode是一个很好的编码方案，将世界各国的语言进行了统一的编码，美国人后来觉得自己吃了大亏，于是又搞了一种变长编码的 utf-8的折衷方案。

在python 中字符串的默认编码是 unicode，在进行编码转换的时候，一般将 unicode作为中间编码，即将其他编码的字符串解码为 unicode，再将unicode 编码为某个编码格式， python中相应的函数为decode和 encode。

在python 中文编码问题中，主要涉及到两点：文件的编码格式和编码声明。

在代码中字符串的默认的编码格式与代码文件的格式是一致的。在 vim中书写代码的时候，可以通过 set fileencodings来进行设置，可以同时设置多个编码， vim会根据顺序来来对文件进行解码。在对字符串进行解码之前，应该确认代码文件的编码格式。

一般在文件的开始都会用下面的形式进行编码声明：

#!/usr/bin/env python

# -*- coding : gbk - *-

即声明编码格式为gbk， -*-是为了美观，可以去掉。 python解释器就会默认采用声明的编码进行解码。在实际编程过程中，编码声明和文件的编码格式最好一致，当二者出现不一致的时候，往往会出现问题，特别是采用不同的编辑器修改后的文件，编码往往存在着差异。

当输入的中文字符串存在 gbk编码和utf-8 编码均有可能时，可以通过 try-except进行嵌套处理，当在某一个编码下解码时没有触发 except的时候，即为该编码的编码格式。

在对十六进制的编码进行处理的时候，还会出现转义的问题。在读入编码 \xXX的过程中，X 代表十六进制字符， \x会被自动分解成\、 x、X 和X的单个字符来处理，此时 \已经被转义为\\，这样就完全偏离了初衷，就可以通过正则表达式就行替换处理。