Python笔记——（一）文本编码

来源：互联网发布：淘宝刷単软件编辑：程序博客网时间：2024/06/06 02:01

写在前面：最近开始学习机器学习，听说机器学习核心是数学原理，但是代码是实现原理的途径，有的东西也很繁琐，所以准备写一些学习的笔记，方便查阅。代码大多基于Python 2.7版本。

（一）Python文本编码

Python默认的源代码文件是ASCII编码，如果代码中有中文字符串，则会报错，解决方法是：指定编码。如下：

# coding = UTF-8

可以选择将这句代码放在代码第一行。

收录字符数：GB2312<GBK<GB18030

Unicode只与ASCII兼容，与GB不兼容，字符编码方法Unicode是由UTF规范规定的，常见的UTF规范包括UTF-8、UTF-7，UTF-16。UTF-8是以8位为单位对UCS进行编码（UCS是Unicode的学名的简称，或说缩写）。

unicode转为gb2312、utf-8等，用encode（encoding），encoding表示编码方式（注意单引号的使用）：

# coding = UTF-8a=u'中国'b=a.encode('gb2312')

则将a转化为了gb2312编码并赋给了b。

utf-8，GBK转换为Unicode，用unicode（s,encoding）或者s.decode（encoding）：

# coding = UTF-8a=u'中国'a_utf8=a.encode('UTF-8')    #此时a为Unicode编码，先将Unicode编码转换为utf-8编码a_u=a_utf8.decode('utf-8')   #utf-8编码转unicode编码

通过Unicode编码找出对应中文形式，比如一个Unicode编码为 '\u60a8'，查看方法为：

>>> su'\u60a8'>>> print s您

反之，知道了中文形式，也可得知Unicode编码：

>>> s=u"您好">>> s'u'\u4f60\u497d''

注：url编码和utf-8编码有相似之处，“您好”的url编码为 %E6%82%A8%E5%A5%BD,而utf-8编码就是‘\xe6\x82\xa8\xe5\xa5\xbd’。

阅读全文

0 0