Python笔记——(一)文本编码

来源:互联网 发布:淘宝刷単软件 编辑:程序博客网 时间:2024/06/06 02:01

写在前面:最近开始学习机器学习,听说机器学习核心是数学原理,但是代码是实现原理的途径,有的东西也很繁琐,所以准备写一些学习的笔记,方便查阅。代码大多基于Python 2.7版本。

(一)Python文本编码

Python默认的源代码文件是ASCII编码,如果代码中有中文字符串,则会报错,解决方法是:指定编码。如下:

# coding = UTF-8

可以选择将这句代码放在代码第一行。

1.GB系列中文编码

收录字符数:GB2312<GBK<GB18030

2.Unicode和UTF-8

Unicode只与ASCII兼容,与GB不兼容,字符编码方法Unicode是由UTF规范规定的,常见的UTF规范包括UTF-8、UTF-7,UTF-16。UTF-8是以8位为单位对UCS进行编码(UCS是Unicode的学名的简称,或说缩写)。

3.编码转换

unicode转为gb2312、utf-8等,用encode(encoding),encoding表示编码方式(注意单引号的使用)

# coding = UTF-8a=u'中国'b=a.encode('gb2312')

则将a转化为了gb2312编码并赋给了b。

utf-8,GBK转换为Unicode,用unicode(s,encoding)或者s.decode(encoding):

# coding = UTF-8a=u'中国'a_utf8=a.encode('UTF-8')    #此时a为Unicode编码,先将Unicode编码转换为utf-8编码a_u=a_utf8.decode('utf-8')   #utf-8编码转unicode编码

4.小技巧

通过Unicode编码找出对应中文形式,比如一个Unicode编码为 '\u60a8',查看方法为:

>>> su'\u60a8'>>> print s您

反之,知道了中文形式,也可得知Unicode编码:

>>> s=u"您好">>> s'u'\u4f60\u497d''

注:url编码和utf-8编码有相似之处,“您好”的url编码为 %E6%82%A8%E5%A5%BD,而utf-8编码就是‘\xe6\x82\xa8\xe5\xa5\xbd’。