Python笔记——(一)文本编码
来源:互联网 发布:淘宝刷単软件 编辑:程序博客网 时间:2024/06/06 02:01
写在前面:最近开始学习机器学习,听说机器学习核心是数学原理,但是代码是实现原理的途径,有的东西也很繁琐,所以准备写一些学习的笔记,方便查阅。代码大多基于Python 2.7版本。
(一)Python文本编码
Python默认的源代码文件是ASCII编码,如果代码中有中文字符串,则会报错,解决方法是:指定编码。如下:
# coding = UTF-8
可以选择将这句代码放在代码第一行。
1.GB系列中文编码
收录字符数:GB2312<GBK<GB18030
2.Unicode和UTF-8
Unicode只与ASCII兼容,与GB不兼容,字符编码方法Unicode是由UTF规范规定的,常见的UTF规范包括UTF-8、UTF-7,UTF-16。UTF-8是以8位为单位对UCS进行编码(UCS是Unicode的学名的简称,或说缩写)。
3.编码转换
unicode转为gb2312、utf-8等,用encode(encoding),encoding表示编码方式(注意单引号的使用):
# coding = UTF-8a=u'中国'b=a.encode('gb2312')
则将a转化为了gb2312编码并赋给了b。
utf-8,GBK转换为Unicode,用unicode(s,encoding)或者s.decode(encoding):
# coding = UTF-8a=u'中国'a_utf8=a.encode('UTF-8') #此时a为Unicode编码,先将Unicode编码转换为utf-8编码a_u=a_utf8.decode('utf-8') #utf-8编码转unicode编码
4.小技巧
通过Unicode编码找出对应中文形式,比如一个Unicode编码为 '\u60a8',查看方法为:
>>> su'\u60a8'>>> print s您
反之,知道了中文形式,也可得知Unicode编码:
>>> s=u"您好">>> s'u'\u4f60\u497d''
注:url编码和utf-8编码有相似之处,“您好”的url编码为 %E6%82%A8%E5%A5%BD,而utf-8编码就是‘\xe6\x82\xa8\xe5\xa5\xbd’。
阅读全文
0 0
- Python笔记——(一)文本编码
- python学习笔记一(python 编码)
- Python编码(一)
- Linux学习笔记(一)——文本编辑器vi
- 文本挖掘学习笔记(一)—布尔检索
- python cookbook(一) 文本
- Python中的文本(一)
- 使用模板加快编码效率(一)——txt文本
- 编码规范(一)之文本标记
- Python学习笔记 --- 对文本编码进行转换方法2
- Python学习笔记—字符串和编码
- Python笔记——(一)
- Python笔记(一)——C/C++调用python
- [Python]python学习笔记(一)——语法
- python 学习笔记——python 装饰器(一)
- Python学习笔记(一)——Python初体验
- Python学习笔记(一)——Python基础
- python学习笔记(一)——python语言基础
- 递归之整数的划分问题
- IP协议协议--IP头部信息
- 计算机的启动
- UML基础知识
- springboot quartz 多任务整合
- Python笔记——(一)文本编码
- ID3—决策树算法
- 使用navicat的SSH隧道连接数据库
- C++工厂模式汇总
- jvm
- 03-常用对象API(String类-常见功能-获取_1) 1 2 3 05-常用对象API(String类-常见功能-转换)1 2 3 4
- Dubbo基于注解方式的配置
- deepmind_lab msys2-x86_64-20161025的下载----安装相关的东西
- KVC 底层原理