对python字符编码操作的一些认识
来源:互联网 发布:linux文件目录 编辑:程序博客网 时间:2024/05/19 21:00
读了一篇对python中文字符编码讲解的很好的文章后(http://python.jobbole.com/80831/),又通过查看一些文章,对字符编码的问题有了一些新的认识。很多原来纠缠不清的概念能够理清楚了:
1、字符与字节是两个独立的概念。字符表示的是文本中的单个符号,一个字符不是一个字节。一个字符可以有多种字节表现形式。在python里,Unicode表示字符串,str表示字节串。比如‘汉’这个字符,是单个字符,但在str里却不是单个字节。所以,一个字符不是一个字节,str不是字符串而是字节串。
2、unicode表示字符编码值,不指定字符的具体表现形式,utf-8、utf-16指定unicode编码具体的存储、传输形式;gbk/gb2312/big5既指定了字符的编码值,又指定了编码的存储、传输形式(gbk/gb2312/big5编码形式:http://blog.minidx.com/2008/12/06/1689.html)。比如,同一个字符‘汉’,unicode编码是6C49,gbk编码是BABA(汉字编码查询:http://bm.kdd.cc/),要把gbk编码转换成utf8编码,就得先转成unicode编码值,再指定utf8编码形式。
3、utf8、gbk、gb2312、big5没有大小端之分,而utf16有。utf8是互联网中用的最多的编码格式。
另附一篇很好的解释编码的文章:http://www.cnblogs.com/cy163/archive/2007/05/31/766886.html
0 0
- 对python字符编码操作的一些认识
- 关于 python 字符编码的一些认识
- 对字符编码的一些理解
- python ascii编码 的一些操作
- 对Python的认识
- 对计算机编码的认识
- 对转义字符的认识
- python对文件夹的一些操作
- Python对Mongodb的一些简单操作
- python对文件,文件夹的一些操作
- python 字符编码 调用其他程序 的一些问题记录
- Python的字符编码
- 对一些外国人的认识
- 对自已的一些认识
- 对DataReader的一些认识
- 对存储的一些认识
- 对世界的一些认识
- 对编程的一些认识
- 回顾昨天
- PreferenceFragement再次详解
- Eclipse无法下载SDKpackage
- ORA-08002: sequence SEQ_PREPAY.CURRVAL is not yet defined in this session的原因
- ajax 跨域 jsonp 处理
- 对python字符编码操作的一些认识
- Python 50行代码实现代理服务器(加强版)
- Oracle 替代Sqlserver MASTER..SPT_VALUES 获取日期区间的所有日期 表结果集 (不积跬步,无以至千里)
- 免签名安装正版应用(蒲公英)
- cocos2d-x-3.3rc2 坐标转换和锚点
- Block Ack 基本原理
- 01-2. Maximum Subsequence Sum (25)
- Linux权限<转>
- 33333333333333333333333333