ASCII, GB2312, Unicode , UTF-8详解

来源:互联网 发布:人工智能板块股票龙头 编辑:程序博客网 时间:2024/05/29 02:24
ASCII 是一种字符集,包括大小写的英文字母、数字、控制字符等,它用一个字节表示,范围是 0-127

由于 ASCII 表示的字符非常有限,各个国家或者地区在此基础上提出了自己的字符集,比如在中国应用非常广泛的 GB2312,它为汉字提供了编码,用两个字节表示。

这些字符集之间互不兼容,相同的数字可能表示不同的字符,为信息交流带来了麻烦。

Unicode 是一种字符集,它将世界上的所有字符映射成一个唯一的数字(code point),比如字母 a 对应的数字 0x0041。目前 Unicode 还处于发展中,它所包容的字符越来越多。

在将 Unicode 表示的字符进行存储时,还需要一定的编码方式,比如 UCS-2,它用两个字节来表示 Unicode 编码的字符。而 UTF-8 是 Unicode 字符集的另外一种编码方式,它是变长度的,最多 6 个字节,小于 127 的字符用一个字节表示,与 ASCII 字符集的结果一样,因而具有非常好的兼容性,ASCII 编码下的英语文本不需要修改就可以当作 UTF-8 编码进行处理,应用非常广泛。

Python 从 2.2 开始支持 Unicode ,函数 decode( char_set )可以实现 其它编码到 Unicode 的转换,函数 encode( char_set )可以实现 Unicode 到其它编码方式的转换,这里所讲的 Unicode String 是指 UCS-2 或者 UCS-4 编码的 Code Points。

比如 ("你好").decode( "GB2312") 将得到 u'/u4f60/u597d',即 "你"和“好"的 Unicode 码分别是 0x4f60 和 0x597d
再用 (u'/u4f60/u597d').encode("UTF-8") 将得到 '/xe4/xbd/xa0/xe5/xa5/xbd',它是  “你好”的UTF-8编码结果。

参考资料:
The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) (Joel Spolsky)

Unicode for Programmers (includes Unicode in Python) (Jason Orendorff)

Python Unicode Objects (Fredrik Lundh)

Python Unicode Tutorial (ReportLab)

End to End Unicode Web Applications in Python (Martin Doudoroff)

Unicode in Python (Thijs van der Vossen)

Unicode 官方网站 http://www.unicode.org/

Unicode 的中文介绍

GB2312字符集

UCS 和 UTF 的介绍