Unicode实现细节之code point

来源：互联网发布：杭州淘宝基地在哪里编辑：程序博客网时间：2024/04/29 22:47

在我的前面的一片博客"几个基本字符集整理介绍" 中，曾经概念性的介绍了几个常用的字符集，也提到了Unicode字符集其实有几种编码方式。

本文继续讨论Unicode的一些细节，对于实际编程工作更有帮助。

首先理解一个基本概念，code point(或许中文叫代码点). 可以参考wiki:http://en.wikipedia.org/wiki/Code_point

code point不同于point code, point code类似IP地址，用于标志网络结点的地址，参考文档：http://en.wikipedia.org/wiki/Point_code

code point是字符编码的术语。

ASCII字符集由于只使用7bit表示字符，因此有128个code point.

Extended ASCII字符集由于使用了8bit表示字符，因此有256个code point.

而最新版的Unicode 6.2则拥有0x0~0x10FFFF个code point. 总数可以达到1,114,112个，当然实际上目前只使用了110,182个来表示全世界所有语言字符。

所以，我个人认为code point就是不同字符集的用来表示字符的所有整数的范围，而且都是从0开始。

有了code point还不够，因为一个code point的整数如何编码，也就是bit怎么在内存中排列，是需要定义的。同时如何显示图形也是不同的。比如一个小写a就有各种图形显示方法。

可以参考：http://en.wikipedia.org/wiki/Glyph