Unicode实现细节之code point

来源:互联网 发布:杭州淘宝基地在哪里 编辑:程序博客网 时间:2024/04/29 22:47
在我的前面的一片博客"几个基本字符集整理介绍" 中,曾经概念性的介绍了几个常用的字符集,也提到了Unicode字符集其实有几种编码方式。

本文继续讨论Unicode的一些细节,对于实际编程工作更有帮助。

首先理解一个基本概念,code point(或许中文叫代码点). 可以参考wiki:http://en.wikipedia.org/wiki/Code_point

code point不同于point code, point code类似IP地址,用于标志网络结点的地址,参考文档:http://en.wikipedia.org/wiki/Point_code

code point是字符编码的术语。

ASCII字符集由于只使用7bit表示字符,因此有128个code point.

Extended ASCII字符集由于使用了8bit表示字符,因此有256个code point.

而最新版的Unicode 6.2则拥有0x0~0x10FFFF个code point. 总数可以达到1,114,112个,当然实际上目前只使用了110,182个来表示全世界所有语言字符。

所以,我个人认为code point就是不同字符集的用来表示字符的所有整数的范围,而且都是从0开始。


有了code point还不够,因为一个code point的整数如何编码,也就是bit怎么在内存中排列,是需要定义的。同时如何显示图形也是不同的。比如一个小写a就有各种图形显示方法。



可以参考:http://en.wikipedia.org/wiki/Glyph



原创粉丝点击