Unicode codespace

来源:互联网 发布:重复照片整理软件 编辑:程序博客网 时间:2024/06/13 23:12

所有Unicode的code points集合称为codespace. codespace被划分为17个planes(平面)。

0x0-0xFFFF 是第一个plane(plane 0),称为BMP. 包含了65536个code points,绝大多数字符都用这些code points表示。也包含了中文,日文和韩文字符,简称CJK.

详细的可以参考wiki:http://en.wikipedia.org/wiki/Plane_(Unicode)#Basic_Multilingual_Plane


第二个plane(plane 1) SMP, 用来包含一些古老的语言文字。

plane 2用来表示古老的象形文字。

plane3-13 暂时没有使用。

plane14 用于特殊目的,plane15-16用于私有区域。可以不用关心。

其实主要就是BMP, 特别是其中包含的CJK.


而所有BMP的字符都可以用UTF-16编码实现,也就是两个字节表示。当然也可以使用UTF-8, 用1-3字节表示。UTF-8可以最多使用4字节,不过BMP字符最多用到3字节。

这张图比较形象,这里就放在这里,方便参考:



下面一张图可以看到BMP中CJK的code points范围:http://zh.wikipedia.org/wiki/%E5%9F%BA%E6%9C%AC%E5%A4%9A%E6%96%87%E7%A8%AE%E5%B9%B3%E9%9D%A2#.E5.9F.BA.E6.9C.AC.E5.A4.9A.E6.96.87.E7.A7.8D.E5.B9.B3.E9.9D.A2



原创粉丝点击