Unicode实现细节之code point
来源:互联网 发布:杭州淘宝基地在哪里 编辑:程序博客网 时间:2024/04/29 22:47
在我的前面的一片博客"几个基本字符集整理介绍" 中,曾经概念性的介绍了几个常用的字符集,也提到了Unicode字符集其实有几种编码方式。
本文继续讨论Unicode的一些细节,对于实际编程工作更有帮助。
首先理解一个基本概念,code point(或许中文叫代码点). 可以参考wiki:http://en.wikipedia.org/wiki/Code_point
code point不同于point code, point code类似IP地址,用于标志网络结点的地址,参考文档:http://en.wikipedia.org/wiki/Point_code
code point是字符编码的术语。
ASCII字符集由于只使用7bit表示字符,因此有128个code point.
Extended ASCII字符集由于使用了8bit表示字符,因此有256个code point.
而最新版的Unicode 6.2则拥有0x0~0x10FFFF个code point. 总数可以达到1,114,112个,当然实际上目前只使用了110,182个来表示全世界所有语言字符。
所以,我个人认为code point就是不同字符集的用来表示字符的所有整数的范围,而且都是从0开始。
有了code point还不够,因为一个code point的整数如何编码,也就是bit怎么在内存中排列,是需要定义的。同时如何显示图形也是不同的。比如一个小写a就有各种图形显示方法。
可以参考:http://en.wikipedia.org/wiki/Glyph
- Unicode实现细节之code point
- code point
- unicode、UTF-8、UTF-16、UTF-32、code point、code unit、Byte Order Mark(BOM)
- 从string中将UTF-8编码解码成Unicode code point
- 码位(code position/point)Unicode 编码与 Python 2/3 编码兼容性问题
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- ConcurrentHashMap之实现细节
- 自定义拦截器
- Eclipse CDT+Qemu调试Linux 0.11内核
- 360以安全之名做搜索,可信,还是欺世盗名?
- 日期格式处理
- Python 设置系统默认编码
- Unicode实现细节之code point
- zoj 2750 Idiomatic Phrases Game 最短路
- chrome插件开发1:永远的helloworld
- vxWorks内核实现基本原理
- [ jQuery] 还是JQuery闭包!
- 一天时间用python写门语言
- LA 4239 树状数组
- exit的shellcode
- CF-25E - Test(KMP)