从Unicode到UTF-8的编码
来源:互联网 发布:淘宝网男装毛衫 编辑:程序博客网 时间:2024/04/30 20:11
UTF-8
UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下:
Unicode编码(十六进制)
UTF-8 字节流(二进制)
000000 - 00007F
0xxxxxxx
000080 - 0007FF
110xxxxx 10xxxxxx
000800 - 00FFFF
1110xxxx 10xxxxxx 10xxxxxx
010000 - 10FFFF
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符,UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。从上表可以看出,4字节模板有21个x,即可以容纳21位二进制数字。Unicode的最大码位0x10FFFF也只有21位。
例1:“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间,使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是:0110 1100 0100 1001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
例2:Unicode编码0x20C30在0x010000-0x10FFFF之间,使用用4字节模板了:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。将0x20C30写成21位二进制数字(不足21位就在前面补0):0 0010 0000 1100 0011 0000,用这个比特流依次代替模板中的x,得到:11110000 10100000 10110000 10110000,即F0 A0 B0 B0。
0 0
- 从Unicode到UTF-8的编码
- UTF-8到Unicode的编码转换
- UTF-8到Unicode的编码转换
- UTF-8到Unicode的编码转换
- UTF-8到Unicode的编码转换(转贴)
- Qt 编码中的某一字从 UTF-8 转换到 UNICODE 国际化时可能用到
- 关于编码、unicode、utf-8的讨论
- Unicode,UTF-8,GB2312编码的识别
- 关于编码、unicode、utf-8的讨论
- Unicode,UTF-8,GB2312编码的识别
- 关于编码、unicode、utf-8的讨论
- Unicode,UTF-8,GB2312编码的识别
- 字符编码的奥秘utf-8, Unicode
- UNICODE, GBK, UTF-8编码的转换
- 有趣的Unicode、UTF-8编码起源
- 从ASCII、ISO-8859、GB2312、GBK到Unicode的UCS-2、UCS-4、UTF-8、UTF-16、UTF-32
- UNICODE(UTF-16)与UTF-8编码的相互转换
- 字符编码(UNICODE,UTF-8,UTF-16)的理解
- Linux 安装wps 及出现问题解决
- 约瑟夫环问题
- 安装PIG
- 梁静茹罗琦同天产子
- 递归(一)
- 从Unicode到UTF-8的编码
- 再识MinGW和MSYS(二)
- C column of Pointer <2>
- ibatis动态查询条件
- Objective-C ,ios,iphone开发基础:JSON解析(使用苹果官方提供的JSON库:NSJSONSerialization)
- GEM5简介
- 回车与换行的区别
- 权力游戏“紫婚”毁誉参半 童话镇入佳境
- SPOJ 220 . Relevant Phrases of Annihilation(后缀数组)