Unicode编码相关的一个标准----UTF8
来源:互联网 发布:mac手机地址怎么查 编辑:程序博客网 时间:2024/05/19 21:19
Unicode给每一个字符分配一个唯一的值,称为码点,但并不指定如何用这些值来表示原始文本。码点的形式为U+nnnn,其中nnnn指的是这个码点的十六进制值。Unicode目前支持超过100 000个字符。
UTF-8是一个Unicode相关的标准,是一种使用码点来代表原始文本的简便方法。尽管有许多表示Unicode的方法,但是UTF8具有很大优势,它向后兼容ASCII编码。UTF-8用1-4个字节来表示一个码点。每个出现ASCII字符集中的字符都被编码为一个字节,与对应的ASCII编码值是一样的。
UTF8的编码方式很直观,下面是其编码规则:
(1)如果最高有效位是0,那么这个字节的形式为0xxxxxxx,编码长度为1个字节。这个字节代表了码点,由后7位表示,它同时也代表了具有相同7位ASCII值的那个字符。
(2)如果第一个字节的最高有效位是1,那么其编码长度为2-4个字节,接下来的字节位就指示了用一元编码的长度。
A:两字节的编码的第一个字节形式为110xxxxx
B:三字节的编码的第一个字节形式为1110xxxx
C:四字节的编码的第一个字节形式为11110xxx
一个多字节编码的第二个及其后字节的形式都为10xxxxxx。通过检测任意字节的两个最高有效位,可以判断该字节是否为一个编码的起始字节。
(3)因为首字节的最高有效位被占用了,所以2-4字节编码的码点值由后面未被占用的位来决定。两字节的编码能力表示范围 U+0080 -- U+07FF内的码点。三字节的编码能表示范围U+0800 -- U+FFFF内的码点,四字节的编码能表示U+10000及以上范围内的码点。
- Unicode编码相关的一个标准----UTF8
- utf8编码转化为unicode的一个精彩函数
- Ansi,UTF8,Unicode,ASCII编码的区别
- Ansi,UTF8,Unicode,ASCII编码的区别
- Ansi,UTF8,Unicode,ASCII编码的区别
- unicode和utf8编码的互相转换
- Ansi,UTF8,Unicode,ASCII编码的区别
- Ansi,UTF8,Unicode,ASCII编码的区别
- Ansi,UTF8,Unicode,ASCII编码的区别
- Ansi,UTF8,Unicode,ASCII编码的区别
- Ansi,UTF8,Unicode,ASCII编码的区别
- Unicode utf8等编码类型的原理
- Ansi,UTF8,Unicode,ASCII编码的区别
- Ansi,UTF8,Unicode,ASCII编码的区别
- Unicode utf8等编码类型的原理
- Ansi,UTF8,Unicode,ASCII编码的区别
- utf8和unicode编码的关系
- Ansi,UTF8,Unicode,ASCII编码的区别
- 包含tab控件时,,如何让子控件跟随对话框大小变化(下)
- mingw命令行编译示例
- 家乡的小河
- HDU 4293 Groups(12年成都网络赛-F题-DP)
- 编程技能和做员工的技能——哪个更重要?
- Unicode编码相关的一个标准----UTF8
- hibernate lazy(延迟加载) 的使用
- paip.SOCKET抓包工具总结V2012.9.17
- 奢望
- getOutputStream() has already been called for this response] with root cause
- 创建和发布Web Service
- ImageView的缩放模式
- HttpSessionBindingListener接口介绍
- Android Sqlite数据库中Sqlite3命令的使用