UTF-8 与 unicode
来源:互联网 发布:linux squid 正向代理 编辑:程序博客网 时间:2024/06/05 15:18
refer to: http://baike.baidu.com/link?url=BS8qNNfx60Fd-pTgYAJqsvzwn4wOmZpjQL5gyCbVeqqn6ck7YWSEaIY_SQrjeMP1wLZTEB6slFQPM2bRPBhG0q
如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE字符。 UTF-8转换表表示如下:
Unicode/UCS-4
bit数
UTF-8
byte数
备注
0000 ~
007F
0~7
0XXX XXXX
1
0080 ~
07FF
8~11
110X XXXX
10XX XXXX
2
0800 ~
FFFF
12~16
1110XXXX
10XX XXXX
10XX XXXX
3
基本定义范围:0~FFFF
1 0000 ~
1F FFFF
17~21
1111 0XXX
10XX XXXX
10XX XXXX
10XX XXXX
4
Unicode6.1定义范围:0~10 FFFF
20 0000 ~
3FF FFFF
22~26
1111 10XX
10XX XXXX
10XX XXXX
10XX XXXX
10XX XXXX
5
说明:此非unicode编码范围,属于UCS-4 编码
早期的规范UTF-8可以到达6字节序列,可以覆盖到31位元(通用字符集原来的极限)。尽管如此,2003年11月UTF-8 被 RFC 3629 重新规范,只能使用原来Unicode定义的区域, U+0000到U+10FFFF。根据规范,这些字节值将无法出现在合法 UTF-8序列中
400 0000 ~
7FFF FFFF
27~31
1111 110X
10XX XXXX
10XX XXXX
10XX XXXX
10XX XXXX
10XX XXXX
6
0 0
- Unicode 与 UTF-8
- utf-8与unicode
- utf-8 与unicode
- Unicode与UTF-8
- Unicode 与 UTF-8
- Unicode与UTF-8
- UTF-8 与 unicode
- utf-8与Unicode
- Unicode与UTF-8
- unicode与utf-8
- Unicode与UTF-8
- unicode 与 utf-8
- unicode与utf-8
- Unicode 与 UTF-8
- UTF-8 与 Unicode
- 关于Unicode, UTF-8与UTF-16
- Unicode与UTF-8/UTF-16
- Unicode与UTF-8学习
- 后缀中缀表达式
- java基础 内部类 简单总结
- 关于使用委托的线程备忘录
- iOS中AutoLayer自动布局流程及相关方法
- java参数传递
- UTF-8 与 unicode
- Android中Application类用法
- opengl变换
- AVCapture --- 扫描
- android textview省略号显示的方式
- [LeetCode-225] Implement Stack using Queues(两个队列实现栈)
- RecyclerView妙不可言
- iOS学习一些资料的整理
- asp.net mvc 中生成pdf格式的表格PdfTTable 并设置表格的样式