UTF-8 与 unicode

来源：互联网发布：linux squid 正向代理编辑：程序博客网时间：2024/06/05 15:18

refer to: http://baike.baidu.com/link?url=BS8qNNfx60Fd-pTgYAJqsvzwn4wOmZpjQL5gyCbVeqqn6ck7YWSEaIY_SQrjeMP1wLZTEB6slFQPM2bRPBhG0q

如果UNICODE字符由2个字节表示，则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示，则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了，但很少会遇到那样的UNICODE字符。 UTF-8转换表表示如下：

Unicode/UCS-4

bit数

UTF-8

byte数

备注

0000 ~

007F

0~7

0XXX XXXX

0080 ~

07FF

8~11

110X XXXX

10XX XXXX

0800 ~

FFFF

12~16

1110XXXX

10XX XXXX

基本定义范围：0~FFFF

1 0000 ~

1F FFFF

17~21

1111 0XXX

10XX XXXX

Unicode6.1定义范围：0~10 FFFF

20 0000 ~

3FF FFFF

22~26

1111 10XX

10XX XXXX

说明：此非unicode编码范围，属于UCS-4 编码

早期的规范UTF-8可以到达6字节序列，可以覆盖到31位元（通用字符集原来的极限）。尽管如此，2003年11月UTF-8 被 RFC 3629 重新规范，只能使用原来Unicode定义的区域， U+0000到U+10FFFF。根据规范，这些字节值将无法出现在合法 UTF-8序列中

400 0000 ~

7FFF FFFF

27~31

1111 110X

10XX XXXX

0 0