UTF-8 字节数,及首字节的对应关系

来源:互联网 发布:深圳it外包公司 编辑:程序博客网 时间:2024/04/30 19:57


  UTF-8 是 UNICODE的一种实现方式,要判断某个字符是几个字节,只需要看它的第一个字节即可。

在二进制上,很容易就能发现,只要首个字节对应二进制上的前面数字,有几个连续的1(单字节编码除外),就代表是几个字节,这点跟IP分类很像。



首字节二进制占字节数备注0-1270XXXXXXX1ASCII192-223110XXXXX2 224-2391110XXXX3 240-24711110XXX4 248-251111110XX5 252-2531111110X6 



  除了首字节外的其他字节编码范围为:128-191(10XXXXXX) 
0 0