utf-8里现在已经用到的字符最大编码是多少
来源:互联网 发布:搜索淘宝网 编辑:程序博客网 时间:2024/04/29 15:30
,UTF-8编码支持的最大字符编码应该是Unicode支持的最大字符编码。
理论上,UTF-8编码可以支持最大6字节:
00000000-0000007F 0xxxxxxx
00000080-000007FF 110yyyxx 10xxxxxx
00000800-0000FFFF 1110yyyy 10yyyyxx 10xxxxxx
00010000-001FFFFF 11110zzz 10zzyyyy 10yyyyxx 10xxxxxx
00020000-03FFFFFF 111110aa 10zzzzzz 10zzyyyy 10yyyyxx 10xxxxxx
04000000-7FFFFFFF 1111110a 10aaaaaa 10zzzzzz 10zzyyyy 10yyyyxx 10xxxxxx
UCS4最多可以表示2^32个字符,但UTF-8最多只能表示2^31个字符,现实当中,Unicode规范根本就还没有规定这么多字符,目前最多也就规定到Plane 16,最多1114111个字符,所以网上关于UTF-8编码,大多截止到4字节:
00000000-0000007F 0xxxxxxx
00000080-000007FF 110yyyxx 10xxxxxx
00000800-0000FFFF 1110yyyy 10yyyyxx 10xxxxxx
00010000-0010FFFF 11110zzz 10zzyyyy 10yyyyxx 10xxxxxx
Unicode规范规定,10FFFE和10FFFF作为内部保留,所以Plane 16支持的最大字符编码是:10FFFD
转换成UTF-8编码是:F48FBFBD
但是,到底这个字符能否正常显示出来,还要看你系统里装的字体到底支持多少字符。
所以,“utf-8里现在已经用到的字符最大编码是多少”这个问题的答案依赖于Unicode规范的版本、具体字体字库的支持。
理论上,UTF-8编码可以支持最大6字节:
00000000-0000007F 0xxxxxxx
00000080-000007FF 110yyyxx 10xxxxxx
00000800-0000FFFF 1110yyyy 10yyyyxx 10xxxxxx
00010000-001FFFFF 11110zzz 10zzyyyy 10yyyyxx 10xxxxxx
00020000-03FFFFFF 111110aa 10zzzzzz 10zzyyyy 10yyyyxx 10xxxxxx
04000000-7FFFFFFF 1111110a 10aaaaaa 10zzzzzz 10zzyyyy 10yyyyxx 10xxxxxx
UCS4最多可以表示2^32个字符,但UTF-8最多只能表示2^31个字符,现实当中,Unicode规范根本就还没有规定这么多字符,目前最多也就规定到Plane 16,最多1114111个字符,所以网上关于UTF-8编码,大多截止到4字节:
00000000-0000007F 0xxxxxxx
00000080-000007FF 110yyyxx 10xxxxxx
00000800-0000FFFF 1110yyyy 10yyyyxx 10xxxxxx
00010000-0010FFFF 11110zzz 10zzyyyy 10yyyyxx 10xxxxxx
Unicode规范规定,10FFFE和10FFFF作为内部保留,所以Plane 16支持的最大字符编码是:10FFFD
转换成UTF-8编码是:F48FBFBD
但是,到底这个字符能否正常显示出来,还要看你系统里装的字体到底支持多少字符。
所以,“utf-8里现在已经用到的字符最大编码是多少”这个问题的答案依赖于Unicode规范的版本、具体字体字库的支持。
0 0
- utf-8里现在已经用到的字符最大编码是多少
- 在java类里转换字符编码为UTF-8
- utf-8和gb2312的字符编码
- 字符编码的奥秘utf-8, Unicode
- 字符编码(UNICODE,UTF-8,UTF-16)的理解
- 编码UTF-8 的不可映射字符 /非法字符
- utf-8编码已经成为主流
- 字符编码之UTF-8
- 字符编码GBK,UTF-8
- 字符编码, Unicode, UTF-8
- 字符编码的概念(UTF-8、UTF-16、UTF-32都是什么鬼)
- 在2048里能够得到的最大的数是多少?
- 在2048里能够得到的最大的数是多少?
- 字符编码 Unicode UTF-8 UTF-16 UTF-32 ANSI
- 警告:编码 UTF-8 的不可映射字符 的解决方案
- utf-8和unicode的区别:字符编码的辨析
- 警告:编码 UTF-8 的不可映射字符 的解决方案
- 字符编码的故事(ASCII,ANSI,Unicode,Utf-8)
- 散播日光灯
- 牧尘见状,眉头微微皱了一下
- 增强版的for循环语句之我见
- しかしながら
- 30个有关Python的小技巧
- utf-8里现在已经用到的字符最大编码是多少
- 【Bootstrap3.0建站笔记一】表单元素排版
- C 栈(顺序栈 链栈)
- postgresql触发器使用实例
- Python基础-__name和__file__和argv[0]
- Anders Hejlsberg谈C#、Java和C++中的泛型
- codeforces#253 D - Andrey and Problem里的数学知识
- 两名同行疑揭露黄奕老公打老婆丑闻
- 使用Spring MVC HandlerExceptionResolver处理异常