Unicode 和 UTF-8 的简单说明
来源:互联网 发布:音频软件哪个好 编辑:程序博客网 时间:2024/06/09 08:38
简单来说:
Unicode 是「字符集」
UTF-8 是「编码规则」
其中:
字符集:为每一个「字符」分配一个唯一的 ID(学名为码位 / 码点 / Code Point)
编码规则:将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程)
Unicode相当于仓库,里面的货物是字符,UTF-8是货车,装载的是字符。
UTF-8编码方式:
1. 单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;
2. n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n个字节的其余空位填充该字符unicode码,高位用0补足。
这样就形成了如下的UTF-8标记位:
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
… …
“DBCS“(Double Byte Charecter Set 双字节字符集)。在DBCS系列标准里,最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里,因此他们写的程序为了支持中文处理,必须要注意字串里的每一个字节的值,如果这个值是大于127的,那么就认为一个双字节字符集里的字符出现了。
以上信息由https://www.zhihu.com/question/23374078剪辑,想要了解详细信息,请查看。
此文档会不断更新完善。若用错误,感谢指点。
- Unicode 和 UTF-8 的简单说明
- 简单的理解unicode和utf-8的关系
- 简单几句话总结Unicode,UTF-8和UTF-16
- 简单几句话总结Unicode,UTF-8和UTF-16
- UTF-8和Unicode
- unicode 和 UTF-8
- Unicode 和 UTF-8
- Unicode和utf-8
- unicode和utf-8
- Unicode和UTF-8
- Unicode 和 UTF-8
- Unicode和UTF-8
- Unicode和UTF-8
- utf-8和unicode
- UTF-8和unicode
- Unicode 和 UTF-8
- Unicode和Utf-8
- utf-8 和 unicode
- 实现无刷新分页:后台数据查询
- Curator工具类之TestingServer。
- java中获取项目路径(../../的用法)
- tensorflow安装
- this is a test!
- Unicode 和 UTF-8 的简单说明
- “系统资源不足,无法满足请求服务“ ,而内存够大,解决办法
- axios 官方文档使用实例
- Android底部导航之-BottomNavigationBar的使用
- 突发奇想的想重新开始写博客
- Linux命令 笔记
- 数据结构实验之查找六:顺序查找
- PHP笔记
- 数据结构实验之查找五:平方之哈希表