编码详解
来源:互联网 发布:手机淘宝在线客服 编辑:程序博客网 时间:2024/06/05 18:05
Unicode编码只是规定如何编码, 例如"汉"字的Unicode编码是6C49, 那么如何把"汉"字保存到文件中, 你可以直接把6C49的数值保存, 你也可以吧6C49这4个字符来保存, 也就是说需要一种保存格式(一种格式协议). UTF-8, UTF-7, UTF-16就是被广泛接受的保存格式.
1,Unicode到底是什么?
可以将Unicode编码理解为国际唯一标准编码,中间编码,最底层的编码,它强大到可以编码这世界上所有的语言的所有文字。可以将它形象的比喻为中间人。unicode普遍是用十六进制表示\u,也可以用十进制,二进制表示。
说了一大堆,其实,就是二进制码,双字节表示的二进制码。
2,神马utf-8和gbk到底是什么?
---UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。神马gbk,utf-8都是区域性编码(美国人制定的编码,国际性编码),他们都是由Unicode编码封装而成(再次编码)。
---UTF8是为传送unicode而想出来的“再编码”方法罢了,url传输以及其它传输中用的编码都是utf8编码。gbk则是为了汉字而制定的编码(中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,一个应该淘汰的编码)。
---下面, 还是以汉字"严"为例, 演示如何实现unicode转换为UTF-8编码?
已知"严"的unicode是4E25(1001110 00100101), 根据上表, 可以发现4E25处在第三行的范围内(0000 0800 - 0000 FFFF), 因此"严"的UTF-8编码需要三个字节, 即格式是
"1110xxxx 10xxxxxx 10xxxxxx". 然后, 从"严"的最后一个二进制位开始, 依次从后向前填入格式中的x, 多出的位补0. 这样就得到了, "严"的UTF-8编码是 "11100100 10111000
10100101", 转换成十六进制就是E4B8A5.
3,utf-8和Unicode关系?
中间人关系,Unicode是中间人(原始编码),utf-8和gbk是客户。例如,gbk转换为utf8,就需要先将gbk转换为Unicode,然后再编码为utf8编码。
- 编码详解
- 编码详解
- 编码详解
- 编码详解
- 编码详解
- 编码详解
- 编码技术详解
- 编码问题详解
- Java编码问题详解
- 霍夫曼编码详解
- 常用编码详解
- 常用编码详解
- 常用编码详解
- 常用编码详解
- 常用编码详解
- CAVLC编码过程详解
- 字符编码详解
- Java编码详解
- C#异步编程之浅谈Task
- 【Scikit-Learn 中文文档】模型评估: 量化预测的质量
- vue下拉加载插件 之vue-infinite-loading
- c++公有虚函数与非公有虚函数探究
- Linux网卡命名enp3s0说明
- 编码详解
- 自定义Activity模板
- 数据库-约束
- Mqtt精髓系列之安全
- shiro的注解
- Set
- 正则表达式扒取豆瓣定影排行
- 职责链模式(java实现)
- leetcode解题方案--059--Spiral Matrix II