编码详解

来源:互联网 发布:手机淘宝在线客服 编辑:程序博客网 时间:2024/06/05 18:05

Unicode编码只是规定如何编码, 例如"汉"字的Unicode编码是6C49, 那么如何把"汉"字保存到文件中, 你可以直接把6C49的数值保存, 你也可以吧6C49这4个字符来保存, 也就是说需要一种保存格式(一种格式协议). UTF-8, UTF-7, UTF-16就是被广泛接受的保存格式.


编码之------Unicode到底是什么?神马utf-8和gbk到底是什么?utf-8和Unicode关系?

1,Unicode到底是什么?

可以将Unicode编码理解为国际唯一标准编码,中间编码,最底层的编码,它强大到可以编码这世界上所有的语言的所有文字。可以将它形象的比喻为中间人。unicode普遍是用十六进制表示\u,也可以用十进制,二进制表示

说了一大堆,其实,就是二进制码,双字节表示的二进制码。

2,神马utf-8和gbk到底是什么?

---UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。神马gbk,utf-8都是区域性编码(美国人制定的编码,国际性编码),他们都是由Unicode编码封装而成(再次编码)。

---UTF8是为传送unicode而想出来的“再编码”方法罢了,url传输以及其它传输中用的编码都是utf8编码。gbk则是为了汉字而制定的编码(中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,一个应该淘汰的编码)。

---下面, 还是以汉字""为例, 演示如何实现unicode转换为UTF-8编码
已知""的unicode是4E25(1001110 00100101), 根据上表, 可以发现4E25处在第三行的范围内(0000 0800 - 0000 FFFF), 因此""的UTF-8编码需要三个字节, 即格式是
"1110xxxx 10xxxxxx 10xxxxxx". 然后, 从""的最后一个二进制位开始, 依次从后向前填入格式中的x, 多出的位补0. 这样就得到了, ""的UTF-8编码是 "11100100 10111000
10100101", 转换成十六进制就是E4B8A5.

 

3,utf-8和Unicode关系?

中间人关系,Unicode是中间人(原始编码),utf-8和gbk是客户。例如,gbk转换为utf8,就需要先将gbk转换为Unicode,然后再编码为utf8编码。



原创粉丝点击