关于字符编解码

来源:互联网 发布:荣耀路由pro 网络打印 编辑:程序博客网 时间:2024/05/22 04:32

关于字符编解码的内容,阮一峰大神的这篇文章已经讲得很清楚了:
http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
本文略作一点提炼,算是个读书笔记吧。

所谓字符编解码,就是定义一个或多个byte所对应的字符。比如,4E25表示汉字”严”,这是用了unicode编码方式;如果换一种解码方式来解释,它可能就表示某个国家的某个文字。

关于什么是编码、什么是解码,理解下面两句话就完全明白了:

对字符串(str),  只存在encoding(编码),即将此字符串转换成一个字节组;对字节组(bytes),只存在decoding(解码),即将此字节组解释成一个字符串。

至于Unicode和UTF-8之间的关系,一言以蔽之:

Unicode代表的是一种编解码方式,它基本建立了从字节(组)到世界各个国家的常用字符的对应关系。UTF-8是unicode的实现形式(存储方式)之一,采用变长的存储方式,节省空间。
1 0