互联网开发常识谱--字符编码

来源：互联网发布：网络贷款案例编辑：程序博客网时间：2024/05/22 17:13

字符，字符集，字符编码

什么是字符

字符是一个信息单位，在计算机里面，一个中文汉字是一个字符，一个英文字母是一个字符，一个阿拉伯数字是一个字符，一个标点符号也是一个字符。

什么是字符集

字符集是字符组成的集合，通常以二维表的形式存在，二维表的内容和大小是由使用者的语言而定，是英语，是汉语，还是阿拉伯语。字符集就规定了某个文字对应的二进制数字存放方式（编码）和某串二进制数值代表了哪个文字（解码）的转换关系。

什么是字符编码

字符编码是把字符集中的字符编码为特定的二进制数，以便在计算机中存储。对于一个字符集来说要正确编码转码一个字符需要三个关键元素：字库表（character repertoire）、编码字符集（coded character set）、字符编码（character encoding form）。其中字库表是一个相当于所有可读或者可显示字符的数据库，字库表决定了整个字符集能够展现表示的所有字符的范围。编码方式一般就是对二维表的横纵坐标进行变换的算法。编码字符集，即用一个编码值code point来表示一个字符在字库中的位置。字符编码，将编码字符集和实际存储数值之间的转换关系。一般来说都会直接将code point的值作为编码后的值直接存储。例如在ASCII中A在表中排第65位，而编码后A的数值是0100 0001也即十进制的65的二进制转换结果。一般都比较简单，直接把横纵坐标拼一起就完事了。后来随着字符集的不断扩大，为了节省存储空间，才出现了各种各样的算法。

字符集和字符编码一般都是成对出现的，如ASCII、IOS-8859-1、GB2312、GBK，都是即表示了字符集又表示了对应的字符编码，以后统称为编码。Unicode比较特殊，后面细说。

字符集的发展

单字节
美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码（American Standard Code for Information Interchange），一直沿用至今。ASCII码一共规定了128个字符的编码，比如空格”SPACE”是32（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的1位统一规定为0。

当计算机传到了欧洲，国际标准化组织在ASCII的基础上进行了扩展，形成了ISO-8859标准，兼容ASCII，在高128个码位上有所区别。但是由于欧洲的语言环境十分复杂，所以根据各地区的语言又形成了很多子标准，ISO-8859-1、ISO-8859-2、ISO-8859-3、……、ISO-8859-16。

双字节
单字节改双字节，16位二进制数，65536个码位。在不同国家和地区又出现了很多编码，大陆的GB2312、港台的BIG5、日本的Shift JIS等等。GBK是GB2312的扩展（K是拼音KuoZhan的缩写）。

Unicode
Unicode，是一种所有符号的编码，可以容纳100多万个符号。每个符号的编码都不一样，比如，U+0639表示阿拉伯字母Ain，U+0041表示英语的大写字母A，U+4E25表示汉字”严”。汉字编码范围U+4E00-U+9FCB。正则表达式/[\u4e00-\u9fcb]+/。

字符编码历史

字符编码历史 ASCII 1963 GB2312 1980 Unicode 1991 ISO-8859-1 1998 GBK 1993 UTF-8 1993 UTF-16 2000

UTF-8和Unicode的关系

Unicode是编码字符集，而UTF-8就是字符编码，即Unicode规则字库的一种实现形式。Unicode的编号从0000开始一直到10FFFF共分为16个Plane，每个Plane中有65536个字符。而UTF-8则只实现了第一个Plane，可见UTF-8虽然是一个当今接受度最广的字符集编码，但是它并没有涵盖整个Unicode的字库，这也造成了它在某些场景下对于特殊字符的处理困难。
UTF-8编码为变长编码。最小编码单位（code unit）为一个字节。一个字节的前1-3个bit为描述性部分，后面为实际序号部分。

Emoji

所谓Emoji就是一种在Unicode位于\u1F601-\u1F64F区段的字符。这个显然超过了目前常用的UTF-8字符集的编码范围\u0000-\uFFFF。Emoji表情随着IOS的普及和微信的支持越来越常见。一般来说MySQL数据库的默认字符集都会配置成UTF-8（三字节），而utf8mb4在5.5以后才被支持，也很少会有DBA主动将系统默认字符集改成utf8mb4。那么问题就来了，当我们把一个需要4字节UTF-8编码才能表示的字符存入数据库的时候就会报错：ERROR 1366: Incorrect string value: ‘\xF0\x9D\x8C\x86’ for column 。如果认真阅读了上面的解释，那么这个报错也就不难看懂了。我们试图将一串Bytes插入到一列中，而这串Bytes的第一个字节是\xF0意味着这是一个四字节的UTF-8编码。但是当MySQL表和列字符集配置为UTF-8的时候是无法存储这样的字符的，所以报了错。那么遇到这种情况我们如何解决呢？有两种方式：升级MySQL到5.6或更高版本，并且将表字符集切换至utf8mb4。第二种方法就是在把内容存入到数据库之前做一次过滤，将Emoji字符替换成一段特殊的文字编码，然后再存入数据库中。之后从数据库获取或者前端展示时再将这段特殊文字编码转换成Emoji显示。

本文参考以下博文整理
字符，字符集，字符编码
http://www.jianshu.com/p/bd7a6c508c33
十分钟搞清字符集和字符编码
http://cenalulu.github.io/linux/character-encoding/
汉字 Unicode 编码范围
http://www.qqxiuzi.cn/zh/hanzi-unicode-bianma.php

阅读全文

0 0