字符编码小结

来源：互联网发布：linux换行输入编辑：程序博客网时间：2024/06/16 13:46

1 早期只有127以内的字符 20以内是控制字符。
2 后来各国有了自己的编码，但一般是两个字节表示一个字符（中国）。

3 UNICODE 就是解决各国之间冲突的问题，定义了统一的标准。可以65025个字符。
这样英文也是一个字符两个字节，这样的好处是全世界统一。

4 UTF 系列其实和UNICODE可以一一对应，目的是为了网络传输，具体还要分析。

5 ansi，其实就是应为ansi和GBK的组合。

6 乱码，其实是因为把编码弄错了。另一个编码的某个二进制流可能不存在这个字符，
而计算机显示文字可能是按照一定的映射关系做的，所以会有乱码。

6   UTF-8有点类似于Haffman编码，它将Unicode编码为：
    0x00-0x7F的字符，用单个字节来表示；
    0x80-0x7FF的字符用两个字节表示；
    0x8000-0xFFFF的字符用3字节表示；
    汉字的unicode范围是：0x4E00~0x9FA5
    其实这个范围还包括了中，日，韩的字符。
    看来UTF-8 相当是给UNICODE压缩一下。

UTF除了能节约空间，还能提高纠错率，GBK不容易纠错。