字符编码小结

来源:互联网 发布:linux换行输入 编辑:程序博客网 时间:2024/06/16 13:46
 

1    早期只有127以内的字符  20以内是控制字符。
2    后来各国有了自己的编码,但一般是两个字节表示一个字符(中国)。

3    UNICODE 就是解决各国之间冲突的问题,定义了统一的标准。 可以65025个字符。
     这样英文也是一个字符两个字节,这样的好处是全世界统一。

4   UTF 系列其实和UNICODE可以一一对应,目的是为了网络传输,具体还要分析。


5   ansi,其实就是 应为ansi和GBK的组合。

6   乱码,其实是因为把编码弄错了。 另一个编码的某个二进制流可能不存在这个字符,
    而计算机显示文字可能是按照一定的映射关系做的,所以会有乱码。


6   UTF-8有点类似于Haffman编码,它将Unicode编码为:
    0x00-0x7F的字符,用单个字节来表示;
    0x80-0x7FF的字符用两个字节表示;
    0x8000-0xFFFF的字符用3字节表示;
    汉字的unicode范围是:0x4E00~0x9FA5
    其实这个范围还包括了中,日,韩的字符。
    看来UTF-8 相当是给UNICODE压缩一下。
 


    UTF除了能节约空间,还能提高纠错率,GBK不容易纠错。