常用字符集总结

来源:互联网 发布:学会java再学c需要多久 编辑:程序博客网 时间:2024/06/10 10:17

1、ASCII字符集:包含大小写英文、阿拉伯数字、标点,以及一些不可见的控制符共128个。

   ASCII编码:使用7位表示一个字符。编码范围是[0-127](即Hex[00-7F]),其中[0-31](Hex[00-1F])部分以及127(Hex7F)是控制符,其余的都是些可见字符。

2、GB2312字符集:ASCII字符集+7000左右汉字字符。

 GB2312编码:兼容ASCII编码。对字节进行判断,如值<=127,则意义等同于ASCII编码;如值>127,则它需要跟其后的另一个字节合并表示一个字符。

3、GBK字符集:GB2312字符集+20000左右汉字字符。

    GBK编码:兼容GB2312编码。利用了GB2312编码闲置的编码空间。

4、UNICODE

  ①UTF-32编码:固定使用4个字节来表示一个字符,存在空间利用效率的问题。

  ② UTF-16编码:对相对常用的60000余个字符使用两个字节进行编码,其余的(即’补充字符supplementary characters’)使用4字节。

  UTF-8编码:兼容ASCII编码;拉丁文、希腊文等使用两个字节;包括汉字在内的其它常用字符使用三个字节;剩下的极少使用的字符使用四个字节。


原创粉丝点击