字符集了解

来源:互联网 发布:绝世唐门进阶数据 编辑:程序博客网 时间:2024/06/06 13:09

计算机中存储信息的最小单元是一个byte,即8个bite,能表示的范围只有0~255,所以是无法完全表示人类世界的符号的,
同样也无法理解人类的各种符号,所以需要一种翻译的东东即为字符编码集,几中字符编码集如下:

ASCII码:一共有128个,用一个字节的低七位表示,0-31是控制字符如换行、回车、删除等,32-126是打印字符,可以通过
键盘输入并打印出来。

ISO-8859-1:128个字符是不够使的,所以ISO组织为扩展ASCII码整出来这个东东,涵盖了大多数西欧语言字符,应用广泛
,此编码集仍然是单字节编码,总共能表示256个字符。

GB2312:它的全称是《信息交换用汉字编码字符集基本集》,是双字节编码,包含6763个汉字。

GBK:全称叫《汉字内码扩展规范》是国家技术监督局为Windows 95所制字的新汉字内码规范。此集扩展了GB2312,加入了更
多的汉字,能表示21003个汉字,并且兼容GB2312。

GB18030:全称叫《信息交换用汉字编码字符集》,是国家强制标准。它可以是单字节,双字节,或者是四字节编码,兼容
GB2312,虽是国标,但实际应用并不规范。

UTF-16:ISO组织试图创建一个涵盖世界所有语言的超级词典,即此集,所以此集挺复杂。此集无论什么字符均采用定长两个
字节来表示,两个字节是16bit,所以叫UTF-16。此集方便是方便,但许多的字符本来一个字节就够了,但它依然两个字节,
所以就造成了许多的浪费,所以。。。。

UTF-8:此编码集同UTF-16一样可以表示所有语言符号,但是UTF-8采用了一种变长的技术,不同的字符类型字符可以由1-6个
字节组成。被普启蒙支持。

0 0
原创粉丝点击