初探字符集和字符集编码

来源:互联网 发布:淘宝全球购可以退货吗 编辑:程序博客网 时间:2024/05/17 00:16

一.字符:文字,标点符号,数字,图形符号等称为字符

字符集:由字符组成的集合,由于字符不同形成了不同的字符集

 

二.字符集要做的事就是两个:

①决定一个字符要用几个字节保存

②决定每个字符对应的二进制是什么

 

三.下面介绍三种类型的字符集编码,分别为ASCIIANSIUNICODE

a.ASCII

 美国制定的一套字符集编码标准,对英文字符做了规定:对于每一个英文字符用一个字节表示,其中一个字节代表八位二进制。

ASCII一共规定了128个字符,所以对于每一个字符,只需用一个字节的后七位来表示(2^7=128),而最前面的一位(第八位)统一用零表示。

但是标准的ASCII表示的字符个数有限,像大天朝一样的有历史文话的国家来说,根本不能将所有字符都表示出来,从而自然的想到了将前面所说的没用起来的第八位也用起来,从而又扩充了128个字符,这称为扩展ASCII

b.ANSI

由于不同国家对扩展ASCII的编码为128~255的字符填充了不同的字符,从而也就形成了仅适合于本国字符集的编码标准------ASCII标准。例如我国的GB2312,GBK,GB18030

c.UNICODE

由于ANSI极具地方特色,从而在文件交流中有了差异。比如要打开一个国外来的文件,就必须知道他的编码方式,否则用错误的方式就会得到乱码。

为了避免交流间的障碍,又提出来了UNICODE编码。其思想是将世界上所有的字符都纳入到一个字符集上,从而使每一个字符所对应的编码唯一。

0 0
原创粉丝点击