字符、字符集及编码

来源:互联网 发布:unity3d gui texture 编辑:程序博客网 时间:2024/05/29 03:50

字符(character)

字符是指计算机中使用的字母、数字、字、符号;在utf-8编码中,一个中文字符存储需要3-4个字符,一个英文字符存储需要1个字符;

字符集(character set)

多个字符的集合;每个字符集包含的字符个数不同;

常见字符集:ASCII、GB2312、BIG5、GB18030、Unicode字符集等;

常见字符集

名称 含义 备注 补充 Unicode (统一码、万国码、单一码)为每种语言每种字符设定并且唯一二进制编码,满足跨平台、跨语言进行文本转换、处理的要求;它的出现是为了解决传统的字符编码方案的局限产生的 unicode实现方式有三种:UTF-8,UTF-16,UTF-32;UTF(Unicode Transformation Format)Unicode字符集转换格式 Unicode虽然统一了编码,但是它效率不高,比如UCS-4(Unicode标准之一)用4个字节一个符号,每个英文前就必有三个字节为0,这对存储传输而言都很耗资源。UTF-8使用可变长度字节来储存Unicode字符,占用1-4个字节; ASCII American Standard Code for Information Interchange 美国信息互换标准编码,主要用于现代和其他西欧语言 现今最通用单字节系统,并等同于iso 646 MBCS/ANSI 多字节字符集,为了扩充ASCII已显示本国语言,由此产生了GB2312,BIG5,JIS等各自编码标准 所有编码都有转换器可以转换到Unicode,Unicode也可以到其他所有的编码 GB2312 简体中文字符集,不包括繁体字,两个字节表示一个汉字,仅在中国通用,导致在全国范围内会出现乱码,因为浏览器不支持或者没安装相应的编码表;由于GB2312不能人名、古语方面的罕见字,就出现了GBK、GB18030;GBK汉子内码扩展规范,字符有一字节和双字节编码;

字符编码

字符编码就是二进制的来对应字符集的字符;
Unicode可依不同需要以UTF-8、UTF-16、UTF-32等方式编码;

0 0
原创粉丝点击