ASCII,DBCS(GBK),unicode,utf8编码规范的区别

来源:互联网 发布:量子计算机如何编程 编辑:程序博客网 时间:2024/06/05 13:33
下面我们粗略的区分一下这几种编码规范。
1ASSCII:占用一个字节(即8位,故可以表示的最大字符数是256)。其中第0到127主要用来储存与英文相关的字符(是不能表示中文的)
2DBCS(GBK):占用两个字节。若第一个字节是0到127之间的,与原来ASCII相同。若第一个字节是127之后,那么共有(2的4次方乘2的8次方)中表示方式来表示中文等字符。
3UNICODE:占用两个字节(即16位)。对于ASCII的编码不变(造成了一定的浪费,有8位永远是0),剩余的位置给全世界其他文化语言使用(包括中文)
4utf8:由于Unicode与ASCII不兼容,utf8就应运而生了。UTF-8最大的一个特点,就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度,当字符在ASCII码的范围时,就用一个字节表示,保留了ASCII字符一个字节的编码做为它的一部分,注意的是unicode一个中文字符占2个字节,而UTF-8一个中文字符占3个字节)。从unicode到uft-8并不是直接的对应,而是要过一些算法和规则来转换。
下面附上一个幽默风趣的介绍相关知识的链接点击打开链接
1 0