各编码格式略谈

来源:互联网 发布:d3.js官网demo 编辑:程序博客网 时间:2024/06/07 17:57

1、ASCII

       计算机和网络这东西嘛,大家都知道,发源于美国,而美国呢是用英语的,而英语呢——嗯,算着大小写,字母总共就52个,再加上些别的符号,也不会很多,当通信在美国萌芽的时候,需要表示的符号并没有多少,用8位也就足够了,标准ASCII码在这时应运而生了。每个字符它只用一个字节(即8位)来表示,说得更详细些,其实只用了最低的7位,最高位是用来做校验的。此后,这个ASCII码表示规范成为了国际标准

       举例,小写字母a,它的ASCII码用二进制来表示是 0110  0001,用十进制表示也就是97,最高位(最左一位)为0。

       注意:在标准ASCII码中最高位始终是0,但是在传输时,为了奇偶校验(不懂的请百度),这一位可能会改变。


2、扩展ASCII码

       好了,ASCII码已经可以表示英语里所有字符和很多其他字符了,够美国人用了,可后来呢——计算机这玩意儿越来越普及了,其他欧美国家也可以发展了,他们发现自己国家的文字在ASCII码里根本就没有,毕竟ASCII码就那么128个。好了,再扩展一下吧-----把最高位也利用起来,不用它来做奇偶校验了。于是IBM又把ASCII码一下又扩展出了128个,总共可以表示256个字符了。它把值为128-255之间的字符用于画图和画线,以及一些特殊的欧洲字符。同时,还有另一部分人,把128--255之间当做了别的用途,比如用于拉丁字母表中特殊语言字符的编码(ISOLatin-1标准。所以,扩展出的这128个码具体表示哪个字符有多个标准,因此扩展ASCII码就不是国际标准了,没有一个统一的标准。


3、GBK

      当计算机来到中国的时候,庞大的汉字数量需要一套全新的支持汉字的编码规范。

      GB2312:与ASCII码兼容,也就是当表示英文字符这种ASCII码中存在的字符时,仍采用一个字节表示;当表达汉字时,采用两个字节表示,高字节叫“区”,低字节叫“位”,且区和位的首位都是1,如 10100010,11000110,这样当解析字符时一旦读到一个字节的最高位是1就知道了----后面的那个字节跟它是配对的,它俩组成一个字符-----因为当最高位是0时,肯定是原ASCII码字符。

      GBK:GB2313之后发现这样编码还是不够用,那就干脆规定,“区”的最高位仍是1,“位”的最高位不限制了,因为这样也并不影响解读。于是在GB2312的基础上又扩展出了GBK规范。

      GBK18030:GBK之后还是不够用,再扩展,又出了GBK18030。


4、UNICODE

      再后来,越来越多国家的文字需要支持,而且各个国家自己定义的规范与别国的都是不兼容的,这时unicode出现了,它不考虑其他国家已自定义的各种规范----它要为全球定义一个通用的规范,”Universal Multiple-Octet Coded Character Set”,简称 UCS, 俗称 “UNICODE。并且这个标准是兼容ISO Latin-1的,当然,也是兼容ASCII规范的。还以小写的a举例,在ASCII码中a的数字值是97,那么在unicode中仍规定a对应的数字是97。

       刚才在百度“UNICODE”时,看到百度百科里说-----Unicode 编码包含了不同写法的字,如“ɑ/a”、“户/户/戸”,又说----在文字处理方面,统一码为每一个字符而非字形定义唯一的代码(即一个整数)。换句话说,统一码以一种抽象的方式(即数字)来处理字符,并将视觉上的演绎工作(例如字体大小、外观形状、字体形态、文体等)留给其他软件来处理,例如网页浏览器或是文字处理器。

           读来读去,总觉这段话自相矛盾,既然包含了不同写法的字,那就应该是为这些不同写法的字每个都配了相应的代码吧?那后面又怎么说为每一个字符而非字形定义唯一的代码”?它的意思大概是----大家记不记得有些特别另类的汉字,当做同一个字来用但是写起来差别特别大,这种现象好像叫“变体”。我举不出例子,但是咱就来个假设吧,例如,假设“品”字就是“码”字的变体,写“编码”正确,写“编品”也同样正确,此时“码”和“品”除了写法不一样,其他,包括字义、用法、读音全部一样。实际在unicode中就是看做是两个字了,它们有各自对应着的数字。


      值得注意的一点是,unicode里的字符并不一定占用两个字节实际上,unicode只是一个规定,它规定一个符号跟哪一个数字对应,简而言之,它用一个数字映射一个字符,但是没有规定在计算机里你怎样去保存这个数字。unicode跟字节是没有必然联系的,只是这个规范是跑在计算机上的,当这个规范实现的时候也就和字节发生了联系,因为数据在计算机里就是用字节存储的。举个例子,假设unicode规定“京”这个字对应着数字325,Unicode实现规范A可能这样在计算机里实现:用三个字节,三个字节分别表示百、十、个位,即00000011,00000010,00001010,而B则这样实现:我尽量用较少的空间表示,325超出了一个字节的表示范围,但可以用两个字节表示,于是B这样表示325----00000001,01000101,看!同样表示325,不同的实现方式就会占用不同的字节数。UTF-8,UTF-16就是unicode的不同实现,打个比方,unicode是个接口,UTF-8和UTF-16就是它的实现类

原创粉丝点击