【转】汉字编码常识

来源:互联网 发布:统计建模与r软件 编辑:程序博客网 时间:2024/06/05 11:26

1. 资料参考:

    (1) CSDN博主sunjing的博文《汉字编码常识》,链接为:http://blog.csdn.net/sunjing/article/details/6162439。

    (2) 学步园博主www5888888的博文《谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词》,链接为:http://www.xuebuyuan.com/711534.html。

    感谢博主的分享!


2. 编码演变过程:

    2.1 ASCII编码

    先从ASCII说起。ASCII是用来表示英文字符的一种编码规范,每个ASCII字符占用1个字节(8bits) 。因此,ASCII编码可以表示的最大字符数是256。其实英文字符并没有那么多,一般只用前128个(最高位为0)就可以了,其中包括了控制字符、数字、大小写字母和其他一些符号,详见图1 。既然ASCII编码占用了1个字节(8位),那也不能浪费啊,所以最高位为1的另128个字符被成为“扩展ASCII”,一般用来存放英文的制表符、部分音标字符等等的一些其他符号 ,详见图2。

图1. ASCII码表1(最高位为0的那128个字符)


图2. ASCII码表2(最高位为1的那128个字符)


    2.2 用两个扩展ASCII字符表示一个中文字符的GB2312-80和Big5

    这种字符编码规范显然用来处理英文没有什么问题 (实际上也可以用来处理法文、德文等一些其他的西欧字符,但是不能和英文通用),但是面对中文、阿拉伯文之类复杂的文字,255个字符显然不够用 。于是,各个国家纷纷制定了自己的文字编码规范,其中中文的文字编码规范叫做“GB2312-80”,它是和ASCII兼容的一种编码规范,其实就是利用扩展ASCII没有真正标准化这一点,把一个中文字符用两个扩展ASCII字符(最高位为1的ASCII)来表示。

    但是,这个方法最大的问题就是,中文文字没有真正属于自己的编码,因为扩展ASCII码虽然没有真正的标准化,但是PC里的ASCII码还是有一个事实标准的(存放着英文制表符),所以很多软件利用这些符号来画表格。这样的软件用到中文系统中,这些表格符就会被误认作中文字,破坏版面。而且,统计中英文混合字符串中的字数,也是比较复杂的。常常地,我们必须通过判断当前ASCII码是否扩展,然后判断它的下一个ASCII是否扩展,以此来“猜测”那可能是一个中文字符。

    上述问题处理起来那是很痛苦的。而更为痛苦的是,由于汉字不止中国大陆在使用,所以汉字字符编码有多种:GB2312是国家标准,Big5编码标准是台湾使用的标准,Big5很多编码与GB是相同的,但又不完全相同。因为交流是必须的,所以各种编码混在一起,问题就更加复杂了。 

    这时候,我们知道,要真正解决汉字编码问题,不能从扩展ASCII的角度入手,也不能仅靠中国一家来解决,必须有一个全新的编码系统,这个系统要可以将中文、英文、法文、德文……等等所有的文字统一起来考虑,为每个文字都分配一个单独的编码,这样才不会有上面那种现象出现。

    于是,Unicode诞生了。

    2.3 Unicode编码

    Unicode有两套标准:一套叫UCS-2(Unicode-16),用2个字节为字符编码;另一套叫UCS-4(Unicode-32),用4个字节为字符编码。

    以目前常用的UCS-2为例,它可以表示的字符数为2^16=65536,基本上可以容纳所有的欧美字符和绝大部分的亚洲字符 。
    在Unicode编码里,所有的字符被一视同仁。汉字不再使用“两个扩展ASCII”,而是使用“1个Unicode”,注意,现在的汉字是“一个字符”了,于是,拆字、统计字数这些问题也就自然而然的解决了 。

    字符虽然有了新的编码,但是软件和系统的更新可不是那么快的,不可能在一夜之间全世界所有的系统都换成使用Unicode编码来处理字符。因此,从Unicode的诞生之日起,就必须考虑一个严峻的问题:Unicode字符集与ASCII字符集之间的不兼容问题。

    我们知道,ASCII字符是单个字节的,而Unicode-16字符是双字节,对于同一个字,在两种编码表示时是不同的。例如,同样的字符“A”,ASCII编码是0x65(0x表示后面的数字为16进制表示法);而Unicode编码是0x0065。这样一来,以前用来处理用ASCII编码的那套机制不能被软件或系统用来处理Unicode编码的了。这就是刚刚提到的两种字符集不兼容的问题。

    还有一个问题是,C语言使用'\0'作为字符串结尾,而Unicode里恰恰有很多字符都有一个字节为“0”。这样一来,C语言的字符串函数将无法正常处理Unicode,除非把世界上所有用C写的程序以及他们所用的函数库全部换掉 ,换成不以0作为字符串结尾,而用其他新的标记。这显然是不太可能的。

    于是,比Unicode更伟大的东东诞生了,之所以说它更伟大是因为它让Unicode不再存在于理论上,而是真实的存在于我们大家的电脑中。那就是:UTF 编码。

    2.4 UTF编码

     UTF(8-bit Unicode Transformation Format),是将Unicode编码规则和计算机的实际编码规则对应起来的一个标准

    现在流行的UTF有2种:UTF-8和UTF-16 。

    其中UTF-16和上面提到的Unicode本身的编码规范是一致的,这里不多说了。

    UTF-8与Unicode编码规范不同,它定义了一种“区间规则”,这种规则可以和ASCII编码保持最大程度的兼容 。UTF-8有点类似于Haffman编码,它将Unicode编码的不同范围的字符用不同字节数目表示:

    范围 0x00000000 ~ 0x0000007F 的字符,用1个字节来表示;

    范围 0x00000080 ~ 0x000007FF 的字符,用2个字节来表示;

    范围 0x00000800 ~ 0x0000FFFF 的字符,用3个字节来表示 。

    因为目前为止Unicode-16规范还没有指定超过0x0000FFFF范围的字符,所以UTF-8最多是使用3个字节来表示一个字符。但理论上来说,UTF-8最多需要用6字节表示一个字符。

    在UTF-8里,英文字符仍然跟ASCII编码一样,因此原先的函数库可以继续使用。而中文的编码范围是在 0x0080 ~ 0x07FF 之间,因此是2个字节表示(但这两个字节和GB编码的两个字节是不同的),用专门的“Unicode处理类”可以对UTF编码进行处理QT中就提供QTextCodec来处理编码转换问题。


3. 中文编码问题 :GBK和GB18030的产生 

    下面说说中文的问题。

    由于历史原因,在Unicode之前,一共存在过3套中文编码标准:GB2312-80, Big5, HKSCS.

    GB2312-80,是中国大陆使用的国家标准,其中一共编码了6763个常用简体汉字。

    Big5,是中国台湾使用的编码标准,编码了台湾使用的繁体汉字,大概有8千多个。

    HKSCS,是中国香港使用的编码标准,字体也是繁体,但跟Big5有所不同。

    这3套编码标准都采用了两个扩展ASCII的方法,因此,几套编码互不兼容,而且编码区间也各有不同。因为其不兼容性,在同一个系统中同时显示GB和Big5基本上是不可能的。当时的南极星、RichWin等等软件,在自动识别中文编码、自动显示正确编码方面都做了很多努力 。他们用了怎样的技术我就不得而知了,我知道好像南极星曾经以同屏显示繁简中文为卖点。

    后来,由于各方面的原因,国际上又制定了针对中文的统一字符集GBK和GB18030,其中GBK已经在Windows、Linux等多种操作系统中实现。

    GBK兼容GB2312,并增加了大量不常用汉字,还加入了几乎所有的Big5中的繁体汉字。但是GBK中的繁体汉字和Big5中的几乎不兼容。(觉悟很高嘛,哈哈!)

    GB18030相当于是GBK的超集,比GBK包含的字符更多。据我所知目前还没有操作系统直接支持GB18030。


 4. 谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词

    4.1 两个主要问题   

    这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题:

    问题一:

    使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢?
我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF、FE(Unicode),FE、FF(Unicode big endian),EF、BB、BF(UTF-8)。但这些标记是基于什么标准呢?

    问题二:

    最近在网上看到一个 ConvertUTF.c,实现了UTF-32、UTF-16和UTF-8这三种编码方式的相互转换。对于Unicode(UCS2)、GBK、UTF- 8这些编码方式,我原来就了解。但这个程序让我有些糊涂,想不起来UTF-16和UCS2有什么关系。 查了查相关资料,总算将这些问题弄清楚了,顺带也了解了一些Unicode的细节。写成一篇文章,送给有过类似疑问的朋友。本文在写作时尽量做到通俗易懂,但要求读者知道什么是字节,什么是十六进制。

    4.2 big endian和little endian

    big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是0x6C49。那么写到文件里时,究竟是将6C写在前面,还是将49写在前面?如果将6C写在前面,就是big endian。还是将49写在前面,就是little endian。

    “endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头(Little-Endian)敲开,由此曾发生过六次叛乱,其中一个皇帝送了命,另一个丢了王位。

    我们一般将endian翻译成“字节序”,将big endian和little endian称作“大尾”和“小尾”。

    4.3 字符编码、内码,顺带介绍汉字编码

    字符必须编码后才能被计算机处理。计算机使用的缺省编码方式就是计算机的内码。早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5。GB2312(1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。GB2312 支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉字区和图形符号区。汉字区包括21003个字符。2000年的 GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030,对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。有些中文Windows缺省的内码还是GBK,可以通过GB18030升级包升级GB18030。不过GB18030相对GBK增加的字符,普通人是很难用到的,通常我们还是用GBK指代中文Windows内码

    从ASCII、GB2312、GBK到 GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼,GB2312、GBK到GB18030都属于双字节字符集 (DBCS)

    这里还有一些细节:

    GB2312的原文还是区位码,从区位码到内码,需要在高字节和低字节上分别加上A0。

    在DBCS中,GB内码的存储格式始终是big endian,即高位在前。

    GB2312 的两个字节的最高位都是1。但符合这个条件的码位只有128*128=16384个。所以GBK和GB18030的低字节最高位都可能不是1。不过这不影响DBCS字符流的解析:在读取DBCS字符流时,只要遇到高位为1的字节,就可以将下两个字节作为一个双字节编码,而不用管低字节的高位是什么。

    4.4 Unicode、UCS和UTF

    前面提到从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容(更准确地说,是与ISO-8859-1兼容),与GB码不兼容。例如“汉”字的Unicode编码是6C49,而GB码是BABA。

    Unicode 也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。

    根据维基百科全书([url]http://zh.wikipedia.org/wiki/[/url])的记载:历史上存在两个试图独立设计 Unicode的组织,即国际标准化组织(ISO)和一个软件制造商的协会(unicode.org)。ISO开发了ISO 10646项目,Unicode协会开发了Unicode项目。在1991年前后,双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode2.0开始,Unicode项目采用了与ISO 10646-1相同的字库和字码。目前两个项目仍都存在,并独立地公布各自的标准。Unicode协会现在的最新版本是2005年的Unicode 4.1.0。ISO的最新标准是10646-3:2003

    UCS规定了怎么用多个字节表示各种文字。怎样传输这些编码,是由UTF(UCS Transformation Format)规范规定的,常见的UTF规范包括UTF-8、UTF-7、UTF-16。IETF 的RFC2781和RFC3629以RFC的一贯风格,清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。我总是记不得IETF是 Internet Engineering Task Force的缩写。但IETF负责维护的RFC是Internet上一切规范的基础。

    4.5 UCS-2、UCS-4、BMP

    UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码。下面让我们做一些简单的数学游戏:

    UCS-2有2^16=65536个码位,UCS-4有2^31=2147483648个码位。
    UCS -4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个plane。每个plane根据第3个字节分为 256行 (rows),每行包含256个cells。当然同一行的cells只是最后一个字节不同,其余都相同。group 0的plane 0被称作Basic Multilingual Plane, 即BMP。或者说UCS-4中,高两个字节为0的码位被称作BMP。
将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。在UCS-2的两个字节前加上两个零字节,就得到了UCS-4的BMP。而目前的UCS-4规范中还没有任何字符被分配在BMP之外。

    4.6 UTF编码

    UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:

    UCS-2编码(16进制)         UTF-8 字节流(二进制)

         0000 - 007F                         0xxxxxxx

         0080 - 07FF                  110xxxxx 10xxxxxx

         0800 - FFFF              1110xxxx 10xxxxxx 10xxxxxx

    例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。

    读者可以用记事本测试一下我们的编码是否正确。

    UTF-16以16位为单元对 UCS进行编码。对于小于0x10000的UCS码,UTF-16编码就等于UCS码对应的16位无符号整数。对于不小于0x10000的UCS码,定义了一个算法。不过由于实际使用的UCS2,或者UCS4的BMP必然小于0x10000,所以就目前而言,可以认为UTF-16和UCS-2基本相同。但 UCS-2只是一个编码方案,UTF-16却要用于实际的传输,所以就不得不考虑字节序的问题。

    4.7 UTF的字节序和BOM

    UTF-8以字节为编码单元,没有字节序的问题。UTF-16以两个字节为编码单元,在解释一个UTF-16文本前,首先要弄清楚每个编码单元的字节序。例如收到一个 “奎”的Unicode编码是594E,“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”,那么这是“奎”还是 “乙”?Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表,而是Byte Order Mark。

    BOM是一个有点小聪明的想法:在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

    UTF -8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF(读者可以用我们前面介绍的编码方法验证一下)。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。Windows就是使用BOM来标记文本文件的编码方式的。

    汉字编码是认为定义一组汉字的顺序表。目前常用的gb2312,gb13000,gbk,big5,和unicode. 机器内码是汉字编码在计算机里面的具体表示编码,他和汉字编码是有固定对应关系的。现在window常用的是gbk,他是gb2312的兼容超集。我们以gb2312为例。gb2312定义汉字编码分为区码和位码,分别是从1~94. 所以gb2312的编码容量是94*94个汉字,实际上只定义了6763个汉字,1~9区是特殊字符,包括全角的标点、字母、日文、希腊文、俄文等等。16~87是汉字区。  

    如果计算机要表示汉字,只能用现有的计算机编码表示,这就有了机内码的概念。  

    计算机是以字节为单位,只能表示0~255.(asc定义了0~127),所以汉字就用2各连续字节表示一个汉字,为了和0~127的asc分开,采用了从0xa0开始到0xfe的这部分。就得到了机内码和汉字区位码的对应关系:  

     机内码   =   0xa0   +   区码,   0xa0   +   位码;  

     如果一个汉字的机内码是   0xb0a1那么它对应的区位码就是   0xb0-0xa0=   0x10=16,   0xa1-0xa0=   1,他的区位码是   1601,就是汉字"啊"。反过来一样,这种机内码表示方式有个问题就是一个汉字等于2个asc码,不利于计算字符串长度,还一个问题(在dos下最明显)就是西文造表符的识别。

    现在的gbk已经比这个复杂了,你理解了gb2312的,gbk就容易了。   

    现在的趋势是unicode,他是16位内码,包括asc码都扩充到16位了,它是世界通用的字符集。容量是65534个字符,包含了世界各国的文字。

    计算机中的信息都是用二进制编码表示的。用以表示字符的二进制编码称为字符编码。计算机中常用的字符编码有EBCDIC码和ASCII码。IBM系统大型机采用EBCDIC码,微型机采用ASCII码。ASCII 码是美国标准信息交换码,被国际标准化组织(ISO)指定为国际码。ASCII码有7位码和8位码两种版本。国际通用的7位ASCII码称为ISO- 646标准,用7位二进制表示一个字符的编辑,其编码范围从0000000B-1111111B,共有27=128个不同的编码值,相应可表示128个不同的字符编码。如数字“0”的ASCII码值为0110000B(或48D或30H),字母“A”的码值为1000001B(或65D或 41H),“a”的码值为1100001B(或97D或61H)等。128个编码中有34个控制符的编码(00H-20H和7FH)和94个字符编码(21H-7EH)。计算机内部用一个字节(8个二进制位)存放一个7位ASCII码,最高位b7置为0。扩展的ASCII码使用8个二进制位表示一个字符的编码,可表示28=256个不同字符的编码。

    4.8 汉字的编码

    ASCII码只给出了英文字母、数学和标点符号的编码。为了用计算机处理汉字,同样需要对汉字进行编码。

    4.8.1 汉字信息交换码(国标码)

    汉字信息交换码是用于汉字信息处理系统之间或者与通信系统进行信息交换的汉字代码,简称交换码,也叫国标码。我国1981年颁布了国家标准《信息交换用汉字编码字符集——基本集》,代号为GB2312-80,即国标码。

    4.8.2 汉字输入码

    为将汉字输入计算机而编制的代码称为汉字输入码,也叫外码。

    4.8.3 汉字内码

    汉字内码是在计算机内部对汉字进行存储、处理和传输的汉字代码,它应能满足存储、处理和传输的要求。当一个汉字输入计算机后就转换为内码,然后才能在机器内流动、处理。汉字内码的形式也多种多样。目前,对应于国标码,一个汉字的内码也用2个字节存储,并把每个字节的最高二进制位置“1”作为汉字内码的标识,以免与单字节的ASCII码产生歧义性。如果用十六进制来表述,就是把汉字国标码的每个字节上加一个80H(即二进制数10000000)。所以,汉字的国标码与其内码有下列关系:

    汉字的内码=汉字的国标码+8080H

    例如,已知“中”字的国标码为5650H,则根据上述公式得:“中”字的内码=“中”字的国标码5650H+8080H=D6D0H。

    4.8.4 汉字字形码

    经过计算机处理的汉字信息,如果要显示打印出来阅读,则必须将汉字内码转换成人们可读的方块汉字。每个汉字的字形信息是预先存放在计算机内的,常称汉字库。汉字内码与汉字字形一一对应。描述汉字字形的方法主要有点阵字形和轮廓字形两种。

    计算机中,8个二进制位组成一个字节,字节是度量存储空间的基本单位。可见一个16X16点阵的字形需要16X16/8=32字节存储空间;理,24X24 点阵的字形码需要24X24/8=72字节存储空间;32X32点阵的字型有码城要32X32/8=128字节存储空间。

    汉字的点阵字形的缺点是放大后会出现锯齿现象,很不美观。
轮廓字形方法比前者复杂,一个汉字中笔画的轮廓可用一组曲线来勾画,它采用数学方法来描述每个汉字的轮廓曲线。中文Windows下广泛采用的 TrueType字形库就是采用轮廓字形法。这种方法的优点是字形精度高,且可以任意放大、缩小而不产生锯齿现象;缺点是输出之前必须经过复杂的数学运算处理。

    4.8.5 汉字地址码

    汉字地址码是指汉字字库(这里主要指整字形的点阵式字模库)中存储汉字字形信息的逻辑地址码。

    4.8.6 各种汉字代码之间的关系

    汉字的输入、处理和输入的过程,实际上是汉字的种种代码之间的转换过程,或者说汉字代码在系统有关部件之间流动的过程。

    4.8.7 汉字字符集简介

  •     GB 2312-80汉字编码

    GB 2312-80码中华人民共和国国家标准汉字信息交换换用编码,全称《信息交换用汉字编码字符集——基本集》,标准号为GB 2312-80,由中华人民共和国家标准总局发布,1981年5月1日实施,习惯上称国标码、GB码或区位码。它是一个简化汉字的编码,通行于中国大陆地区,新加坡等地也使用这一编码。

  •     GBK编码

    GBK是又一个汉字编码标准,全称《汉字内码扩展规范》,中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订。

  •     Unicode和CJK编码

    ISO10646是国际标准化组织(ISO)公布的一个编码标准Universal Coded Character Set(简称UCS),译为《通用编码字符集》。

  •     GB 18030-2000编码
  •     BIG-5码

    BIG -5码是通行于台湾、香港地区的一个繁体字编码方案,俗称“大五码”。它被广泛地应用于电脑业和因特网(Internet)中,是一个双字节编码方案,收录了13461个符号和汉字,其中包括408个符号和13053个汉字。汉字分5401个常用字和7652个次常用字两部分,各部分中的汉字按笔画/部首排列。

    4.8.8 汉字的机内码和国际码

    对于汉字,我们的电脑上转换成的是机内码,机内码是如何得到的呢?下面做一下简单介绍:

    机内码 = 国标码 + 8080H + 2020H

    PS:其中国标码要把区玛和位码分开,而且都看成10进制,然后转换成十六进制,比如:“丁”的区位码是22 01,则转换成16进制为16H(22) 01H(01),则转换成机内码是:(1601)H + (A0A0)H) = (B6A1)H


    另外:还有一个叫国际码的,就是美国编码,计算如下:

    国际码 = 区位码 + 2020H

    PS:其中计算方法与机内码相似:比如,“丁”的编码就是--(3601)H

0 0
原创粉丝点击