编码与字库

来源:互联网 发布:风驰网络加速器官网 编辑:程序博客网 时间:2024/05/01 10:10

大家都知道,计算机中任何东西最终都是一串二进制数字,包括我们通常查看的文本文件。我们之所以能够看到各种文本,是因为计算机通过编码系统解析输入的二进制串,得到二进制串所代表的字符(目前主流的编码方式有Unicode和ASCII)。任何操作系统都包含一些字体文件(如果windows系统的系统安装在C盘,那么字体文件所在目录为C:\\WINDOWS\Fonts),并且在系统设置中都有设置选项用于设置桌面显示各个部位的字体,字库文件有点阵字库和矢量字库。

接下来我们对Unicode编码系统进行一个详细的介绍,Unicode编码系统包括编码方式和编码实现两个部分。当熟悉Unicode编码之后,ASCII就自然不是问题了~~~

Unicode编码方式

Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案;它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求;它基于通用字符集(Universal Character Set, UCS)的标准来发展。Unicode用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符,或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

实现方式

UTF-8

UTF-8以字节为单位对Unicode进行编码。从Unicode到UTF-8的编码方式如下: 

Unicode编码(16进制) 
UTF-8 字节流(二进制)
000000 - 00007F 
0xxxxxxx
000080 - 0007FF 
110xxxxx 10xxxxxx
000800 - 00FFFF 
1110xxxx 10xxxxxx 10xxxxxx
010000 - 10FFFF 
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8的特点是对不同范围的字符使用不同长度的编码。对于0x00-0x7F之间的字符,UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节。从上表可以看出,4字节模板有21个x,即可以容纳21位二进制数字。Unicode的最大码位0x10FFFF也只有21位。
 
例1:“汉”字的Unicode编码是0x6C49。0x6C49在0x0800-0xFFFF之间,使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将0x6C49写成二进制是:0110 1100 0100 1001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
 
例2:Unicode编码0x20C30在0x010000-0x10FFFF之间,使用用4字节模板了:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx。将0x20C30写成21位二进制数字(不足21位就在前面补0):0 0010 0000 1100 0011 0000,用这个比特流依次代替模板中的x,得到:11110000 10100000 10110000 10110000,即F0 A0 B0 B0。

UTF-16

UTF-16编码以16位无符号整数为单位。我们把Unicode
编码记作U。编码规则如下:
如果U<0x10000,U的UTF-16编码就是U对应的16位无符号整数(为书写简便,下文将16位无符号整数记作WORD)。
如果U≥0x10000,我们先计算U'=U-0x10000,然后将U'写成二进制形式:yyyy yyyy yyxx xxxx xxxx,U的UTF-16编码(二进制)就是:110110yyyyyyyyyy 110111xxxxxxxxxx。
 
为什么U'可以被写成20个二进制位?Unicode的最大码位是0x10ffff,减去0x10000后,U'的最大值是0xfffff,所以肯定可以用20个二进制位表示。例如:Unicode编码0x20C30,减去0x10000后,得到0x10C30,写成二进制是:0001 0000 1100 0011 0000。用前10位依次替代模板中的y,用后10位依次替代模板中的x,就得到:1101100001000011 1101110000110000,即0xD843 0xDC30。
 
按照上述规则,Unicode编码0x10000-0x10FFFF的UTF-16编码有两个WORD,第一个WORD的高6位是110110,第二个WORD的高6位是110111。可见,第一个WORD的取值范围(二进制)是11011000 00000000到11011011 11111111,即0xD800-0xDBFF。第二个WORD的取值范围(二进制)是11011100 00000000到11011111 11111111,即0xDC00-0xDFFF
为了将一个WORD的UTF-16编码与两个WORD的UTF-16编码区分开来,Unicode编码的设计者将0xD800-0xDFFF保留下来,并称为代理区(Surrogate): 

D800-DB7F 
High Surrogates 
高位替代
DB80-DBFF 
High Private Use Surrogates 
高位专用替代
DC00-DFFF
Low Surrogates 
低位替代

高位替代就是指这个范围的码位是两个WORD的UTF-16编码的第一个WORD。低位替代就是指这个范围的码位是两个WORD的UTF-16编码的第二个WORD。那么,高位专用替代是什么意思?我们来解答这个问题,顺便看看怎么由UTF-16编码推导Unicode编码。
 
如果一个字符的UTF-16编码的第一个WORD在0xDB80到0xDBFF之间,那么它的Unicode编码在什么范围内?我们知道第二个WORD的取值范围是0xDC00-0xDFFF,所以这个字符的UTF-16编码范围应该是0xDB80 0xDC00到0xDBFF 0xDFFF。我们将这个范围写成二进制:
1101101110000000 11011100 00000000 - 1101101111111111 1101111111111111
按照编码的相反步骤,取出高低WORD的后10位,并拼在一起,得到
1110 0000 0000 0000 0000 - 1111 1111 1111 1111 1111
即0xe0000-0xfffff,按照编码的相反步骤再加上0x10000,得到0xf0000-0x10ffff。这就是UTF-16编码的第一个WORD在0xdb80到0xdbff之间的Unicode编码范围,即平面15和平面16。因为Unicode标准将平面15和平面16都作为专用区,所以0xDB80 到0xDBFF之间的保留码位被称作高位专用替代。

UTF-32

UTF-32编码以32位无符号整数为单位。Unicode的UTF-32编码就是其对应的32位无符号整数。

字库

字库是外文字体、中文字体以及相关字符的电子文字字体集合库。如中文字库按照不同的编码方式包括GB2312,GBK,GB18030;字库按照不同的显示方式可以分为点阵字库和矢量字库。

GB2312

全称GB2312或GB2312-80是一个简体中文字符集的中国国家标准,全称为《信息交换用汉字编码字符集--基本集》,由中国国家标准总局发布,1981年5月1日实施。GB2312编码通行于大陆;新加坡等地也采用此编码。几乎所有的中文系统和国际化的软件都支持GB2312。
GB2312标准共收录6763个汉字, GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。01-09区为特殊符号。16-55区为一级汉字共有汉字3755个,按拼音排序;56-87区为二级汉字共有汉字3008个,按部首/笔画排序;10-15区及88-94区则未有编码。

GBK

GBK全名为汉字内码扩展规范,英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音(KuoZhan)中“扩”字的声母。 1993年,Unicode1.1版本推出,收录了中国大陆、台湾、日本及韩国通用字符集的汉字,总共有20,912个。
 
由于GB2312-80只收录了6763个汉字,有不少汉字,如部分于GB2312-80推出后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。 中国大陆于是利用了GB2312-80未有使用的编码空间,收录了所有出现于Unicode 1.1及GB13000.1-93之中的汉字,制定了GBK编码。微软在它出品的Windows 98中,即采用了GBK编码。在微软的系统内称为CP936字码表。
 
GBK最初是由微软对GB2312的扩展,也就是CP936,最初出现于Windows 95简体中文版中,由于Windows产品的流行在大陆广泛使用,国家有关部门将其作为技术规范。注意GBK并非国家正式标准,只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然GBK收录了所有Unicode 1.1及GB13000.1-93之中的汉字,但是编码方式与Unicode 1.1及GB13000.1-93不同。仅仅是GB2312到GB13000.1-93之间的过渡方案。
 
中国国家标准总局于2000年推出了GB18030-2000标准,以取代GBK。GB18030-2000除了保留了全部GBK编码的汉字外,还增加了大约一百个汉字及四位元组编码空间。请参看GB18030-2000

点阵字库和矢量字库

点阵字库是把每一个汉字都分成16×16或24×24个点,然后用每个点的虚实来表示汉字的轮廓,常用来作为显示字库使用,这类点阵字库汉字最大的缺点是不能放大,一旦放大后就会发现文字边缘的锯齿。矢量字库保存的是对每一个汉字的描述信息,比如一个笔划的起始、终止坐标,半径、弧度等等。在显示、打印这一类字库时,要经过一系列的数学运算才能输出结果,但是这一类字库保存的汉字理论上可以被无限地放大,笔划轮廓仍然能保持圆滑,打印时使用的字库均为此类字库。Windows使用的字库也为以上两类,在FONTS目录下,如果字体扩展名为FON,表示该文件为点阵字库,扩展名为TTF则表示矢量字库。

 
True Type(简称TT)是由美国Apple公司和Microsoft公司联合提出的一种新型数字化字形描述技术。TT是一种彩色数字函数描述字体轮廓外形的一套内容丰富的指令集合,这些指令中包括字型构造、颜色填充、数字描述函数、流程条件控制、栅格处理器(TT处理器)控制,附加提示信息控制等指令。
 
TT采用几何学中的二次B样条曲线及直线来描述字体的外形轮廓,二次B样条曲线具有一阶连续性和正切连续性。抛物线可由二次B样条曲线来精确表示,更为复杂的字体外形可用B样长曲线的数学特性以数条相接的二次B样条曲线及直线来表示。描述TT字体的文件(内含TT字体描述信息、指令集、各种标记表格等)可能通用于MAC和PC平台。在Mac平台上,它以“Sfnt”资源的形式存放,在Windows平台上以TTF文件出现。为保证TT的跨平台兼容性,字体文件的数据格式采用Motorola式数据结构(高位在前,低位在后)存放。所有Intel 平台的TT解释器在执行之前,只要进行适当的预处理即可。Windows的TT解释器已包含在其GDI(图形设备接口)中,所以任何Windows支持的输出设备,都的TT解释器已包含在其GDI(图形设备接口)中,所以任何Windows支持的输出设备,都能用TT字体输出。