字符集、字符编码与存储方式的理解

来源:互联网 发布:城市地图制作软件 编辑:程序博客网 时间:2024/06/05 00:38

字符集、字符编码与存储方式的理解


字符编码的前世今生(百度文库转载,作者不详)

最开始计算机只在美国用。一个字节共可以组合出256种不同的状态。
他们把其中的编号从0开始的32种状态分别规定了特殊的用途,一但终
端、打印机遇上约定好的这些字节被传过来时,就要做一些约定的动作。
比如:读到00x10, 终端换行,读到0x07,终端就蜂鸣,读到0x1B,打印机就打印反白的字,或者终端就用彩色显示字母。

于是规定0x20以下的字节状态称为”控制码”。(32个)
然后把所有的空格、标点符号、数字、大小写字母分别用连续的字节
状态表示,一直编到了第127号,这样计算机就可以用不同字节来存
储英语的文字了。大家看到这样,都感觉很好,于是大家都把这个方
案叫做ANSI 的AscII编码(American Standard Code for Information
Interchange,美国信息互换标准代码)。当时世界上所有的计算机都
用同样的ASCII方案来保存英文文字。

后来,就像建造巴比伦塔一样,世界各地的都开始使用计算机,但是
很多国家用的不是英文,他们的字母里有许多是ASCII里没有的,为
了可以在计算机保存他们的文字,他们决定采用127号之后的空位来
表示这些新的字母、符号,还加入了很多画表格时需要用下到的横线
、竖线、交叉等形状,一直把序号编到了最后一个状态255。从128到
255这一页的字符集被称为 “扩展字符集”

从此之后,贪婪的人类再没有新的状态可以用了,美帝国主义可能没有想到还有第三世界国家的人们也希望可以用到计算机吧!

等中国人得到计算机时,已经没有可以利用的字节状态来表示汉字况
且有6000多个常用汉字需要保存呢。但是这难不倒智慧的中国人民,
我们不客气地把那些127号之后的奇异符号们直接取消掉:
**规定:一个小于127的字符的意义与原来相同,但两个大于127的字
符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从
0xA1用到0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可
以组合出大约7000多个简体汉字了。在这些编码里,我们还把数学
符号、罗马希腊的字母、日文的假名们都编进去了,连在ASCII里本
来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就
是常说的”全角”字符,而原来在127号以下的那些就叫”半角”字符了**。

**中国人民看到这样很不错,于是就把这种汉字方案叫做”GB2312”。GB
2312是对ASCII的中文扩展**。

但是中国的汉字太多了,我们很快就就发现有许多人的人名没有办法
在这里打出来,特别是某些很会麻烦别人的国家领导人。于是我们不
得不继续把GB2312没有用到的码位找出来老实不客气地用上。
后来还是不够用,于是干脆不再要求低字节一定是127号之后的内码
,只要第一个字节是大于127就固定表示这是一个汉字的开始,不管
后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为
GBK标准,GBK包括了GB2312的所有内容,同时又增加了近20000个新的
汉字(包括繁体字)和符号。

后来少数民族也要用电脑了,于是我们再扩展,又加了几千个新的少数
民族的字,GBK扩成了GB18030。从此之后,中华民族的文化就可以在
计算机时代中传承了。

这一系列汉字编码通称叫做”DBCS”(Double Byte Charecter Set
双字节字符集)。在DBCS系列标准里,最大的特点是两字节长的汉字
字符和一字节长的英文字符并存于同一套编码方案里,因此他们写的
程序为了支持中文处理,必须要注意字串里的每一个字节的值,如果
这个值是大于127的,那么就认为一个双字节字符集里的字符出现了。那时候凡是受过加持,会编程的计算机僧侣们都要每天念下面这个咒
语数百遍:
“一个汉字算两个英文字符!一个汉字算两个英文字符……”

因为当时各个国家都像中国这样搞出一套自己的编码标准,结果互相
之间谁也不懂谁的编码,谁也不支持别人的编码,连大陆和台湾这样
只相隔了150海里,使用着同一种语言的兄弟地区,也分别采用了不
同的DBCS编码方案——当时的中国人想让电脑显示汉字,就必须装上一
个”汉字系统”,专门用来处理汉字的显示、输入的问题,但是那个台
湾的愚昧封建人士写的算命程序就必须加装另一套支持BIG5
编码的什么”倚天汉字系统”才可以用,装错了字符系统,显示就会乱了套!这怎么办?而且世界民族之林中还有那些一时用不上电脑的穷苦人民,他们的文字又怎么办?

正在这时,大天使加百列及时出现了——一个叫ISO(国际标谁化组织)
的国际组织决定着手解决这个问题。他们采用的方法很简单:废了所
有的地区性编码方案,重新搞一个包括了地球上所有文化、所有字母
和符号的编码!他们打算叫它”Universal Multiple-Octet Coded
Character Set”,简称 UCS, 俗称 “UNICODE”。

UNICODE开始制订时,计算机的存储器容量极大地发展了,空间再也
不成为问题了。**于是ISO就直接规定必须用两个字节,也就是16位来统一表示所有的字符,对于ascii里的那些”半角”字符,UNICODE包持其原编码不变,只是将其长度由原来的8位扩展为16位,而其他文化
和语言的字符则全部重新统一编码**。由于”半角”英文符号只需要用
到低8位,所以其高8位永远是0,因此这种大气的方案在保存英文文
本时会多浪费一倍的空间。

这时候,从旧社会里走过来的程序员开始发现一个奇怪的现象:他
们的strlen函数靠不住了,一个汉字不再是等于两个字符了,而
是一个!,是的,从UNICODE开始,无论是半角的英文字母,还是全角
的汉字,它们都是统一的”一个字符”!同时,也都是统一的”两个字
节”,请注意”字符”和”字节”两个术语的不同,”字节”是一个8位的物
理存贮单元,而”字符”则是一个文化相关的符号。在UNICODE中,一
个字符就是两个字节。一个汉字算两个英文字符的时代已经快过去
了。

从前多种字符集存在时,那些做多语言软件的公司遇上过很大麻烦
,他们为了在不同的国家销售同一套软件,就不得不在区域化软件
时也加持那个双字节字符集咒语,不仅要处处小心不要搞错,还要
把软件中的文字在不同的字符集中转来转去。UNICODE对于他们来说
是一个很好的一揽子解决方案,于是从 Windows
NT开始,MS趁机把它们的操作系统改了一遍,把所有的核心代码都
改成了用UNICODE方式工作的版本,从这时开始,WINDOWS
系统终于无需要加装各种本土语言系统,就可以显示全世界上所有
文化的字符了。

但是,UNICODE在制订时没有考虑与任何一种现有的编码方案保持兼
容,这使得GBK与UNICODE在汉字的内码编排上完全是不一样的,没
有一种简单的算术方法可以把文本内容从UNICODE编码和另一种编码
进行转换,这种转换必须通过查表来进行。

如前所述,UNICODE是用两个字节来表示为一个字符,他总共可以组
合出65535不同的字符,这大概已经可以覆盖世界上所有文化的符号
。如果还不够也没有关系,ISO已经准备了UCS-4方案,说简单了就
是四个字节来表示一个字符,这样我们就可以组合出21亿个不同的
字符出来(最高位有其他用途),这大概可以用到银河联邦成立那一
天吧!

UTF8

UTF8并不算是一种电脑编码,而是一种储存和传送的格式

如前所述,每个Unicode/UCS字符都以2或4个bytes来储存,看看以下
的比较:


以”I am Chinese”为例:

用ANSI储存:12 Bytes

用Unicode/UCS2储存:24 Bytes + 2 Bytes(header)

用UCS4储存:48 Bytes + 4 Bytes(header)


以”我是中国人”为例:

用ANSI储存:10 Bytes

用Unicode/UCS2储存:10 Bytes + 2 Bytes(header)

用UCS4储存:20 Bytes + 4 Bytes(header)

由此可见直接以Unicode/UCS的原始形式来储存是一种极大的浪费,
而且也不利于互联网的传输(中文稍为合算一点。Unicode/UCS的压
缩形式-UTF8出现了,套用官方网站的首句话(UTF-8 stands for
Unicode Transformation Format-8. It is an octet (8-bit)
lossless encoding of Unicode
characters),由于UTF也适用于编码UCS,故亦可称为UCS
transformation formats (UTF)

UTF8是以8bits即1Bytes为编码的最基本单位,当然也可以有基于
16bits和32bits的形式,分别称为UTF16和UTF32,但目前用得不多
,而UTF8则被广泛应用在文件储存和网络传输中。

事实证明,对可以用ASCII表示的字符使用UNICODE并不高效,因为
UNICODE比ASCII占用大一倍的空间,而对ASCII来说高字节的0对他
毫无用处。为了解决这个问题,就出现了一些中间格式的字符集,
他们被称为通用转换格式,即UTF(Universal Transformation
Format)。目前存在的UTF格式有:UTF-7, UTF-7.5, UTF-8, UTF-16
, 以及 UTF-32。

UNICODE来到时,一起到来的还有计算机网络的兴起,UNICODE
如何在网络上传输也是一个必须考虑的问题,于是面向传输的众多
UTF(UCS TransferFormat)标准出现了,顾名思义,UTF8就是每次8个
位传输数据,而UTF16就是每次16个位,只不过为了传输时的可靠,
从UNICODE到UTF时并不是直接的对应,而是要过一些算法和规则来
转换。

受到过网络编程加持的计算机僧侣们都知道,在网络里传递信息时
有一个很重要的问题,就是对于数据高低位的解读方式,一些计算
机是采用低位先发送的方法,例如我们PC机采用的INTEL架构,而另
一些是采用高位先发送的方式,在网络中交换数据时,**为了核对双
方对于高低位的认识是否是一致的,采用了一种很简便的方法,就
是在文本流的开始时向对方发送一个标志符——如果之后的文本是高
位在前,那就发送”FEFF”,反之,则发送”FFFE”**。不信你可以用二
进制方式打开一个UTF-X格式的文件,看看开头两个字节是不是这两
个字节?

讲到这里,我们再顺便说说一个很著名的奇怪现象:当你在 windows
的记事本里新建一个文件,输入”联通”两个字之后,保存,关闭,
然后再次打开,你会发现这两个字已经消失了,代之的是几个乱码
!呵呵,有人说这就是联通之 所以拼不过移动的原因。

其实这是因为GB2312编码与UTF8编码产生了编码冲撞的原因。

从网上引来一段从UNICODE到UTF8的转换规则,这里的unicode是使用
2字节的unicode,即ucs-2。即ucs-2和utf-8的转换规则

Unicode(ucs-2) Utf-8 0000 - 007F 0xxxxxxx 0080 - 07FF 110xxxxx 10xxxxxx 0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

从上表可以看到:如果unicode是ucs-2,则utf-8的长度为1-3个字
节;如果unicode是ucs-4,则utf-8的长度是1-6个字节,第一个字节的
高位1的数目指明了这个utf-8的字符使用的byte数目。
例如”汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以要用
3字节模板:
1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 1100
0100 1001,将这个比特流按三字节模板的分段方法分为0110 110001
001001,依次代替模板中的x,得到:1110-0110 10-110001
10-001001,即E6 B1 89,这就是其UTF8的编码。

而当新建一个文本文件时,记事本的编码默认是ANSI,如果你在ANSI
的编码输入汉字,那么他实际就是GB系列的编码方式,在这种编码
下,”联通”的内码是:

c1: 1100 0001

aa: 1010 1010

cd: 1100 1101

a8: 1010 1000

注意到了吗?第一二个字节、第三四个字节的起始部分的都是”110”
和”10”,正好与UTF8规则里的两字节模板是一致的,于是再次打开
记事本时,记事本就误认为这是一个UTF8编码的文件

让我们把第一个字节的110和第二个字节的10去掉,我们就得到了”00
001 101010”,再把各位对齐,补上前导的0,就得到了”0000 0000
0110 1010”,不好意思,这是UNICODE的006A,也就是小写的字母”j
“,而之后的两字节用UTF8解码之后是0368,这个字符什么也不是。
这就是只有”联通”两个字的文件没有办法在记事本里正常显示的原
因。

而如果你在”联通”之后多输入几个字,其他的字的编码不见得又恰
好是110和10开始的字节,这样再次打开时,记事本就不会坚持这是
一个utf8编码的文件,而会用ANSI的方式解读之,这时乱码又不出
现了。

下面给出ucs-4和utf-8的转化关系:

Unicode(ucs-4) Utf-8 0000 0000 - 0000 007F 0xxxxxxx 0000 0080 - 0000 07FF 110xxxxx 10xxxxxx 0000 0800 - 0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx 0001 0000 - 001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 0020 0000 - 03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 0400 0000 - 7FFF FFFF 1111110x 10xxxxxx 10xxxxxx

编码步骤:

1) 首先确定需要多少个8bits(octets)
2) 按照上述模板填充每个octets的高位bits
3) 把字符的bits填充至x中,字符顺序:低位→高位,UTF8顺序:最
后一个octet的最末位x→第一个octet最高位x
4) 解码的原理一样。

在数据库里,有n前缀的字串类
型就是UNICODE类型,这种类型中,固定用两个字节来表示一个字符
,无论这个字符是汉字还是英文字母,或是别的什么。例如:
nvarchar就是具有n前缀的子串类型,是unicode类型。
如果你要测试”abc汉字”这个串的长度,在没有n前缀的数据类型里
,这个字串是7个字符的长度,因为一个汉字相当于两个字符。而
在有n前缀的数据类型里,同样的测试串长度的函数将会告诉你是5
个字符,因为一个汉字就是一个字符。

效率

从上述编码原理中得出的结论是:

1.每个英文字母、数字所占的空间为1 Byte;

2.泛欧语系、斯拉夫语字母占2 Bytes;

3.汉字占3Bytes。

UTF8的好处:

数据表现:

网页可以显示任何语言和文字,只要你的操作系统支持
unicode,还有相应的字体,Linux下系统编码为utf8的话,可以解决很
多无谓的中文问题,比如mp3播放器或者gtk2.

数据交换:

无需那些gb2312和big5之间的转换程序了.

UTF8的坏处:

汉字为三个字符,有时varchar不大够用.


通过上述历史的描述与理解,我们至少明确一下几个概念(个人理解,可能有偏差)

  1. 字符集是一个确定的集合,例如GB2312就是国人自己设定的一个字符集合(准确的讲它是符号与数值有唯一对应关系的一张有限表,通过符号可以查到数值,反之亦然)

  2. 字符编码是一种映射关系:例如ascii,unicode中每一个符号都有确定的数值与之对应系(一种规定,不要问这个对应关系哪儿来的)

  3. 存储方式:在磁盘或者内存中的字符是以二进制编码的形式存储,同一种编码用不同的方式存储结果也不一样:

==比如汉字”中文“查找到它们的unicode编码分别是4E2D, 6587但是在intel架构的PC上存储时,默认是用小端模式存储的,即:2D4E, 8765,这个在编程中如果设定使用unicode编码的,则要特别注意中文的显示问题,如果使用大端模式存储就不会有这个问题,同样的,目前被广泛使用的utf-8,其实它并不是一个独立的字符集规范,它只是对unicode编码在存储和传输上的优化==

原创粉丝点击