关于文字编码

来源:互联网 发布:oracle数据库设置密码 编辑:程序博客网 时间:2024/06/18 07:17

文字编码属于字符编码,这里先阐述一下字符编码的背景知识

 

编码:编码是将信息从一种形式或格式转换为另一种形式的过程,这里的文字编码是指把字符转换为数字形式(即将字形转换成一个或多个字节来显示)从而便于计算机中存储和使用这些字符的过程。

 

字符:字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。

 

字符集:字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。

 

代码页:代码页规定了一个字符集中所有字符的数字编码。

 

字符编码含义:属于非数值信息和控制信息的字母、各种控制符号、图形符号以二进制编码方式存入计算机并得以处理,这种对字母和符号进行编码的二进制代码称为字符编码(Character Code)。

 

文字编码的具体内容

l   文字编码的功能:文字编码是以固定的顺序排列文字字符序列,并以此做为记录、存贮、传递、交换的统一内部标准,文字编码是是计算机平台上实现文字处理的基础。

 

l  文字编码的种类(较流行的编码):ISO/IEC 646:ASCII;EBCDIC;ISO/IEC 8859[1]:ISO/IEC 8859-1, ISO/IEC8859-2, ISO/IEC 8859-3, ISO/IEC 8859-4, ISO/IEC 8859-5, ISO/IEC 8859-6, ISO/IEC8859-7, ISO/IEC 8859-8, ISO/IEC 8859-9, ISO/IEC 8859-10, ISO/IEC 8859-11,ISO/IEC 8859-13, ISO/IEC 8859-14, ISO/IEC 8859-15, ISO/IEC 8859-16;DOS 字符集,也被称作IBM 代码页:CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860, CP861, CP863,CP865, CP866, CP869;Windows 字符集:Windows-1250、Windows-1251 用于西里尔字母表、Windows-1252、Windows-1253、Windows-1254、Windows-1255 用于希伯莱语、Windows-1256 用于阿拉伯语、Windows-1257、Windows-1258 用于越南语;KOI8-R、KOI8-U、 KOI7;MIK;印度文字资讯交换码;越南资讯交换标准代码;大五码(Big5):香港增补字符集;国家标准代码:、GBK、GB 2312、GB 18030;中文资讯交换码;中文标准交换码;ISO/IEC 2022, Shift JIS, EUC;UTF-8(以及其子集,如16位的基本多文种平面)。——种类摘自Wiki百科

 

l  主要文字编码的具体介绍:

1.      ASCII(American Standard Code for Information Interchange)美国信息交换标准代码:它是基于拉丁字母的一套电脑编码系统。主要用于显示现代英语,其扩展版本EASCII可以勉强显示其他西欧语言。ASCII是现今最通用的单字节编码系统(但是有被Unicode追上的迹象),并等同于国际标准ISO/IEC 646。(详情参见Wiki ASCII)

 

2.      国家标准代码:简称国标码,是中华人民共和国的中文常用汉字编码集,亦为新加坡采用。国家标准强制标准冠以“GB”。推荐标准冠以“GB/T”。中华人民共和国国家标准总局于2000年推出强制性的GB 18030-2000标准(该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字)。于2001年8月31日后发布或出厂的产品,必须符合GB 18030-2000的相关要求。(详情参见百度国标码)

 

3.      大五码:Big5,又称为大五码或五大码,是使用繁体中文(正体中文)社群中最常用的电脑汉字字符集标准,共收录13,060个汉字。中文码分为内码及交换码两类,Big5属中文内码,知名的中文交换码有CCCII、CNS11643。Big5虽普及于台湾、香港与澳门等繁体中文通行区,但长期以来并非当地的国家标准,而只是业界标准。(详情参见Wiki 大五码)

 

4.      DBCS:中文、日文、韩文等语言使用两个字节表示一个字符,其字符集称为双字节字符集(double-byte character set),字符流在解析时将两个字节作为一个双字节编码。GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。(详情参见Wiki DBCS)

 

 

5.      Unicode:由于单字节编码系统不能够满足亚洲国家文化中表意文字显示需求,逐步满足这些文字显示的系统发展至Unicode(Universal Multiple-OctetCoded Character Set)。Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求;并且Unicode解决了全球主要文字计算机编码的技术问题——独立本地化资源文件,使本地化的资源文件与源代码分离,便于本地化成全球其它语言版本。(详情参见百度Unicode/Wiki Unicode)

为了保证文字覆盖的普遍性、解决传输问题,Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。

 

l   主要文字编码的转换:

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换,如: 

GBK、GB2312->Unicode->UTF8 
UTF8->Unicode->GBK、GB2312 

 

 



[1]ISO 8859,全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位字符集的标准,现时定义了15个字符集。

原创粉丝点击