XML规范中的字符集

来源:互联网 发布:telnet 测试端口 原理 编辑:程序博客网 时间:2024/06/05 06:04

 XML规范中的字符集

常见的字符集有:
ASCII字符集、ISO8859字符集、Unicode字符集合、UCS字符集
常用的中文字符集:GB2312、GBK和Big5。

 

 

ASCII字符集

ASCII码的全称是American Standard Code for Information Interchange(美国标准信息交换码),它是一种单字节的7位二进制编码。

在ASCII码字符集中,每个数字,字母或特殊字符都对应于一个7位二进制数,这个7位二进制数是以一个字节(8位)来表示的(其中最高位为0)。从而定义了书写英语所需要的全部字符以及部分控制字符。

 

 

ISO 8859字符集

ASCII码在定义之初只是为了表示英语(更严格来说是美式英语),对于象Æ、Ë、¥、§、Ö、Ü等其他语言或地区所需要的字符则没有定义其表示方式。

随着计算机应用的扩展,人们对其他字符表示的需求越来越迫切。1987年,国际标准组织ISO(International Organization for Standardization)发布了字符集标准:ISO8859-1字符集。ISO8859-1通常也被叫做Latin-1字符集。Latin-1字符集在ASCII码的基础上增加了对西欧语言的支持。

 

Unicode字符集

Unicode是由美国各大电脑厂商所组成的Unicode协会创建的。其目的在于推广一个统一的编码方案,将世界上所有的常用文字都包含进去。它涵盖了美国、欧洲、中东、非洲、印度、亚洲和太平洋等地区的绝大多数语言。Unicode在创建之初希望能够方便地交换、处理和显示多种文字,就象数学符号一样地通用。它希望能够解决使用多种字符标准的计算机国际化问题。

 

中文字符集

包括中文简体和繁体,常用的字符集有三种:GB2312、GBK和Big5。

GB码的全称是GB2312-80《信息交换用汉字编码字符集 基本集》,1980年发布,是中文信息处理的国家标准,在中国大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码的,Windows 95/98则以GBK为基本汉字编码,但兼容支持GB2312。

 

GBK字符集

GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年12月完成的GBK规范。该编码标准兼容GB2312,共收录了汉字21003个、符号883个,并提供了1894个造字码位,简、繁体字融于一库。

 

BIG5字符集

BIG5编码是由台湾制定的、目前在台湾、香港地区普遍使用的一种繁体汉字的编码标准,包括符号440个,一级汉字5401个、二级汉字7652个,共计13060个汉字。

 

UTF-8字符集

UTF是Unicode/UCS Transformation Format的缩写。由于Unicode/UCS 使用多字节表示一个字符,因此使用Unicode/UCS的英文文本文件比使用ASCII码或Latin-1码的文件要大得多,因此出现了压缩版本的Unicode/UCS:UTF-8。

 

 

UTF-16字符集

UTF-16也是ISO/IEC 10646-1和Unicode的变形表示方式的一种。

它的目的是维持双八位的编码方式,同时也用一些特殊的双八位来表示非基本多文种平面(BMP)中的一些字符。这种用来表示非BMP字符的方法在Unicode中称作代理对机制。