汉字的编码

来源:互联网 发布:java生成四位随机数 编辑:程序博客网 时间:2024/05/16 18:16

中国大陆的汉字编码总体上可以分为三个层次:

 

GB2312-80   

全称是GB2312-80《信息交换用汉字编码字符集基本集》,1980年发布,是中文信息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码, Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312

双字节编码范围:A1A1~FEFE

A1-A9:符号区,包含682个符号;

B0-F7:汉字区,包含6763个汉字。

GB码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。

GB2312是最小也是最常用的一个汉字编码集,在很多手机上由于资源的限制,只支持GB2312

 

GBK

GBK即《汉字内码扩展规范》,是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于199510月,同年12月完成GBK规范。该编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。Windows95/98简体中文版的字库表层编码就采用的是GBK,通过GBKUCS之间一一对应的码表与底层字库联系。

GBK码表可以分为以下几个部分:(GBK汉字表将附在下一篇里)

GBK/1: GB2312非汉字符号(A1A1-A9EF)

GBK/2: GB2312 汉字(B0A0-F7FE)

GBK/3: 扩充汉字(8140-A0FE)

GBK/4: 扩充汉字(AA40-FEA0)

GBK/5: 扩充非汉字(A840-A996)

用户自定义区 (1) (AAA0-AFFF)

用户自定义区 (2) (F8A0-FEFF)

用户自定义区 (3) (A140-A7AF)

 

GB18030

GB 18030-2000,《信息交换用汉字编码字符集基本集的扩充》,是到目前为止最大最全的汉字编码集,也是未来将主要应用的编码集。GB18030完全兼容以上的两个编码集,分为两个部分,一部是以双字节来编码的,这一部分的汉字与GBK中完全相同;另一部分则以四字节来编码,这一部分比GBK多出6582个汉字。

0 0
原创粉丝点击