gbk2313编码范围

来源:互联网 发布:东方网络股票牛叉诊断 编辑:程序博客网 时间:2024/05/17 05:57

汉字区 包括
GBK/2:0xB0A1-F7FE, 收录 GB2312 汉字 6763 个,按原序排列;
GBK/3:0x8140-A0FE,收录 CJK 汉字 6080 个;
GBK/4:0xAA40-FEA0,收录 CJK 汉字和增补的汉字 8160 个。

图形符号区 包括
GBK/1:0xA1A1-A9FE,除 GB2312 的符号外,还增补了其它符号
GBK/5:0xA840-A9A0,扩除非汉字区。
用户自定义区
即 GBK 区域中的空白区,用户可以自己定义字符。
編碼
GBK 亦采用双字节表示,总体编码范围为 8140-FEFE 之间,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 XX7F 一条线。

GB2312

范围: 0xA1A1 - 0xFEFE
汉字范围: 0xB0A1 - 0xF7FE
GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。 GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中汉字占6763个。GB2312规 定"对任意一个图形字符都采用两个字节表示,每个字节均采用七位编码表示",习惯上称第一个字节为"高字节",第二个字节为"低字节"。GB2312- 80包含了大部分常用的一、二级汉字,和9区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集,这也是最基本的中文字符集。其编码 范围是高位0xa1-0xfe,低位也是0xa1-0xfe;汉字从0xb0a1开始,结束于0xf7fe。

 

GBK
范围: 0×8140 - 0xFEFE

GB2312-80 仅收汉字 6763 个,这大大少于现有汉字,随着时间推移及汉字文化的不断延伸推广,有些原来很少用的字,现在变成了常用字,例如:朱鎔基的“鎔”字,未收入 GB2312-80,现在大陆的报业出刊只得使用(金+容)、(金容)、(左金右容)等来表示,形式不一而同,这使得表示、存储、输入、处理都非常不方 便,对于搜索引擎等软件的构造来说也不是好消息,而且这种表示没有统一标准。从我们对人民日报 98 年数据的处理过程中,得出这样的经验:回填外字最困难的就是如何得到这种表示方法的集合。

为了解决这些问题,以及配合 UNICODE 的实施,全国信息技术化技术委员会于 1995 年 12 月 1 日《汉字内码扩展规范》。GBK 向下与 GB2312 完全兼容,向上支持 ISO-10646 国际标准,在前者向后者过渡过程中起到的承上启下的作用。


GBK是GB2312-80的扩展,是向上兼容的。它包含了20902个汉字,其编码范围是0×8140-0xfefe,剔除高位0×80的字位。其所有字符都可以一对一映射到Unicode2.0。

字集
GBK 共收入21886个汉字和图形符号,包括:

GB2312 中的全部汉字、非汉字符号。

BIG5 中的全部汉字。

与 ISO-10646 相应的国家标准 GB13000 中的其它 CJK 汉字,以上合计 20902 个汉字。
其它汉字、部首、符号,共计 984 个。
GBK 编码区分三部分: