GB18030编码
来源:互联网 发布:淘宝拍照用什么手机 编辑:程序博客网 时间:2024/06/18 02:29
原文地址:http://www.qqxiuzi.cn/zh/hanzi-gb18030-bianma.php
GB18030编码采用单字节、双字节、四字节分段编码方案,具体码位见下文。GB18030向下兼容GBK和GB2312编码。
国家标准GB18030-2005《信息技术 中文编码字符集》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。 GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。
GB18030-2000编码标准《信息技术 汉字编码字符集 基本集的扩充》是由信息产业部和国家质量技术监督局在2000年3月17日联合发布的,并且将作为一项国家标准在2001年的1月正式强制执行。GB18030-2000仅规定了常用非汉字符号和27533个汉字(包括部首、部件等)的编码。
GB18030-2005《信息技术 中文编码字符集》是以汉字为主并包含多种我国少数民族文字的超大型中文编码字符集,其中收入汉字70000余个。在GB18030-2000的基础上增加了42711个汉字和多种我国少数民族文字的编码(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)。增加的这些内容是推荐性的,原GB18030-2000中的内容是强制性的,市场上销售的产品必须符合。故GB18030-2005为部分强制性标准,自发布之日起代替GB18030-2000。
GB18030-2000字汇
GB18030-2000标准收录的字符分别以单字节、双字节和四字节编码。
1、单字节部分
本标准中,单字节的部分收录了GB 11383的0x00到0x7F全部128个字符及单字节编码的欧元符号。
2、双字节部分
本标准中,双字节的部分收录内容如下:GB 13000.1的全部CJK统一汉字字符。GB 13000.1的CJK兼容区挑选出来的21个汉字。GB 13000.1中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。GB 13000.1收录的其它字符31个。GB 2312中的非汉字符号。GB 12345 的竖排标点符号19个。GB 2312未收录的10个小写罗马数字。GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ 。汉字数字“〇”。表意文字描述符13个。增补汉字和部首/构件80个。双字节编码的欧元符号。
3 、四字节部分
本标准的四字节的部分,收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1 中的全部字符。
GB18030-2005字汇
GB18030-2005标准收录的字符分别以单字节、双字节或四字节编码。
1、单字节部分
本标准中,单字节的部分收录了GB/T 11383-1989的0x00到0x7F全部128个字符。
2、双字节部分
本标准中,双字节的部分收录内容如下:GB 13000.1-1993的全部CJK统一汉字字符。GB 13000.1-1993的CJK兼容区挑选出来的21个汉字。GB 13000.1-1993中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。GB 13000.1-1993收录的其它字符31个。GB 2312中的非汉字符号。GB 12345 的竖排标点符号19个。GB 2312未收录的10个小写罗马数字。GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ 。汉字数字“〇”。表意文字描述符13个。对GB 13000.1-1993增补的汉字和部首/构件80个。双字节编码的欧元符号。
3、四字节部分
本标准的四字节的部分,收录了上述双字节字符之外的,GB 13000的CJK统一汉字扩充A、CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字的字符。GB18030-2005最主要的变化是增加了CJK统一汉字扩充B。它还去掉了单字节编码的欧元符号0x80)。GB18030有1611668个码位,在GB18030-2005中定义了76556个字符。随着我国汉字整理和编码研究工作的不断深入,以及国际标准ISO/IEC 10646的不断发展,GB18030所收录的字符将在新版本中增加。
GB18030-2000汉字
如下表所示,GB18030-2000收录了27533个汉字:
27533就是6763+6080+8160+6530。双字节部分的6763+6080+8160=21003个汉字就是GBK的21003个汉字。
在Unicode中,CJK统一汉字扩充A有6582个汉字,为什么这里只有6530个汉字?
这是因为在GBK时代,双字节部分已经收录过CJK统一汉字扩充A的52个汉字,所以还余6530个汉字。
GB18030-2005汉字
如下表所示,GB18030-2005收录了70244个汉字:
70244就是6763+6080+8160+6530+42711。
GB18030码位分配
GB18030编码采用单字节、双字节和四字节三种方式对字符编码。
单字节部分采用GB/T 11383的编码结构与规则,使用0x00至0x7F码位(对应ASCII码位)。
双字节部分,首字节码位从0x81至0xFE,尾字节码位分别是0x40至0x7E和0x80至0xFE。
四字节部分采用GB/T 11383未采用的0x30到0x39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0x81308130到0xFE39FE39。其中第一、三个字节编码码位均为0x81至0xFE,第二、四个字节编码码位均为0x30至0x39。
- GB18030编码
- GB18030编码
- UNICODE、GB18030、ASCII编码
- GB2312 GBK GB18030编码介绍
- GB18030汉字的各种编码
- Unicode 转化 GB18030 编码 方法
- GB18030编码研究以及GBK、GB18030与Unicode的映射
- GB18030编码研究以及GBK、GB18030与Unicode的映射
- GB18030编码研究以及GBK、GB18030与Unicode的映射
- gb18030
- GB18030
- ubuntu 编码 UTF-8 GBK GB18030
- 汉字的编码格式:GB18030 GB2312
- 编码UNICODE UTF8 GBK GB2312 GB18030
- gb18030编码格式了解和应用
- 自动检测汉字GB18030编码与UTF-8编码
- 中文编码标准GB2312, GB18030的下载地址
- 中文字符编码简介 GB2312/GBK/GB18030/BIG5
- Spring+SpringMVC+Mybatis
- Max Area of Island(leetcode)
- How can i use iptables on centos 7
- Spring
- 8086汇编学习
- GB18030编码
- yum安装的httpd配置多个虚拟主机、配置8080端口、访问phpMyAdmin
- CS231n(2):课程作业# 1简介
- scanner 中的next() 和nextline()区别
- 墨刀初试
- 初识分布式系统
- Java过滤器与SpringMVC拦截器之间的关系与区别
- SQL (like) 使用
- hive创建表