汉字编码
来源:互联网 发布:2016年经济危机知乎 编辑:程序博客网 时间:2024/06/01 23:05
转载https://www.cnblogs.com/straybirds/p/6392306.html
GB2312编码:1981年5月1日发布的简体中文汉字编码国家标准。GB2312对汉字采用双字节编码,收录7445个图形字符,其中包括6763个汉字。
BIG5编码:台湾地区繁体中文标准字符集,采用双字节编码,共收录13053个中文字,1984年实施。
GBK编码:1995年12月发布的汉字编码国家标准,是对GB2312编码的扩充,对汉字采用双字节编码。GBK字符集共收录21003个汉字,包含国家标准GB13000-1中的全部中日韩汉字,和BIG5编码中的所有汉字。
GB18030编码:2000年3月17日发布的汉字编码国家标准,是对GBK编码的扩充,覆盖中文、日文、朝鲜语和中国少数民族文字,其中收录27484个汉字。GB18030字符集采用单字节、双字节和四字节三种方式对字符编码。兼容GBK和GB2312字符集。
Unicode编码:国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。
汉字unicode编码表:
字符集字数Unicode 编码基本汉字20902字4E00-9FA5基本汉字补充38字9FA6-9FCB扩展A6582字3400-4DB5扩展B42711字20000-2A6D6扩展C4149字2A700-2B734扩展D222字2B740-2B81D康熙部首214字2F00-2FD5部首扩展115字2E80-2EF3兼容汉字477字F900-FAD9兼容扩展542字2F800-2FA1DPUA(GBK)部件81字E815-E86F部件扩展452字E400-E5E8PUA增补207字E600-E6CF汉字笔画36字31C0-31E3汉字结构12字2FF0-2FFB汉语注音22字3105-3120注音扩展22字31A0-31BA〇1字3007一般使用2w基本汉字就够了
unicode中的CJKV,即“中日韩越统一表意文字”,是中文,日本,韩文,越南文中的汉字和类似于汉字的表意文字,主要包括汉字、仿汉字(如方块壮字)、日本国字、韩国独有汉字、越南的喃字)。
unicode编码区间4E00-9FA5包含了大部分的表意文字。对于汉字而言,在该区间内是不连续的,甚至包含了其它文字(如日本国字、韩国独有汉字、越南的喃字)
所以,使用简单的unicode编码区间表示汉字,或者简体汉字,是不可能的。只能通过GB2312与unicode之间的映射表进行处理。
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 汉字编码
- 文档预览比较通用的解决方案
- 安全与隐私没有允许任何来源选项
- XCode9: iPhone is busy: Preparing debugger support for iPhone
- 交换2个Integer的数据
- 【Scikit-Learn 中文文档】密度估计
- 汉字编码
- 编程思想 命名规范
- python 字符串格式化表达式
- 机器学习算法练习之(二):Python和Tensorflow分别实现简单的神经网络
- 目标检测系列论文阅读
- 数据在内存中是如何存储的
- Python: 什么是*args和**kwargs?
- gradle版本
- NB-IoT有望应用于水表和气表行业