查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码
来源:互联网 发布:js按钮点击弹出图片 编辑:程序博客网 时间:2024/05/17 01:42
在所有IT项目中,汉字字符编码带来的问题是一个不小的工作量,经常导致乱码的发生。快速查询任意汉字的编码能够更快的定位错误。糖果云库新增了汉字字符集库,可查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码,库的链接为:
http://www.tgyun.cc/lib/bigtang_汉字字符集
GB2312编码范围:A1A1-FEFE,其中汉字编码范围:B0A1-F7FE。
GB2312编码是第一个汉字编码国家标准,由中国国家标准总局1980年发布,1981年5月1日开始使用。GB2312编码共收录汉字6763个,其中一级汉字3755个,二级汉字3008个。同时,GB2312编码收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
GBK编码范围:8140-FEFE,汉字编码范围见第二节:码位分配及顺序。
GBK编码,是对GB2312编码的扩展,因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案,其编码范围:8140-FEFE,剔除xx7F码位,共23940个码位。共收录汉字和图形符号21886个,其中汉字(包括部首和构件)21003个,图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布,这一版的GBK规范为1.0版。
Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是”Universal Multiple-Octet Coded Character Set”,简称为UCS。UCS可以看作是”Unicode Character Set”的缩写。
UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码。
UCS-2有2^16=65536个码位,常说的Unicode编码指的是UCS-2的编码,它又有两种表示方法:
UTF-8就是以8位为单元对UCS进行编码。UTF-16以16位为单元对UCS进行编码。
GB2312编码是第一个汉字编码国家标准,由中国国家标准总局1980年发布,1981年5月1日开始使用。GB2312编码共收录汉字6763个,其中一级汉字3755个,二级汉字3008个。同时,GB2312编码收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
GBK编码范围:8140-FEFE,汉字编码范围见第二节:码位分配及顺序。
GBK编码,是对GB2312编码的扩展,因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案,其编码范围:8140-FEFE,剔除xx7F码位,共23940个码位。共收录汉字和图形符号21886个,其中汉字(包括部首和构件)21003个,图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布,这一版的GBK规范为1.0版。
Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是”Universal Multiple-Octet Coded Character Set”,简称为UCS。UCS可以看作是”Unicode Character Set”的缩写。
UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码。
UCS-2有2^16=65536个码位,常说的Unicode编码指的是UCS-2的编码,它又有两种表示方法:
UTF-8就是以8位为单元对UCS进行编码。UTF-16以16位为单元对UCS进行编码。
阅读全文
0 0
- 查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码
- 编码UNICODE UTF8 GBK GB2312 GB18030
- 编码:utf8, unicode, GBK
- 网页编码utf8 gb2312 gbk的区别
- BIG5编码, GB编码(GB2312, GBK, ...), Unicode编码, UTF8, WideChar, MultiByte, Char 说明与区别
- VC 实现 汉字 GBK(GB2312) 转化为 UTF8 编码
- VC 实现 汉字 GBK(GB2312) 转化为 UTF8 编码
- VC 实现 汉字 GBK(GB2312) 转化为 UTF8 编码
- VC 实现 汉字 GBK(GB2312) 转化为 UTF8 编码
- Elixir中将GB2312编码的汉字转为UTF8编码
- 汉字的unicode、GB、GBK、BIG5编码
- 转:对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理解
- 对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理解
- 对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理解
- 对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理解
- 对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理解
- 对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理解
- 字符编码的问题ASCII UTF8 GBK GB2312
- 利用Arduino+TB6600驱动模块控制两相四线42减速步进电机
- 期末考试之分等级
- OpenCV3图像处理--imread、imwrite、clone
- 【LuaJIT版】从零开始在 macOS 上配置 Lua 开发环境
- 5.2.7 位置方法
- 查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码
- win驱动kmdf和umdf区别
- hud 6227 Rabbits
- EXT4文件系统的磁盘布局
- 一道恶心的题目,必须严格按照要求
- JSP页面向action传值方式总结
- 尝试WebMagic+Dubbo搭建爬虫Cluster(更新完毕)
- 利用keepalived实现nginx和php-fpm 两台服务器中的服务互为主从
- Java本地接口(JNI)编程规范与指南译文和练习