字符编码

来源:互联网 发布:软件发票备注栏规定 编辑:程序博客网 时间:2024/06/06 02:25

原因:

您打开的文件含有无效字符。如果您强行编辑该文件,可能会造成文件损坏。
您可以另选一种字符编码,然后再试一次。

当前语系UTF-8



1.汉字编码


 (1)GB2312-80

中文名国家标准字符集(GB=GuóBiāo国标)

收入汉字6763个,符号715个,总计7478

由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980个字符

GB2312 编码表:??


(2)Big-5 

中文名大五码,是台湾繁体字的字符集,收入13060个繁体汉字,808个符号,总计13868个字符,普遍使用于台湾、香港等地区

2003年,Big5被收录到台湾官方标准的附录当中,取得了较正式的地位。这个最新版本被称为Big5-2003。

(3)GBK

中文名国家标准扩展字符集(GB=GuóBiāo国标;K=Kuò扩,即扩展)

兼容GB2312-80标准,包含Big-5的繁体字,但是不兼容Big-5字符集编码,收入21003个汉字,882个符号,共计21885个字符,包括了中日韩(CJK)统一汉字20902个、扩展A集(CJK Ext-A) 中的汉字52个

中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司、电子工业部科技与质量监督司1995年12月15日联合以技监标函1995 229号文件的形式,将它确定为技术规范指导性文件。这一版的GBK规范为1.0版。

(4)GB18030-2000

包含GBK字符集和CJK Ext-A 全部6582个汉字,共计27533个汉字。宋体-18030、方正楷体(FZKai-Z03)、书同文楷体(MS Song)宋体(ht_cjk+)、香港华康标准宋体(DFSongStd)、华康香港标准楷体、CERG Chinese Font、韩国New Gulim,以及微软Windows Vista操作系统提供的宋黑楷仿宋等字体亦支持这个字符集的显示

GB18030-2000编码标准是由信息产业部和国家质量技术监督局在2000年 3月17日联合发布的,并且将作为一项国家标准在2001年的1月正式强制执行。

(5)GB18030-2005

在GB13030-2000的基础上,增加了CJK Ext-B的36862个汉字,以及其它的一些汉字,共计70244个汉字。
GB18030-2005《信息技术中文编码字符集》是我国自主研制的以汉字为主并包含多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字符集强制性标准

(6)ISO/IEC 10646 / Unicode

Information Technology - Universal Multiple - Octet Coded Character Set,简称UCS。中文全称为:信息技术--通用多八位编码字符集,亦称大字符集

CJK统一汉字编码20992个、CJK Ext-A 编码 6582个、CJK Ext-B 编码 36862个、CJK Ext-C 编码 4160个、 CJK Ext-D 编码 222个,共计74686个汉字

----------------------------------------------------我是短短的分割线----------------------------------------------------------

2.字符编码

(1)

ASCII

(ASCII 是 American Standard Code for Information Interchange 的缩写)

ASCII是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。ASCII码划分为两个集合:128个字符的标准ASCII码和附加的128个字符的扩充和ASCII码。比较EBCDIC。其中95个字符可以显示。另外33个不可以显示。 标准ASCII码为7位,扩充为8位。

ASCII码于1961年提出,用于在不同计算机硬件和软件系统中实现数据传输标准化,在大多数的小型机和全部的个人计算机都使用此码

(2)

MBCS

(Muilti-Bytes Charecter Set,多字节字符集)

为了扩充ASCII编码,以用于显示本国的语言,不同的国家和地区制定了不同的标准,由此产生了 GB2312, BIG5, JIS 等各自的编码标准。这些使用 2 个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码,又称为"MBCS".

(3)

GB2312

(国标不用多说的了)

(4)

GBK

(国标扩展上面也有)

(5)


Big5

(大五笔 同上)

(6)

Unicode统一码、万国码、单一码)是一种在计算机上使用的字符编码

Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。

通用字符集(Universal Character Set, UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集。UCS-2用两个字节编码,UCS-4用4个字节编码。

(7)

UTF -8

为了提高Unicode的编码效率,于是就出现了UTF-8编码。UTF-8可以根据不同的符号自动选择编码的长短。比如英文字母可以只用1个字节就够了。

(8)

Base64

为了能让邮件系统正常的收发信件,就需要把由其他编码存储的符号转换成ASCII码来传输。比如,在一端发送GB2312编码->根据Base64规则->转换成ASCII码,接收端收到ASCII码->根据Base64规则->还原到GB2312编码。

0 0