Unicode标准规范和Unicode编码方案

来源:互联网 发布:linux终端 中文 问号 编辑:程序博客网 时间:2024/05/22 08:07
一、Unicode标准规范
Unicode标准规范的目标是针对各种不同语言和字符集提供一套唯一的,统一的,通用的字符操作标准规范。它定义了很多相关的规范,它定义了字符编码方案,字符的校对标准,字符的渲染规范和字符的双向展示顺序等。Unicode标准规范定义的字符编码方案简称为Unicode编码方案。
到2015年6月为止,最新的Unicode标准规范版本为Unicode 8.0,它涵盖了多于120000个的字符,覆盖了多余129个的语言。Unicode标准规范由Unicode Consortium进行维护管理。

基于Unicode标准规范提供的唯一性,统一性和通用性,它被应用到了很多地方,尤其是计算机软件的国际化和本地化。在很多现代技术中,比如现代操作系统,Java语言等中都采用了Unicode标准规范。


二、Unicode编码方案
Unicode编码方案是Unicode标准规范中最重要的一部分内容。关于Unicode编码方案主要有两条主线:UCS和UTF。UTF主线由Unicode Consortium进行维护管理,UCS主线由ISO/IEC进行维护管理。
2.1、UCS
全称为"Universal Character Set",在UCS中主要有UCS-2和UCS-4。
2.1.1、UCS-2
UCS-2是定长字节的,固定使用2个字节进行编码。采用BOM机制。
2.1.2、UCS-4
UCS-4是定长字节的,固定使用4个字节进行编码。采用BOM机制。
2.2、UTF
全称为"Unicode Transformation Format",在UTF中主要有UTF-8,UTF-16和UTF-32。
2.2.1、UTF-8
UTF-8是变长字节的,使用1-4个字节进行编码。UTF-8完全兼容ASCII,对于ASCII中的字符,UTF-8采用的编码值跟ASCII完全一致。
2.2.2、UTF-16
UTF-16是变长字节的,使用2-4个字节进行编码。扩展于UCS-2,即USC-2是UTF-16的子集。采用BOM机制。
2.2.3、UTF-32

UTF-32跟UCS-4完全等价。采用BOM机制。




参考文献:
[1]https://en.wikipedia.org/wiki/Unicode
[2]https://en.wikipedia.org/wiki/Unicode#Unicode_Transformation_Format_and_Universal_Character_Set

[3]https://en.wikipedia.org/wiki/Universal_Coded_Character_Set

[4]http://blog.csdn.net/dslztx/article/details/48947097




0 0
原创粉丝点击