Unicode编码总结理解

来源:互联网 发布:java编程输出质数 编辑:程序博客网 时间:2024/06/11 19:06

Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。它为每种语言中的每个字符设定了统一并且唯一的二进制编码。它包含世界上所有语言以及来自数学领域和其他领域的各种符号。

Unicode用4个字节,数字0-0x10FFFF来映射,有1114112个码位(码位就是可以分配给字符的数字),全世界的字符加起来也用不了所有的码位。

需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。

编码是将字符串转化为一系列字节的过程。UTF-8是将数字转换到程序数据的编码方案,是Unicode的实现方式之一

在表示一个Unicode的字符时,通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字符。

原创粉丝点击