unicode详解(转)

来源:互联网 发布:手机上怎么开淘宝店 编辑:程序博客网 时间:2024/05/29 19:53
  • UNICODE有多个字符集,其中最常用的是2字节字符集——UCS-2,即16个二进制,能表示0~65535共65536个字符,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,如0x7ECF转换成十进制 就是32463。目前中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分,其中中文仅取用了不到一万个常用字符。全部的中文字符在UCS-4中逐渐整理出。

  • Unicode码扩展自ASCII字元集。在严格的ASCII中,每个字元用7位元表示,或者电脑上普遍使用的每字元有8位元宽;而Unicode使用全16位元字元集。这使得Unicode能够表示世界上所有的书写语言中可能用於电脑通讯的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充,可能的话,最终将代替它。考虑到ASCII是电脑中最具支配地位的标准,所以这的确是一个很高的目标。
    Unicode影响到了电脑工业的每个部分,但也许会对作业系统和程式设计语言的影响最大。从这方面来看,我们已经上路了。Windows NT从底层支援Unicode。值得一提的是与ASCII码不兼容。目前,在网络、Windows系统和很多大型软件中得到应用。

  • 在ASCII码中增添Unicode码内容:它前128个字符就是ASCII码,之后是扩展码。在它中,各个字符块基于同样的标准。其中有希腊字母,西里尔文,亚美尼亚文,希伯来文等。而汉文,韩语,日语的象形文字占用从0X3000到0X9FFF的代码。最杰出的地方是,它只有一个字符集,有效的避免了双字节字符集的二义性。缺点是:占用的内存空间比ASCII大2倍。

原创粉丝点击