ASCII Unicode 转义字符 UTF-X 释疑

来源:互联网 发布:电脑配件京东还是淘宝 编辑:程序博客网 时间:2024/04/30 06:55
ASCII 
American Standard Code for Information Interchange美国标准信息交换码,它用来显示现代英语和其他西欧语言。 American National Standard Institute , ANSI 于1967年定案,之后被定为国际标准。
总之,ASCII码包含键盘中英文输出的所有字符。一个字符和一个数字对应。因为这样字符和数字才可以相互转换。
但是ASCII码中前面几个是无法显式表示的。 空格 正文开始等  \ 反斜杠也不能独立表示。

转义字符
所有的ASCII码都可以用"\" + 八进制数字来表示。试了一下C语言支持(‘\126’),但c#不支持。

Unicode
是计算机科学领域里的一项业界标准, 它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。 Unicode 已经有6.2版本。世界上有一大批计算机、语言学等科学家专门研究Unicode,Unicode标准已经不单是一个编码标准,还是记录人类语言文字资料的一个巨大的数据库,同时从事人类文化遗产的发掘和保护工作。 先天即被ANSI束缚的C程序设计语言通过对宽字元集的支持来支持Unicode。

UTF-X
事实证明,对可以用ASCII表示的字符使用UNICODE并不高效,因为UNICODE比ASCII占用大一倍的空间,而对ASCII来说高字节的0对他毫无用处。为了解决这个问题,就出现了一些中间格式的字符集,他们被称为通用转换格式,即UTF(Unicode Transformation Format)。常见的UTF格式有:UTF-7, UTF-7.5, UTF-8,UTF-16, 以及 UTF-32。
0 0