字符,字符集,字符编码和显示等问题

来源:互联网 发布:电力通信网络组网分析 编辑:程序博客网 时间:2024/06/05 19:34

【编码方式】
1. 中文编码
中文字符常见的编码方式有:gbk,gb2312和utf-8。这些都是内码,即字符存储在计算机中的编码方式。
GBK为GB2312的扩展,完全兼容gb2312的所有字符
utf-8为unicode编码的实现方式之一(其他的实现方式还有utf-16, utf-32)。utf-8是一种变长的编码,占1-4个字节,
UTF-8用1到4个字节编码UNICODE字符。

|  gb2312  |  汉字占2个字节  |  英文字母占一个字节
|  gbk         |  汉字占2个字节  |  英文字母占一个字节
|  utf-8        |  汉字占3个字节  |  英文字母占一个字节


一个文字就是一个字符。在计算机中,字符是用数字来表示的,不同的文字用不同的数字表示。

编码,意思是指将数据通过一定方式表达或储存,这个方式就叫编码。所以字符编码就是字符的表现、储存方式,也就是字符集的实现方式。


所以,0x4e0x73是unicode字符,当用一个宽字节wchar_t存储并在windows的控制台print出来是个中文(因为gbk正好也是2个字节的,否则如果控制台是别的编码方式打印出来就是乱码了),这也是为什么我们常说unicode一个中文占两个字符的原因。而\u4e73是unicode编码,编译器能够识别这个码在unicode字符集中表示的字符,并按指定的编码方式显示(读取)这个字符(中文也是字符)。

0 0