宽字节

来源:互联网 发布:sublime text 3编译js 编辑:程序博客网 时间:2024/05/01 17:59

转载请注明出处:http://blog.csdn.net/qq_26093511/article/category/6752927


例子:
 wchar_t *chinese_str = L"韦gif";
  unsigned int *p = (wchar_t *)chinese_str;
  int i;


  printf("Uniocde: \n");
  printf("韦gif :共 %d 个宽字节wchar_t\n",wcslen(chinese_str));
  for (i = 0; i < wcslen(chinese_str); i++)
  {
  printf("0x%x ", p[i]);
  }
  printf("\n");


输出:
Uniocde: 
韦gif:共 4 个宽字节wchar_t
0x97e6 0x67 0x69 0x66 


由上面测试代码可知,wchar_t是一个可以表示字符集中的任意一个字符的足够宽的变量类型,即一个宽字符可以表示一个中文,也可以表示一个英文。
chinese_str[0] 是“韦”,
chinese_str[1] 是“g”,
chinese_str[2] 是“i”,
chinese_str[3] 是“f”。
具体使用可参考:
http://blog.csdn.net/qq_26093511/article/details/59126467

http://blog.csdn.net/qq_26093511/article/details/60332795



下面的测试代码可以区分宽字符Unicode与GBK的中英文区别
#include <stdio.h>
#include <string.h>
#include <math.h>
#include <wchar.h>
void main()
{


 wchar_t *chinese_str = L"韦gif";
 unsigned int *p = (wchar_t *)chinese_str;
 int i;


 printf("Uniocde: \n");
 printf("韦gif :共 %d 个宽字节wchar_t\n",wcslen(chinese_str));
 for (i = 0; i < wcslen(chinese_str); i++)
 {
  printf("0x%04x ", p[i]);
 }
 printf("\n");
 
 
 
 unsigned char *chinese_utf_8 = "韦gif";
 unsigned char *p2 = chinese_utf_8;


 printf("GBK: \n");
 printf("韦gif :共 %d 个字节\n",strlen(chinese_utf_8));
 for (i = 0; i < strlen(chinese_utf_8); i++)
 {
  printf("0x%x ", p2[i]);
 }
 printf("\n");
}


注意:在linux下,创建的文本代码,默认是UTF-8格式的!本文的代码是在linux下创建。


下面是编译及运行结果:
gcc -o test test.c -finput-charset=UTF-8 -fexec-charset=GBK


 ./test 
Uniocde: 
Τgif :�� 4 �����ֽ�wchar_t
0x97e6 0x0067 0x0069 0x0066 
GBK: 
Τgif :�� 5 �����ֽ�
0xce 0xa4 0x67 0x69 0x66 


由运行代码知,GBK是两个字节来表示一个汉字,一个字节来表示英文。
而宽字符则是 两个字节来表示任意一个字符!

我们可以使用宽字节来描述中英文,这样的话就省去了判断中英字符的操作。


若有描述错误,请指出,谢谢!

                                             
0 0