utf8,GBK,转码，C++

来源：互联网发布：d5 1dx2知乎编辑：程序博客网时间：2024/05/01 11:04

MultiByteToWideChar概述

　　函数功能：该函数映射一个字符串到一个宽字符（unicode）的字符串。由该函数映射的字符串没必要是多字节字符组。

　　函数原型：

　　int MultiByteToWideChar(

　　UINT CodePage,

　　DWORD dwFlags,

　　LPCSTR lpMultiByteStr,

　　int cchMultiByte,

　　LPWSTR lpWideCharStr,

　　int cchWideChar

　　);

　　补充：如果ANSI代码页允许在不同的计算机上不相同，甚至在单台计算机上不一样，将会导致数据崩溃。为了代码页一致性，应用程序应该使用Unicode编码，如UTF-8或者UTF-16，而不是使用特殊的代码页，除了早期标准或者数据格式化不允许使用Unicode编码。在特殊情况下，有些函数不允许使用Unicode编码，应用程序应在协议充许的情况下在数据流中用合适的编码名称标识。在HTML、XML、HTTP等文件中都允许标识，但TEXT文本不允许这样做。

编辑本段参数

　　CodePage：指定执行转换的代码页，这个参数可以为系统已安装或有效的任何代码页所给定的值。你也可以指定其为下面的任意一值：

　　CP_ACP：ANSI代码页；CP_MACCP：Macintosh代码页；CP_OEMCP：OEM代码页；

　　CP_SYMBOL：符号代码页（42）；CP_THREAD_ACP：当前线程ANSI代码页；

　　CP_UTF7：使用UTF-7转换；CP_UTF8：使用UTF-8转换。

　　dwFlags：一组位标记用以指出是否未转换成预作或宽字符（若组合形式存在），是否使用象形文字替代控制字符，以及如何处理无效字符。你可以指定下面是标记常量的组合，含义如下：

　　MB_PRECOMPOSED：通常使用预作字符——就是说，由一个基本字符和一个非空字符组成的字符只有一个单一的字符值。这是缺省的转换选择。不能与

　　MB_COMPOSITE值一起使用。

　　MB_COMPOSITE：通常使用组合字符——就是说，由一个基本字符和一个非空字符组成的字符分别有不同的字符值。不能与MB_PRECOMPOSED值一起使用。

　　MB_ERR_INVALID_CHARS：如果函数遇到无效的输入字符，它将运行失败，且GetLastErro返回ERROR_NO_UNICODE_TRANSLATION值。

　　MB_USEGLYPHCHARS：使用象形文字替代控制字符。

　　组合字符由一个基础字符和一个非空字符构成，每一个都有不同的字符值。每个预作字符都有单一的字符值给基础/非空字符的组成。在字符è中，e就是基础字符，而重音符标记就是非空字符。

　　函数的缺省动作是转换成预作的形式。如果预作的形式不存在，函数将尝试转换成组合形式。

　　标记MB_PRECOMPOSED和MB_COMPOSITE是互斥的，而标记MB_USEGLYPHCHARS和MB_ERR_INVALID_CHARS则不管其它标记如何都可以设置。

　　lpMultiByteStr：指向将被转换字符串的字符。

　　cchMultiByte：指定由参数lpMultiByteStr指向的字符串中字节的个数。如果lpMultiByteStr指定的字符串以空字符终止，可以设置为-1（如果字符串不是以空字符中止，设置为-1可能失败，可能成功），此参数设置为0函数将失败。

　　lpWideCharStr：指向接收被转换字符串的缓冲区。

　　cchWideChar：指定由参数lpWideCharStr指向的缓冲区的字符个数。若此值为零，函数返回缓冲区所必需的宽字符数，在这种情况下，lpWideCharStr中的缓冲区不被使用。

编辑本段返回值

　　如果函数运行成功，并且cchWideChar不为零，返回值是由lpWideCharStr指向的缓冲区中写入的宽字符数；如果函数运行成功，并且cchMultiByte为零，返回值是接收到待转换字符串的缓冲区所需求的宽字符数大小。如果函数运行失败，返回值为零。若想获得更多错误信息，请调用GetLastError函数。它可以返回下面所列错误代码：

　　ERROR_INSUFFICIENT_BUFFER；ERROR_INVALID_FLAGS；

　　ERROR_INVALID_PARAMETER；ERROR_NO_UNICODE_TRANSLATION。

编辑本段注意

　　指针lpMultiByteStr和lpWideCharStr必须不一样。如果一样，函数将失败，GetLastError将返回ERROR_INVALID_PARAMETER的值。

　　如果MB_ERR_INVALID_CHARS被设置并且在资源字符串中遇到无效的字符时，函数将失败。如果MB_ERR_INVALID_CHARS不被设置，或是DBCS串中发现了头字节而没有有效的尾字节，无效字符将转换为缺省字符，但不是资源字符串中的缺省字符。当无效字符被发现，且MB_ERR_INVALID_CHARS值被设置，函数返回零，GetLastErro显示ERROR_NO_UNICODE_TRANSLATION的出错信息。

　　Windows CE：不支持参数CodePage中的CP_UTF7和CP_UTF8的值，以及参数dwFlags中的WC_NO_BEST_FIT_CHARS值。

　　速查：Windows NT 3.1、Windows 95以上、Windows CE 1.0以上，头文件：winnls.h；库文件：kernel32.lib。

VS2003

//TODO:UTF8转成GBK码
char* Utf8ToGBK(const char* strUtf8)
{
        int len=MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, NULL,0);
        unsigned short * wszGBK = new unsigned short[len+1];
        memset(wszGBK, 0, len * 2 + 2);
        MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, wszGBK, len);
        len = WideCharToMultiByte(CP_ACP, 0, wszGBK, -1, NULL, 0, NULL, NULL);
        char *szGBK=new char[len + 1];
        memset(szGBK, 0, len + 1);
        WideCharToMultiByte (CP_ACP, 0, wszGBK, -1, szGBK, len, NULL,NULL);
        return szGBK;
}

//TODO:GBK转成UTF8码
char* GBKToUtf8(const char* strGBK)
{
        int len=MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, NULL,0);
        unsigned short * wszUtf8 = new unsigned short[len+1];
        memset(wszUtf8, 0, len * 2 + 2);
        MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, wszUtf8, len);
        len = WideCharToMultiByte(CP_UTF8, 0, wszUtf8, -1, NULL, 0, NULL, NULL);
        char *szUtf8=new char[len + 1];
        memset(szUtf8, 0, len + 1);
        WideCharToMultiByte (CP_UTF8, 0, wszUtf8, -1, szUtf8, len, NULL,NULL);
        return szUtf8;
}

vs2005

char* Utf8ToGBK(const char* strUtf8)
{
       int len=MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, NULL,0);
       unsigned short * wszGBK = new unsigned short[len+1];
       memset(wszGBK, 0, len * 2 + 2);
       MultiByteToWideChar(CP_UTF8, 0, (LPCTSTR)strUtf8, -1, (LPWSTR)wszGBK, len);
       len = WideCharToMultiByte(CP_ACP, 0, (LPCWSTR)wszGBK, -1, NULL, 0, NULL, NULL);
       char *szGBK=new char[len + 1];
       memset(szGBK, 0, len + 1);
       WideCharToMultiByte (CP_ACP, 0, (LPCWSTR)wszGBK, -1, (LPSTR)szGBK, len, NULL,NULL);
       return szGBK;
}

char* GBKToUtf8(const char* strGBK)
{
       int len=MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, NULL,0);
       unsigned short * wszUtf8 = new unsigned short[len+1];
       memset(wszUtf8, 0, len * 2 + 2);
       MultiByteToWideChar(CP_ACP, 0, (LPCTSTR)strGBK, -1, (LPWSTR)wszUtf8, len);
       len = WideCharToMultiByte(CP_UTF8, 0, (LPCWSTR)wszUtf8, -1, NULL, 0, NULL, NULL);
       char *szUtf8=new char[len + 1];
       memset(szUtf8, 0, len + 1);
       WideCharToMultiByte (CP_UTF8, 0, (LPCWSTR)wszUtf8, -1, (LPSTR)szUtf8, len, NULL,NULL);
       return szUtf8;
}

1)int nLen = MultiByteToWideChar(CP_ACP, 0, buf, -1, NULL, 0);//确定转换为Unicode需要多少缓冲区(返回值也包含了最后一个NULL字符)。

2)WCHAR wBuf[nLen];

3)MultiByteToWideChar(CP_ACP, 0, buf, -1, wBuf, nLen);

4)tm_str_oldSr = wBuf;

共4步。由于MultiByteToWideChar是个WIN32 API函数，不提供对CString的直接支持，尽管CString有内置的类型转换功能和缓冲区分配机制。但感觉在这里，还是先用个WCHAR的临时缓冲区作为MultiByteToWideChar的参数更方便。然后直接把wBuf得到的内容赋值给tm_str_oldSr。