解决将汉字GBK码分拆后进行UTF-8编码而出现的乱码

来源：互联网发布：上海万国数据待遇编辑：程序博客网时间：2024/05/22 21:13

这种乱码是比较常见的，类似于“À´×Ô”，其内码形式：%c3%80%c2%b4%c3%97%c3%94，这其实是“来自”两个字的乱码，但是为什么显示成了“À´×Ô”？是因为“来自”两个字符的GBK是：C0 B4 D7 D4，本来C084表示“来”，D7D4表示“自”，很多软件判断错误，把双字节拆成单字节编码成utf-8就是：c3 80 c2 b4 c3 97 c3 94，这种乱码的特征就是每隔一个字节不是C2就是C3。

我使用VB编程，先将c3 80 c2 b4 c3 97 c3 94还原成GBK码，因为两位的UTF-8编码规则是110XXXXX10XXXXXX，如C397的二进制是：11000011 10010111，高位去掉110，就是00011，低位去掉10，就是010111，再合起来：00011010111，就是&HD7，因为C3是11000011，跟后面低位合并，就是11XXXXXX，其实就是加上01000000，就是&H40，C2是11000010，跟后面低位合并跟后面低位合并，就是10XXXXXX，其实不变。因此具体方法是：高位为C3的，低位加&H40，高位为C2的，低位不变，同时高位都去掉，这样c3 80 c2 b4 c3 97 c3 94就变成了C0 B4 D7 D4。

但是由于VB的字符串都是UNICODE编码的，ChrW函数也只认UNICODE的汉字，因此直接ChrW(&HC0B4)显示还不正确，因此需要将GBK码再转成UNICODE码，具体方法有两种，一种是运算，另一种是取巧了，在网上下载了一个gbk-Unicode的对照码表，编段简单的程序，查找对应的Unicode码即可。最后得出C0B4 D7D4的UNICODE码为：6765 81EA，ChrW(&H6765) & ChrW(&81EA)就显示出“来自”两个字了。

具体程序还比较乱，我整理一下再发上来。