中文字符串排序解决方案

来源：互联网发布：常州地球人软件编辑：程序博客网时间：2024/06/05 03:35

此文主要介绍采用UTF-8编码格式编程，对字符串进行排序。

GBK编码字符和汉语拼音顺序是一致的，可以利用将字符串编码转为GBK编码格式的方式来进行排序！

首先，我们应该了解一下GBK编码的相关知识。

GBK编码所有字符包括在a1~a9中a1~fe的部分及a8,a9中40~a0的部分，包括标点符号、数学符号、数字序号、全角数字字母、日文平假名、片假名、希腊字母、俄文字母、图形符号、制表符、拼音、注音符号等。

一下部分汉字：

GBK/2: GB2312 汉字

B0 0 1 2 3 4 5 6 7 8 9 A B C D E F

A 啊阿埃挨哎唉哀皑癌蔼矮艾碍爱隘

B 鞍氨安俺按暗岸胺案肮昂盎凹敖熬翱

C 袄傲奥懊澳芭捌扒叭吧笆八疤巴拔跋

D 靶把耙坝霸罢爸白柏百摆佰败拜稗斑

E 班搬扳般颁板版扮拌伴瓣半办绊邦帮

F 梆榜膀绑棒磅蚌镑傍谤苞胞包褒剥

B1 0 1 2 3 4 5 6 7 8 9 A B C D E F

A 薄雹保堡饱宝抱报暴豹鲍爆杯碑悲

B 卑北辈背贝钡倍狈备惫焙被奔苯本笨

C 崩绷甭泵蹦迸逼鼻比鄙笔彼碧蓖蔽毕

D 毙毖币庇痹闭敝弊必辟壁臂避陛鞭边

E 编贬扁便变卞辨辩辫遍标彪膘表鳖憋

F 别瘪彬斌濒滨宾摈兵冰柄丙秉饼炳

详细参考链接：点击打开链接

由上可知，GBK编码字符和汉语拼音顺序是一致的，因此，可以利用将字符串编码转为GBK编码格式的方式来进行排序。

附上转码代码：

std::string UTF8ToGBK(const std::string& strUTF8)    {        int len = MultiByteToWideChar(CP_UTF8, 0, strUTF8.c_str(), -1, NULL, 0);        unsigned short * wszGBK = new unsigned short[len + 1];        memset(wszGBK, 0, len * 2 + 2);        MultiByteToWideChar(CP_UTF8, 0, (LPCSTR)(strUTF8.c_str()), -1, wszGBK, len);        len = WideCharToMultiByte(CP_ACP, 0, wszGBK, -1, NULL, 0, NULL, NULL);        char *szGBK = new char[len + 1];        memset(szGBK, 0, len + 1);        WideCharToMultiByte(CP_ACP,0, wszGBK, -1, szGBK, len, NULL, NULL);        std::string strTemp(szGBK);        delete[]szGBK;        delete[]wszGBK;        return strTemp;    }