Qt下汉字转拼音,包含二级汉字
来源:互联网 发布:apple pencil配套软件 编辑:程序博客网 时间:2024/05/18 03:55
1 基本原理
GB2312编码对一级汉字依照拼音首字母进行了编码范围的划分,所以只需要将汉字转为GB2312编码格式,我们就可以获取常见汉字的拼音首字母:
QString ChineseLetterHelper::GetFirstLetters(const QString &src){ QString firstLetters; for (int i=0; i<src.length(); i++) { QString str = src.at(i); QTextCodec* pCodec = QTextCodec::codecForName("gb2312"); if(!pCodec) return QChar(' '); QByteArray arr = pCodec->fromUnicode(str); wchar_t wchr = 0; if(arr.size() == 1) { wchr = arr.at(0) & 0xff; } else if(arr.size() == 2) { wchr = (arr.at(0) & 0xff) << 8; wchr |= (arr.at(1) & 0xff); } else { //qDebug() << "unknown word"; } char c = Convert(wchr); if(c != 0) { firstLetters.append(c); } } return firstLetters;}
2 以讹传讹的谬误
关于这个划分区域,网上流行的一个版本的代码如下:
char ChineseLetterHelper::Convert(int n){ /* * GB2312码范围 (B0A1-F7FE) * HiByte (B0-F7) LoByte (A1-FE) * * GBK编码范围 (8140-FEFE) * 包含三大部分 * 1.汉字区 * a. GB2312汉字区。即GBK/2 * b. GB13000.1扩充汉字区。包括GBK/3(CJK汉字)和GBK/4(CJK汉字和增补汉字) * 2.图形符号区 * a. GB2312非汉字区。即GBK/1 A1A1-A9FE。还有10个小写罗马数字和GB12345增补符号 * b. GB13000.1扩充非汉字区。即GBK/5 A840-A9A0非汉字符号、结构符... * 3.用户自定义区 * */ if (In(0xB0A1,0xB0C4,n)) return 'A'; if (In(0XB0C5,0XB2C0,n)) return 'B'; if (In(0xB2C1,0xB4ED,n)) return 'C'; if (In(0xB4EE,0xB6E9,n)) return 'D'; if (In(0xB6EA,0xB7A1,n)) return 'E'; if (In(0xB7A2,0xB8c0,n)) return 'F'; if (In(0xB8C1,0xB9FD,n)) return 'G'; if (In(0xB9FE,0xBBF6,n)) return 'H'; if (In(0xBBF7,0xBFA5,n)) return 'J'; if (In(0xBFA6,0xC0AB,n)) return 'K'; if (In(0xC0AC,0xC2E7,n)) return 'L'; if (In(0xC2E8,0xC4C2,n)) return 'M'; if (In(0xC4C3,0xC5B5,n)) return 'N'; if (In(0xC5B6,0xC5BD,n)) return 'O'; if (In(0xC5BE,0xC6D9,n)) return 'P'; if (In(0xC6DA,0xC8BA,n)) return 'Q'; if (In(0xC8BB,0xC8F5,n)) return 'R'; if (In(0xC8F6,0xCBF0,n)) return 'S'; if (In(0xCBFA,0xCDD9,n)) return 'T'; if (In(0xCDDA,0xCEF3,n)) return 'W'; if (In(0xCEF4,0xD188,n)) return 'X'; if (In(0xD1B9,0xD4D0,n)) return 'Y'; if (In(0xD4D1,0xD7F9,n)) return 'Z'; if (In(0x00, 0x7f, n)) return n; return '\0';}
这个转换首字母的方式简洁又漂亮!
但是使用后会发现有几个字是识别不出来的:
选 癣 眩 绚 靴 薛 学 穴 雪 血 勋 熏 循 旬 询 寻 驯 巡 殉 汛 训 讯 逊 迅
注意代码的这2行
if (In(0xCEF4,0xD188,n)) return 'X'; if (In(0xD1B9,0xD4D0,n)) return 'Y';
其中0xD188和0xD1B9中间不是连续的,我们可以翻一下GB2312编码表
GB2312编码表
可以发现这里确实是代码发生了以讹传讹的谬误。可能都拿来就用了(笑)。
if (In(0xCEF4,0xD188,n)) return 'X';//错误代码 if (In(0xCEF4,0xD1B8,n)) return 'X';//修正后
修正后这段代码就可以识别出我们常用的一级字库里的汉字了,但如果应用到项目中,一些二级字库中的比较生僻的汉字就没法识别了。
3 完美的解决方案
那么有没有一个比较完美点的方案呢?通过查字库表,发现还是编码分区还是有规律可循的。但确实没有如上面那样简洁的解决方法了。只能通过暴力枚举了,还好有前人做了这部分工作,我们搬来用就好了。
代码太长,直接放源码吧:
http://download.csdn.net/download/birdman_1992/10002293
阅读全文
0 0
- Qt下汉字转拼音,包含二级汉字
- Qt汉字转拼音
- Qt下 汉字转换拼音
- QT下获取汉字拼音
- QT下获取汉字拼音首字母
- powershell 下汉字转拼音
- Qt汉字得到汉字拼音首字母
- Android下汉字转拼音的方法
- python3环境下汉字转拼音
- 汉字转拼音
- 汉字转拼音缩写
- 汉字转拼音缩写
- 实用汉字转拼音
- 汉字转拼音
- 汉字转拼音 asp
- 汉字转拼音缩写
- 汉字转拼音
- 汉字转拼音缩写
- 整理数组去重与数组排序等方法
- 删除数值中指定元素
- CanvasJS动态折线图
- XLog
- tracert使用
- Qt下汉字转拼音,包含二级汉字
- 基于FLOWLAYOUT的改造,支持每行最大个数和每行元素高度居中。
- Erlang相关Appups/热更介绍及坑点
- mongodb聚合
- WindowManager.LayoutParams.type属性
- Nginx初探
- 超连接提交表单数据
- 将Vim改造为强大的IDE—Vim集成Ctags/Taglist/Cscope/Winmanager/NERDTree/OmniCppComplete(有图有真相)
- ubuntu安装及使用wine