汉字转换为拼音字头的工具类与原理

来源：互联网发布：平板显示无法加入网络编辑：程序博客网时间：2024/04/30 00:05

基础知识

GB 2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个。

分区表示

GB 2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式也称为区位码。
1）01-09区为特殊符号。
2）16-55区为一级汉字，按拼音排序。
3）56-87区为二级汉字，按部首/笔画排序。
4）10-15区及88-94区则未有编码。

举例来说，“啊”字是GB2312之中的第一个汉字，它的区位码就是1601。

字节结构

在使用GB2312的程序中，通常采用EUC储存方法，以便兼容于ASCII。浏览器编码表上的“GB2312”，通常都是指“EUC-CN”表示法。
每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”（也称“区字节）”，第二个字节称为“低位字节”（也称“位字节”）。
“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0)，“低位字节”使用了0xA1-0xFE(把01-94加上 0xA0)。由于一级汉字从16区起始，汉字区的“高位字节”的范围是0xB0-0xF7，“低位字节”的范围是0xA1-0xFE，占用的码位是 72*94=6768。其中有5个空位是D7FA-D7FE。
例如“啊”字在大多数程序中，会以两个字节，0xB0（第一个字节） 0xA1（第二个字节）储存。区位码=区字节+位字节（与区位码对比：0xB0=0xA0+16,0xA1=0xA0+1）。

GB2312编码表
16 ０１２３４５６７８９
０　啊阿埃挨哎唉哀皑癌
１蔼矮艾碍爱隘鞍氨安俺
２按暗岸胺案肮昂盎凹敖
３熬翱袄傲奥懊澳芭捌扒
４叭吧笆八疤巴拔跋靶把
５耙坝霸罢爸白柏百摆佰
６败拜稗斑班搬扳般颁板
７版扮拌伴瓣半办绊邦帮
８梆榜膀绑棒磅蚌镑傍谤
９苞胞包褒剥

17 ０１２３４５６７８９
０　薄雹保堡饱宝抱报暴
１豹鲍爆杯碑悲卑北辈背
２贝钡倍狈备惫焙被奔苯
３本笨崩绷甭泵蹦迸逼鼻
４比鄙笔彼碧蓖蔽毕毙毖
５币庇痹闭敝弊必辟壁臂
６避陛鞭边编贬扁便变卞
７辨辩辫遍标彪膘表鳖憋
８别瘪彬斌濒滨宾摈兵冰
９柄丙秉饼炳

18 ０１２３４５６７８９
０　病并玻菠播拨钵波博
１勃搏铂箔伯帛舶脖膊渤
２泊驳捕卜哺补埠不布步
３簿部怖擦猜裁材才财睬
４踩采彩菜蔡餐参蚕残惭
５惨灿苍舱仓沧藏操糙槽
６曹草厕策侧册测层蹭插
７叉茬茶查碴搽察岔差诧
８拆柴豺搀掺蝉馋谗缠铲
９产阐颤昌猖

根据上面的表述，我们可以把16-55区的一级汉字，取拼音首之母了。

首先找出不同拼音首之母，且在码表中位置最靠前的汉字，计算出它们的编码值。
（GB2312完整码表http://210.44.195.12/yyx/chinese/News/UploadFile/GB2312.htm）
其他汉字在相同编码下，只需计算出其所在的区间位置。

1. 判断是否为英文之母

2. 如果是，直接返回英文之母

3. 取字符的编码值

4. 比较判断其编码值在码表中的位置。

5. 根据位置值，返回之母表中相应值。

/**
* 汉字转换为拼音字头的工具类
*文件名：ChineseTools.java 
*版本: 
*描述： 
*文件描述： 
*修改者： 
*修改日期： 
*修改描述： 
*/
public class ChineseTools {
/**
 * 存放国标一级汉字不同读音的起始区位码
 */
static final int[] secPosValueList = {
 1601, 1637, 1833, 2078, 2274, 2302, 2433, 2594, 2787, 3106, 3212, 3472,
 3635, 3722, 3730, 3858, 4027, 4086, 4390, 4558, 4684, 4925, 5249, 9999};

/**
 * 存放国标一级汉字不同读音的起始区位码对应读音
 */
static final char[] firstLetter = {
 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j', 'k', 'l', 'm', 'n', 'o', 'p',
 'q', 'r', 's', 't', 'w', 'x', 'y', 'z'};

/**
 * 获取一个字符串的拼音码
 * @param oriStr
 * @return
 */
public static String getFirstLetter(String oriStr) {
 return getFirstLetter(oriStr,0);
}

/**
 * 获取一个字符串的拼音码
 * @param oriStr
 * @param scale 返回的拼音字头的位数
 * @return
 */
public static String getFirstLetter(String oriStr,int scale) {
 String str = oriStr.toLowerCase();
 StringBuffer buffer = new StringBuffer();
 char ch;
 char[] temp;
 for (int i = 0; i < str.length(); i++) {
 //依次处理str中每个字符
 ch = str.charAt(i);
 temp = new char[] {
 ch};
 byte[] uniCode = new String(temp).getBytes();
 if (uniCode[0] < 128 && uniCode[0] > 0) {
 // 非汉字
 buffer.append(temp);
 }
 else {
 buffer.append(convert(uniCode));
 }
 }
 if(buffer.toString().length()<scale||scale==0) {
 return buffer.toString().toUpperCase();
 }
 else {
 return buffer.toString().substring(0,scale).toUpperCase();
 }
}

/**
 * 获取一个汉字的拼音首字母
 * @param bytes
 * @return
 */
static char convert(byte[] bytes) {
 char result = '-';
 int secPosValue = 0;
 int i;
 for (i = 0; i < bytes.length; i++) {
 bytes[i] -= 160;
 }
 secPosValue = bytes[0] * 100 + bytes[1];
 for (i = 0; i < 23; i++) {
 if (secPosValue >= secPosValueList[i] &&
 secPosValue < secPosValueList[i + 1]) {
 result = firstLetter[i];
 break;
 }
 }
 return result;
}

/**
 *
 * @param args
 */
public static void main(String[] args) {

 System.out.println(ChineseTools.getFirstLetter("I love u"));
// System.out.println(ChineseTools.getFirstLetter("我爱北京天安门"));
// System.out.println(ChineseTools.getFirstLetter("I love 北京天安门"));
 System.out.println(ChineseTools.getFirstLetter("1(北)234567890"));
}

}

来自：http://www.javaeye.com/topic/347710