汉字转换拼音字头原理实践

来源:互联网 发布:mac广州专柜地址查询 编辑:程序博客网 时间:2024/03/29 18:16
今天照常登陆php新闻网站,看到首页的一则文字类的新闻,汉字转换拼音字头原理,闲来无事,用php实践下,把它写出来
/** * 汉字转换为拼音字头 * @author jkj */class HzToPyHeader{//传说中的160,16进制为a0,so..static $BaseCode = 0xa0;// 国标一级汉字不同读音的起始区位码private $secPosValueList = array(1601, 1637, 1833, 2078, 2274, 2302, 2433, 2594, 2787, 3106, 3212, 3472,3635, 3722, 3730, 3858, 4027, 4086, 4390, 4558, 4684, 4925, 5249, 9999);// 国标一级汉字不同读音的起始区位码对应读音private $firstLetter = array('a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j', 'k', 'l', 'm', 'n', 'o', 'p','q', 'r', 's', 't', 'w', 'x', 'y', 'z');// 区位码=字节的ASCII码-160(汉字基数),而一个汉字的区位码为字节相加值,例蒋(29,15) 2915// ps : 以下都以gb2312为例,一般一个汉字占2个字节,// 第一个字节的ASCII码-160(汉字基数)按拼音排序都在16-55之间function __construct(){}/** * Hanzi section-position code * 得到汉字的区位码 * @param string $hanzi * @return array */final function secposcode($hanzi){$spc = array();for($i=0; $i<strlen($hanzi); $i++){$_P = ord(substr($hanzi, $i, 1))-self::$BaseCode;$_G = ord(substr($hanzi, ++$i, 1))-self::$BaseCode;if($_G<10) $_G = "0".strval($_G);$spc[] = strval($_P).strval($_G);}return $spc;}final function getFirst($hz){$rs = array();foreach ($this->secposcode($hz) as $k=>$v){foreach ($this->secPosValueList as $in_k=>$in_v){if($v>=$in_v) $rs[$k]=$this->firstLetter[$in_k];}}return implode("",$rs);}}$htph = new HzToPyHeader();print_r($htph->secposcode("蒋某人"));echo $htph->getFirst("蒋某人");

	
				
		
原创粉丝点击