中文截取字符串的方法

来源：互联网发布：数据库设计那些事儿编辑：程序博客网时间：2024/05/22 15:01

在php编程中，一提到字符串截取，我们一般会想到substr方法，对于英文的字符串来说是比较好的处理方法，但是如果是汉字的话，用此方法处理的时候截取到的都是乱码。测试代码如下：

$a = '汉字截取字符串测试';  $b = substr($a, 0, 2);  var_dump($b);

得到输出如下：

string '�' (length=2)

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

如果代码如下：

$a = '汉字截取字符串测试';  $b = substr($a, 0, 3);  var_dump($b);

得到输出如下：

string '汉' (length=3)

编辑器是用utf-8保存文件的，由此得出utf-8下的中文一个汉字占了3个字节，如果是GB2312的话则占用的是2个字节，为了解决这个问题，我们可以使用mbstring扩展库中的mb_substr()方法来解决这个问题。代码如下：

<?phpheader("Content-type:text/html;charset=utf-8"); //mb_internal_encoding('UTF-8'); //注意内部编码一定要设置位utf-8,也可以把这行打开,去掉mb_substr中的第四个参数     $a = '汉字截取字符串测试';      $b = mb_substr($a, 0, 3, 'utf-8');      var_dump($b);

得到输出如下：

string '汉字截' (length=9)

0 0