substr截取中文字符出现乱码的解决方案

来源:互联网 发布:苹果mac os x 下载 编辑:程序博客网 时间:2024/04/29 04:09
PHP中的substr函数:

string substr ( string $string , int $start [, int $length ] )

返回string中从start位置开始长度为length的字符串

substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。

查了一下,解决方案归结起来可分两类:

1、改用mb_substr()函数

string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] )

类似substr()函数,只是计数按字符数来计,保证字符安全

使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。

2、自建函数增强substr功能

这里提供一个函数可较好地解决substr遇到中文字符的问题。中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。

01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
function getstr($string, $length, $encoding = 'utf-8') {
    $string= trim($string);
 
    if($length&& strlen($string) >$length) {
        //截断字符
        $wordscut= '';
        if(strtolower($encoding) == 'utf-8') {
            //utf8编码
            $n= 0;
            $tn= 0;
            $noc= 0;
            while($n < strlen($string)) {
                $t= ord($string[$n]);
                if($t== 9 || $t == 10 || (32 <= $t && $t <= 126)) {
                    $tn= 1;
                    $n++;
                    $noc++;
                }elseif(194 <= $t && $t<= 223) {
                    $tn= 2;
                    $n+= 2;
                    $noc+= 2;
                }elseif(224 <= $t && $t< 239) {
                    $tn= 3;
                    $n+= 3;
                    $noc+= 2;
                }elseif(240 <= $t && $t<= 247) {
                    $tn= 4;
                    $n+= 4;
                    $noc+= 2;
                }elseif(248 <= $t && $t<= 251) {
                    $tn= 5;
                    $n+= 5;
                    $noc+= 2;
                }elseif($t== 252 || $t == 253) {
                    $tn= 6;
                    $n+= 6;
                    $noc+= 2;
                }else {
                    $n++;
                }
                if($noc >= $length) {
                    break;
                }
            }
            if($noc > $length) {
                $n-= $tn;
            }
            $wordscut= substr($string, 0,$n);
        }else {
            for($i= 0; $i < $length - 1; $i++) {
                if(ord($string[$i]) > 127) {
                    $wordscut.= $string[$i].$string[$i+ 1];
                    $i++;
                }else {
                    $wordscut.= $string[$i];
                }
            }
        }
        $string= $wordscut;
    }
    returntrim($string);
}
 
// 示例
echo getstr("0一二三四五六七",1).'<br />'// 0
echo getstr("0一二三四五六七",2).'<br />'// 0
echo getstr("0一二三四五六七",3).'<br />'// 0一
echo getstr("0一二三四五六七",4).'<br />'// 0一
echo getstr("0一二三四五六七",5).'<br />'// 0一二
echo getstr("0一a二b三四五六七",1).'<br />';   // 0
echo getstr("0一a二b三四五六七",2).'<br />';   // 0
echo getstr("0一a二b三四五六七",3).'<br />';   // 0一
echo getstr("0一a二b三四五六七",4).'<br />';   // 0一a
echo getstr("0一a二b三四五六七",5).'<br />';   // 0一a

此函数由UCHome 1.5中的getstr()函数修改而来。


原创粉丝点击