substr截取中文字符出现乱码的解决方案
来源:互联网 发布:苹果mac os x 下载 编辑:程序博客网 时间:2024/04/29 04:09
PHP中的substr函数:
string substr ( string $string , int $start [, int $length ] )
返回string中从start位置开始长度为length的字符串
substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。
查了一下,解决方案归结起来可分两类:
1、改用mb_substr()函数
string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] )
类似substr()函数,只是计数按字符数来计,保证字符安全
使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。
2、自建函数增强substr功能
这里提供一个函数可较好地解决substr遇到中文字符的问题。中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
function
getstr(
$string
,
$length
,
$encoding
=
'utf-8'
) {
$string
= trim(
$string
);
if
(
$length
&&
strlen
(
$string
) >
$length
) {
//截断字符
$wordscut
=
''
;
if
(
strtolower
(
$encoding
) ==
'utf-8'
) {
//utf8编码
$n
= 0;
$tn
= 0;
$noc
= 0;
while
(
$n
<
strlen
(
$string
)) {
$t
= ord(
$string
[
$n
]);
if
(
$t
== 9 ||
$t
== 10 || (32 <=
$t
&&
$t
<= 126)) {
$tn
= 1;
$n
++;
$noc
++;
}
elseif
(194 <=
$t
&&
$t
<= 223) {
$tn
= 2;
$n
+= 2;
$noc
+= 2;
}
elseif
(224 <=
$t
&&
$t
< 239) {
$tn
= 3;
$n
+= 3;
$noc
+= 2;
}
elseif
(240 <=
$t
&&
$t
<= 247) {
$tn
= 4;
$n
+= 4;
$noc
+= 2;
}
elseif
(248 <=
$t
&&
$t
<= 251) {
$tn
= 5;
$n
+= 5;
$noc
+= 2;
}
elseif
(
$t
== 252 ||
$t
== 253) {
$tn
= 6;
$n
+= 6;
$noc
+= 2;
}
else
{
$n
++;
}
if
(
$noc
>=
$length
) {
break
;
}
}
if
(
$noc
>
$length
) {
$n
-=
$tn
;
}
$wordscut
=
substr
(
$string
, 0,
$n
);
}
else
{
for
(
$i
= 0;
$i
<
$length
- 1;
$i
++) {
if
(ord(
$string
[
$i
]) > 127) {
$wordscut
.=
$string
[
$i
].
$string
[
$i
+ 1];
$i
++;
}
else
{
$wordscut
.=
$string
[
$i
];
}
}
}
$string
=
$wordscut
;
}
return
trim(
$string
);
}
// 示例
echo
getstr(
"0一二三四五六七"
,1).
'<br />'
;
// 0
echo
getstr(
"0一二三四五六七"
,2).
'<br />'
;
// 0
echo
getstr(
"0一二三四五六七"
,3).
'<br />'
;
// 0一
echo
getstr(
"0一二三四五六七"
,4).
'<br />'
;
// 0一
echo
getstr(
"0一二三四五六七"
,5).
'<br />'
;
// 0一二
echo
getstr(
"0一a二b三四五六七"
,1).
'<br />'
;
// 0
echo
getstr(
"0一a二b三四五六七"
,2).
'<br />'
;
// 0
echo
getstr(
"0一a二b三四五六七"
,3).
'<br />'
;
// 0一
echo
getstr(
"0一a二b三四五六七"
,4).
'<br />'
;
// 0一a
echo
getstr(
"0一a二b三四五六七"
,5).
'<br />'
;
// 0一a
此函数由UCHome 1.5中的getstr()函数修改而来。
- substr截取中文字符出现乱码的解决方案
- PHP函数substr截取中文字符出现乱码的解决办法
- PHP函数substr截取中文字符出现乱码的解决办法
- PHP substr截取中文字符出现乱码的问题解疑
- substr截取中文出现乱码
- substr截取中文字符出现乱码的解决办法mb_substr($keyword,0,4,'utf-8');
- PHP中substr截取中文乱码解决方案
- PHP中substr截取中文乱码解决方案
- PHP substr截取中文字符出现…
- PHP中使用substr()截取字符串出现中文乱码
- PHP substr()截取字符串时,中文出现乱码的问题解决【转】
- 解决截取中文字符出现乱码的函数
- Web_PHP_PHPsubstr截取中文字符出现乱码解决;
- perl中substr截取中文字符的问题
- substr字符串截取时出现乱码
- python中文字符截取乱码
- php 对于utf-8 格式下 substr出现截取乱码的处理
- php截取中文字符串无乱码的函数(主函数:ord()、substr())
- Windows server 2003 控制面板不能打开的解决方法
- IE6 链接失效 <a>失效 不能点击
- ie6 ie7 绝对定位 相对定位 层被遮住
- jquery的ajax请求时遇到的ie缓存问题
- 《深入浅出 Java Concurrency》目录
- substr截取中文字符出现乱码的解决方案
- linux抢占式内核的描述
- C++中extern “C”含义深层探索
- ANT学习
- 父元素绝对定位 子元素在IE6 不能点击
- python re模块编译代码与非编译代码性能检测
- android 获取手机和SD卡可用内存
- java 内存泄露
- UNICODE,GBK,UTF-8区别