php去除调非法的utf8字符代码

来源:互联网 发布:sys wait.h windows 编辑:程序博客网 时间:2024/05/16 02:02

一般的web应用中,都是php从db或者从后台拉取数据,然后以jason格式回应给js,php调用json_encode将数据打包。

经常遇见的问题是,由于有写内容中含有非法的utf8字符,导致无法encode,比如有一个的就是某一个utf8编码的汉字被截掉一部分,只剩下半个,导致无法json_encode。

下面的代码就可以解决这种非法的utf8字节。


<?php


function check($src, &$des)
{
var_dump($src);
$len = strlen($src);
$curr = 0;
$index = 0;
while ($curr < $len) 
{
//is ascii
if(ord($src[$curr]) < 0x80)
{
$des[$index] = chr($src[$curr]);
++$curr;
++$index;
}
//110xxxxx 10xxxxxx 
else if((ord($src[$curr]) & 0xE0) == 0xC0)
{
if ((($curr+1)<$len) && ((ord($src[$curr+1]) & 0xC0) == 0x80))
{
for ($i = 0; $i < 2; $i++)
{
$des[$index] = $src[$curr];
++$curr;
++$index;
}
}
else
{
++$curr;
}
}
else if ((ord($src[$curr]) & 0xF0) == 0xE0)
{
if ((($curr+2)<$len) && ((ord($src[$curr+1]) & 0xC0) == 0x80) && ((ord($src[$curr+2]) & 0xC0) == 0x80))
{
for ($i = 0; $i < 3; $i++)
{
$des[$index] = $src[$curr];
++$curr;
++$index;
}
}
else
{
++$curr;
}
}
//11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 
else if ((ord($src[$curr]) & 0xF8) == 0xF0)
{
if ((($curr+3)<$len) && ((ord($src[$curr+1]) & 0xC0) == 0x80) && ((ord($src[$curr+2]) & 0xC0) == 0x80) &&
((ord($src[$curr+3]) & 0xC0) == 0x80))
{
for ($i = 0; $i < 4; $i++)
{
$des[$index] = $src[$curr];
++$curr;
++$index;
}
}
else
{
++$curr;
}
}
//111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 
else if ((ord($src[$curr]) & 0xFC) == 0xF8)
{
if ((($curr+4)<$len) && ((ord($src[$curr+1]) & 0xC0) == 0x80) && ((ord($src[$curr+2]) & 0xC0) == 0x80) &&
((ord($src[$curr+3]) & 0xC0) == 0x80) && ((ord($src[$curr+4]) & 0xC0) == 0x80))
{
for ($i = 0; $i < 5; $i++)
{
$des[$index] = $src[$curr];
++$curr;
++$index;
}
}
else
{
++$curr;
}
}
//1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
else if ((ord($src[$curr]) & 0xFE) == 0xFC)
{
if ((($curr+5)<$len) && ((ord($src[$curr+1]) & 0xC0) == 0x80) && ((ord($src[$curr+2]) & 0xC0) == 0x80) &&
((ord($src[$curr+3]) & 0xC0) == 0x80) &&
((ord($src[$curr+4]) & 0xC0) == 0x80) && ((ord($src[$curr+5]) & 0xC0) == 0x80))
{
for ($i = 0; $i < 6; $i++)
{
$des[$index] = $src[$curr];
++$curr;
++$index;
}
}
else
{
++$curr;
}
}
else
{
++$curr;
}
}


echo count($des);
}


$str = file_get_contents("./test.txt", true);
$des = array();


check($str, $des);
foreach($des as $ch) {  
    $str .= chr($ch);  
}  
echo $str;
return $str; 


?>
1 0
原创粉丝点击