php去除调非法的utf8字符代码
来源:互联网 发布:sys wait.h windows 编辑:程序博客网 时间:2024/05/16 02:02
一般的web应用中,都是php从db或者从后台拉取数据,然后以jason格式回应给js,php调用json_encode将数据打包。
经常遇见的问题是,由于有写内容中含有非法的utf8字符,导致无法encode,比如有一个的就是某一个utf8编码的汉字被截掉一部分,只剩下半个,导致无法json_encode。
下面的代码就可以解决这种非法的utf8字节。
<?php
function check($src, &$des)
{
var_dump($src);
$len = strlen($src);
$curr = 0;
$index = 0;
while ($curr < $len)
{
//is ascii
if(ord($src[$curr]) < 0x80)
{
$des[$index] = chr($src[$curr]);
++$curr;
++$index;
}
//110xxxxx 10xxxxxx
else if((ord($src[$curr]) & 0xE0) == 0xC0)
{
if ((($curr+1)<$len) && ((ord($src[$curr+1]) & 0xC0) == 0x80))
{
for ($i = 0; $i < 2; $i++)
{
$des[$index] = $src[$curr];
++$curr;
++$index;
}
}
else
{
++$curr;
}
}
else if ((ord($src[$curr]) & 0xF0) == 0xE0)
{
if ((($curr+2)<$len) && ((ord($src[$curr+1]) & 0xC0) == 0x80) && ((ord($src[$curr+2]) & 0xC0) == 0x80))
{
for ($i = 0; $i < 3; $i++)
{
$des[$index] = $src[$curr];
++$curr;
++$index;
}
}
else
{
++$curr;
}
}
//11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
else if ((ord($src[$curr]) & 0xF8) == 0xF0)
{
if ((($curr+3)<$len) && ((ord($src[$curr+1]) & 0xC0) == 0x80) && ((ord($src[$curr+2]) & 0xC0) == 0x80) &&
((ord($src[$curr+3]) & 0xC0) == 0x80))
{
for ($i = 0; $i < 4; $i++)
{
$des[$index] = $src[$curr];
++$curr;
++$index;
}
}
else
{
++$curr;
}
}
//111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
else if ((ord($src[$curr]) & 0xFC) == 0xF8)
{
if ((($curr+4)<$len) && ((ord($src[$curr+1]) & 0xC0) == 0x80) && ((ord($src[$curr+2]) & 0xC0) == 0x80) &&
((ord($src[$curr+3]) & 0xC0) == 0x80) && ((ord($src[$curr+4]) & 0xC0) == 0x80))
{
for ($i = 0; $i < 5; $i++)
{
$des[$index] = $src[$curr];
++$curr;
++$index;
}
}
else
{
++$curr;
}
}
//1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
else if ((ord($src[$curr]) & 0xFE) == 0xFC)
{
if ((($curr+5)<$len) && ((ord($src[$curr+1]) & 0xC0) == 0x80) && ((ord($src[$curr+2]) & 0xC0) == 0x80) &&
((ord($src[$curr+3]) & 0xC0) == 0x80) &&
((ord($src[$curr+4]) & 0xC0) == 0x80) && ((ord($src[$curr+5]) & 0xC0) == 0x80))
{
for ($i = 0; $i < 6; $i++)
{
$des[$index] = $src[$curr];
++$curr;
++$index;
}
}
else
{
++$curr;
}
}
else
{
++$curr;
}
}
echo count($des);
}
$str = file_get_contents("./test.txt", true);
$des = array();
check($str, $des);
foreach($des as $ch) {
$str .= chr($ch);
}
echo $str;
return $str;
?>
1 0
- php去除调非法的utf8字符代码
- 去除文件名的非法字符
- 真龙写的去除非法字符
- JAVA 去除字符串的非法字符
- java去除非法字符
- 去除非法字符
- 判断字符非法utf8编码
- 如何去除utf-8字符串里头的非法字符
- c#写文件时去除文件名包含的非法字符
- 如何处理json中的非法utf8字符
- 检测非法字符代码
- 从宽字符转换到UTF8的代码
- C# 去除字符串中的非法字符
- php过滤非法字符类
- 非法字符的判断
- 自定义Retrofit的Converter使其去除json中非法字符
- 去除java代码里面的特殊字符
- javac -encoding utf8 HelloWorld.java ,错误:非法字符:\65279
- kmp && bf
- pat 1013 Battle Over Cities
- C#本质论(第3版)笔记
- python 函数的*args,**kwargs
- sendMessage与obtainMessage区别
- php去除调非法的utf8字符代码
- Sql Server深入SQL高级子查询
- 教你如何激发用户发布原创、高质量帖子? [
- linux执行定时脚本
- java mina MidRequestDTO
- java面试--java基础知识总结(待续)
- Cocos2dx Widget 按钮透明区域过滤
- filesystem capabilities support
- Android shell工具类