PHP unicode解码和 utf8与unicode

来源：互联网发布：淘宝商家贴吧编辑：程序博客网时间：2024/05/30 04:29

function utfdecode($url) // unicode解码 (测试可行)

{
   preg_match_all('/%u([[:alnum:]]{4})/', $url, $a);
   foreach ($a[1] as $uniord)
   {
       $dec = hexdec($uniord);
       $utf = '';
       if ($dec < 128)
       {
           $utf = chr($dec);
       }
       else if ($dec < 2048)
       {
           $utf = chr(192 + (($dec - ($dec % 64)) / 64));
           $utf .= chr(128 + ($dec % 64));
       }
       else
       {
           $utf = chr(224 + (($dec - ($dec % 4096)) / 4096));
           $utf .= chr(128 + ((($dec % 4096) - ($dec % 64)) / 64));
           $utf .= chr(128 + ($dec % 64));
       }
       $url = str_replace('%u'.$uniord, $utf, $url);
   }
   return urldecode($url);
}

以下转自：http://blog.sina.com.cn/s/blog_415bd7070100ajdi.html

在前面的文章中我用.NET实现了UNICODE的解码，使用JAVA实现了UNICODE的编码，在JAVA中的实现最简单，在.NET中的实现也比较容易。而现在，使用PHP语言也同样遇到这个问题，对UNICODE编码的内容进行处理，于是又得用PHP写一个UNICODE的编码和解码程序。这次彻底点，把编码和解码的程序都一起写出来，分享给大家。至于UNICODE编码的原理和作用，在前面的文章中已经介绍过。
C#中将UNICODE编码后的字符转换为汉字
保护JAVA源文件，将ASC2编码的字符串转换为UNICODE编码

UNICODE编码在PHP中使用UCS-2编码，之前还真是没有发现，一直还以为是UTF-8就行了。贴出代码：

//将内容进行UNICODE编码，编码后的内容格式：YOKA\u738b （原始：YOKA王）
function unicode_encode($name)
{
$name = iconv('UTF-8', 'UCS-2', $name);
$len = strlen($name);
$str = '';
for ($i = 0; $i < $len - 1; $i = $i + 2)
{
$c = $name[$i];
$c2 = $name[$i + 1];
if (ord($c) > 0)
{ // 两个字节的文字
$str .= '\u'.base_convert(ord($c), 10, 16).base_convert(ord($c2), 10, 16);
}
else
{
$str .= $c2;
}
}
return $str;
}

// 将UNICODE编码后的内容进行解码，编码后的内容格式：YOKA\u738b （原始：YOKA王）
function unicode_decode($name)
{
// 转换编码，将Unicode编码转换成可以浏览的utf-8编码
$pattern = '/([\w]+)|(\\\u([\w]{4}))/i';
preg_match_all($pattern, $name, $matches);
if (!empty($matches))
{
$name = '';
for ($j = 0; $j < count($matches[0]); $j++)
{
$str = $matches[0][$j];
if (strpos($str, '\\u') === 0)
{
$code = base_convert(substr($str, 2, 2), 16, 10);
$code2 = base_convert(substr($str, 4), 16, 10);
$c = chr($code).chr($code2);
$c = iconv('UCS-2', 'UTF-8', $c);
$name .= $c;
}
else
{
$name .= $str;
}
}
}
return $name;
}

测试用例：

echo '<h3>YOKA\u738b -> '.unicode_decode('YOKA\u738b').'</h3>';
$name = 'YOKA王';
echo '<h3>'.unicode_encode($name).'</h3>';

utf8和unicode编码究竟是什么关系？有何区别?

UTF8 == Unicode Transformation Format -- 8 bit
是Unicode传送格式。即把Unicode文件转换成BYTE的传送流。

UTF8流的转换程序：
Input: unsigned integer c - the code point of the character to be encoded （输入一个unicode值）
Output: byte b1, b2,b3, b4 - the encoded sequence of bytes (输出四个BYTE值）
Algorithm（算法）:
if (c<0x80)
b1 = c>>0 & 0x7F | 0x00
b2 = null
b3 = null
b4 = null
else if (c<0x0800)
b1 = c>>6 & 0x1F | 0xC0
b2 = c>>0 & 0x3F | 0x80
b3 = null
b4 = null
else if (c<0x010000)
b1 = c>>12 & 0x0F | 0xE0
b2 = c>>6 & 0x3F | 0x80
b3 = c>>0 & 0x3F | 0x80
b4 = null
else if (c<0x110000)
b1 = c>>18 & 0x07 | 0xF0
b2 = c>>12 & 0x3F | 0x80
b3 = c>>6 & 0x3F | 0x80
b4 = c>>0 & 0x3F | 0x80
end if
=====================
unicode 是一种编码表格，例如，给一个汉字规定一个代码。类似 GB2312-1980, GB18030等，只不过字集不同。
=====================
一个unicode码可能转成长度为一个BYTE,或两个，三个，四个BYTE的UTF8码，取决于unicode码的值。英文unicode码因为值小于0x80,只要用一个BYTE的UTF8传送，比送unicode两个BYTEs快。
UTF8是为传送unicode而想出来的“再编码”方法罢了。
UTF8转unicode用我上面给的程序反算即可。

UTF8是现有ASCII系统转向Unicode系统的一个过渡解决方案。UTF8是保证 ASCII兼容性，再向大字符集方向扩展。这是Unicode推荐的方案。但是因为解决问题的角度不同，对现有的中文系统不是好的解决方案。一下连接提供了详细的 UTF8编码的初步知识 http://www.acnis.com/modules.php?name=ArticlE&file=article&sid=102 参考资料：http://www.acnis.com/modules.php?name=ArticlE&file=article&sid=102

什么是Unicode。Unicode的基本目标是统一所有的编码，即它包含所有的字符集。这样只要一个系统支持Unicode，那么，就能处理这些字符集。一般Unicode有两个字节。现在的windows操作系统都是支持Unicode的。

什么是UTF8呢？UTF8是一种Unicode编码，即它的编码的字符集和Unicode是一致的。但编码的方式不一样。对于英文字符来讲，UTF8的编码和一般的一样，用到一个字节。但对于中文来讲，那么要用三个字节表示（记忆中是三个）。

UTF8和Unicode的缺点是在处理查找、搜索等问题时，好像算法上比较复杂，效率不高（记忆中）。

PHP unicode解码 和 utf8与unicode

utf8和unicode编码究竟是什么关系？有何区别?

PHP unicode解码和 utf8与unicode