PHP unicode解码 和 utf8与unicode

来源:互联网 发布:淘宝商家贴吧 编辑:程序博客网 时间:2024/05/30 04:29

function utfdecode($url) // unicode解码 (测试可行)

{
   preg_match_all('/%u([[:alnum:]]{4})/', $url, $a);
   foreach ($a[1] as $uniord)
   {
       $dec = hexdec($uniord);
       $utf = '';
       if ($dec < 128)
       {
           $utf = chr($dec);
       }
       else if ($dec < 2048)
       {
           $utf = chr(192 + (($dec - ($dec % 64)) / 64));
           $utf .= chr(128 + ($dec % 64));
       }
       else
       {
           $utf = chr(224 + (($dec - ($dec % 4096)) / 4096));
           $utf .= chr(128 + ((($dec % 4096) - ($dec % 64)) / 64));
           $utf .= chr(128 + ($dec % 64));
       }
       $url = str_replace('%u'.$uniord, $utf, $url);
   }
   return urldecode($url);
}

以下转自:http://blog.sina.com.cn/s/blog_415bd7070100ajdi.html

在前面的文章中我用.NET实现了UNICODE的解码,使用JAVA实现了UNICODE的编码,在JAVA中的实现最简单,在.NET中的实现也比较容易。而现在,使用PHP语言也同样遇到这个问题,对UNICODE编码的内容进行处理,于是又得用PHP写一个UNICODE的编码和解码程序。这次彻底点,把编码和解码的程序都一起写出来,分享给大家。至于UNICODE编码的原理和作用,在前面的文章中已经介绍过。
C#中将UNICODE编码后的字符转换为汉字
保护JAVA源文件,将ASC2编码的字符串转换为UNICODE编码

UNICODE编码在PHP中使用UCS-2编码,之前还真是没有发现,一直还以为是UTF-8就行了。贴出代码:


//将内容进行UNICODE编码,编码后的内容格式:YOKA\u738b (原始:YOKA王)
function unicode_encode($name)
{
 $name = iconv('UTF-8', 'UCS-2', $name);
 $len = strlen($name);
 $str = '';
 for ($i = 0; $i < $len - 1; $i = $i + 2)
 {
 $c = $name[$i];
 $c2 = $name[$i + 1];
 if (ord($c) > 0)
 // 两个字节的文字
 $str .= '\u'.base_convert(ord($c), 10, 16).base_convert(ord($c2), 10, 16);
 }
 else
 {
 $str .= $c2;
 }
 }
 return $str;
}

// 将UNICODE编码后的内容进行解码,编码后的内容格式:YOKA\u738b (原始:YOKA王)
function unicode_decode($name)
{
 // 转换编码,将Unicode编码转换成可以浏览的utf-8编码
 $pattern = '/([\w]+)|(\\\u([\w]{4}))/i';
 preg_match_all($pattern, $name, $matches);
 if (!empty($matches))
 {
 $name = '';
 for ($j = 0; $j < count($matches[0]); $j++)
 {
 $str = $matches[0][$j];
 if (strpos($str, '\\u') === 0)
 {
 $code = base_convert(substr($str, 2, 2), 16, 10);
 $code2 = base_convert(substr($str, 4), 16, 10);
 $c = chr($code).chr($code2);
 $c = iconv('UCS-2', 'UTF-8', $c);
 $name .= $c;
 }
 else
 {
 $name .= $str;
 }
 }
 }
 return $name;
}

测试用例:

echo '<h3>YOKA\u738b -> '.unicode_decode('YOKA\u738b').'</h3>';
$name = 'YOKA王';
echo '<h3>'.unicode_encode($name).'</h3>';


utf8和unicode编码究竟是什么关系?有何区别?


UTF8 == Unicode Transformation Format -- 8 bit 
是Unicode传送格式。即把Unicode文件转换成BYTE的传送流。 

UTF8流的转换程序: 
Input: unsigned integer c - the code point of the character to be encoded (输入一个unicode值) 
Output: byte b1, b2,b3, b4 - the encoded sequence of bytes (输出四个BYTE值) 
Algorithm(算法): 
if (c<0x80) 
b1 = c>>0 & 0x7F | 0x00 
b2 = null 
b3 = null 
b4 = null 
else if (c<0x0800) 
b1 = c>>6 & 0x1F | 0xC0 
b2 = c>>0 & 0x3F | 0x80 
b3 = null 
b4 = null 
else if (c<0x010000) 
b1 = c>>12 & 0x0F | 0xE0 
b2 = c>>6 & 0x3F | 0x80 
b3 = c>>0 & 0x3F | 0x80 
b4 = null 
else if (c<0x110000) 
b1 = c>>18 & 0x07 | 0xF0 
b2 = c>>12 & 0x3F | 0x80 
b3 = c>>6 & 0x3F | 0x80 
b4 = c>>0 & 0x3F | 0x80 
end if 
===================== 
unicode 是一种编码表格,例如,给一个汉字规定一个代码。类似 GB2312-1980, GB18030等,只不过字集不同。 
===================== 
一个unicode码可能转成长度为一个BYTE,或两个,三个,四个BYTE的UTF8码,取决于unicode码的值。英文unicode码因为值小于0x80,只要用一个BYTE的UTF8传送,比送unicode两个BYTEs快。 
UTF8是为传送unicode而想出来的“再编码”方法罢了。 
UTF8转unicode用我上面给的程序反算即可。

UTF8是现有ASCII系统转向Unicode系统的一个过渡解决方案。UTF8是保证 ASCII兼容性,再向大字符集方向扩展。这是Unicode推荐的方案。但是因 为解决问题的角度不同,对现有的中文系统不是好的解决方案。 一下连接提供了详细的 UTF8编码的初步知识 http://www.acnis.com/modules.php?name=ArticlE&file=article&sid=102 参考资料:http://www.acnis.com/modules.php?name=ArticlE&file=article&sid=102

什么是Unicode。Unicode的基本目标是统一所有的编码,即它包含所有的字符集。这样只要一个系统支持Unicode,那么,就能处理这些字符集。一般Unicode有两个字节。现在的windows操作系统都是支持Unicode的。 

什么是UTF8呢?UTF8是一种Unicode编码,即它的编码的字符集和Unicode是一致的。但编码的方式不一样。对于英文字符来讲,UTF8的编码和一般的一样,用到一个字节。但对于中文来讲,那么要用三个字节表示(记忆中是三个)。 

UTF8和Unicode的缺点是在处理查找、搜索等问题时,好像算法上比较复杂,效率不高(记忆中)。

原创粉丝点击