php 如何转义emoji表情,让它可以存入utf8的数据库
来源:互联网 发布:手机qq当前网络不可用 编辑:程序博客网 时间:2024/06/10 02:15
方法1:base_encode64
这种方法是可以,但是旧数据没有经过encode操作,取数据的时候如果统一进行decode的话,旧数据会丢失的。
方法2:urlencode
这个似乎可以,对没有经过encode的数据进行decode也不会有影响,而且多次decode似乎也不会有影响。你们说这个方法有缺陷吗?=======================一个发现,微信获取用户基本信息的时候,笑哭那个表情print_r出的是\ud83d\ude02,而我存储的时候,报错说这个 \xF0\x9F\x98\x82 值不能存储,请问这是怎么回事,自动转码了,转成的这是什么?是微信转码过了吗?=======================
方法3:采用了下面采纳的那个方法,因为我觉得它有下面几个优点:
1、那个方法只转换表情,不会转换中文,所以数据还是直接可读的数据库中存储起来是这样的,如何转义emoji表情,让它可以存入utf8的数据库后面的\ud83d\udca5可以随意复制粘贴,而显示出来是这样的, 如何转义emoji表情,让它可以存入utf8的数据库2、不会把表情转换为其它标准,只有一个简单的,固定的转换算法,也就是说不需要一个表情库来对照着转换,所以以后其它人要使用这个数据的时候,也很容易知道每个表情是对应的哪个。就算苹果大爷又增加了表情,也不需要做什么额外的修改。3、可以无限decode输出的都是正确的内容。因为有的时候可能需要在一次请求中的两个地方做decode,其它decode多次会把正确的数据改成其它数据,这个不会。缺点:1、看了下面的代码就知道,这个是强制修改字符编码中,指定区间内的编码,也就说有可能误杀,也有可能有超出这个区间的emoji没杀到。不过仅仅是在字符前加反斜杠,即使误杀了,发现之后也很容易改回来。数据库中发现有这样的 ,是漏杀了,但是不知道为什么,这个可以直接存数据库。/** 把用户输入的文本转义(主要针对特殊符号和emoji表情) */function userTextEncode($str){ if(!is_string($str))return $str; if(!$str || $str=='undefined')return ''; $text = json_encode($str); //暴露出unicode $text = preg_replace_callback("/(\\\u[ed][0-9a-f]{3})/i",function($str){ return addslashes($str[0]); },$text); //将emoji的unicode留下,其他不动,这里的正则比原答案增加了d,因为我发现我很多emoji实际上是\ud开头的,反而暂时没发现有\ue开头。 return json_decode($text);}/** 解码上面的转义 */function userTextDecode($str){ $text = json_encode($str); //暴露出unicode $text = preg_replace_callback('/\\\\\\\\/i',function($str){ return '\\'; },$text); //将两条斜杠变成一条,其他不动 return json_decode($text);}//处理名字的emoji符号 $tmpStr = json_encode($text); //暴露出unicode $tmpStr = preg_replace("#(\\\ue[0-9a-f]{3})#ie","addslashes('\\1')",$tmpStr); //将emoji的unicode留下,其他不动 $text = json_decode($tmpStr); return $text;
方法4: 一个标准的解决方案:
1、mysql的版本必须为v5.5.3或更高2、把数据库的编码改成utf8mb4 -- UTF-8 Unicode3、然后需要存储emoji表情的字段选择utf8mb4_general_ci4、数据库连接也需要改为utf8mb4设置完成后,应该可以看到如下类似字符集设置结果。那么可以直接的存入数据库,无需做任何额外的事情了。mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%'; +--------------------------+--------------------+ | Variable_name | Value | +--------------------------+--------------------+ | character_set_client | utf8mb4 | | character_set_connection | utf8mb4 | | character_set_database | utf8mb4 | | character_set_filesystem | binary | | character_set_results | utf8mb4 | | character_set_server | utf8mb4 | | character_set_system | utf8 | | collation_connection | utf8mb4_unicode_ci | | collation_database | utf8mb4_unicode_ci | | collation_server | utf8mb4_unicode_ci | +--------------------------+--------------------+ 我在做微信公众平台开发时遇到过这个问题,微信用户的昵称可以包含表情(坑爹- -!)。于是我就将整个昵称转换成HEX字符串存在MySQL中,目前用户1W+,系统稳定,题主可以参考一下此方案。MySQL支持hex() and unhex()函数。Java可以使用org.apache.commons.codec.binary.Hex工具类。其他语言也有相应的方法。![这里写图片描述](http://img.blog.csdn.net/20160612155302911)试试微博或qq里面的那种方式?用简单的编码来映射,比如微笑可以用 [wx] 或 /wx 。不过表情多了之后4个字符不怎么够用。。。urldecode 我看了一下 decode 的源码,应该是不会出现问题。只要没有 % 解码后肯定还是原来的字符(串),有 % 会出现两种情况,一种是解码成功,这个时候肯定就不是原来的字符串了,一种是解码失败,抛出异常(其实这个异常可以作为是否 encode的标准)。解码还算是比较严格吧,作为用户名的情况下 出现 % 还解码成功的概率比较小吧,对于这部分你可以手动改数据库,应该不会有很多。你试试这个函数,之前弄微信自定义菜单的时候,也接触过Emoji表情,当时看到用的这个函数把Emoji表情的编码给转换了。function utf8_bytes($cp) { if ($cp > 0x10000){ # 4 bytes return chr(0xF0 | (($cp & 0x1C0000) >> 18)). chr(0x80 | (($cp & 0x3F000) >> 12)). chr(0x80 | (($cp & 0xFC0) >> 6)). chr(0x80 | ($cp & 0x3F)); }else if ($cp > 0x800){ # 3 bytes return chr(0xE0 | (($cp & 0xF000) >> 12)). chr(0x80 | (($cp & 0xFC0) >> 6)). chr(0x80 | ($cp & 0x3F)); }else if ($cp > 0x80){ # 2 bytes return chr(0xC0 | (($cp & 0x7C0) >> 6)). chr(0x80 | ($cp & 0x3F)); }else{ # 1 byte return chr($cp); }}我这个刚解决的这个问题(后端是java实现的,数据库Mysql),供参考。1、修改存储emoji字段编码,例如放在username字段中: ALTER TABLE user CHANGE username username VARCHAR(128) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci default null;2、java在执行数据库插入、更新操作前,要先执行 sql语句"set names utf8mb4" 语句。使用BOLO类型将数据库编码改为 utf8mb4https://github.com/iamcal/php-emoji我是用这个处理的~http://www.emoji-cheat-sheet.com/有一种编码叫 utfmb4,支持 4 位长度的 utf8 编码喏,你的 MySQL 版本必须为 5.5 以上的不用转,直接数据库转成utf8mb4, 我以前就是这么干的不用更改整个数据库的把。。。create xxx() charset=utf8mb4 单表 utf8mb4就行了把因为我的项目中需要对字数有限制的需求,涉及到逐字计数,在这基础上我增加了emoji的功能完美实现。你需要代码的话请再告诉我,我提供给你。
方法5 干掉emoji表情
emoji表情是个麻烦的东西,即使你能存储,也不一定能完美显示。在iOS以外的平台上,例如PC或者android。如果你需要显示emoji,就得准备一大堆emoji图片并使用第三方前端类库才行。即便如此,还是可能因为emoji图片不够全而出现无法显示的情况
在大多数业务场景下,emoji也不是非要不可的。我们可以适当地考虑干掉它,节约各种成本
经过一番苦苦的google,终于找到靠谱能用的代码:
// 过滤掉emoji表情
function filterEmoji(str)
{str = preg_replace_callback(
‘/./u’,
function (array
return $str;
}
基本思想就是遍历字符串中的每个字符,如果该字符的长度为4个字节,就将其删除。转载自:pein0119
参考原文-pein0119
参考原文-如何转义emoji表情,让它可以存入utf8的数据库
0 0
- php 如何转义emoji表情,让它可以存入utf8的数据库
- 如何转义emoji表情,让它可以存入utf8的数据库?
- 如何转义emoji表情,让它可以存入utf8的数据库?
- 如何转义emoji表情,让它可以存入utf8的数据库?
- emoji表情存入数据库
- 如何让不支持Emoji表情符的数据库存取Emoji表情
- Emoji 表情存入数据库 (一)
- 如何让数据库支持emoji表情符存储
- 截取带emoji表情的utf8字符串
- emoji 表情不能存入mysql 数据库和在jsp 页面显示的处理
- 如何让Mysql支持emoji(表情)
- mysql数据库如何支持emoji表情
- php过滤表单输入的emoji表情
- php emoji表情处理
- 怎么将emoji表情存入mysql
- emoji表情存入mysql设置 jun原创
- 让MySql支持Emoji表情(MySQL中4字节utf8字符保存方法)
- 让MySql支持Emoji表情(MySQL中4字节utf8字符保存方法)
- 大话设计模式-第10章 考题抄错会做也白搭--模板方法模式
- js中截取字符串的两种方法的区别
- Java集合类
- 和为s的两个数字VS和为s的连续正数序列
- 严格要求自己
- php 如何转义emoji表情,让它可以存入utf8的数据库
- JAVA对象通过jackson转成json格式,属性名首字母变成小写的解决方法
- python 中pass的使用
- LeetCode 77.Combinations
- 服务端架构中的“网关服务器”
- Android 触摸及手势操作GestureDetector
- 个人常用linux命令
- PAT乙级—1009. 说反话 (20)-native
- 理解矩阵(三)