关于emoji表情在mysql数据库下存储问题

来源:互联网 发布:数据的一致性是指 编辑:程序博客网 时间:2024/05/15 12:24

Intro

这几天在爬取数据的时候,使用Mysql插入到数据库中时
总是会遇到下面这个报错

一开始我不知道这是什么字符,后来打印出来看了一下,哦 原来是个emoji表情,那么这个emoji表情问什么插入不到数据库中呢?

Incorrect string value: ‘\xF0\x9F\x92\xAA”,…’ for column ‘raw_json’ at row 1

Reason

我们的数据库里面一般都是使用utf8编码,普通的字符串或者表情都是占位3个字节,所以utf8足够用了,但是移动端的表情符号占位是4个字节,普通的utf8就不够用了。

为了应对无线互联网的机遇和挑战、避免 emoji 表情符号带来的问题、涉及无线相关的 MySQL 数据库建议都提前采用utf8mb4 字符集,这必须要作为移动互联网行业的一个技术选型的要点。

给一个标准的解决方案:

mysql的版本必须为v5.5.3或更高

把数据库的编码改成utf8mb4 – UTF-8 Unicode
然后需要存储emoji表情的字段选择utf8mb4_general_ci
数据库连接也需要改为utf8mb4

Solution

以下为在ubuntu16.04下的修改方案:

sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf

打开这个文件…我也不知道为什么和网上的mysql路径不太一样
在[mysqld]下面插入这句话

character-set-server=utf8mb4

然后保存关闭再打开下面这个文件

sudo vim /etc/mysql/conf.d/mysql.cnf

随便在哪插入这句话

default-character-set=utf8mb4

最后重启Mysql服务

sudo service mysqld restart

Test

设置完成后,应该可以看到如下类似字符集设置结果。那么可以直接的存入数据库,无需做任何额外的事情了。

mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';  +--------------------------+--------------------+  | Variable_name            | Value              |  +--------------------------+--------------------+  | character_set_client     | utf8mb4            |  | character_set_connection | utf8mb4            |  | character_set_database   | utf8mb4            |  | character_set_filesystem | binary             |  | character_set_results    | utf8mb4            |  | character_set_server     | utf8mb4            |  | character_set_system     | utf8               |  | collation_connection     | utf8mb4_unicode_ci |  | collation_database       | utf8mb4_unicode_ci |  | collation_server         | utf8mb4_unicode_ci |  +--------------------------+--------------------+   rows in set (0.00 sec)
原创粉丝点击