MySQL 数据库ut8mb4字符集

来源:互联网 发布:c语言编程软件怎么用 编辑:程序博客网 时间:2024/05/18 03:09

1:什么是utf8mb4字符集?

5.5版本之前的MySQL数据库不支持utf8mb4字符集,也就是utf8字符集的超集;utf8一个字符最多3字节,而utf8mb4则扩展到一个字符最多能有4字节。

2:什么情况下要用utf8mb4字符集?

他们的区别是utf8mb4字符集比utf8字符集一个字符能够多存储一个字节;当项目中可能用到需要一个字符更多字节的时候,比如移动开发的时候要用大IOS表情存储,就需要用到utf8mb4字符集;



有一个项目需要存储ios的表情(emoji表情)
这种表情虽然是utf8编码,但是一个字符需要占用4个字节,而MySQL utf8编码只能存放3字节的字符。
在MySQL 5.6中,可以设置编码为utf8mb4,这个字符集是utf8的超集。

实验环境
MySQL   5.6.14
JDBC    5.1.31
测试表  create table test( content varchar(50) )engine=innodb,charset=utf8mb4;
测试程序:

  1. import java.io.IOException;
  2. import java.net.URLDecoder;
  3. import java.net.URLEncoder;
  4. import java.sql.Connection;
  5. import java.sql.DriverManager;
  6. import java.sql.PreparedStatement;

  7. import javax.servlet.ServletException;
  8. import javax.servlet.annotation.WebServlet;
  9. import javax.servlet.http.HttpServlet;
  10. import javax.servlet.http.HttpServletRequest;
  11. import javax.servlet.http.HttpServletResponse;

  12. /**
  13.  * Servlet implementation class CharsetTest
  14.  */
  15. @WebServlet("/CharsetTest")
  16. public class CharsetTest extends HttpServlet {
  17.     protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
  18.         String str = request.getParameter("content");
  19.         str = URLDecoder.decode(str, "utf8");
  20.         System.out.println(URLEncoder.encode(str, "utf8"));

  21.         try {
  22.             save(str);
  23.         } catch (Exception e) {
  24.             e.printStackTrace();
  25.         }

  26.     }

  27.     protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
  28.         doGet(request, response);
  29.     }

  30.     private static void save(String content) throws Exception {
  31.         /**
  32.          * create table test( content varchar(50) )engine=innodb,charset=utf8mb4
  33.          */
  34.         Class.forName("com.mysql.jdbc.Driver");
  35.         Connection connection = DriverManager.getConnection("jdbc:mysql://127.0.0.1:3306/xx", "xx", "xx");

  36.         connection.setAutoCommit(true);
  37.         
  38.         //通过查询运行设置字符集的命令
  39.         //connection.prepareStatement("set names utf8mb4").executeQuery();
  40.         
  41.         PreparedStatement cmd = connection.prepareStatement("insert into test values(?)");
  42.         cmd.setString(1, content);
  43.         cmd.executeUpdate();

  44.         cmd.close();
  45.         connection.close();
  46.     }
  47. }
测试链接:
两次编码后的ios表情:
http://127.0.0.1:8080/Web/CharsetTest?content=%25F0%259F%2598%2584

两次编码后的中文:
http://127.0.0.1:8080/Web/CharsetTest?content=%25E4%25B8%25AD%25E6%2596%2587

关于两次编码参见:
http://blog.itpub.net/29254281/viewspace-775925/


首先,修改mysql的配置文件
character_set_server=utf8mb4
然后重启数据库和中间件.
点击两个测试的链接,查看数据库,发现数据成功插入。


这个过程理论上是不需要重启数据库的。
但是实际测试中发现,如果不重启数据库,则插入会报错。


如果运气好,直接修改character_set_server参数,重启数据库,一切正常,就OK了。
运气不好(比如我),就很悲剧了。
我在生产库上修改了配置,并且重启了数据库。
居然发现ios的表情插入数据库都是乱码(全是问号 ????)
更悲剧的是,过了几分钟突然发现线上新插入的数据都是乱码(也都是问号)。
幸亏发现的早,还原了数据库的配置,否则运行几天之后发现,估计就得收拾小包袱走人了。

后来排查到这个问题是JDBC驱动造成的,线上JDBC驱动的版本是mysql-connector-java-5.1.6-bin
如果MySQL服务器设置为utf8mb4 高版本的JDBC驱动没有关系,但是低版本的驱动插入之后,就是下面这个样子。
所有输入的非英文字符都是乱码了。


因为JDBC驱动并不支持utf8mb4字符集,所以不能设置JDBC URL的characterEncoding



不过还有三种方式可以设置字符集
1.不显式设置字符集,继承服务器的配置

2.在执行SQL之前,运行set names 的查询  (Query方式)


3.设置MySQL init_connect参数


经过测试各种因素的结果如下所示:
 
JDBC版本
普通中文
苹果表情
服务器utf8编码
5.1.6    
正常
插入报错
 
5.1.6  Query
正常
正常
 
5.1.6  init_connect
正常
插入报错
 
5.1.31
正常
插入报错
 
5.1.31 Query
正常
正常
 
5.1.31 init_connect
正常
插入报错
服务器utf8mb4编码
5.1.6
乱码
乱码
 
5.1.6  Query
乱码
乱码
 
5.1.6  init_connect
乱码
乱码
 
5.1.31
正常
正常
 
5.1.31 Query
正常
正常
 
5.1.31 init_connect
正常
正常
 
总结:
1.修改了character_set_server参数,需要重启数据库
2.使用高版本的JDBC

参考:
http://blog.itpub.net/29254281/viewspace-1219800/


0 0
原创粉丝点击