MySQL字符集问题

来源：互联网发布：上瘾网络剧完整版编辑：程序博客网时间：2024/06/04 01:07

最近在工作中，遇见往mysql数据库存取时出现乱码情况，进行查阅资料后进行一些总结：

基本概念

• 字符(Character)是指人类语言中最小的表义符号。例如’A'、’B'等；
• 给定一系列字符，对每个字符赋予一个数值，用数值来代表对应的字符，这一数值就是字符的编码(Encoding)。例如，我们给字符’A'赋予数值0，给字符’B'赋予数值1，则0就是字符’A'的编码；
• 给定一系列字符并赋予对应的编码后，所有这些字符和编码对组成的集合就是字符集(Character Set)。例如，给定字符列表为{’A',’B'}时，{’A'=>0, ‘B’=>1}就是一个字符集；
• 字符序(Collation)是指在同一字符集内字符之间的比较规则；
• 确定字符序后，才能在一个字符集上定义什么是等价的字符，以及字符之间的大小关系；
• 每个字符序唯一对应一种字符集，但一个字符集可以对应多种字符序，其中有一个是默认字符序(Default Collation)；
• MySQL中的字符序名称遵从命名惯例：以字符序对应的字符集名称开头；以_ci(表示大小写不敏感)、_cs(表示大小写敏感)或_bin(表示按编码值比较)结尾。例如：在字符序“utf8_general_ci”下，字符“a”和“A”是等价的；

MySQL字符集设置

• 系统变量：
– character_set_server：默认的内部操作字符集
– character_set_client：客户端来源数据使用的字符集
– character_set_connection：连接层字符集
– character_set_results：查询结果字符集
– character_set_database：当前选中数据库的默认字符集
– character_set_system：系统元数据(字段名等)字符集
– 还有以collation_开头的同上面对应的变量，用来描述字符序。

查看字符集设置

在mysql数据库中执行show character set，可以看到不同的字符集的最大长度不同。

如果执插入utf8编码数据，数据库表中字段字符集是latin。（查询字段字符集方法：show full columns from 表名;）

如果最大长度为3的utf8字符集存储到最大长度为1的latin数据库字段中，数据会被截断，无法正常插入，导致异常。

解决办法

修改数据库的字符集编码

MySQL配置文件在Windows下叫my.ini，在MySQL的安装根目录下；在Linux下叫my.cnf，该文件位于/etc/my.cnf。

（1）window服务器

MySQL数据库的配置文件my.ini，此文件放在mysql根目录下。在此文件下查找default-character-set属性，并将其值更改为utf8：default-character-set = utf8

（2）linux服务器
修改my.cnf
vi /etc/my.cnf
在[client]下添加
default-character-set=utf8
在[mysqld]下添加

default-character-set=utf8

在新的版本5.5以上，如果这样修改的话，会造成无法启动的错误，
报的是pid文件更新问题。

经过查看mysql日志，如下：

是default-character-set参数不可用。

新版本mysql配置方法是
在[mysqld]下把default-character-set=utf8换成character-set-server=utf8就可以了

配置文件里的这种写法解决了数据存储和比较的问题，但是对客户端的连接是没有作用的，客户端这时候一般需要指定utf8方式连接才能避免乱码。也就是传说总的set names命令。事实上，set names utf8命令对应的是服务器端以下几个命令：
SET character_set_client = utf8;
SET character_set_results = utf8;
SET character_set_connection = xutf8;
但这三个参数是不能写在配置文件my.cnf里的。只能通过set命令来动态修改。我们需要的是在配置文件里写好一劳
永逸的办法。那么这时候，是否有在服务端解决问题的办法呢，可行的思路是在init_connect里设置。这个命令在每
个普通用户连接上来的时候都会触发执行，可以在[mysqld]部分增加以下一行设置连接字符集：
在[mysqld]下添加：
init_connect = 'SET NAMES utf8'

在mysql客户端进行set names utf8；也就是执行下列三条命令

SET character_set_client = utf8;
SET character_set_results = utf8;
SET character_set_connection = xutf8;

这只是临时修改，只在当前会话有效，并非永久，要想永久修改，只能写到配置文件中

MySQL处理连接时，外部连接发送过来的SQL请求会根据以下顺序进行转换：
character_set_client //客户连接所采用的字符集
|
character_set_connection //MySQL连接字符集
|
character_set_database //数据库所采用的字符集（表，列）
|
character_set_results //客户机显示所采用的字符集

乱码问题：
a 我们的字段没有设置字符集，因此使用表的数据集
b 我们的表没有指定字符集，默认使用数据库存的字符集
c 我们的数据库在创建的时候没有指定字符集，因此使用character_set_server设定值
d 我们没有特意去修改character_set_server的指定字符集，因此使用mysql默认

产生乱码的根本原因在于：
1.客户机没有正确地设置client字符集，导致原先的SQL语句被转换成connection所指字符集，而这种转换，是会丢失信息的，如果client是utf8格式，那么如果转换成gb2312格式，这其中必定会丢失信息，反之则不会丢失。一定要保证connection的字符集大于client字符集才能保证转换不丢失信息。
2. 数据库字体没有设置正确，如果数据库字体设置不正确，那么connection字符集转换成database字符集照样丢失编码，原因跟上面一样。

MySQL中的字符集转换过程

1. MySQL Server收到请求时将请求数据从character_set_client转换为character_set_connection；
2. 进行内部操作前将请求数据从character_set_connection转换为内部操作字符集，其确定方法如下：
- 使用每个数据字段的CHARACTER SET设定值；
- 若上述值不存在，则使用对应数据表的DEFAULT CHARACTER SET设定值(MySQL扩展，非SQL标准)；
- 若上述值不存在，则使用对应数据库的DEFAULT CHARACTER SET设定值；
- 若上述值不存在，则使用character_set_server设定值。
3. 将操作结果从内部操作字符集转换为character_set_results。

乱码问题：
a 我们的字段没有设置字符集，因此使用表的数据集
b 我们的表没有指定字符集，默认使用数据库存的字符集
c 我们的数据库在创建的时候没有指定字符集，因此使用character_set_server设定值
d 我们没有特意去修改character_set_server的指定字符集，因此使用mysql默认
e mysql默认的字符集是latin1，因此，我们使用了latin1字符集，而我们character_set_connection的字符集是UTF-8，插入中文乱码也再所难免了。
终极解决方案如下:
1.首先要明确你的客户端时候何种编码格式，这是最重要的（IE6一般用utf8，命令行一般是gbk，一般程序是gb2312)
2.确保你的数据库使用utf8格式，很简单，所有编码通吃。
3.一定要保证connection字符集大于等于client字符集，不然就会信息丢失，比如latin1<gb2312<gbk<utf8
若设置set character_set_client = gb2312，那么至少connection的字符集要大于等于gb2312，否则就会丢失信息
4.以上三步做正确的话，那么所有中文都被正确地转换成utf8格式存储进了数据库，为了适应不同的浏览器，不同的客户端，你可以修改character_set_results来以不同的编码显示中文字体，由于utf8是大方向，因此web应用是我还是倾向于使用utf8格式显示中文的。

总结：如果出现存入乱码或者读取乱码问题时，一般是

character_set_client

character_set_connection

character_set_results

对应的字符集与数据库表的字符集不对应，进行相应的修改就可以

0 0