Java中文乱码问题的解决方案

来源：互联网发布：哆可梦网络编辑：程序博客网时间：2024/05/16 00:33

本文章发表于：http://www.phome.asia/forum/thread/16905.html

只要掌握了中文乱码问题产生的原因，然后对症下药，就可以顺利地解决这些问题。下面我们对容易产生乱码问题的场景进行分析，并提出解决方案。

1．以POST方法提交的表单数据中有中文字符

由于Web容器默认的编码方式是ISO-8859-1，在Servlet/JSP程序中，通过请求对象的getParameter()方法得到的字符串是以ISO-8859-1转换而来，这是导致乱码产生的原因之一。为了避免容器以ISO-8859-1的编码方式返回字符串，对于以POST方法提交的表单数据，可以在获取请求参数值之前，调用request.setCharacterEncoding（"GBK"），明确指定请求正文使用的字符编码方式是GBK。在向浏览器发送中文数据之前，调用response.setContentType（"text/html;charset=GBK"），指定输出内容的编码方式是GBK。

对于JSP页面，在获取请求参数值之前，写上下面的代码：

<%request.setCharacterEncoding("GB2312");%>

为了指定输出内容的编码格式，设置page指令contentType属性，如下：

<%@ page contentType="text/html; charset=GBK" %>

在Web容器转换JSP页面后的Servlet类中，会自动添加下面的代码：

response.setContentType("text/html; charset=GBK");

2．以GET方法提交的表单数据中有中文字符

当提交表单采用GET方法时，提交的数据作为查询字符串被附加到URL的末端，发送到服务器，此时在服务器端调用setCharacterEncoding()方法也就没有作用了。我们需要在得到请求参数的值后，自己做正确的编码转换。

String name = request.getParameter("name");

name=new String(name.getBytes("ISO-8859-1"),"GBK");

在第一行，调用getParameter()方法得到的字符串name的Unicode值是以ISO-8859-1编码转换而来，调用name.getBytes（"ISO-8859-1"），将得到原始的GBK编码值，接着，对new String()的调用将以GBK字符集重新构造字符串的Unicode编码。

为了方便从ISO-8859-1编码到GBK的转换，我们可以编写一个工具方法，如下：

public String toGBK(String str)

throws java.io.UnsupportedEncodingException

{

return new String(str.getBytes("ISO-8859-1"),"GBK");

}

3．在数据库中存储和读取中文数据

对于大多数数据库的JDBC驱动程序，在Java程序和数据库之间传递数据都是以ISO-8859-1为默认编码格式，所以，我们在程序中向数据库存储包含中文的数据时，JDBC驱动程序首先把程序内部的Unicode编码格式的数据转化为ISO-8859-1编码，然后传递到数据库中，加上数据库本身也有字符集，这就是为什么我们常常在数据库中读取中文数据时，读到的是乱码。

要解决上述问题，只需要将数据库默认的编码格式改为GBK或GB2312即可，不同的数据库还提供了另外的方式来处理字符编码转换的问题，读者在实际应用过程中，可针对具体情况再做具体处理，只要理解了编码转换的过程，就能找到问题的所在，进而解决问题。

4．Servlet/JSP在不同语言系统的平台下运行

有时候，我们在中文系统平台下开发的Web应用程序移植到英文系统平台下，在Servlet和JSP中直接书写的中文字符串在输出时，将显示为乱码。这是因为在编译Servlet类或者JSP文件时，如果没有使用-encoding参数指定Java源程序的编码格式，javac会获取本地操作系统默认采用的字符集，以该字符集将Java源程序转换为Unicode编码保存到内存中，然后将源程序编译为字节码文件（字节码文件采用的是UTF-8编码），保存到硬盘上。

在英文平台下，采用的默认编码格式是ISO-8859-1，所以在编译转换后，执行输出时，原先在源文件中书写的中文字符串就变成了乱码。

要解决这个问题，在编译Servlet类的源程序时，可以用-encoding参数指定编码为GBK或GB2312，例如：

javac –encoding GBK HelloServlet.java

对于JSP页面，只要在page指令中用contentType属性或pageEncoding属性指定编码格式为GBK或GB2312，Web容器就可以正确转换和编译JSP文件了。例如：

<%@ page contentType="text/html; charset=GBK" %>

或

<%@ page pageEncoding="GBK" %>

在实际的Web应用中，乱码问题产生的原因多种多样，然而只要我们理解了字符编码的转换过程，仔细地分析乱码产生的原因，找到问题的关键，就能对症下药，解决问题。

[1] Unicode协会是由IBM、微软、Adobe、SUN、加州大学伯克利分校等公司和组织所组成的非营利性组织。