Java 常见乱码原理 及 解决方案

来源:互联网 发布:有赞 微盟 知乎 编辑:程序博客网 时间:2024/06/07 04:03

String odsStr = "测试";
String newStr = new String(odsStr.getBytes("GBK"), "ISO8859_1");

 

首先需要说明一下我们经常用到的字符集,有ISO8859-1,GB2312,GBK,GB18030,UNICODE。这里ISO8859-1字符集只 包含英文字符,使用一个字节存储。GB2312、GBK和GB18030字符集包含中文字符,他们都兼容ISO8859-1字符集,他们的字符存储格式是变长的,其中GB18030包含GBK,GBK包含GB2312。UNICODE包含世界上所有国家的字符,UNICODE又分为UTF-8,UTF-16和UTF-32三种,UTF-8是变长字符集,它兼容ISO8859-1,即英文字符使用一个字节编码,而其他的字符使用2到4个字节编码,其中中文字符大部分都是使用3个字节进行编码,少量偏僻字使用4个字节编码,UTF-16统一都使用2个字节编码,它不兼容ISO8859-1,英文字符也使用两个字节,UTF-32统一使用4个字节编码,也不兼容ISO8859-1,可见UTF-16和UTF-32都比较浪费空间。

 

乱码问题的产生最根本的原因就是使用错误的字符集解码字节流或者将给定的字符串用错误的字符集编码成错误字节流造成的,例如”中文”两个汉字,如果用ISO8859-1字符集将其编码为字节流,因为这个字符集不支持中文,所以就会出错,输出结果为3f3f,其意义就是??。再例如”中文”二字的GBK的字节流为d6 d0 ce c4,可是我们要是用不兼容的字符集去解码,例如用ISO8859-1或者UTF-8,这随后产生的字符串就是乱码,或者是其他的某个字符。

 

从开发Java程序到运行Java程序的过程中都存在着编码问题,所以要想避免乱码产生,就必须了解在其中任何时候的编码处理的情况。

 

源代码:在编写java源代码的时候,我们必须把编写的文本保存在文件中,这个时候不管用什么编辑器,都存在一个问题,就是以什么样的字符集将这些源代码(包含汉字)保存到文件中,大部分编辑器都会通过系统的环境变量得到系统的当前默认字符集,编辑器就会使用这个字符集将我们编写的源代码保存到文件中。一般我们的中文Windows系统的默认字符集是GB18030,AIX英文环境的默认字符集是ISO8859-1,AIX中文环境的默认字符集是IBM-eucCN。

 

编译:在编译.java文件的时候如果使用默认处理,则javac会使用系统当前的默认字符集去读取源文件,将源文件的内容转换为UTF-8编码,然后在进行编译,这时我们也可以通过-encoding参数指定一个字符集,让javac使用我们指定的字符集去读取源代码然后在转换为UTF-8,然后编译。编译以后产生的class文件内部所有的中文字符都是用UTF-8的字符集进行编码的,这就是Java程序能处理任何国家文字的原因。

 

运行时:Java程序在运行时,需要使用程序内部定义的中文字符串,也可能会使用从外部读取的中文字符串,这些经过处理,可能都会输出到程序外部,在这些 过程中都涉及到编码的转换,程序内部定义的字符串都是用UTF-8存储的。而从外部读取和输出到程序外部的输出又使用什么字符集进行处理呢?在我们没有在 程序中特别指定的情况下,JVM会根据系统属性确定使用哪个字符集,这个系统属性的名称为file.encoding,我们可以在启动java程序的时候通过-D参数设定这个值,如果没有设定,JVM会根据系统环境变量确定这个系统属性,一般我们的中文Windows系统的默认字符集是GB18030,AIX英文环境的默认字符集是ISO8859-1,AIX中文环境的默认字符集是IBM-eucCN。这样JVM在处理输入数据的时候就会把字节流根据这个参数进行解码,然后转成UTF-8格式,在Java程序内部处理,然后再根据这个参数把处理后的数据编码,输出到程序外部。这就是Java程序运行时字符集的使用情况。

 

现在有一个问题,我们平时都是Windows的中文环境下做开发,然后拿到AIX系统上去运行,AIX系统的默认语言环境是英文环境,这样就会出现乱码,分析过程如下:源文件编码格式为GB18030,默认编译,也采用GB18030读取源文件,正常转换为UTF-8,生成class文件,运行时没有进行特殊设置,语言环境为英文环境,默认编码为ISO8859-1,这样在输出中文的时候会把正常的UTF-8表示的汉字用ISO8859-1的字符集去编码生成字节流,因为ISO8859-1不支持汉字,结果输出的都是’?’。可是这个时候却发现,由外界输入给java程序的中文字符,却能正常输出,这又是为什么,其实这个也是运行时的默认字符集ISO8859-1造成的,Java程序运行时,在读取外部进入的字节流的时候,如果使用默认的读取方式,也是使用ISO8859-1的字符集进行解码处理,这样中间的处理过程中,中文都已经不是原来的中文了,也就是说我们这个时候处理根本不是我们认为的中文,而是一对乱码,虽然是乱码,但是其中的信息却没有丢失,在处理完后,在经过一次ISO8859-1的编码,又还原为正常的GB18030的编码输出,所有没有出现乱码。我们以前的解决方法是,在编译原文件的时候指定参数-encoding ISO8859-1,让编译器用ISO8859-1的字符集去解码源文件编译,然后运行程序,这时再输出程序的内部中文字符串也不是乱码了。看起来一切都解决了,可是却没有从根本上解决问题,class文件变得比平常大很多,程序中用到中文越多,class文件变大的越快。而且其中的中文信息也变味了。

 

另一个问题,如果我们正常编译程序,在AIX系统上线设定为中文环境,然后再运行Java程序,这样既不会使程序变大,也不会使中文变味,可是用了一段时间又发现问题了,处理过程中如果遇到偏僻的中文字,还是乱码,原因是AIX的中文环境使用的字符集是IBM-eucCN,我认为可能是这个字符集缺少偏僻汉字,无法解释其内容,所以偏僻字变成了乱码了。

 

最后的解决办法是,在Windows中文环境下正常编写原程序,用默认的方式编译生成class文件,或者编译时指定参数-encoding GB18030,这样汉字都能正常解释并转换为UTF-8存储在class文件中,在运行的时候,我们需要制定参数,java –Dfile.encoding=GB18030 。。。。。,系统环境使用默认英文即可,这样JVM就不会根据系统的环境设定默认字符集,而是所有输入输出都使用我们指定的字符集,这样不但解决了英文环境下的中文输出问题,而且还解决了偏僻字的显示问题。

 

最后附上汉字的转码过程:

1.‘中文’的GB18030编码为d6 d0 ce c4 对应java源码文件

经过ISO8859-1解码为UTF-8为81 30 89 30 81 30 88 34 81 30 88 32 81 30 87 32 对应编译过程

经过ISO8859-1编码为d6 d0 ce c4 对应Java程序输出汉字的过程

d6 d0 ce c4经GB18030解释为‘中文’二字 对应系统显示汉字的过程。

在这个过程中,虽然中间出现了乱码,但是信息没有丢,最后还是能还原为中文的,是比较蹩脚的处理过程。

 

2. ‘中文’二字的UTF-8编码为e4 b8 ad e6 96 87,对应正常编译后的class文件存储内容

经过ISO8859-1编码为3f 3f,已经出错,丢失信息,对应java程序汉字输出过程

3f 3f经GB18030解释为汉字为??,乱码,无法还原, 对应系统显示汉字的过程

这个过程中,信息丢失,是个完全错误的处理过程。

 

3. ‘中文’的GB18030编码为d6 d0 ce c4 对应java源码文件

经过GB18030解码为UTF-8为e4 b8 ad e6 96 87 对应编译过程

经过GB18030编码为d6 d0 ce c4 对应Java程序输出汉字的过长

d6 d0 ce c4经GB18030解释为‘中文’二字 对应系统显示汉字的过程。

这个过程是最为理想的处理过程,没有丢失信息,也没有出现任何蹩脚的信息。


java乱码的根本原因就是:java可以设置字符编码的地方太多,只要有不统一的地方就有出现乱码。

----------------------------------------------------------------------------------------------------------------------------------

 

*************************************java、jsp中设置编码******************************************/ 
首先说在java里那些地方能够设置编码 
开发工具会有好多地方设置编码这个不解少了,这里不介绍了。 

下面两种设置编码格式方法适用于jsp页面(*.jsp) 
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> 
<%@ page contentType="text/html; charset=UTF-8" %> 

下面方式适合于jsp、servlet、action中(*.java) 
request.setCharacterEncoding("UTF-8"); 
response.setCharacterEncoding("UTF-8"); 

下面适合html页面(*.htm;*.html) 
<meta http-equiv="content-type" content="text/html; charset=UTF-8"> 

Tomcate设置编码(server.xml) 
<Connector 其他省略 port="80" URIEncoding="UTF-8"> 

mysql设置编码命令 

SET character_set_client = utf8; 
SET character_set_connection = utf8; 
SET character_set_database = utf8; 
SET character_set_results = utf8;/*这里要注意很有用*/ 
SET character_set_server = utf8; 

SET collation_connection = utf8_bin; 
SET collation_database = utf8_bin; 
SET collation_server = utf8_bin; 

my.ini中配置默认编码 
default-character-set=utf8 

连接数据库设置编码 
jdbc:mysql://192.168.0.5:3306/test?characterEncoding=utf8 

/*****************************************java与mysq编码对应****************************************/ 
java中的常用编码UTF-8;GBK;GB2312;ISO-8859-1; 
对应mysql数据库中的编码utf8;gbk;gb2312;latin1 

/********************************************过滤器使用*********************************************/ 
//过滤器设置编码过滤(SetCharacterEncodingFilter.java) 
package com.sorc; 

import java.io.*; 
import javax.servlet.*; 
import javax.servlet.http.*; 

public class SetCharacterEncodingFilter extends HttpServlet implements Filter{ 
   private FilterConfig filterConfig; 
   private String encoding=null; 
   //Handle the passed-in FilterConfig 
   public void init(FilterConfig filterConfig){ 
      this.filterConfig=filterConfig; 
      encoding=filterConfig.getInitParameter("encoding"); 
   } 
   //Process the request/response pair 
   public void doFilter(ServletRequest request,ServletResponse response,FilterChain filterChain){ 
      try{ 
         request.setCharacterEncoding(encoding); 
         filterChain.doFilter(request,response); 
      } catch(ServletException sx){ 
         filterConfig.getServletContext().log(sx.getMessage()); 
      } catch(IOException iox){ 
         filterConfig.getServletContext().log(iox.getMessage()); 
      } 
   } 
   //Clean up resources 
   public void destroy(){ 
   } 

//web.xml配置过滤器方法(web.xmd) 
<filter> 
    <filter-name>setcharacterencodingfilter</filter-name> 
    <filter-class>com.sorc.SetCharacterEncodingFilter</filter-class> 
    <init-param> 
      <param-name>encoding</param-name> 
      <param-value>utf8</param-value> 
    </init-param> 
</filter> 
<filter-mapping> 
    <filter-name>setcharacterencodingfilter</filter-name> 
    <url-pattern>/*</url-pattern> 
</filter-mapping> 

/************************有了上面的基础下面试完满解决方案*****************************************/ 
1.使用GBK编码的解决方案 
这个最简单 遇到设置编码的地方就是用GBK数据库gbk 然后在使用个过滤器过滤编码为gbk一切搞定。 
效果为添加数据无乱码 读出无乱码 数据库管理工具无乱码 到处sql结构和数据无乱码 

2.使用UTF-8编码解决方案 
所有编码都设置为UTF-8 
数据库编码utf8 
设置过滤器编码utf8 
数据库连接?characterEncoding=utf8 
然后在数据库管理工具或mysql命令行 运行 SET character_set_results = gbk; 
效果为添加数据无乱码 读出无乱码 数据库管理工具无乱码 到处sql结构和数据时存在乱码 

3.页面使用UTF8 数据库使用latin1的解决方案 
jap java tomcat 设置为UTF-8 
过滤器 utf8 
数据库连接?characterEncoding=latin1 
数据库其他latin1 
然后在数据库管理工具或mysql命令行 运行 SET character_set_results = gbk; 
效果为添加数据无乱码 读出无乱码 数据库管理工具无乱码 到处sql结构和数据时存在乱码 

以上都不需要页面或java代码中手动转码

----------------------------------------------------------------------------------------------------------------------------------

 

 

一、JSP页面显示乱码二、表单提交中文时出现乱码三、数据库连接

大家在JSP的开发过程中,经常出现中文乱码的问题,可能一至困扰着您,我现在把我在JSP开发中遇到的中文乱码的问题及解决办法写出来供大家参考。

一、JSP页面显示乱码
下面的显示页面(display.jsp)就出现乱码:
<html>
<head>
<title>JSP的中文处理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>

<body>
<%
out.print("JSP的中文处理");
%>
</body>
</html>
对不同的WEB服务器和不同的JDK版本,处理结果就不一样。原因:服务器使用的编码方式不同和浏览器对不同的字符显示结果不同而导致的。解决办法:在 JSP页面中指定编码方式(gb2312),即在页面的第一行加上:<%@ page contentType="text/html; charset=gb2312"%>,就可以消除乱码了。完整页面如下:
<%@ page contentType="text/html; charset=gb2312"%>
<html>
<head>
<title>JSP的中文处理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>

<body>
<%
out.print("JSP的中文处理");
%>
</body>
</html>

二、表单提交中文时出现乱码
下面是一个提交页面(submit.jsp),代码如下:
<html>
<head>
<title>JSP的中文处理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>

<body>
<form name="form1" method="post" action="process.jsp">
<div align="center">
<input type="text" name="name">
<input type="submit" name="Submit" value="Submit">
</div>
</form>
</body>
</html>
下面是处理页面(process.jsp)代码:
<%@ page contentType="text/html; charset=gb2312"%>
<html>
<head>
<title>JSP的中文处理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>

<body>
<%=request.getParameter("name")%>
</body>
</html>
如果submit.jsp提交英文字符能正确显示,如果提交中文时就会出现乱码。原因:浏览器默认使用UTF-8编码方式来发送请求,而UTF- 8和 GB2312编码方式表示字符时不一样,这样就出现了不能识别字符。解决办法:通过request.seCharacterEncoding ("gb2312")对请求进行统一编码,就实现了中文的正常显示。修改后的process.jsp代码如下:
<%@ page contentType="text/html; charset=gb2312"%>
<%
request.seCharacterEncoding("gb2312");
%>
<html>
<head>
<title>JSP的中文处理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>

<body>
<%=request.getParameter("name")%>
</body>
</html>

三、数据库连接出现乱码
只要涉及中文的地方全部是乱码,解决办法:在数据库的数据库URL中加上
useUnicode=true&characterEncoding=GBK 就OK了。

四、数据库的显示乱码
在mysql4.1.0中,varchar类型,text类型就会出现中文乱码,对于varchar类型把它设为binary属性就可以解决中文问题,对于text类型就要用一个编码转换类来处理,实现如下:
public class Convert {
/** 把ISO-8859-1码转换成GB2312
*/
public static String ISOtoGB(String iso){
String gb;
try{
if(iso.equals("") || iso == null){
return "";
}
else{
iso = iso.trim();
gb = new String(iso.getBytes("ISO-8859-1"),"GB2312");
return gb;
}
}
catch(Exception e){
System.err.print("编码转换错误:"+e.getMessage());
return "";
}
}
}
把它编译成class,就可以调用Convert类的静态方法ISOtoGB()来转换编码。


如果你还有什么不懂之处:我给大家推荐一个好的JSP-JAVA网站:

http://www.phy.hbnu.edu.cn/dsp/


总结:

1.   在jsp中<%@ page contentType="text/html; charset=A" %>如果指定了,那么在改jsp中所有构造的String(不是引用),如果沒有指定编码,那么这些String的编码是A的。
     从request的得到的String如果沒有指定request的编码的话,他是iso-8859-1的
     从别的地方得到的String是使用原來初始的编码的,比如从数据库得到String,如果数据库的编码是B,那么该String的编码是B而不是A的,也不是系统默认的。
     此时,如果要输出的String的编码不是A,那么,很可能显示乱码的,所以首先要将String正確转化为编码A的String,然后输出。

2.   在jsp中<%@ page contentType="text/html; charset=A" %>沒有指定,那么相当于指定了<%@ page contentType="text/html; charset=ISO-8859-1" %>

3. Servelte中如果执行了像 response.setContentType("text/html;charset=A");説明将response的字符输出流编码设置为A,所有要输出的String的编码要转化为A的,否則会得到乱码的。
     Servelet中从request得到的String的编码和jsp中一样的,但是在servlet java文件中构造的String是使用的系统默认的编


--------------------------------------------------------------------------

 

根本解决办法 所有地方都设置成GBK


原创粉丝点击