JSP中文乱码详解

来源:互联网 发布:淘宝店铺排名靠后了 编辑:程序博客网 时间:2024/05/16 07:57
JSP中文乱码详解

1. 首先要明白编码

编码是根据一定的协议或格式把模拟信息转换成比特流的过程。
几种常见的编码是:utf-8, ascII, gb2312, gbk, Unicode, ISO8859-1, BIG5.....
utf-8: utf编码兼容iso8859-1编码,同时也可以用来表示所有语言的字符,不过,utf编码是不定长编码,每一个字符的长度从1-6个字节不等。另外,utf编码自带简单的校验功能。一般来讲,英文字母都是用一个字节表示,而汉字使用三个字节。

ascII: 它用7个二进制位来表示,由于那个时期生产的大多数计算机使用8位大小的字节,因此用户不仅可以存放所有可能的ASCII字符,而且有整整一位空余下来。如果你技艺高超,可以将该位用做自己离奇的目的:WordStar中那个发暗的灯泡实际上设置这个高位,以指示一个单词中的最后一个字母,同时这也宣示了WordStar只能用于英语文本。

gb2312: GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》

gbk: GBK编码,是在GB2312-80标准基础上的内码扩展规范,使用了双字节编码方案

Unicode: Unicode给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不论什么语言。

Unicode标准已经被这些工业界的领导们所采用,并且,Unicode是实现ISO/IEC 10646的正规方式。许多操作系统,所有最新的浏览器和许多其他产品都支持它。Unicode标准的出现和支持它工具的存在,是近来全球软件技术最重要的发展趋势。

ISO-8859-1: 浏览器提交使用iso-8859-1编码,ISO8859-1,通常叫做Latin-1。Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。

BIG5: 是目前台湾、香港地区普遍使用的一种繁体汉字的编码标准.

一、JSP页面显示乱码
二、表单提交中文时出现乱码
三、数据库连接
大家在JSP的开发过程中,经常出现中文乱码的问题,可能一至困扰着您,我现在把我在JSP开发中遇到
的中文乱码的问题及解决办法写出来供大家参考。
一、JSP页面显示乱码
下面的显示页面(display.jsp)就出现乱码:
<html>
<head>
<title>JSP的中文处理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
<body>
<%
out.print("JSP的中文处理");
%>
</body>
</html>
对不同的WEB服务器和不同的JDK版本,处理结果就不一样。原因:服务器使用的编码方式不同和浏览器
对不同的字符显示结果不同而导致的。解决办法:在JSP页面中指定编码方式(gb2312),即在页面的第一
行加上:<%@ page contentType="text/html; charset=gb2312"%>,就可以消除乱码了。完整页面如下

<%@ page contentType="text/html; charset=gb2312"%>
<html>
<head>
<title>JSP的中文处理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
<body>
<%
out.print("JSP的中文处理");
%>
</body>
</html>
二、表单提交中文时出现乱码
下面是一个提交页面(submit.jsp),代码如下:
<html>
<head>
<title>JSP的中文处理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
<body>
<form name="form1" method="post" action="process.jsp">
<div align="center">
<input type="text" name="name">
<input type="submit" name="Submit" value="Submit">
</div>
</form>
</body>
</html>
下面是处理页面(process.jsp)代码:
<%@ page contentType="text/html; charset=gb2312"%>
<html>
<head>
<title>JSP的中文处理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
<body>
<%=request.getParameter("name")%>
</body>
</html>
如果submit.jsp提交英文字符能正确显示,如果提交中文时就会出现乱码。原因:浏览器默认使用UTF
-8编码方式来发送请求,而UTF- 8和GB2312编码方式表示字符时不一样,这样就出现了不能识别字符。
解决办法:通过request.seCharacterEncoding ("gb2312")对请求进行统一编码,就实现了中文的正常
显示。修改后的process.jsp代码如下:
<%@ page contentType="text/html; charset=gb2312"%>
<%
request.seCharacterEncoding("gb2312");
%>
<html>
<head>
<title>JSP的中文处理</title>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</head>
<body>
<%=request.getParameter("name")%>
</body>
</html>
三、数据库连接出现乱码
只要涉及中文的地方全部是乱码,解决办法:在数据库的数据库URL中加上
useUnicode=true&characterEncoding=GBK 就OK了。
四、数据库的显示乱码
在mysql4.1.0中,varchar类型,text类型就会出现中文乱码,对于varchar类型把它设为binary属性就
可以解决中文问题,对于text类型就要用一个编码转换类来处理,实现如下:
public class Convert {
/** 把ISO-8859-1码转换成GB2312
*/
public static String ISOtoGB(String iso){
String gb;
try{
if(iso.equals("") || iso == null){
return "";
}
else{
iso = iso.trim();
gb = new String(iso.getBytes("ISO-8859-1"),"GB2312");
return gb;
}
}
catch(Exception e){
System.err.print("编码转换错误:"+e.getMessage());
return "";
}
}
}
把它编译成class,就可以调用Convert类的静态方法ISOtoGB()来转换编码。

如果你还有什么不懂之处:我给大家推荐一个好的JSP-JAVA网站:
http://www.phy.hbnu.edu.cn/dsp/

总结:
1. 在jsp中<%@ page contentType="text/html; charset=A" %>如果指定了,那么在改jsp中所有构造
的String(不是引用),如果沒有指定编码,那么这些String的编码是A的。
从request的得到的String如果沒有指定request的编码的话,他是iso-8859-1的
从别的地方得到的String是使用原來初始的编码的,比如从数据库得到String,如果数据库的编码
是B,那么该String的编码是B而不是A的,也不是系统默认的。
此时,如果要输出的String的编码不是A,那么,很可能显示乱码的,所以首先要将String正確转化
为编码A的String,然后输出。
2. 在jsp中<%@ page contentType="text/html; charset=A" %>沒有指定,那么相当于指定了<%@
page contentType="text/html; charset=ISO-8859-1" %>
3. Servelte中如果执行了像 response.setContentType("text/html;charset=A");説明将response的
字符输出流编码设置为A,所有要输出的String的编码要转化为A的,否則会得到乱码的。
Servelet中从request得到的String的编码和jsp中一样的,但是在servlet java文件中构造的
String是使用的系统默认的编码的。在servelt中从外部得到的String 是使用原来的编码的,比如从编
码为B的数据库得到的数据是编码为B的,不是A,也不是系统默认的编码。




服务器返回乱码页面,请求的数据发送到服务器后取出来是乱码,以上两个问题是web开发人员经常遇到的问题,解决这类问题需要理解乱码问题的根源所在。

1. 字符编码
字符是以二进制编码的形式保存在存储器中的,如:“我”这个字,可以用gbk的方式保存(用字节表示是[-50, -46]),也可以用utf-8的方式保存(用字节表示是[-26, -120, -111])。程序在读取数据块时需要一个字节一个字节的读取,然后将字节转换为字符,显然如果程序不知道字节是表示的什么编码的字符,读出来就会出问题,这就如同你说了一句话,我如果事先不知道你说的将是什么语言,就没法去翻译了,如果你说的英语,我以为是日语,然后按日语的方式来理解到我的主观意识,显然结果就是不知你在说什么了,就成了我们程序中的乱码。所以对于前面我所表示的字节数组byte[] data = {-26, -120, -111},我们必须这样做才能得到正确的字符: String s = new String(data, "utf-8"),(注:这里用了字符串,因为字符串就是由一个个字符组成的),如果我们不指定参数里面的"utf-8",那么系统就会用操作系统默认的编码了,这可能是gbk或是什么任何编码。

2. jsp服务器返回乱码页面
2.1 pageEncoding
在jsp页面的page指令中我们指定了pageEncoding属性,这个属性就是告诉jsp容器如何读取这个jsp页面,所以这个属性必须与jsp页面保存的编码保持一致。也就是说,如果你页面的编码保存为gbk, 而pageEncoding设置成了utf-8,则jsp容器在读这个jsp页面的时候就会出错(如果存在非英文字符的话)。jsp容器读jsp的目的是将其翻译成java代码,所以如果读错了jsp页面,翻译出来的java代码也就会出错,如果这种错误影响了java文件的语法,就会在访问时出现无法编译jsp的语法错误,如果没有影响到语法,就会出现最终显示的html页面上有乱码的错误。所以如果遇到显示乱码,则检查pageEncoding是否正确。
2.2 contentType
page指令中的contentType属性用于指定返回给浏览器的数据的文档类型,服务器通过http头信息返回给浏览器这个信息,所以在浏览器 html代码中用户是看不到的。同时contentType属性还可以指定页面的编码,即服务器即以什么编码发送页面数据。比如说中文数据,可以用gbk 或utf-8的方式来发送,这个编码跟jsp页面的编码没有关系,只要设定的编码支持页面中的字符就行了。相同于有了一个字符串s="中国人",然后用 s.getBytes("gbk")的方式来发送s。所以由于contentType错误出现乱码的概念不高,但也要注意一下,比如说如果设置成了"iso8859-1",则浏览器就会显示乱码了。contentType还有一个用,就是浏览器将会依据这个编码来显示页面,在IE下点右键,然后选择“编码”,你就可以注意到页面是以什么编码显示的了。
2.3 如果是servlet返回的结果
上面说的是jsp,如果servlet的话就要注意设置response.setCharacterEncoding(""),如果没有设置,服务器会默认为是iso8859-1,设置后得到的writer(即response.getWriter())对象,就会依据这个编码来向客户端写数据,writer对象的构造与以下方式类似:PrintWriter pw = new PrinterWriter(new OutputStreamWriter(socket.getOutputStream(), "编码")),这里提到了通过socket得到输出流,不明白的话可以参考我的另一篇文章。pw.write("你好"),实际上就是先通过byte[] data = "你好".getBytes("编码"),然后将data写给客户端。
)

3. 服务器得到客户端传过来的数据为乱码
3.1 通用解决方案
String param = request.getParameter("paramName"),如果浏览器传过来的为中文,则取出来的数据将是乱码。为什么呢?因为客户端只能将数据的编码传给服务器,如[-26, -120, -111],但服务器并不知道这是什么字符集的编码,于是假定为iso8859-1, 用这种方式构造了字符串s = new String(data, "iso8859-1"),显然这样肯定是乱码。解决方案很简单,我们得到值param后,用byte data[] = param.getBytes("iso8859-1"),这样data就是客户端传过来的真实编码,然后我们再重新创建字符串:param = new String(data, "正确的编码");
3.2 POST请求
如于post请求处理起来更简单,get请求与post请求向服务器发送数据的方式不一样,get请求的参数是通过HTTP头信息中的第一行数据发送的,是URI的一部分,而post请求则是在发送完HTTP头信息后作为单独的数据块发送的。因此对于get请求的参数,我们在使用request之前服务器已经读出来了,已经是乱码了,只能用前面的方案,但对于post请求的数据,我们在调用getParameter或getReader之前,服务器并没有去处理,所以我们可以在getParameter之前先告诉服务器正确的编码,通过request.setCharacterEncoding("正确的编码"),然后再读取参数。

4 AJax
对于ajax请求注意要用utf-8编码,request和response都需要使用utf-8。


原创粉丝点击