再战http request get参数中文乱码

来源：互联网发布：网络空间搜索引擎实现编辑：程序博客网时间：2024/06/06 08:55

问题描述

通过http get方式下载附件时，参数中指定了原始文件名，请求URL如下：

http://localhost:8080/xxxmail/v1/attachment?accesstoken=aaa-bbb-token&data={"mailId":"123456","fileId":"770826f7","originalFileName":"美女.jpg","presentMethod":"inline"}

两种部署环境：

本机，windows，默认字符编码：UTF-8，IntelliJ IDEA + Jetty 7.6.14

测试环境，linux，默认字符编码：UTF-8，Apache Tomcat/7.0.47

通过浏览器分别请求本机和测试环境，浏览器会自动对URL进行encode。调试发现，请求本机时，服务端获取的originalFileName未乱码，浏览器下载的文件名正常；请求测试环境时，服务端获取的originalFileName已经乱码，导致下载的文件名也乱码；看看乱码猜测是使用ISO-8859-1解码导致的。

问题分析与解决

对比两种情形，不同的只有操作系统环境和web容器，但操作系统的字符编码都一样，这个因素可先放一边。剩下就是web容器了，不同容器在解析URL和request body时决定使用何种字符编码的机制也不同，这极有可能导致换个部署环境就乱码了。根据这篇很赞的博文深入分析 Java 中的中文编码问题可知 tomcat 在解析请求时，URL的不同部分、请求的不同部分都有相应的配置来告诉它使用各种字符编码，如果没有配置，默认就会使用ISO-8859-1。

如果要让tomcat使用UTF-8对URL中的QueryString部分进行解析，就需要对${tomcat_home}/conf/server.xml做如下修改：

<Connector port="8010" protocol="HTTP/1.1"               connectionTimeout="20000"               redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true" />

最后两项为新增配置，URIEncoding="UTF-8"、useBodyEncodingForURI="true"分别告诉tomcat解析URL的URI部分时使用UTF-8，解析QueryString时使用BodyEncoding的编码，对我来说就是UTF-8。useBodyEncodingForURI 这个名字有点让人产生混淆，它并不是对整个 URI 都采用 BodyEncoding 进行解码而仅仅是对 QueryString 使用 BodyEncoding 解码，这一点还要特别注意。经验证确实解决了前述乱码问题。再次感谢这位兄台。

0 0